★ mimic results ★

NeurIPS_26 2026. 4. 9. 10:24

앞선 글에 언급했듯이, g-head를 training 시키는데 상당한 memory와 time이 요구된다.

이게 가장 큰 bottleneck이 될 것 같다.

이에 대한 언급은 appendix implementation details 에 첨부하게 될 것 같다.

사실 이것 말고도 약점은 많다.

이것저것 다 따진다면, 이렇게 longitudinal setting에서의 foundation model을 만든다는 것 자체가 말이 안될 것이다..

시도에 의의를 부여한다면,

나의 논문도 의미가 있을 수 있겠다..

그냥 이거 하나에 희망을 걸고 있다. (정말 솔직한 심정임 ㅠㅠ)

mimic 결과는 예상과 비슷하다. g-head를 싹 다 무시하고, 최종 inference를 하는 g-head[0]만 training했을 때, sota였는데,

tumor가 그랬듯이, head들을 어설프게(?) training함으로써 성능이 degrade될 것이라는 예상이 맞다.

다만, tumor는 그래도 30epochs 이라도 돌렸고, 워낙 성능이 좋게 나와서, 제대로 된 결과에서 약간의 degradation은 결과를 바꾸지 못했다.

mimic은 좀 다르다.

각 g-head를 10epoch 밖에 training시키지 못했고, 그마저도 1 head당 거의 7시간 이상이 소요되었다.

projection horizon이 길어질수록 더 많은 training을 요한다. 그래서 특히 3,4,5 head는 loss가 많이 떨어지지 않은 상태에서 training을 마쳤고, 역시나 성능에 반영되었다.

그래도 워낙 backbone이 좋아서인지, 다른 baseline보다 우수하다. backbone (IGC-Net, CT)와 비슷한 성능을 보여준다.

model size를 줄여볼까 했는데, 현 size의 configuration이 tumor과 동일하다. 그래서 바꾸기가 꺼려진다.

그럼에도 size가 2배인 이유는, multi-input transformer라서, vital (time-varying covariates) 이 input dimension에 추가되었기 때문에 attn의 용량이 폭증한 것이다.

(아, 그러고보니.. model size가 커서, huggingface upload도 실패했는데 ㅋㅋ 흠 ckpt upload 어찌하지? ㅋㅋ)

아무래도 head의 training epoch을 좀 더 늘리던지, 그냥 이대로 두던지 결정해야 할 것 같다.

교수님께 여쭤봐야 할 것 같음..

computational complexity (0)	2026.04.10
MIMIC multi-step retraining (0)	2026.04.10
Training g-comp heads & issue (0)	2026.04.07
★ Tumor Results! ★ (0)	2026.04.07
Memory usage calculation for mimic (0)	2026.04.07

밤에 쓰는 편지 밤에 쓰는 편지