-
★ mimic results ★NeurIPS_26 2026. 4. 9. 10:24
앞선 글에 언급했듯이, g-head를 training 시키는데 상당한 memory와 time이 요구된다.
이게 가장 큰 bottleneck이 될 것 같다.
이에 대한 언급은 appendix implementation details 에 첨부하게 될 것 같다.
사실 이것 말고도 약점은 많다.
이것저것 다 따진다면, 이렇게 longitudinal setting에서의 foundation model을 만든다는 것 자체가 말이 안될 것이다..
시도에 의의를 부여한다면,
나의 논문도 의미가 있을 수 있겠다..
그냥 이거 하나에 희망을 걸고 있다. (정말 솔직한 심정임 ㅠㅠ)
mimic 결과는 예상과 비슷하다. g-head를 싹 다 무시하고, 최종 inference를 하는 g-head[0]만 training했을 때, sota였는데,
tumor가 그랬듯이, head들을 어설프게(?) training함으로써 성능이 degrade될 것이라는 예상이 맞다.
다만, tumor는 그래도 30epochs 이라도 돌렸고, 워낙 성능이 좋게 나와서, 제대로 된 결과에서 약간의 degradation은 결과를 바꾸지 못했다.
mimic은 좀 다르다.
각 g-head를 10epoch 밖에 training시키지 못했고, 그마저도 1 head당 거의 7시간 이상이 소요되었다.
projection horizon이 길어질수록 더 많은 training을 요한다. 그래서 특히 3,4,5 head는 loss가 많이 떨어지지 않은 상태에서 training을 마쳤고, 역시나 성능에 반영되었다.
그래도 워낙 backbone이 좋아서인지, 다른 baseline보다 우수하다. backbone (IGC-Net, CT)와 비슷한 성능을 보여준다.
model size를 줄여볼까 했는데, 현 size의 configuration이 tumor과 동일하다. 그래서 바꾸기가 꺼려진다.
그럼에도 size가 2배인 이유는, multi-input transformer라서, vital (time-varying covariates) 이 input dimension에 추가되었기 때문에 attn의 용량이 폭증한 것이다.
(아, 그러고보니.. model size가 커서, huggingface upload도 실패했는데 ㅋㅋ 흠 ckpt upload 어찌하지? ㅋㅋ)
아무래도 head의 training epoch을 좀 더 늘리던지, 그냥 이대로 두던지 결정해야 할 것 같다.
교수님께 여쭤봐야 할 것 같음..

'NeurIPS_26' 카테고리의 다른 글
computational complexity (0) 2026.04.10 MIMIC multi-step retraining (0) 2026.04.10 Training g-comp heads & issue (0) 2026.04.07 ★ Tumor Results! ★ (0) 2026.04.07 Memory usage calculation for mimic (0) 2026.04.07