Training g-comp heads & issue

NeurIPS_26 2026. 4. 7. 21:13

진정한 기다림의 시간이 시작되었다..

mimic pretraining이 끝나려면, ~~3일 이상~~ about 39hrs 시간이 필요하다....!!

backbone training은 진작 끝났다. tumor model 보다 2배 이상의 size인데도, 생각보다 많은 시간을 소요하지 않았다.

문제는 g-head들이다..

projection horizon에 따른 g-head들을 순차적으로 training 시키는 것이 상당한 시간을 소요한다.

메모리 이슈도 바로 이 g-head에서 온 것이다.

배보다 배꼽이 더 크다고,

backbone에 비해서 head는 미미한 size라서 아주 작은 portion을 차지하고,

실제로 g-head[0] 을 제외하고 나머지 head pretraining을 하지 않았을 때에도, tumor과 mimic 모두 이미 sota를 보여주었다.

오히려, tumor에서 g-head[1] (tumor는 projection=1 임) 을 추가로 training했을 때, 성능이 살짝 떨어졌는데,

그 이유는, backbone처럼 200 epochs까지 가지 않고, 30 epochs만 했기 때문이다. head에 그 이상의 시간을 소요하는 것이 사실 좀 지나친 낭비인 감이 있다.

mimic은 30epochs까지도 갈 수가 없다. 그렇게 했다가는 8일 이상의 시간이 소요된다..

그래서 어쩔 수 없이 10epochs만 돌리고 있는데, projection=5 이기 때문에, 5개의 head를 모두 training 시키는데 39hr가 소요된다..

IGC-Net 의 기전을 이해하기 위해서 main paper와 appendix를 포함해 모든 수식을 쓰고 쓰고 또 쓰고

닳아 없어지도록 보았다..

그리고 나서, 내 논문으로 옮기는 것도 쉽지 않은 작업이었고,

수식이 많은데다가, 상당히 까다롭고 notation이 복잡해서

볼 때마다 다시 이해하는 데 꽤 시간이 걸릴 뿐아니라,

한번 review할 때마다 수정할 오타가 나와서,

읽고, 읽고, 또 읽고, 매번 쓰면서 읽었다..

그런데도 완전히 체득되지 않았나 보다.

실제 empirical하게 접근할 때 이런 issue가 생길 것이라는 예상을 못했다. (머리 속에 계산이 그려지지 않았다)

Claude code의 구체적인 계산과 설명을 듣고서야 드디어 현 상황을 이해했다..!!!!

3일간 도 닦게 생겼다..ㅎㅎ

다음 주에 96GB GPU가 더 가용해지면, model size를 줄여서 다시 training해보ㅏ야겠다.

그래.. 쉽게 끝날리가 없지 ㅎㅎㅎ

지금까지 그랬듯이 ㅎㅎ

MIMIC multi-step retraining (0)	2026.04.10
★ mimic results ★ (0)	2026.04.09
★ Tumor Results! ★ (0)	2026.04.07
Memory usage calculation for mimic (0)	2026.04.07
Training g-comp heads & dealing with OOM (0)	2026.04.06

밤에 쓰는 편지 밤에 쓰는 편지