-
Training g-comp heads & issueNeurIPS_26 2026. 4. 7. 21:13
진정한 기다림의 시간이 시작되었다..

mimic pretraining이 끝나려면,
3일 이상about 39hrs 시간이 필요하다....!!backbone training은 진작 끝났다. tumor model 보다 2배 이상의 size인데도, 생각보다 많은 시간을 소요하지 않았다.
문제는 g-head들이다..
projection horizon에 따른 g-head들을 순차적으로 training 시키는 것이 상당한 시간을 소요한다.
메모리 이슈도 바로 이 g-head에서 온 것이다.
배보다 배꼽이 더 크다고,
backbone에 비해서 head는 미미한 size라서 아주 작은 portion을 차지하고,
실제로 g-head[0] 을 제외하고 나머지 head pretraining을 하지 않았을 때에도, tumor과 mimic 모두 이미 sota를 보여주었다.
오히려, tumor에서 g-head[1] (tumor는 projection=1 임) 을 추가로 training했을 때, 성능이 살짝 떨어졌는데,
그 이유는, backbone처럼 200 epochs까지 가지 않고, 30 epochs만 했기 때문이다. head에 그 이상의 시간을 소요하는 것이 사실 좀 지나친 낭비인 감이 있다.
mimic은 30epochs까지도 갈 수가 없다. 그렇게 했다가는 8일 이상의 시간이 소요된다..
그래서 어쩔 수 없이 10epochs만 돌리고 있는데, projection=5 이기 때문에, 5개의 head를 모두 training 시키는데 39hr가 소요된다..


IGC-Net 의 기전을 이해하기 위해서 main paper와 appendix를 포함해 모든 수식을 쓰고 쓰고 또 쓰고
닳아 없어지도록 보았다..
그리고 나서, 내 논문으로 옮기는 것도 쉽지 않은 작업이었고,
수식이 많은데다가, 상당히 까다롭고 notation이 복잡해서
볼 때마다 다시 이해하는 데 꽤 시간이 걸릴 뿐아니라,
한번 review할 때마다 수정할 오타가 나와서,
읽고, 읽고, 또 읽고, 매번 쓰면서 읽었다..
그런데도 완전히 체득되지 않았나 보다.
실제 empirical하게 접근할 때 이런 issue가 생길 것이라는 예상을 못했다. (머리 속에 계산이 그려지지 않았다)
Claude code의 구체적인 계산과 설명을 듣고서야 드디어 현 상황을 이해했다..!!!!
3일간 도 닦게 생겼다..ㅎㅎ
다음 주에 96GB GPU가 더 가용해지면, model size를 줄여서 다시 training해보ㅏ야겠다.
그래.. 쉽게 끝날리가 없지 ㅎㅎㅎ
지금까지 그랬듯이 ㅎㅎ



'NeurIPS_26' 카테고리의 다른 글
MIMIC multi-step retraining (0) 2026.04.10 ★ mimic results ★ (0) 2026.04.09 ★ Tumor Results! ★ (0) 2026.04.07 Memory usage calculation for mimic (0) 2026.04.07 Training g-comp heads & dealing with OOM (0) 2026.04.06