ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Training g-comp heads & issue
    NeurIPS_26 2026. 4. 7. 21:13

    진정한 기다림의 시간이 시작되었다..

     

    mimic pretraining이 끝나려면, 3일 이상 about 39hrs 시간이 필요하다....!!

     

    backbone training은 진작 끝났다. tumor model 보다 2배 이상의 size인데도, 생각보다 많은 시간을 소요하지 않았다. 

     

    문제는 g-head들이다..

     

    projection horizon에 따른 g-head들을 순차적으로 training 시키는 것이 상당한 시간을 소요한다.

    메모리 이슈도 바로 이 g-head에서 온 것이다.

     

    배보다 배꼽이 더 크다고,

    backbone에 비해서 head는 미미한 size라서 아주 작은 portion을 차지하고,

    실제로 g-head[0] 을 제외하고 나머지 head pretraining을 하지 않았을 때에도, tumor과 mimic 모두 이미 sota를 보여주었다. 

     

    오히려, tumor에서 g-head[1] (tumor는 projection=1 임) 을 추가로 training했을 때, 성능이 살짝 떨어졌는데, 

    그 이유는, backbone처럼 200 epochs까지 가지 않고, 30 epochs만 했기 때문이다. head에 그 이상의 시간을 소요하는 것이 사실 좀 지나친 낭비인 감이 있다. 

     

    mimic은 30epochs까지도 갈 수가 없다. 그렇게 했다가는 8일 이상의 시간이 소요된다..

     

    그래서 어쩔 수 없이 10epochs만 돌리고 있는데, projection=5 이기 때문에, 5개의 head를 모두 training 시키는데 39hr가 소요된다..

     

    IGC-Net 의 기전을 이해하기 위해서 main paper와 appendix를 포함해 모든 수식을 쓰고 쓰고 또 쓰고

    닳아 없어지도록 보았다..

    그리고 나서, 내 논문으로 옮기는 것도 쉽지 않은 작업이었고,

    수식이 많은데다가, 상당히 까다롭고 notation이 복잡해서

    볼 때마다 다시 이해하는 데 꽤 시간이 걸릴 뿐아니라,

    한번 review할 때마다 수정할 오타가 나와서,

    읽고, 읽고, 또 읽고, 매번 쓰면서 읽었다..

     

    그런데도 완전히 체득되지 않았나 보다. 

    실제 empirical하게 접근할 때 이런 issue가 생길 것이라는 예상을 못했다. (머리 속에 계산이 그려지지 않았다)

    Claude code의 구체적인 계산과 설명을 듣고서야 드디어 현 상황을 이해했다..!!!!

     

    3일간 도 닦게 생겼다..ㅎㅎ

     

    다음 주에 96GB GPU가 더 가용해지면, model size를 줄여서 다시 training해보ㅏ야겠다. 

     

    그래.. 쉽게 끝날리가 없지 ㅎㅎㅎ 

    지금까지 그랬듯이 ㅎㅎ


    'NeurIPS_26' 카테고리의 다른 글

    MIMIC multi-step retraining  (0) 2026.04.10
    ★ mimic results ★  (0) 2026.04.09
    ★ Tumor Results! ★  (0) 2026.04.07
    Memory usage calculation for mimic  (0) 2026.04.07
    Training g-comp heads & dealing with OOM  (0) 2026.04.06
Designed by Tistory.