-
synthetic data generation for MIMICNeurIPS_26 2026. 3. 15. 14:03
pre-training 을 위한 synthetic data generation process를 구현하였다.
지난 번 구현한 것은, tumor growth dataset과의 비교를 위한 버전이었다.
그래서 단순하였다.
covariate이 outcome 1개만 있는 1 dimension이었기 때문에,
treatment network, outcome network 로 timestep만큼 iterate해주었다.
이번 것은 그렇게 단순하지가 않다.
mimic dataset에 covariate과 static feature가 엄청나게 들어있는데,
treatment와 outcome 의 dimension도 1차원이 아니고,
confounding structure도 복잡하다.
covariate은 3차원으로, static feature, treatment, outcome은 1차원으로 줄였다.
단순히 dag structure를 MLP로 구현하여 iterate했던 첫번째 모델과 달리,
covariate도 구현해야 한다.
covariate은 Time-series forecasting model들이 사용한 synthetic data generation 방법을 차용했다.
다양한 kernel 조합의 gaussian process에서 sampling하는 방법 기반이다.
그렇게 해서 매 timestep마다 넣어주면서 iterate해서
causal process를 generate했다.
그렇게 구현을 하긴 했는데..
문제는..
이렇게 만든 dataset으로 pretraining했을 때, downstream task에서 성능이 잘 나올 것인가?
흠..
모르겠다 ㅠㅠ
아직 mimic dataset에 access하지 못하고 있다.
1주일 정도 걸릴 것 같다.
mimic dataset download하고 나면.. 성능 측정해봐야겠다..
이번 논문에서 코딩을 진짜 레알 내 평생 통틀어 최고 많이 하고 있는데..
기본적으로 구현되어있는 setting - baseline들, dataset processing, training/evaluation pipeline 코드 확인하고, 돌려보고,
내 상황에 customize하고..
거기에 추가적으로 내 모델 얹어서 돌아가게 하고,
내 pretrain dataset 만들어서 돌아가게 하고..
이런 작업들 중에서
기본적인 것들은 내가 우선 한다.
그리고 나서, tricky한 부분들은 GPT Pro 5.4랑 같이 의논하면서 해결한다.
예를 들어서, synthetic dataset generation 은 내가 만들지만, 각각의 output들과 dimension 등이 기존 pipeline에 align되는지는 내가 다 해결하기가 쉽지 않다.
이런 것들은 GPT가 잘 찾아준다.
data processing이 굉장히 복잡해서, 미묘한 차이로 달라지는데, 이런 거 잘 잡아준다.
이런 설명하기 어려운 부분들은 바로 claude code에게 요청하기가 애매하다.
("기존 dataset과 내 dataset은 generation 방식이 달라. 하지만 processing pipeline과 training/evaluation pipeline은 같이 쓸꺼야. 그러니까, naming, dimension 등 '아다리'를 맞춰줘.")
이런 좀 딱 떨어지는 명확한 지시가 아니라, 추론이 필요한 작업은 GPT와 한다.
그리고 나서 Claude code와는 실제로 project를 수행한다.
hyperparameter tuning, pretraining, zeroshot, fewshot, finetuning 등.
막혔을 때, 전체적인 코드를 다 보고 에러를 수정하기 때문에, 정말 효율적이다.
금액이 만만치 않아서 문제지,
금액을 감수만 한다면..
두 model의 조합이 좋은 것 같다..
왜냐하면, 정말 code base로 approach 하는 건 claude code가 powerful하고,
"적절한 hyperparameter range가 어떻게 될까?" 등등의 좀 추론이 필요하다든지, 의논하기는 GPT가 좋다.
다른 분들은 어떻게 쓰시는지 궁금하다.
※ 아! 중요한 거 한가지가 더 있는데, docstring을 꼼꼼히 적는 버릇이 생겼다.
왜냐하면 이게 GPT와 Claude code에게 guide를 주기 때문이다.
(예를 들어, data generation code 경우, treatment network와 outcome network의 parameter는 dataset 별로 sampling하되, dataset 내에서는 fixed 되어야 한다. 매 timestep에서도 fixed 되어야 한다. (data generaing mechanism이기 때문) 등등의 구체적인 guide를 명시한다.)
'NeurIPS_26' 카테고리의 다른 글
Prior construction 3 - feat. 하늘에 별 따기 (0) 2026.03.29 Prior construction 2 (0) 2026.03.29 Prior construction (0) 2026.03.28 Agentic World 2. (0) 2026.03.26 Agentic World. (0) 2026.03.22