Agentic World 2.

NeurIPS_26 2026. 3. 26. 13:10

빙구님이 GPU를 사용하시는 기간 동안은

다시 코드를 뜯어보고 있다.

* 정교수님께서 말씀해주신 nested expectation 에서 pseudo outcome을 뽑아서 g-computation하는 방법을 integrate해볼 예정이고,

(내가 '신'으로 추앙하고 있는 K.Hess & V. Melnychuk 님께서 이미

1) IPW의 high variance problem과

2) gt & g-net에서 쓰인 g-computation 방식 - high-dimensional covariate cond distribution을 모두 구해서 mc sampling으로 estimate하는 방법의 high variance problem을 지적하고

3) nested expectation에서 pseudo outcome을 뽑아서 g-comp 하는 model을 구현해 놓으셨다. (ICLR 2026) )

정말 '신' 맞는 것 같다 ㅋㅋ

* 성능이 심히 안좋아서, synthetic dataset generation code를 수정해야한다.

여기에는 몇가지 이유가 있을 수 있는데,

1. 근본적으로 prior가 실제 test dataset을 포괄하지 못했을 수도 있고,

(이 경우라면 prior를 diversify 하거나 정확한 dag structure로 수정해야 한다)

2. data processing이 test dataset processing과 완전히 matching이 되지 않아서

전혀 엉뚱한 inference를 학습했을 수도 있다.

(이 경우라면 수정이 좀 까다롭다. 이거 맞추려고 GPT pro와 대화 많이 했는데,

data processing이 워낙 복잡해서, 그리고, tumor_generation과 mimic이 또 달라서, 아주 골치가 아프다.)

3. hparam tuning, model size, training 을 개선해야 할 수도 있다.

이건 코드 수정 후에 여러번 trial 해봐야 할 듯. 시간과 자원이 많이 필요할 것 같다..

- 현재까지 실험했던 model size와 prior dataset size는 앞선 causal inference foundation model들과 비슷하다.

target을 생각하고 prior를 formulate하는 게 좀 웃기기도 한데,

실질적으로 TabPFN도 target을 고려해서 prior를 generate했다.

이는 TabPFN 논문 appendix 어딘가 구석에 콩알 만하게 쓰여있다. 실제 evaluate에 쓰인 dataset들을 고려해서 prior를 만들었다고.

까묵기 전에, Claude code와 함께 작업하는 소감 2탄을 적어본다.

1탄에서는 칭찬 일색이었지만, 장점만 있는 것은 아니다.

주의할 점들이 있고, 독특한 behaviour도 있다.

일단, LLM들이 숫자를 다루고, 수학 추론을 하는 능력이 예전에 비해 엄청 진화했지만,

LLM 특유의 숫자에 취약한 모습이 claude code에서도 보인다.

evaluation results를 집계할 때, 정확한지 확인 차,

claude code의 summary와, 내가 한땀한땀 mlflow의 log를 집계해서 비교해봤다.

결과는?

100% 아니다.

반드시 수작업 점검해야 한다.

아니면 results를 auto 가져오도록 코드를 짜던지.

어떨 때는 잘 하는데, 어떨 때는 상당히 오류가 많다.

100% 가 아니란 건, 결국 사람의 점검이 필요하다는 것이다.

이거 귀찮은 작업이고, claude code에게 시키면 몇 초면 끝나기 때문에, 충동이 일지만

찝찝한 거 보단, 확실한 게 낫다.

그리고, hparam tuning 결과 config를 update할 때라던지,

내가 직접 config 지시를 내린다던지 할 때, bash command 상에서도

숫자 오류가 있다.

항상 실행 전에 꼼꼼히 봐야한다.

그리고 엉뚱한 실수도 한다.

baseline들을 evaluate할 때 baseline 하나를 빼먹는다던지.

놀라운 추론 능력을 보여주는데, 이런 엉뚱한 실수도 하니 더 놀라웁다.

더 놀랐던 것은, 자의적인 판단이나 회피도 한다는 것이다.

예를 들어서,

baseline evaluation 중에 하나가 오류가 나서 결과값이 집계가 안되었다.

그러면, '이미 충분한 baseline들이 있으니까, 오류 난거 하나는 skip하자'라고 제안한다 ㅋㅋㅋ

'안된다고, 오류 원인 파악하고 수정해서 마저 결과 내라'고 하면,

또 잘한다.

근데 왜 그런 제안을 하는거지? ㅋㅋ 휴먼스럽게.

내 process를 돌리기 위해, 다른 사람의 작업을 kill하려 든다던지, 이런 behavour는 일종의 programatic해보여서 납득이 된다.

즉, task를 수행하기 위해, 그러고 efficiency 측면에서 program이 봤을 때 최적의 행동이니까.

근데, 오류를 skip하자는 등의 판단은 어디에서 기인하는 건지 알 수 가 없다 ㅋㅋ

이런 건 약간, heuristic한 behaviour 아닌가??

그리고, 결과를 알려달라고 했을 때,

baseline마다 metric log 방식이 달라서 결과를 가져오지 못한 baseline에 대해서는

이미 결과가 자동 업데이트 되었다 (auto updated) 아니면 (need check) 등의 회피성 발언으로 넘어가려고 할 때도 있다.

콕 찝어서, '그게 무슨 뜻이냐. 알려달라.' 하면

'sorry' 하면서. 결과값을 찾아온다.

ㅋㅋ

이런 건 좀.. human 스럽지 않나? 대체 어디서 기인하는겨??

agentic world 참 알쏭달쏭하다.

앞선 글에서도, 앞으로 paper 양이 증가할 것 같다는 이야기를 했었는데,

agent 자체 때문에라도 paper 양이 증가할 것 같다.

어떻게 하면, agent의 optimal한 behavour를 이끌어낼 것인가가 고민의 여지가 많아 보인다.

여기서 optimal하다는 건,

위에서 언급했듯이, risky 혹은 fault behaviour를 하지 않으면서 user의 목적에 잘 부합한다는 것이다.

'NeurIPS_26' 카테고리의 다른 글

Prior construction 3 - feat. 하늘에 별 따기 (0)	2026.03.29
Prior construction 2 (0)	2026.03.29
Prior construction (0)	2026.03.28
Agentic World. (0)	2026.03.22
synthetic data generation for MIMIC (0)	2026.03.15

ABOUT ME

밤에 쓰는 편지 밤에 쓰는 편지

* 정교수님께서 말씀해주신 nested expectation 에서 pseudo outcome을 뽑아서 g-computation하는 방법을 integrate해볼 예정이고,

* 성능이 심히 안좋아서, synthetic dataset generation code를 수정해야한다.

'NeurIPS_26' 카테고리의 다른 글

티스토리툴바

ABOUT ME

* 정교수님께서 말씀해주신 nested expectation 에서 pseudo outcome을 뽑아서 g-computation하는 방법을 integrate해볼 예정이고,

* 성능이 심히 안좋아서, synthetic dataset generation code를 수정해야한다.

'NeurIPS_26' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바