Causality/thought

causal inference 를 공부하며

밤 편지 2025. 4. 15. 14:25

Causal Inference for the Brave and True

 

상당히 유명한 book 이다.

 

체계적이고 재미있고 쉽게 causal inference의 전반적 내용을 정리해 놓아서 큰 도움이 된다.

바로 써먹을 수 있는 Python code, 실제 toy example들을 보면 정말 이해가 잘 되고

내가 공부한 걸 "어떻게 적용할 수 있을까" 에 대한 막연함을 덜어준다.

 

※ 주의할 점은!!

 

쉽게 설명하다 보니까 살짝 수학적 비약이 있는데, 이건 다른 reference를 통해 해결할 수 있는 부분이고.

 

Part 1의 완성도에 비해서, Part 2는 조금 매끄럽지 못한 부분이 있는데, 아무래도 theoretical 한 내용과 empirical 한 내용이 혼합되어서 그런 것 같다. 

 

그리고 Part2에 오타, 오류가 꽤 있다. 내 blog에는 대부분 수정해 놓았지만 조심해서 보아야 한다. 

 

저자가 실제 일하고 있는 industry에서 축적된 경험을 바탕으로 도출한 내용을 서술하다 보니, 장단점이 있다. 예를 들어, cumulative gain curve 와 같은 다소 계량경제학적 개념을 차용해 와서, causal inference model를 evaluate하는 것과 같이, 바로 납득하기 어려운 부분은 skip했다. (읽어 보긴 했지만 내 blog에 기록하진 않았다.)

 

하지만! 전적으로 동의하고 높게 사는 부분은, 어떤 방식으로든 evaluation metric이 필요하다는 것이다. 이건 fundamental problem과도 상통하는데, 사실 untestable assumption을 깔고 진행하는 causal inference를 어떻게 evaluate해야 할지, 이게 맞다는 걸 어떻게 증명하지? 라는 생각을 했었다.

 

academic purpose로 data를 simulation해서 ground truth를 아는 상황에서라면 가능하겠지만,

 

real world에서 policy evaluation이라던지, 어떤 새로운 product나 medication의 effectiveness와 같은 야생(?)의 환경에서는 참 어려운 문제일 것 같다.

 

(물론 그렇기 때문에 sensitivity analysis 와 같은 이론이 따르는 거겠지만)

 

그런 점에서, 저자가 실제 일하고 있는 industry에서 causal inference가 효용성을 갖기 위해서 상당히 고심하고, 나름의 방법 (노하우)를 개발하내고, 이렇게 책으로 자세히 서술했다는 것이 정말 높게 사고 싶은 점이다!

 

하지만, 저자의 경우는 econometric 관점에서 해석하는 것이 합당한 경우이고, (elasiticity (저자는 sensitivity로 표현했는데, 위의 sensitivity analysis와 다소 혼용될까봐 내 blog에는 거의 기록하지 않았다.) , '이렇게 적용할 수 있겠구나' 라고 생각하며 읽어보았지만, 이걸 norm으로 받아들이지는 않았다.(못했다.)

 

무엇보다 이 책이 너무너무 고마운 것은..!

DiD, Synthetic Control을 친절하고 폭 넓게 설명해준다는 것이다.

 

많은 reference를 공부하고 나름대로 이해한 후에 전달해준다는 느낌을 강하게 받았다. 고맙다는 말을 전하고 싶을 정도이다.


이 책 말고, 사실 내가 가장 처음 공부했던 책은 Brady Neal의 책인데, 이 책의 저자께도 고맙다는 말을 전하고 싶다. ㅎㅎ 거의 5번 이상 본 듯. 

 

그리고 또 공부한 자료들, 생각했던 것들이 있지만.. 나중에 다시 적어야지 ㅋㅋㅋ 할 말이 너무 많아서 나누어서 적어야 겠다 ㅋㅋ