-
!! Mechanistic Interpretability가 Causal Representation & discovery에 답을 주었다!!LLMs/Interpretability 2026. 1. 9. 17:59
그러고 보니까 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
나 되게 lucky하다!!

Interpretability를 공부하게 된 계기가,
Causal representation learning을 공부하다가, 뭔가 딱히 명확하게 보이지가 않아서..
'일단 subject를 전환한 다음에, 다시 돌아오자' 생각하고 LLM을 공부하기 시작한 거 거등.
우리가 Causal variable들을 안다면, 그 상황 하에서 SCM, DAG를 여러가지 방법으로 찾을 수 있겠지만,
모른다면, 주어진 dataset에서 meaningful한 causal variable들을 (representation)을 찾은 다음에, structure를 찾아야 하잖아.
그럼, 주어진 Dataset에서 어떻게 causal representation을 disentangle할까?
논문을 뒤져봐도 이해가 잘 안가고, 계속 막연했는데..
그러고 보니까!!
Mechanistic Interpretability가
dataset에서 feature를 disentangle하고
feature간의 causal relationship을 찾네!?!?!??
심지어 intervention에 대한 effect까지 구해준다!!
와우!!
이건 그간 고민해오던거잖아!!!!???!?!?!???
WOW!! UNBELIEBABLE!!!
'LLMs > Interpretability' 카테고리의 다른 글
[Circuit Tracing Examples 1] Multi-Step Reasoning (0) 2026.01.09 [Circuit Tracing Examples 0] Methodology (0) 2026.01.09 Assessing skeptical views of interpretability research (0) 2026.01.09 Circuit Tracing: Revealing Computational Graphs in Language Models (0) 2026.01.09 [Crosscoders] Sparse Crosscoders for Cross-Layer Features and Model Diffing (0) 2026.01.08