분류 전체보기
-
오랜만에..쓰는 글..Campus Life 2026. 1. 9. 23:59
오랜만에 글을 쓴다.무거운 마음으로 쓴다.. 황교안 대표님께서 자유대학 박준영 대표를 안아주시는 모습을 보니,눈물이 날 것 같다. 계엄 이후 1년여의 시간이 보내오면서,나는 이 지경에 이르기까지의 큰 흐름, 내막을 깨닫게 되었다. 아주 치밀하고 치졸하게 진행되온 반국가, 주사파 세력의 주도면밀한 불법탄핵과 부정선거,그리고 전방위적으로 나라를 팔아넘기고 망치고 있는 행태 - "진짜 내란"을 말이다.. 여러번 글에 적었지만, 사람의 진면목은 위기 속에서 드러난다..생사가 걸린 위기 앞에서는 가식을 떨 여유가 없다. 살아온 삶이 켜켜히 쌓여서 만들어진 그 사람의 됨됨이가 그대로 드러난다.인생 자체가 투영되는 것이다.. 내가 미쳐 내막을 몰랐던 시절부터 황교안 대표님께서는 법, 소신에 근거하여계엄의 정당성을 ..
-
!! Mechanistic Interpretability가 Causal Representation & discovery에 답을 주었다!!LLMs/Interpretability 2026. 1. 9. 17:59
그러고 보니까 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ나 되게 lucky하다!! Interpretability를 공부하게 된 계기가, Causal representation learning을 공부하다가, 뭔가 딱히 명확하게 보이지가 않아서.. '일단 subject를 전환한 다음에, 다시 돌아오자' 생각하고 LLM을 공부하기 시작한 거 거등. 우리가 Causal variable들을 안다면, 그 상황 하에서 SCM, DAG를 여러가지 방법으로 찾을 수 있겠지만,모른다면, 주어진 dataset에서 meaningful한 causal variable들을 (representation)을 찾은 다음에, structure를 찾아야 하잖아. 그럼, 주어진 Dataset에서 어떻게 causal representation을 disen..
-
[Circuit Tracing Examples 1] Multi-Step ReasoningLLMs/Interpretability 2026. 1. 9. 14:48
* case study 1: LLM이 실제로 내부적으로도 multi-step reasoning함을 circuit analysis로 보인다. paper에서 제시한 experiment result diagram은 굉장히 clear해 보이지만, full attribution graph를 보면, 막막하다. ㅋㅋ feature가 '나는 어떤 feature입니다'라고 label을 달고 있는 게 아닌데, feature를 interprete하고, 가장 meaningful한 것을 골라 grouping해서, 엄청난 edge와 node를 trimming해서 해석가능한 diagram을 만드는 게 challenging할 것 같다. ※ 그리고 나 갑자기 한가지 궁금증이 생겼는데, Mixture of Experts가 effect..
-
[Circuit Tracing Examples 0] MethodologyLLMs/Interpretability 2026. 1. 9. 12:24
https://transformer-circuits.pub/2025/attribution-graphs/biology.html On the Biology of a Large Language ModelWe investigate the internal mechanisms used by Claude 3.5 Haiku — Anthropic's lightweight production model — in a variety of contexts, using our circuit tracing methodology.transformer-circuits.pub 다양한 context 하에서 LLM 내부의 mechanism을 관찰한다. 기본적인 setup은 아래와 같다. Replacement ModelReplacement ..
-
Assessing skeptical views of interpretability researchLLMs/Interpretability 2026. 1. 9. 11:50
건설적인 발전을 위해서는, 비판적인 시각을 받아들여야 한다.연구의 당위성에 대하여 생각해볼 필요가 있다. 제작년 Stanford NLP class에서 interpretability lecture를 접했던 것 같다. 크게 interest를 갖지 않고 넘어갔었다.이번에 interpretability에 관심을 갖게 된 계기는 아주 우연이었다."Golden gate experiment!" 너무 엉뚱한 동기로 관심을 갖게 되었나요? ㅎㅎ 아무튼, Antropic의 golden gate 낚시 (?)는 성공했다. Transformer circuit framework 를 받아들이면서, '이 연산이 맞는 건가?' 생각하는데 시간이 좀 걸리긴 했지만,받아들인 후로는 좀 재미가 있었다.Causal inference 이후로..
-
Circuit Tracing: Revealing Computational Graphs in Language ModelsLLMs/Interpretability 2026. 1. 9. 10:35
1. "model이 input prompt를 받았을 때, 어떤 mechanism에 의해서 output을 도출하는지를 실제로 설명하고자 한다"는 Antropic의 research topic에 대해서 흥미롭다고 생각했다. 즉, "단순히 model이 내놓은 COT을 통해서가 아니라, 실제로 *어떤 기전으로* 그 답을 내놓았는지를 살펴보자"는 것이다. 2. 그 mechanism을 설명하는 Attribution graph (일종의 causal graph)를 construct하는 building block들을 쌓았다. 가장 근간은 "독립된 path의 information flow를 연산하기 위한 circuit framework"이고, 노드를 담당하는 "feature"를 extract하고, attribution gr..
-
[Crosscoders] Sparse Crosscoders for Cross-Layer Features and Model DiffingLLMs/Interpretability 2026. 1. 8. 16:18
https://transformer-circuits.pub/2024/crosscoders/index.html Sparse Crosscoders for Cross-Layer Features and Model DiffingAuthors Jack Lindsey*, Adly Templeton*, Jonathan Marcus*, Thomas Conerly*, Joshua Batson, Christopher Olahtransformer-circuits.pub Where autoencoders encode and predict activations at a single layer, and transcoders use activations from one layer to predict the next, a crossc..
-
[Transcoders] Find Interpretable LLM Feature CircuitsLLMs/Interpretability 2026. 1. 8. 00:44
(NeurIPS 2024)https://arxiv.org/pdf/2406.11944https://github.com/jacobdunefsky/transcoder_circuits/ GitHub - jacobdunefsky/transcoder_circuitsContribute to jacobdunefsky/transcoder_circuits development by creating an account on GitHub.github.com sparse autoencoder는 interpretable feature를 extract할 수 있음을 보였고, large-scale language model에도 적용가능함을 보였다. 하지만 limitation이 있는데, circuit analysis 에 쓰일 수 없다는..