-
Transformer CircuitsLLMs/Interpretability 2026. 1. 6. 10:29
https://transformer-circuits.pub/2021/framework/index.html
A Mathematical Framework for Transformer Circuits
Contents Transformer language models are an emerging technology that is gaining increasingly broad real-world use, for example in systems like GPT-3 , LaMDA , Codex , Meena , Gopher , and similar models. However, as these models scale, their open-endedne
transformer-circuits.pub
https://transformer-circuits.pub/2021/exercises/index.html
Transformer Circuit Exercises
This collection of exercises is supplementary material for our mathematical framework for reverse engineering transformers. The exercises go through writing down individual weights for attention heads, in order to implement algorithms. We've found this hel
transformer-circuits.pub
https://www.youtube.com/playlist?list=PLoyGOS2WIonajhAVqKUgEMNmeq3nEeM51
Transformer Circuits [rough early thoughts]
As an experiment, we recorded a couple videos discussing our early stage thinking on trying to reverse engineer neural networks. We made them to share our ve...
www.youtube.com
input에서 output으로의 여정을 층층이 layer별로 통째로 matrix operation 하는 것에 익숙했는데 (efficiency 측면에서)
이걸 independent하고 additive한 information의 flow로 나누어서 (information modification이 일어나는 독립적인 mechanism) circuit으로 전환해서 생각해야 한다.
각각의 circuit이 무슨 operation을 하는지 matrix로 살펴볼 수 있다.
그럼 Transformer 내에서 일어나는 독특한 pattern을 관찰할 수 있다. (e.g. copying, induction head)
아직 완전히 이해하지는 못하였는데, 왜냐하면 tensor product가 익숙하지 않기 때문이다. information이 어떻게 matrix operation을 통해 옮겨져 가는지 그림이 잘 그려지지가 않는다.
그렇지만 개인적으로 느낀 Chris Olah의 Circuit framework의 beauty는 transformer의 mechanism을 disentangle (isolate)하였다는 것이다.
attention matrix를 살펴봄으로써 어떤 token이 어떤 token을 attend하는지 등의 analysis는 있었지만, 실제로 어떤 stimulus의 effect가 end-to-end로 이어져서 어떤 결과가 나오는지에 대한 analysis는 없었던 것 같다. (composition을 거친 후의 결과)
그걸 가능하게 했다는 게 contribution이라고 생각된다.
'LLMs > Interpretability' 카테고리의 다른 글
Superposition (0) 2026.01.06 Why induction head in Transformer is important for meta-learning? (0) 2026.01.06 Circuits (0) 2026.01.05 잡설 (0) 2026.01.05 (Gentle Intro..) [Interpretability] how LLMs really work (0) 2026.01.05