-
SuperpositionLLMs/Interpretability 2026. 1. 6. 20:26
https://transformer-circuits.pub/2022/toy_model/index.html
Toy Models of Superposition
It would be very convenient if the individual neurons of artificial neural networks corresponded to cleanly interpretable features of the input. For example, in an “ideal” ImageNet classifier, each neuron would fire only in the presence of a specific v
transformer-circuits.pub
뜻밖에도 굉장히 아름다운 것을 만났는데,
neural network에 reside하는 sparse feature들이 굉장히 아름다운 geometry를 이루며 superposition한다는 것이다.
물론, 우리의 관심사는 "어떻게 human interpretable한 feature를 decompose할 것인가" 이지만 말이다.
※ 여담
다시 한번 불교 경전에서 설하는 바와의 일치점을 찾았다.
'잉불잡란격별성' 이라는 것이 있다. '법성게'에 나오는 문구인데,
심오하기 때문에, 말로 표현하기 어려운 부분이 있다.
그런데, superposition hypothesis와 매우 유사하다. (사실 같을지도 모른다)
우리는 3차원 이상을 인지하지 못하기 때문에, 사실 시간이라는 4차원과 공간을 더불어 생각하지 못하고
'시간이 흐른다'고 생각한다.
하지만 사실 '시간은 흐르지 않는다'.
projection된 시간 차원을 생각해본다면 과거, 현재, 미래는 혼잡하게 뒤섞이지 않는다.
sparse한 feature들이 high-dimention에서 orthogonal 하게 존재하다가, low-dimension으로 projection되었을 때,
geometry를 이루면서, 혼잡하지 않게 superposition을 이루는 것과도 매우 유사하다.
'LLMs > Interpretability' 카테고리의 다른 글
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet (0) 2026.01.07 Towards Monosemanticity: Decomposing Language Models With Dictionary Learning (0) 2026.01.06 Why induction head in Transformer is important for meta-learning? (0) 2026.01.06 Transformer Circuits (0) 2026.01.06 Circuits (0) 2026.01.05