LLMs
-
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 SonnetLLMs 2026. 1. 7. 08:33
앞서서 sparse autoencoder로 one-layer transformer에서 monosemantic feature를 추출할 수 있음을 보였다. 이제 sparse autoencoder를 scaling up한다. Claude 3 Sonnet에서 monosemantic하고 model의 behavior를 설명할 수 있는 interpretable한 feature를 extracting하는데 성공한다. feature를 manupulate함으로써 model behavior를 steering할 수 있다.1. Sparse autoencoders produce interpretable features for large models. 2. Scaling laws can be used to guide the trai..
-
Towards Monosemanticity: Decomposing Language Models With Dictionary LearningLLMs 2026. 1. 6. 23:19
https://transformer-circuits.pub/2023/monosemantic-features/index.html Towards Monosemanticity: Decomposing Language Models With Dictionary LearningAuthors Trenton Bricken*, Adly Templeton*, Joshua Batson*, Brian Chen*, Adam Jermyn*, Tom Conerly, Nicholas L Turner, Cem Anil, Carson Denison, Amanda Askell, Robert Lasenby, Yifan Wu, Shauna Kravec, Nicholas Schiefer, Tim Maxwell, Nicholas Joseph, A..
-
SuperpositionLLMs 2026. 1. 6. 20:26
https://transformer-circuits.pub/2022/toy_model/index.html Toy Models of SuperpositionIt would be very convenient if the individual neurons of artificial neural networks corresponded to cleanly interpretable features of the input. For example, in an “ideal” ImageNet classifier, each neuron would fire only in the presence of a specific vtransformer-circuits.pub 뜻밖에도 굉장히 아름다운 것을 만났는데, neural netwo..
-
Transformer CircuitsLLMs 2026. 1. 6. 10:29
https://transformer-circuits.pub/2021/framework/index.html A Mathematical Framework for Transformer CircuitsContents Transformer language models are an emerging technology that is gaining increasingly broad real-world use, for example in systems like GPT-3 , LaMDA , Codex , Meena , Gopher , and similar models. However, as these models scale, their open-endednetransformer-circuits.pub https://tr..
-
CircuitsLLMs 2026. 1. 5. 22:41
https://distill.pub/2020/circuits/zoom-in/ Zoom In: An Introduction to CircuitsBy studying the connections between neurons, we can find meaningful algorithms in the weights of neural networks.distill.pub article 하나 봤다 ㅋㅋㅋ 컬처쇼크.. ㅋㅋ 어려워요.. ㅜㅜ 누가 시킨 것도 아니고.. 어려우면 안 보면 그만인데..난 왜 궁금한 걸 못 참는지.. 내가 어디까지 이해할 수 있을지 잘 모르겠지만,포기하기 전까지는 살펴봐야겠다. ㅋㅋ
-
잡설LLMs 2026. 1. 5. 12:53
나는 불교신자이지만, 종교적 신념을 떠나서불교를 좋아하는 이유는 교리가 과학적이면서 (양자역학을 잘 설명하고) 철학적으로도 나의 생각과 맞아떨어지기 때문이다. 불교에서 설하는 무아나 연기사상을 정확하게 여기에 적지는 못하겠지만, 내가 생각하는 '자아'의 개념과 상통한다.나는 사실, 관계를 떠나서 독립된 존재로서의 '나'를 규정하지를 못하겠다.어떤 집단의 구성원으로서의 나, 가족들 간의 관계 속에서의 나..등등. 무수한 인연들과의 connection을 다 제외하고 남은 residual을 찾지를 못하겠다는 것이다. AI 혹은 ML/DL이 매력적으로 다가왔던 이유도, 가장 기술적 발전의 최전선에 있으면서도 사실 근간에는 상당히 물리적인 이론이 받침이 되고 있고, NN은 위에서 언급한 network의 철학을 잘..
-
(Gentle Intro..) [Interpretability] how LLMs really workLLMs 2026. 1. 5. 11:42
LLM 내부에서 어떤 일이 벌어지고 있는지 살펴본다.LLM의 activation을 수정함을 통해서 model의 behavior를 steering 할 수 있다. Golden Gate에 낚였다..Golden Gate experiment를 보고 빵 터져서..intrinsic feature를 manupulate함으로써 LLM의 behavior를 steering하는 게 흥미롭게 다가와서 관련 article을 읽었는데..아래의 article들은 intro 차원에서 gentle하지만 anthropic의 original paper들은 만만치 않다. original paper들을 읽고 있는 중인데, 내가 이해할 수 있는지를 보고나서.. 포스팅 해야겠다..ㅎ (2024.05.41) Golden Gate Claudeht..