-
[COCONUT] Training LLMs to Reason in a Continuous Latent SpaceLLMs/Reasoning 2026. 1. 4. 22:08
https://github.com/facebookresearch/coconut
GitHub - facebookresearch/coconut: Training Large Language Model to Reason in a Continuous Latent Space
Training Large Language Model to Reason in a Continuous Latent Space - facebookresearch/coconut
github.com
(Nov 2025) https://arxiv.org/pdf/2412.06769
굉장히 흥미로운 연구이다!!!!!!!!!!!!!!!!!!!!
아.......... 이건 근본적인 질문에서 출발하는데
뇌인지과학(? 이 분야 지식이 없어서 정확한 명칭 모름) 측면에서 보았을 때, 추론을 하는 것이랑, 언어를 이해하고 표현하는 것이랑은 다소 별개의 영역이다.
그리고, 개인적인 생각인데,
reasoning model paper를 쭉 읽어오면서 느낀 점 중 하나는, answer을 위해 generate한 reasoning process의 그 긴 여정을 보면서.. ㅎㅎ "이게 과연 최선인가?" 였다. 결국 이는 context length 에 포함되고, 비용으로 연결되기도 한다. ㅎㅎ
일견, 최신 연구들은 더 길게 reasoning하도록 독려하는 듯 보였다. (물론 이는 inference-time scaling for reasoning으로 연결되지만 말이다)
"최선입니까?"
COCONUT은 LLM으로 하여금, reasoning process 전부를 fluent한 language로 표현할 필요없이, latent space에서 reasoning process를 가질 수 있도록 한다.
그래, 사실 LLM도 본질은 generative model인데, 다른 generative model만큼 latent space (hidden representation)에 대해 생각해보지 않았던 것 같다.
latent reasoning을 통해, LLM은 명시적인 training 없이 search나 plan의 reasoning pattern이 emerging함을 보였다.
여러가지 가능성을 탐색하고 결정을 내리는 건 인간의 고도의 추론 능력인데, 이것을 보여준 것이다.
이것은 continuous representation of reasoning이 다음 reasoning step의 여러가지 대안을 encoding할 수 있기 때문임을 저자들은 실험적으로 보여준다.
즉, language space에서의 reasoning process는 낙장불입이지만 (한번 길 잘못들면 hallucinate하거나 엉뚱한 결론을 내리지만), latent reasoning은 이러한 성급한 결정을 피하고, 여러 단계의 reasoning steps을 거쳐 반복적으로 결정을 가다듬을 수 있기 때문이다.
DAG structure에서 여러 state의 value (possibility of correct path)를 estimate해가는 과정이 매우 인상적이었다. Tree search를 하는 것이다.
이렇게 여러 경로를 탐색하고 최종적인 결정을 미루는 것이 왜 reasoning performance를 향상시키는지에 대해서도 해석을 하는데, 사실 이것은 AlphaGo series (AlphaZero, MuZero, etc, 좀더 broad하게 보자면, Model-based RL)에서 쓰인 MCTS 등의 planning과도 상통한다. rollout하면 할수록, target에 가까워질 수록 좀 더 accurate하게 value estimate을 할 수 있는 것이다. 바둑에서 더 많은 수를 내다볼 수록 유리할 것과 같다.
인간은 문제를 풀 때, 이렇게도 저렇게도 풀어보고 최종 답을 도출한다. 그러한 점에서, planning이나 search가 필요한 복잡한 추론 상황 하에서 latent reasoning은 상당히 매력적으로 느껴진다.
아이디어가 굉장히 참신하고 납득이 가고, 동의하지만, 사실 정확히 어떤 기전으로 이를 가능하게 한건지 training process는 다소 신비롭게(?) 느껴진다.
(training이 simple하기까지 하다. ㅎㅎ 신통방통 ㅎㅎ 저자들은 이 multi-stage training process를 curriculum이라고 표현했다. )
※ 여담으로, 복잡한 DAG structure 하에서 놀랍도록 잘 추론하는 것을 보니까, LLM을 통한 causal inference (그리고, 그 이상)이 가능하겠구나. 싶다.



























'LLMs > Reasoning' 카테고리의 다른 글
s1: Simple test-time scaling (0) 2026.01.04 [Dr.GRPO] Understanding R1-Zero-Like Training: A Critical Perspective (0) 2026.01.02 [DeepSeek-R1] Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (0) 2026.01.02 [DeepSeekMath] Pushing the Limits of Mathematical Reasoning in Open LMs (0) 2026.01.02 (On-going) Mixture-of-Experts (0) 2025.12.31