-
[DeepSeek-R1] Incentivizing Reasoning Capability in LLMs via Reinforcement LearningLLMs/Reasoning 2026. 1. 2. 15:17
(Jan 2025)
거두절미하고 RL로 들어간다. SFT 없이 large-scale RL만으로도 high performance reasoning capabilities가 emerging함을 보인다. SFT cost를 생각하면 획기적인 일이다. => DeepSeek-R1-Zero
여기에, 사회화를 시켜주기 위해 SFT와 RL stage를 적절히 짬뽕해줘서, DeepSeek-R1 탄생. Open-AI o1 에 필적하는 reasoning 실력을 보여준다.
DeepSeek-R1의 reasoning capabilities를 distill 받은 smaller dense model들은 스스로 RL을 한 것보다 우수한 reasoning capabilities를 탑재하게 된다.
※ 여담: 지극히 개인적인 생각인데, (not verified..!)
이렇게 RL만으로도 SFT 없이 reasoning capabilities를 emerging 시킬 수 있다는 건 엄청나게 느껴지는데,
그럼 지금까지는 왜 이렇게 하지 못하였는가? 를 생각해보게 된다.
RL post training algorithm은 PPO 이후로 DPO, SIMPO 등 다양한 시도가 있었는데, 여러 challenge가 있었다.
개인적인 생각으로, 정말 중요한 것은 reward shaping인 것 같다.
RL은 reward hypothesis에서 출발한다.
그니까.. 정말 우리가 maximize하고자 하는 대상을 maximize해야 한다는 것이다.
달성하고자 하는 목적을 정확히 달성하도록 하는 reward를 잘 상정해준다면,
이것저것 가르쳐주지 않아도 스스로 문제를 해결할 수 있는 고도의 능력을 발현시킬 수 있다는 생각이 든다.
https://github.com/deepseek-ai/DeepSeek-R1




























'LLMs > Reasoning' 카테고리의 다른 글
[COCONUT] Training LLMs to Reason in a Continuous Latent Space (0) 2026.01.04 s1: Simple test-time scaling (0) 2026.01.04 [Dr.GRPO] Understanding R1-Zero-Like Training: A Critical Perspective (0) 2026.01.02 [DeepSeekMath] Pushing the Limits of Mathematical Reasoning in Open LMs (0) 2026.01.02 (On-going) Mixture-of-Experts (0) 2025.12.31