-
[Dr.GRPO] Understanding R1-Zero-Like Training: A Critical PerspectiveLLMs/Reasoning 2026. 1. 2. 22:34
(Oct 2025)
DeepSeek-R1 의 empirical results가 놀라웁긴 했지만, 의문이 들었던 것은, base model에 agnostic하게 적용이 되느냐?였다.
base model마다 pretrain을 통해 갖는 내재적 bias, ability가 다를텐데, large-scale RL을 통해 boosting할 수 있는 정도가 다르지 않을까?였다.
다르게 말하자면, reasoning ability가 base model에서 기인한건지, 오직 RL training으로 인한 건지 의문이었다.
그리고 output length가 길어지는 현상을 "CoT로 인한 것이다. self-reflection과 같은, advanced reasoning capability가 나타난 것이다"라고 주장했지만, 과연 그 해석이 맞는 건지는 의문이었다.
Dr.GRPO 는 여러 base model에 RL training을 적용해서 이러한 의문을 검증한다.
그리고, DeepSeek-R1에서 주장하듯이, large-scale RL에 의해서 aha-moment와 같은 reasoning capability가 짠 하고 등장하는 것은 잘못된 해석이라고 지적한다. (large-scale RL이 efficient & effective함은 분명하지만, 사실 base model이 이미 aha-moment를 가지고 있었다)
Dr.GRPO는 GRPO objective에서 bias를 제거하여 reasoning performance를 유지하면서도 token efficiency를 개선하였다.
https://github.com/sail-sg/understand-r1-zero





























'LLMs > Reasoning' 카테고리의 다른 글
[COCONUT] Training LLMs to Reason in a Continuous Latent Space (0) 2026.01.04 s1: Simple test-time scaling (0) 2026.01.04 [DeepSeek-R1] Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (0) 2026.01.02 [DeepSeekMath] Pushing the Limits of Mathematical Reasoning in Open LMs (0) 2026.01.02 (On-going) Mixture-of-Experts (0) 2025.12.31