LLMs/Reasoning
-
[COCONUT] Training LLMs to Reason in a Continuous Latent SpaceLLMs/Reasoning 2026. 1. 4. 22:08
https://github.com/facebookresearch/coconut GitHub - facebookresearch/coconut: Training Large Language Model to Reason in a Continuous Latent SpaceTraining Large Language Model to Reason in a Continuous Latent Space - facebookresearch/coconutgithub.com (Nov 2025) https://arxiv.org/pdf/2412.06769 굉장히 흥미로운 연구이다!!!!!!!!!!!!!!!!!!!! 아.......... 이건 근본적인 질문에서 출발하는데 뇌인지과학(? 이 분야 지식이 없어서 정확한 명칭 모름) 측면에서..
-
s1: Simple test-time scalingLLMs/Reasoning 2026. 1. 4. 14:40
https://github.com/simplescaling/s1 GitHub - simplescaling/s1: s1: Simple test-time scalings1: Simple test-time scaling. Contribute to simplescaling/s1 development by creating an account on GitHub.github.com Scaling law는 잘 알려져있다. Scaling law를 근간으로 대규모의 pretraining은 LLM의 performance를 향상시켰다. 본 논문에서는 새로운 "test-time scaling"을 제시한다. 즉, test-time 시에 compute을 increasing함으로써 reasoning performance를 향상시키..
-
[Dr.GRPO] Understanding R1-Zero-Like Training: A Critical PerspectiveLLMs/Reasoning 2026. 1. 2. 22:34
(Oct 2025) DeepSeek-R1 의 empirical results가 놀라웁긴 했지만, 의문이 들었던 것은, base model에 agnostic하게 적용이 되느냐?였다. base model마다 pretrain을 통해 갖는 내재적 bias, ability가 다를텐데, large-scale RL을 통해 boosting할 수 있는 정도가 다르지 않을까?였다. 다르게 말하자면, reasoning ability가 base model에서 기인한건지, 오직 RL training으로 인한 건지 의문이었다. 그리고 output length가 길어지는 현상을 "CoT로 인한 것이다. self-reflection과 같은, advanced reasoning capability가 나타난 것이다"라고 주장했지만, ..
-
[DeepSeek-R1] Incentivizing Reasoning Capability in LLMs via Reinforcement LearningLLMs/Reasoning 2026. 1. 2. 15:17
(Jan 2025)거두절미하고 RL로 들어간다. SFT 없이 large-scale RL만으로도 high performance reasoning capabilities가 emerging함을 보인다. SFT cost를 생각하면 획기적인 일이다. => DeepSeek-R1-Zero 여기에, 사회화를 시켜주기 위해 SFT와 RL stage를 적절히 짬뽕해줘서, DeepSeek-R1 탄생. Open-AI o1 에 필적하는 reasoning 실력을 보여준다. DeepSeek-R1의 reasoning capabilities를 distill 받은 smaller dense model들은 스스로 RL을 한 것보다 우수한 reasoning capabilities를 탑재하게 된다. ※ 여담: 지극히 개인적인 생각인데, (..
-
[DeepSeekMath] Pushing the Limits of Mathematical Reasoning in Open LMsLLMs/Reasoning 2026. 1. 2. 13:47
(Apr 2024) 섬세한 training data processing 와 RL algorithm 의 innovation (GRPO) 을 기반으로 놀라운 mathematical reasoning 성능 향상을 보여주었다. RL phase의 effectiveness를 보여주고, 어떤 요소에 기인하는지를 analyze해서 향후 성공적인 RL training 방향을 제시해준다. https://arxiv.org/pdf/2402.03300https://github.com/deepseek-ai/DeepSeek-Math GitHub - deepseek-ai/DeepSeek-Math: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Languag..