-
* DPG
* KL-Adaptive DPG
* KL-Adaptive DPG with baseline
* RL & DM
매번 느끼지만
연구를 발전시켜 가는 모습은 아름답다.
RM vs DM 통합적인 perspective를 제시하는 것도 good.
통찰력 있는 논문들 (예를 들어 PEFT 의 unifed view 를 제시한 논문처럼) 이 있다.
진정 연구자들의 모습이구나. 멋있어요.
'RL > RL' 카테고리의 다른 글
(1/3) GAN, F-Divergence, IPM (0) 2024.12.20 High Variance in Policy gradients (0) 2024.12.19 On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting (0) 2024.12.17 Proximal Policy Optimization Implementation (0) 2024.12.15 Vanilla Policy Gradient Implementation (0) 2024.12.15