DPG :: 밤에 쓰는 편지

RL/RL 2024. 12. 17. 23:03

* DPG

매번 느끼지만

연구를 발전시켜 가는 모습은 아름답다.

RM vs DM 통합적인 perspective를 제시하는 것도 good.

통찰력 있는 논문들 (예를 들어 PEFT 의 unifed view 를 제시한 논문처럼) 이 있다.

진정 연구자들의 모습이구나. 멋있어요.

(1/3) GAN, F-Divergence, IPM (0)	2024.12.20
High Variance in Policy gradients (0)	2024.12.19
On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting (0)	2024.12.17
Proximal Policy Optimization Implementation (0)	2024.12.15
Vanilla Policy Gradient Implementation (0)	2024.12.15