Vanilla Policy Gradient Implementation

RL/RL 2024. 12. 15. 10:40

Summary

On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting (0)	2024.12.17
Proximal Policy Optimization Implementation (0)	2024.12.15
Reinforce Implementation (0)	2024.12.14
[SimPO] Simple Preference Optimization with a Reference-Free Reward (0)	2024.12.14
[ORPO] Monolithic Preference Optimization without Reference Model (0)	2024.12.14