Research/RL_reference
-
High Variance in Policy gradientsResearch/RL_reference 2024. 12. 19. 08:51
https://balajiai.github.io/high_variance_in_policy_gradientshttps://github.com/BalajiAI/High-Variance-in-Policy-gradients 1. baseline에 대한 엄밀한 도출 2. GAE (Generalized Advantage Estimation)- code를 보다보면, 효율적인 연산을 위한 technique이 들어가거나, 선행연구의 code를 base로 해서, 추가적인 공부가 필요한 경우가 많은데, PPO algorithm에서 advantage 연산을 GAE (Generalized Advantage Estimation)로 하는데 이를 이해하기 위한 보충 자료. (공부했던 건데 제대로 이해 못하고 넘어갔던..)Tho..