-
(on-going) Distributional RL*RL/paper 2025. 8. 29. 10:38
A Distributional Perspective on Reinforcement Learning (C51)
https://arxiv.org/pdf/1707.06887
Distributional RL with Quantile Regression (QR-DQN)
https://arxiv.org/pdf/1710.10044
Implicit Quantile Networks for Distributional Reinforcement Learning (IQN)
https://arxiv.org/pdf/1806.06923
아직 공부 중.
Distributional RL을 보게 된 계기는 Rainbow다.
Rainbow는 DQN을 위시로 한 대표적인 improvement를 모아서 짬뽕하였다.
Deep Q-learning의 history를 톺아볼 수 있어서 굉장히 흥미로운 paper이자 experimental baseline이 될 수 있겠는데,
논문에서 제시한 6 extension 중 Distributional RL 만 이해를 못 해서 따로 살펴보게 되었다.
value function이 scalar 값을 output하는 기존 구조와 다르게, distribution 을 구한다.
직관적으로 생각해도 훨씬 합당하다고 느껴져서 자세히 살펴보게 되었다.
논문만 보았다면, 뭔 소린지 1도 이해 못하고 포기했을 텐데,
아래 reference들이 너무나 친절히 설명해주어서 다행히 이해하였다.
특히, RL Korea에서 설명해주신 분들, 감탄했습니다. (대단하신 분들 +_+b)
단순히 performance 측면에서만 본 논문 시리즈의 가치를 논하는 걸 떠나서,
그리고 RL을 떠나서,
본 논문들이 제시하는 방법들이 굉장히 흥미롭다.
그러니까 이제는 distribution을 구하기 때문에
단순히 target과 network prediction 간의 loss를 minimize하는 기존의 학습 방식과 다르게
target distribution과 network가 predict한 distribution 간의 distance를 minimize하여야 하는데,
Wasserstein distance는 theoretically converge함을 보였다. (gamma-contraction)
하지만, 첫 논문에서는 이를 구현하지 못하고 KL divergence를 minimize하도록 cross entropy loss로 학습하였다.
여기서 정말 흥미로운 포인트는!!
두 번째 논문에서는 Wasserstein distance를 minimize하도록 Quantile regression loss로 학습한다!!
박수~!
Rainbow에서는 첫 번째 논문의 방법을 적용하였는데, 사실 본 논문의 시리즈는 두 번째부터까 찐이라, 두 번째 방법을 적용하는 것이 적절해 보인다.
theoretically validate된 방법일 뿐아니라, 첫 번째 방법은 굉장히 복잡하고 지저분한데, 이걸 완전히 깔끔하게 개선하였다.
https://flyyufelix.github.io/2017/10/24/distributional-bellman.html
Distributional Bellman and the C51 Algorithm | Felix Yu
I got the chance to read this paper on Distributional Bellman published by DeepMind in July. Glossing over it the first time, my impression was that it would be an important paper, since the theory was sound and the experimental results were promising. How
flyyufelix.github.io
https://mtomassoli.github.io/2017/12/08/distributional_rl/
Distributional RL
Blog about the simplification of ML through unification
mtomassoli.github.io
https://deepmind.google/discover/blog/going-beyond-average-for-reinforcement-learning/
Going beyond average for reinforcement learning
Consider the commuter who toils backwards and forwards each day on a train. Most mornings, her train runs on time and she reaches her first meeting relaxed and ready. But she knows that once in...
deepmind.google
https://rlkorea.tistory.com/category/%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8/Distributional%20RL
'프로젝트/Distributional RL' 카테고리의 글 목록
RL Korea는 강화학습을 공부하고 연구하시는 분들을 위한 페이스북 그룹입니다. 강화학습에 대한 소식과 논문 정보를 공유하고 함께 재밌는 프로젝트를 진행합니다.
rlkorea.tistory.com
https://github.com/reinforcement-learning-kr/distributional_rl
GitHub - reinforcement-learning-kr/distributional_rl: Repository for studying distributional rl
Repository for studying distributional rl. Contribute to reinforcement-learning-kr/distributional_rl development by creating an account on GitHub.
github.com
https://www.youtube.com/watch?v=VYWdspLnhDE&list=PLvbUC2Zh5oJtYXow4jawpZJ2xBel6vGhC&index=31&t=396s
'*RL > paper' 카테고리의 다른 글
Revisiting Rainbow (0) 2025.08.30 Rainbow (0) 2025.08.29 Model-based Reinforcement Learning (0) 2025.08.25 Generalized Advantage Estimation (0) 2025.08.25 Proximal Policy Optimization (0) 2025.08.25