분류 전체보기 (412)

인기포스트

ABOUT ME

트위터
인스타그램

Today

Yesterday

Total

밤에 쓰는 편지 밤에 쓰는 편지

컨텐츠 검색 블로그 내 검색

Research/RL_reference

High Variance in Policy gradients
Research/RL_reference 2024. 12. 19. 08:51

https://balajiai.github.io/high_variance_in_policy_gradientshttps://github.com/BalajiAI/High-Variance-in-Policy-gradients 1. baseline에 대한 엄밀한 도출 2. GAE (Generalized Advantage Estimation)- code를 보다보면, 효율적인 연산을 위한 technique이 들어가거나, 선행연구의 code를 base로 해서, 추가적인 공부가 필요한 경우가 많은데, PPO algorithm에서 advantage 연산을 GAE (Generalized Advantage Estimation)로 하는데 이를 이해하기 위한 보충 자료. (공부했던 건데 제대로 이해 못하고 넘어갔던..)Tho..

이전

1

다음

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바

개인정보

티스토리 홈
포럼
로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

블로그 게시글

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

모든 영역

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.