-
어려운 게 default 값이지?Campus Life 2024. 12. 17. 08:46
왜케 어려워. 헐렝
policy gradient랑 ppo algorithm 코드를 보는데
눈에 하나도 안들어오고 멍~
내가 아직도 기억하는 게, RL을 공부하면서부터 코피가 나기 시작했거든? ㅋㅋ
그래서 나름 완벽하진 않아도 꽤 공부했다고 생각했는데..
algorithm의 구현은 또 다른 차원의 문제라는 걸 깨달았어.
그리고 그걸 LM이든, VLM이든, Diffusion이든 training하는 application은 또또 다른 차원의 문제라는 걸 깨달았어.
PG, PPO, RLHF 코드 며칠을 씨름했는데
사실 아직도 다 이해가 안된 상태야 ㅋㅋㅋㅋ
from scrach로 구현하라는 것도 아니고 ㅋㅋ 남이 만들어논 거 가져다 써보는 것도 이렇게 힘들면 ㅋㅋ
이거 나 문제 있는건가? ㅎㅎ
그나마 다행인 건 이론이라도 이해한 건가? (사실 이것도 제대로 이해한 건지 미지수이지만)
코드 구현체는 딱 알고리즘 수식만 제시를 해서
그 도출 과정은 자세히 말을 안해주거등.
예를 들어 advantage function 같은 것도, 왜 이게 나왔는지 파고 들다보면 MDP, Dynamic programming, 그걸 approximate하기 위한 MC, variance를 줄이기 위한 TD 까지 다 얘기 해야 이제 advantage가 나오는 거잖아.
아무튼 언제쯤 좀 clear해질지..
지금은 안개 속.
'Campus Life' 카테고리의 다른 글
2024년 12월 31일 (0) 2024.12.31 training 시간이.. (0) 2024.12.27 신기한 게 GAN도 결국 (0) 2024.12.17 Instability of Actor-Critic Algorithms diagnosed by DPO (0) 2024.12.14 DPO objective 쉽고 상세하게 deriving (0) 2024.12.13