ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 어려운 게 default 값이지?
    Campus Life 2024. 12. 17. 08:46

    왜케 어려워. 헐렝

     

    policy gradient랑 ppo algorithm 코드를 보는데

     

    눈에 하나도 안들어오고 멍~ 

     

    내가 아직도 기억하는 게, RL을 공부하면서부터 코피가 나기 시작했거든? ㅋㅋ

    그래서 나름 완벽하진 않아도 꽤 공부했다고 생각했는데..

     

    algorithm의 구현은 또 다른 차원의 문제라는 걸 깨달았어.

     

    그리고 그걸 LM이든, VLM이든, Diffusion이든 training하는 application은 또또 다른 차원의 문제라는 걸 깨달았어. 

     

    PG, PPO, RLHF 코드 며칠을 씨름했는데

    사실 아직도 다 이해가 안된 상태야 ㅋㅋㅋㅋ

     

    from scrach로 구현하라는 것도 아니고 ㅋㅋ 남이 만들어논 거 가져다 써보는 것도 이렇게 힘들면 ㅋㅋ

    이거 나 문제 있는건가? ㅎㅎ

     

    그나마 다행인 건 이론이라도 이해한 건가? (사실 이것도 제대로 이해한 건지 미지수이지만)

     

    코드 구현체는 딱 알고리즘 수식만 제시를 해서

    그 도출 과정은 자세히 말을 안해주거등.

    예를 들어 advantage function 같은 것도, 왜 이게 나왔는지 파고 들다보면 MDP, Dynamic programming, 그걸 approximate하기 위한 MC, variance를 줄이기 위한 TD 까지 다 얘기 해야 이제 advantage가 나오는 거잖아.

     

    아무튼 언제쯤 좀 clear해질지.. 

    지금은 안개 속. 

    'Campus Life' 카테고리의 다른 글

    2024년 12월 31일  (0) 2024.12.31
    training 시간이..  (0) 2024.12.27
    신기한 게 GAN도 결국  (0) 2024.12.17
    Instability of Actor-Critic Algorithms diagnosed by DPO  (0) 2024.12.14
    DPO objective 쉽고 상세하게 deriving  (0) 2024.12.13
Designed by Tistory.