어려운 게 default 값이지?

Campus Life 2024. 12. 17. 08:46

왜케 어려워. 헐렝

policy gradient랑 ppo algorithm 코드를 보는데

눈에 하나도 안들어오고 멍~

내가 아직도 기억하는 게, RL을 공부하면서부터 코피가 나기 시작했거든? ㅋㅋ

그래서 나름 완벽하진 않아도 꽤 공부했다고 생각했는데..

algorithm의 구현은 또 다른 차원의 문제라는 걸 깨달았어.

그리고 그걸 LM이든, VLM이든, Diffusion이든 training하는 application은 또또 다른 차원의 문제라는 걸 깨달았어.

PG, PPO, RLHF 코드 며칠을 씨름했는데

사실 아직도 다 이해가 안된 상태야 ㅋㅋㅋㅋ

from scrach로 구현하라는 것도 아니고 ㅋㅋ 남이 만들어논 거 가져다 써보는 것도 이렇게 힘들면 ㅋㅋ

이거 나 문제 있는건가? ㅎㅎ

그나마 다행인 건 이론이라도 이해한 건가? (사실 이것도 제대로 이해한 건지 미지수이지만)

코드 구현체는 딱 알고리즘 수식만 제시를 해서

그 도출 과정은 자세히 말을 안해주거등.

예를 들어 advantage function 같은 것도, 왜 이게 나왔는지 파고 들다보면 MDP, Dynamic programming, 그걸 approximate하기 위한 MC, variance를 줄이기 위한 TD 까지 다 얘기 해야 이제 advantage가 나오는 거잖아.

아무튼 언제쯤 좀 clear해질지..

지금은 안개 속.

'Campus Life' 카테고리의 다른 글

2024년 12월 31일 (0)	2024.12.31
training 시간이.. (0)	2024.12.27
신기한 게 GAN도 결국 (0)	2024.12.17
Instability of Actor-Critic Algorithms diagnosed by DPO (0)	2024.12.14
DPO objective 쉽고 상세하게 deriving (0)	2024.12.13

ABOUT ME

밤에 쓰는 편지 밤에 쓰는 편지

'Campus Life' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Campus Life' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바