-
RoPE 해결Campus Life 2025. 1. 11. 22:55
논문과 코드의 간극
논문에서 제시한 수식과..
코드가.. 도저히 연결이 안되다가..
드디어 해결!!
이해 완료!
애매했던 부분들 다 해결했다.
RoPE,
Grouped Query Attention, KV cache,
내가 특히 취약했던 부분 - decoding part (inferencing) - Greedy decoding, Beam Search, Top_p.
다 해결!
그간 LlaMa, Gemma 코드 만들어 놓고도 방치했는데,
이제야 온전히 내꺼 같다.
이제야 내 LlaMa, Gemma가 생겼네.
"이제서야..?" 라고 물으신다면..
할 말 없습니다..
남들보다 좀 느려요.. (좀 많이.. ㅜㅜ) (인생이 지각 인생입니다..)
저번에 TroL 논문 읽고 코드를 살펴보니, 저자가 phi-3를 기깔나게 구현해놓았던데, gradient checkpoint랑 flash attention까지 구현해 놓은 것을 보고 충격을 받았다 ㅎㅎ
나는 고작 rope과 GQA, KV cache에 걸려있는데.. ㅋㅋㅋㅋ
그래서.. 해결했다 ㅋㅋㅋㅋ
그나저나 다들 dimension 맞춰주는 거.. 안녕하신가요..?
요새 이런 저런 transformer architecture에 이런 저런 input을 넣어보고 있는데, 애매한 부분은 layer마다 shape 찍어보면서, 그간 이해 못하고 넘겼던 것들 해결하고 있다.
근데, 인간적으로.. broadcasting 되면.. 일시 정지.. ㅋㅋ
sample_top_p
check
'Campus Life' 카테고리의 다른 글
총체적 난국 (0) 2025.01.14 .. (0) 2025.01.14 휴학..? (0) 2025.01.08 2024년 12월 31일 (0) 2024.12.31 training 시간이.. (0) 2024.12.27