Paper Writing 1/Experiments
-
멘붕Paper Writing 1/Experiments 2024. 10. 28. 22:26
아 진짜 우울하다.. 좌절 그 잡채. 기껏 코드 잘 짜놓고 다 잘 돌아가는데.. Siglip을 갖다 붙히기만 하면 너무 무거워져서.. training 시간이 엄청 길어지고, memory를 계속 잡아먹어서 학습을 진행할 수가 없다. vision_prompt=False argument 받아서, vision_prompting 기능을 turn off 해버려서, dataloader batch내에서 image 처리 하지 않도록 하고, model에서도 vision tower build하지 않도록 해도, (그래서 base model만 돌아가도록 해도) siglip이 붙어있는 거 만으로도 엄청나게 느려진다. base model 만 training한 checkpoint를 가져온 후에, vision_prompting 기능..
-
[breaktime] LLM's pattern recognitionPaper Writing 1/Experiments 2024. 10. 28. 15:00
Just for fun! I'm just curious about how can model recognize the patterns in the sequences. Later on, I'm planning to research on how the model with mixture of attention and s6 layer can recoginize various patterns in the sequences. I think it will be interesting. I trained my base model* (gpt2 frozen, wo/ additional information injection, only alignment(cross-attn) & head parameters updated) on..
-
Sanity checkPaper Writing 1/Experiments 2024. 10. 27. 16:17
* base model: GPT-2 without injecting any additional information The backbone model can be any LLM, but I used GPT-2 with 6 layers as default for simplicity. I may conduct an ablation study on different LLM model variants and sizes. Several previous studies have demonstrated that the scaling law also applies to time-series forecasting in relation to the number of model parameters and the size o..
-
Glimpse of dataset - (2) real-dataPaper Writing 1/Experiments 2024. 10. 27. 02:00
Previous works on time-series foundation models have shown that, to achieve good zero-shot forecasting performance, it is necessary to train on a large-scale time-series corpus that covers diverse domains, trends, seasonality patterns, and time granularities. Additionally, MOIRAI has released a large dataset as part of its efforts to create a foundation model. However, it is challenging for me t..
-
Glimpse of dataset - (1) synthetic time series generationPaper Writing 1/Experiments 2024. 10. 25. 23:50
Several studies have trained models using synthetic time series data as a complement to real-world data or even as a standalone approach, showing comparable zero-shot performance. (ForecastPFN, TimsFM, Fu et al., 2024) Given my limited resource budget, incorporating synthetic data into my training dataset is a viable option. Additionally, conducting an ablation study to evaluate the effectivene..
-
issue #1Paper Writing 1/Experiments 2024. 10. 24. 12:25
이 난관을 어떻게 타개할 것인가 batch 내에 image를 input으로 넣어주다보니, memory를 무섭게 잡아먹어서training이 지속되지 못하고 중단되는 현상이 발생한다. input image를 읽은 후에 객체를 del하고 garbage collect를 해주어도 memory 용량은 계속 줄어든다. 아마 뭔가 내가 할당된 memory를 완전히 반환하도록 하는 방법을 제대로 모르는 것 같다.그리고 설령, 그 방법을 찾더라도,이 작업을 data_loader의 batch마다 해주는 것만으로도 엄청나게 training 시간이 길어진다. 결국 memory 용량 부족으로 중단되기 전까지의 loss를 보면,학습은 잘 이루어지는 걸로 보인다. image를 prompt에 넣어서 추가 정보를 주는 게 내 모델의..
-
ModelingPaper Writing 1/Experiments 2024. 10. 20. 13:36
이상한 걸 하나 만들었다.... 지금 돌아가고 있다.... 엄청 에러 내고 수정하고수정하고또 수정한 후에.. 드디어.. 돌아간다. ㅜㅜ 텐서 차원 맞춰주는 거.. 저만 빡센가요....? transpose, permute, rearrange, squeeze, unsqueeze의 향연.... ;;;; 차라리 명시적으로 debugging mode를 코드에 넣어주고, debugging mode 분기 탈 때, layer마다 tensor shape을 print out해주는 게 확실한 거 같아. ㅋㅋㅋ 잠깐 편의점 가서 간식 사와야 겠다. 설마 그 사이에 에러내지 않겠지......?? 오오 신이시여... 부디 아름답게 마무리하도록 해주소서
-
리팩토링Paper Writing 1/Experiments 2024. 10. 15. 00:20
복잡한 로직을 풀어헤쳐서 모든 것을 명확하게 한다는 건,기분 좋은 일이다.(인생도 그럴 수 있다면 참 좋으련만..) 타인의 논리와 나의 논리가 마주치는 순간. Baseline model들에 대한 정리가 상당 부분 진척되었다.- 대략 80% 정도..? - 내가 이해한 로직을 바탕으로 최대한 단순화하여서, 내가 가져다 쓸 수 있게 만든 모델과 구성요소들이 논문의 실험 결과를 재현하는지 -> 아직까지는 비슷한 성능 수준을 보여주고 있다.- 이해하지 못하고 남겨둔 부분들이 있는데, 그게 좀 critical한 요소이다. 다시 살펴보고 수정하여야 한다.- 수정 후에 다시 돌려보아야 한다.- 정리가 덜 된 모델을 정리하여서 추가하여야 한다. 관건은, 내가 착안한 부분을 잘 구현하여서 이식한 후에 결과가 성공적으로 나..