Paper Writing 1/Experiments
-
Desk rejection because of policy violationPaper Writing 1/Experiments 2024. 12. 23. 08:55
Paper submission must adhere to the double-blind review policy. Submissions must remove all details identifying the author(s) from the original manuscript, and the author(s) should refer to their prior work in the third person and include all relevant citations. 이거 어겼단다.. 그래서 제출한 거 다운로드 받아서 봤는데.. 내 이름 안지우고 냈어........................................
-
exp #6 의 맹점Paper Writing 1/Experiments 2024. 11. 25. 08:43
attn rollout을 엄밀한 의미에서 사용하려는 목적이 아닌,ViTS의 vision encoder가 실제로 일을 하고 있는지를 증명하려는 목적으로 차용해온 것이기 때문에 다소 편의 상 modification한 부분들이 있다. 우선, 본래 논문에서는 DeiT를 사용하였는데 여기에서는 class token과 distillation token이 쓰인다. 그래서 attn visualization을 할 때 class token을 사용한다. 이 class token이 image classification task를 수행하기 위해 최적화된 feature representation을 담기 때문이다. 하지만 나는 classification 목적이 아닌 ViT이기 때문에 196 x 196 map이 나오고 그 중 어..
-
Experimental results # 6Paper Writing 1/Experiments 2024. 11. 23. 23:14
Vision encoder가 일을 하고 있을까?image를 input으로 받아서 attention한 결과를 prompt로 전달하고 있을까? Attention map을 visualize해보았다. - Attention rollout 흥미롭다. layer가 깊어질수록, 전체적인 배경에서부터 어느 특정 부분으로 focusing이 변해간다. 신기한 건, 어느 특정 부위를 집중적으로 보다가, 그 다음 layer에서는 돌변하여서, 그 부분을 제외한 나머지만 보기도 한다. 가장 웃겼던 건, apartment인데,처음에는 전체적으로 보다가어느 순간, 아파트 난간의 에어컨에 꽂히더니,마지막 layer까지 오로지 그 부분만 보고있다. ㅋㅋㅋ 그걸 보니 왜 이렇게 동질감이 느껴지는지..ㅎㅎㅎ 꼭 나 같아. ㅋㅋㅋㅋ뭐 하나..
-
-
-
-
-
vision prompting 결과에 대한 고찰Paper Writing 1/Experiments 2024. 11. 10. 02:13
처음 의도했던 것은 univariate만을 고려하는 foundation model의 한계를 극복하고, variate 간의 complex correlation을 고려할 수 있도록 vision prompting을 넣어주는 것이었는데, 이는 input dimension이 엄청 증가한다는 것을 의미하고, 결국 구현 상의 한계를 뛰어넘지 못했다. 대신 static한 covariate 정보를 넣어주었는데, 기존에 의도한 바를 구현하는 과정에서 하도 삽질을 하고 고통을 겪어서인지, 상당히 쉽게 느껴졌다. 그러고도 결과를 크게 기대하지 않았었는데, 오히려 무거운 vision encoder와 vision projector가 붙어서, (물론 pretrained된 siglip parameter를 가져왔지만 - specif..