분류 전체보기
-
(1/3) An Introduction to Vision-Language ModelingResearch/Multimodal 2024. 11. 24. 21:42
https://arxiv.org/pdf/2405.17247AbstractFollowing the recent popularity of Large Language Models (LLMs), several attempts have been made to extend them to the visual domain. From having a visual assistant that could guide us through unfamiliar environments to generative models that produce images using only a high-level text description, the vision-language model (VLM) applications will signific..
-
Experimental results # 6Paper Writing 1/Experiments 2024. 11. 23. 23:14
Vision encoder가 일을 하고 있을까?image를 input으로 받아서 attention한 결과를 prompt로 전달하고 있을까? Attention map을 visualize해보았다. - Attention rollout 흥미롭다. layer가 깊어질수록, 전체적인 배경에서부터 어느 특정 부분으로 focusing이 변해간다. 신기한 건, 어느 특정 부위를 집중적으로 보다가, 그 다음 layer에서는 돌변하여서, 그 부분을 제외한 나머지만 보기도 한다. 가장 웃겼던 건, apartment인데,처음에는 전체적으로 보다가어느 순간, 아파트 난간의 에어컨에 꽂히더니,마지막 layer까지 오로지 그 부분만 보고있다. ㅋㅋㅋ 그걸 보니 왜 이렇게 동질감이 느껴지는지..ㅎㅎㅎ 꼭 나 같아. ㅋㅋㅋㅋ뭐 하나..
-
[Attention Rollout] Explainability for Vision TransformersResearch/NLP_reference 2024. 11. 22. 09:16
https://jacobgil.github.io/deeplearning/vision-transformer-explainabilityhttps://github.com/jacobgil/vit-explainBackgroundIn the last few months before writing this post, there seems to be a sort of a breakthrough in bringing Transformers into the world of Computer Vision. To list a few notable works about this:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,Training d..
-
-
-
-
-