Experimental results # 6
Vision encoder가 일을 하고 있을까?
image를 input으로 받아서 attention한 결과를 prompt로 전달하고 있을까?
Attention map을 visualize해보았다. - Attention rollout
흥미롭다.
layer가 깊어질수록, 전체적인 배경에서부터 어느 특정 부분으로 focusing이 변해간다.
신기한 건, 어느 특정 부위를 집중적으로 보다가, 그 다음 layer에서는 돌변하여서, 그 부분을 제외한 나머지만 보기도 한다.
가장 웃겼던 건, apartment인데,
처음에는 전체적으로 보다가
어느 순간, 아파트 난간의 에어컨에 꽂히더니,
마지막 layer까지 오로지 그 부분만 보고있다. ㅋㅋㅋ
그걸 보니 왜 이렇게 동질감이 느껴지는지..ㅎㅎㅎ
꼭 나 같아. ㅋㅋㅋㅋ
뭐 하나 꽂히면, 다른 거 아무것도 신경 안 쓰고 그것만 보고 있는 거 ㅋㅋㅋ
이걸 어떻게 논문에 해석을 달아야 할 것인가...
dog, cat처럼 특정 사물에 예쁘게 attention이 집중되어 있으면 설명하기 참 편한데,
이건 그림이 좀 어수선해서인지,
mart에서는 바닥만 보고 있고 ㅋㅋㅋ hotel에서는 하늘만 보고 있다. ^^;;;; 아이고야
이걸 논문에 가져다 쓸 수 있을랑가...
실험 결과가 빈약해서..
vision prompting 한 거와 하지 않은 거 성능 차이가 크질 않아서,
좀 더 vision 에 대한 게 들어가야 될 것 같은데..
하하.. 어떻게 썰을 풀지는 내일 생각해야겠다!
* example 1: University
* example 2: Hotel