Paper Writing 1/Experiments

Experimental results # 6

밤 편지 2024. 11. 23. 23:14

Vision encoder가 일을 하고 있을까?

image를 input으로 받아서 attention한 결과를 prompt로 전달하고 있을까?

 

Attention map을 visualize해보았다. - Attention rollout 

 

흥미롭다.

 

layer가 깊어질수록, 전체적인 배경에서부터 어느 특정 부분으로 focusing이 변해간다. 

신기한 건, 어느 특정 부위를 집중적으로 보다가, 그 다음 layer에서는 돌변하여서, 그 부분을 제외한 나머지만 보기도 한다.

 

가장 웃겼던 건, apartment인데,

처음에는 전체적으로 보다가

어느 순간, 아파트 난간의 에어컨에 꽂히더니,

마지막 layer까지 오로지 그 부분만 보고있다. ㅋㅋㅋ 

 

그걸 보니 왜 이렇게 동질감이 느껴지는지..ㅎㅎㅎ 

꼭 나 같아. ㅋㅋㅋㅋ

뭐 하나 꽂히면, 다른 거 아무것도 신경 안 쓰고 그것만 보고 있는 거 ㅋㅋㅋ 

 

이걸 어떻게 논문에 해석을 달아야 할 것인가...

 

dog, cat처럼 특정 사물에 예쁘게 attention이 집중되어 있으면 설명하기 참 편한데,

이건 그림이 좀 어수선해서인지,

mart에서는 바닥만 보고 있고 ㅋㅋㅋ hotel에서는 하늘만 보고 있다. ^^;;;; 아이고야

이걸 논문에 가져다 쓸 수 있을랑가...

 

실험 결과가 빈약해서..

vision prompting 한 거와 하지 않은 거 성능 차이가 크질 않아서,

좀 더 vision 에 대한 게 들어가야 될 것 같은데..

 

하하.. 어떻게 썰을 풀지는 내일 생각해야겠다!


 

* example 1: University


* example 2:  Hotel