분류 전체보기
-
[DPLCLIP] Domain Prompt Learning for Efficiently Adapting CLIP to Unseen DomainsResearch/NLP_YS2024 2024. 12. 5. 15:28
https://arxiv.org/pdf/2111.12853v3https://github.com/shogi880/DPLCLIP?tab=readme-ov-fileAbstract Domain generalization (DG) is a difficult transfer learning problem aiming to learn a generalizable model for unseen domains. Recent foundation models (FMs) are robust to many distribution shifts and, therefore, should substantially improve the performance of DG. In this work, we study generic ways t..
-
가끔 논문 보며 웃는다Campus Life 2024. 12. 5. 10:56
Alas, the capricious behaviour of machine learning systems out-of-distribution is a roadblock to their deployment in critical applications. 논문에 가끔 생각지 못한 표현이 등장할 때가 있다. 웃음 포인트 아닌데, formal하지 않아서 웃음 나와. ㅎㅎ 아.. 근데 이 논문은 너무 근원적인 질문으로 나를 힘들게 한다.. 이건 최근 내가 가지고 있던 의문과도 상통하는 부분이다. 요새 든 생각은, MLLM이나 VLM이 정말 그 semantic을 이해하고 있는 건지, 아니면 단순히 training을 때려부어서, 학습된 결과가 출력되고 있는 건지 의문이었거든. 정말 understanding 능력을 갖..
-
[DomainBed] In Search of Lost Domain GeneralizationResearch/NLP_YS2024 2024. 12. 5. 10:53
https://arxiv.org/pdf/2007.01434https://github.com/facebookresearch/DomainBed?tab=readme-ov-file어떻게 실험 setting을 해서 domain generalization ability를 증명할 것인가. 평소에 뭔가 개운하지 않았던, 간과하였던 부분. model 간의 performance 차이가 정말로 model의 generalization capability에 기인하는 것인지, 아니면 hyperparameter search 혹은 다른 실험적 요소에 의한 차이인지 명확하게 구분할 수가 없어서 답답했던 부분. 이게 정말 fair comparison인가. 어디다가 어떻게 비교를 해야 기존 대비 성능이 향상되었다고 말할 수 있는가. 어..
-
Layer의 재사용에 대하여Research/NLP_YS2024 2024. 12. 3. 23:48
3개의 논문에서 제시하는 모델은 각각 다른 쓰임새와 독특한 특징을 보여주지만기저에 관통하는 공통된 concept이 있어서 흥미롭다."Reusing early layers" early layer의 feature representation을 leveraging함으로써 efficiency & performance improvement를 추구한다. 내가 동경하는 이상적 논문 형태"simple but effective!"1. Efficient Transfer Learning driven by Layer-wise Features Aggregationhttps://openreview.net/pdf?id=Q0tfRYadhchttps://github.com/MLAI-Yonsei/LFA* MotivationTransfe..
-
A High-level Overview of Large Language ModelsResearch/NLP_YS2024 2024. 12. 1. 08:55
https://rbcborealis.com/research-blogs/a-high-level-overview-of-large-language-models/Jul, 12, 2023Since 2022, a series of AI systems have been introduced that enable machines to read, analyze, interpret, and derive meaning from human language. One such system is ChatGPT, which gained a over a hundred million users within a mere two months of its launch in November 2022. Its successor, GPT-4 was..
-
(3/3) An Introduction to Vision-Language ModelingResearch/Multimodal 2024. 11. 29. 23:44
https://arxiv.org/pdf/2405.172474. Approaches for Responsible VLM EvaluationAs the main ability of VLMs is to map text with images, it is crucial to measure visio-linguistic abilities so as to ensure that the words are actually mapping to visual clues. Early tasks used to evaluate VLMs were image captioning and Visual Question Answering (VQA) [Antol et al., 2015]. In this section, we also discus..
-
(2/3) An Introduction to Vision-Language ModelingResearch/Multimodal 2024. 11. 29. 11:36
https://arxiv.org/pdf/2405.172473. A Guide to VLM TrainingSeveral works [Henighan et al., 2020b,a] have shed light on the importance of scaling to push further the performances of deep neural networks. Motivated by these scaling laws, most recent works have focused on increasing compute and scale to learn better models. This led to a model like CLIP [Radford et al., 2021] which was trained on 40..
-
exp #6 의 맹점Paper Writing 1/Experiments 2024. 11. 25. 08:43
attn rollout을 엄밀한 의미에서 사용하려는 목적이 아닌,ViTS의 vision encoder가 실제로 일을 하고 있는지를 증명하려는 목적으로 차용해온 것이기 때문에 다소 편의 상 modification한 부분들이 있다. 우선, 본래 논문에서는 DeiT를 사용하였는데 여기에서는 class token과 distillation token이 쓰인다. 그래서 attn visualization을 할 때 class token을 사용한다. 이 class token이 image classification task를 수행하기 위해 최적화된 feature representation을 담기 때문이다. 하지만 나는 classification 목적이 아닌 ViT이기 때문에 196 x 196 map이 나오고 그 중 어..