Research/Multimodal
-
Learned latent queries 의 정체Research/Multimodal 2024. 9. 26. 17:06
LLM이 어떻게 이미지를 이해하고, 이미지에 대해 말할 수 있게 할 것인가? 문제에 대해서 Flamingo는 기존의 Pretrained LLM과 image encoder를 십분 활용하면서, perceiver resampler로 image feature vector (CLIP (혹은 NFNet) encoder에서 추출한 visual representation)을 사용 가능한 형태로 가져오고, gated cross attention을 통해, 수도꼭지 틀 듯이 LLM에 image 정보를 inject해준다. 이것은, LLM이 난생 처음 보는 image feature vector에 화들짝 놀라서 catastrophic하게 자신이 기존에 가지고 있던 정교한 language에 대한 understanding을 모두 잃..
-
CLIP - Creating strong image and language representations for general machine learning tasks.Research/Multimodal 2024. 9. 26. 11:39
https://towardsdatascience.com/clip-intuitively-and-exhaustively-explained-1d02c07dbf40CLIP - Creating strong image and language representations for general machine learning tasks. In this post you’ll learn about “contrastive language-image pre-training” (CLIP), A strategy for creating vision and language representations so good they can be used to make highly specific and performant classifiers..
-
Visual Question Answering with Frozen Large Language ModelsResearch/Multimodal 2024. 9. 25. 23:18
https://towardsdatascience.com/visual-question-answering-with-frozen-large-language-models-353d42791054Talking with LLMs about images, without training LLMs on images. In this article we’ll use a Q-Former, a technique for bridging computer vision and natural language models, to create a visual question answering system. We’ll go over the necessary theory, following the BLIP-2 paper, then impleme..
-
Perceiver 과 Flamingo에서의 Perceiver Resampler의 미묘한 차이Research/Multimodal 2024. 9. 24. 09:50
분명 작동 방식은 동일한데, 뭔가 미묘한 차이를 발견. Cross Attention이 내포하고 있는 의미가 살짝 다르다. Perceiver 코드 구현체 가져다가 실행하였을 때, 분명 latent를 임의로 초기화하고 시작했거든. (논문에서 제시한대로)그러고 나서 iterative하게 cross-attention을 수행하니까, image feature (byte array)가 latent에 projection되는 결과를 낳았는데.. Flamingo에서는 미묘하게 다르다! 그니까..여기에서는..이미 학습된 query vector를 가져오고,cross-attention 시에도, Key, Value vector에 query vector가 concat된 후 attention을 한다.왜 이렇게 할까 처음에 좀 이해가..
-
[Flamingo] The architecture behind modern visual language modelingResearch/Multimodal 2024. 9. 24. 08:39
https://towardsdatascience.com/flamingo-intuitively-and-exhaustively-explained-bf745611238bIn this article we’ll discuss Flamingo, a landmark paper in “multimodal modeling”. First we’ll define “multimodal models” as a class of machine learning models capable of understanding numerous types of data. We’ll then briefly explore landmark papers in image classification and text generation, then descr..
-
Perceiver / Perceiver IOResearch/Multimodal 2024. 9. 23. 22:55
단순하고 직관적인 아이디어로 소기의 성과를 이루는 극강의 가성비템. 코드도 매우 깔끔하다. 1) 역시나 embedding space의 힘을 보여주는 architecture. (VQ-VAE 작동 방식과 상통하는 부분)- 저차원의 Latent array에 projection 한 후 기존 attention 연산을 수행하는 방식 (내가 이해한 바임. not validated!) 2) 단일 구조로 다양한 modality의 input을 처리할 수 있는 획기적인 성과.- 기존 CNN의 inductive bias 배제, 기존의 transformer의 연산량으로 인한 길이 제약 감소 3) 마치 RNN처럼 weight가 sharing되는 것이 특이하게 느껴졌다.- 추측으로는, RNN에서 input의 정보가 hidden..
-
Understanding VQ-VAE (DALL-E Explained Pt. 1)Research/Multimodal 2024. 8. 19. 17:48
https://mlberkeley.substack.com/p/vq-vae?utm_source=publication-searchLike everyone else in the ML community, we’ve been incredibly impressed by the results from OpenAI’s DALL-E. This model is able to generate precise, high quality images from a text description. It can even produce creative renderings of objects that likely don’t exist in the real world, like “an armchair in the shape of an avo..
-
Understanding DeepMind's Flamingo Visual Language ModelsResearch/Multimodal 2024. 8. 15. 11:18
https://medium.com/@paluchasz/understanding-flamingo-visual-language-models-bea5eeb05268Flamingo is a Visual Language Model, one of the earliest multimodal generative models. This article is a deep dive of what it is, how it works and how it is used.IntroductionFlamingo was introduced in the paper Flamingo: a Visual Language Model for Few-Shot Learning in 2022. It is a multimodal Language Model ..