전체 글
-
SST: Multi-Scale Hybrid Mamba-Transformer Experts for Long-Short Range Time Series ForecastingResearch/NLP_Paper 2024. 9. 25. 00:13
https://arxiv.org/pdf/2404.14757 머리 속에 그리고 있던 이상적인 형태의 연구가 그대로 논문으로 실현되어서 정말 너무너무 놀랐다. 내가 생각하던 Mamba와 Attention의 특장점을 제대로 살리면서, 그리고 내가 고민하던 부분 - "어떻게 합칠 것인가" (hybrid 형태)에 대한 solution을 기발하게 잘 제시했다. 즉, mamba - SSM이 time series의 장기적으로 stationary한 형태를 포착해나가는 특성 / attention이 국지적인 pattern을 잡아내는 특성을 제대로 조합했다. 그런데 여기서 "hybrid (조합)" 한다는 게 말은 멋있지만, 사실 구체적으로 방법을 생각하면 쉽지 않은데, 대다수의 SSM과 Transformer를 결합한 연구..
-
Perceiver 과 Flamingo에서의 Perceiver Resampler의 미묘한 차이Research/Multimodal 2024. 9. 24. 09:50
분명 작동 방식은 동일한데, 뭔가 미묘한 차이를 발견. Cross Attention이 내포하고 있는 의미가 살짝 다르다. Perceiver 코드 구현체 가져다가 실행하였을 때, 분명 latent를 임의로 초기화하고 시작했거든. (논문에서 제시한대로)그러고 나서 iterative하게 cross-attention을 수행하니까, image feature (byte array)가 latent에 projection되는 결과를 낳았는데.. Flamingo에서는 미묘하게 다르다! 그니까..여기에서는..이미 학습된 query vector를 가져오고,cross-attention 시에도, Key, Value vector에 query vector가 concat된 후 attention을 한다.왜 이렇게 할까 처음에 좀 이해가..
-
[Flamingo] The architecture behind modern visual language modelingResearch/Multimodal 2024. 9. 24. 08:39
https://towardsdatascience.com/flamingo-intuitively-and-exhaustively-explained-bf745611238bIn this article we’ll discuss Flamingo, a landmark paper in “multimodal modeling”. First we’ll define “multimodal models” as a class of machine learning models capable of understanding numerous types of data. We’ll then briefly explore landmark papers in image classification and text generation, then descr..
-
Perceiver / Perceiver IOResearch/Multimodal 2024. 9. 23. 22:55
단순하고 직관적인 아이디어로 소기의 성과를 이루는 극강의 가성비템. 코드도 매우 깔끔하다. 1) 역시나 embedding space의 힘을 보여주는 architecture. (VQ-VAE 작동 방식과 상통하는 부분)- 저차원의 Latent array에 projection 한 후 기존 attention 연산을 수행하는 방식 (내가 이해한 바임. not validated!) 2) 단일 구조로 다양한 modality의 input을 처리할 수 있는 획기적인 성과.- 기존 CNN의 inductive bias 배제, 기존의 transformer의 연산량으로 인한 길이 제약 감소 3) 마치 RNN처럼 weight가 sharing되는 것이 특이하게 느껴졌다.- 추측으로는, RNN에서 input의 정보가 hidden..
-
Large Language Models Cannot Self-Correct Reasoning YetResearch/NLP_Paper 2024. 9. 19. 00:44
https://arxiv.org/pdf/2310.01798 (2024)AbstractLarge Language Models (LLMs) have emerged as a groundbreaking technology with their unparalleled text generation capabilities across various applications. Nevertheless, concerns persist regarding the accuracy and appropriateness of their generated content. A contemporary methodology, self-correction, has been proposed as a remedy to these issues. Bu..
-
Gemma 2Research/NLP_reference 2024. 9. 8. 23:41
(June 27, 2024) https://huggingface.co/blog/gemma2#knowledge-distillationWelcome Gemma 2 - Google's new open LLMGoogle released Gemma 2, the latest addition to its family of state-of-the-art open LLMs, and we are excited to collaborate with Google to ensure the best integration in the Hugging Face ecosystem. You can find the 4 open-weight models (2 base models & 2 fine-tuned ones) on the Hub. Am..
-
Llama 3.1Research/NLP_reference 2024. 9. 8. 17:38
https://huggingface.co/blog/llama31 (July 23, 2024)Llama 3.1 - 405B, 70B & 8B with multilinguality and long contextLlama 3.1 is out! Today we welcome the next iteration of the Llama family to Hugging Face. We are excited to collaborate with Meta to ensure the best integration in the Hugging Face ecosystem. Eight open-weight models (3 base models and 5 fine-tuned ones) are available on the Hub. L..
-
Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRAResearch/NLP_reference 2024. 9. 8. 03:05
https://huggingface.co/blog/4bit-transformers-bitsandbytesLLMs are known to be large, and running or training them in consumer hardware is a huge challenge for users and accessibility. Our LLM.int8 blogpost showed how the techniques in the LLM.int8 paper were integrated in transformers using the bitsandbytes library. As we strive to make models even more accessible to anyone, we decided to colla..