[딥러닝] DeepSeek-VL2 모델 정리(멀티 모달, Dynamic Tiling Vision Encoding 미세 이미지 인식 강화 기법, VLAdaptor)
·
Study/NLP
- 이번 포스팅에서는 현 시점 오픈소스 멀티 모달 LLM 모델중 최고 성능을 가지고 있으며, GPT-4o 모델보다 벤치마크 성능이 높게 나왔던 DeepSeek-VL2 모델에 대해 정리하겠습니다. 이전에 정리한 멀티모달 모델 설명글인 LLaVA 모델 설명글에서 설명했듯, 멀티 모달이라고 하더라도 특별한 것은 없으며, LLM 모델에 더하여 이미지 인코딩 모델이 앞쪽에 추가된 형태이므로,DeepSeek-VL2 의 LLM 기반 모델(Backbone 이라 하겠습니다.)인 DeepSeek-V3 내용은 되도록 생략하고,이미지 인코더 쪽의 백본과 그 연결 방식을 중점적으로 살펴보겠습니다. 논문 링크(DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advance..
[딥러닝] LLaVA 모델 정리(멀티 모달 LLM, LLaMA + CLIP(Contrastive Language–Image Pretraining)-ViT)
·
Study/NLP
- 이번 포스팅에서는 멀티 모달 LLaVA (Large Language and Vision Assistant) 모델을 정리하겠습니다.이전 게시글에서 Langchain 으로 사용해 보았던 바로 그 모델인데, 이번에는 단순한 모델의 사용 방법이 아닌 멀티 모달 LLM 모델의 내부 구조에서 원리까지를 자세히 다루어볼 것입니다. - 현 시점 오픈소스 최고 성능 모델은 2024 년 12월에 출시된 DeepSeek-VL2 모델입니다.제가 굳이 2023 년 4 월에 출시된 LLaVA 모델을 리뷰하는 이유는, LLaVA 모델이 기존에 제가 정리한 LLaMA 모델을 기반으로 나온 모델이며, GPT-4o 에 필적하는 DeepSeek-VL2 모델이 기존 멀티 모달 모델과 어떠한 차이점으로 성능을 높인 것인지에 대해 비교하며..
[딥러닝] DeepSeek-V3 모델 정리(MLA(Multi-head Latent Attention), auxiliary-loss-free strategy MoE)
·
Study/NLP
- 이번 포스팅에서는 비교적 최근 LLM 관련 업계를 들썩이게 만든 DeepSeek-V3 모델에 대해 정리할 것입니다.모델의 효율성 측면에서 전세계적으로 화제가 될 정도의 LLM 모델이며, 현 시점 DeepSeek 의 파생 모델들이 오픈소스 딥러닝 모델 응용의 각 분야에서 최고 성능을 달성하고 있는 만큼 중요하게 살펴봐야 하는 모델입니다. (Vision 멀티모달 모델의 경우는 DeepSeek 파생 모델이 GPT-4o 마저 능가할 정도입니다.) - 학습 동기부여를 위해 DeepSeek 의 성능이 어느정도인지부터 확인하겠습니다. 출처 : DeepSeekMath 논문 위 성능표에서 보이는대로 DeepSeek 기반 모델은 파라미터 대비 성능 효율이 굉장히 높고,수학적 추론 등의 고차원적인 추론 능력이 GPT-4..
[딥러닝] Mixtral 모델 정리(Sparse Mixture of Experts(Sparse MoE))
·
Study/NLP
- 이번 포스팅에선 앞서 정리한 Mistral 모델에서 발전된 Mixtral 에 대해 정리하겠습니다.Mixtral 은 Mistral 모델에 MoE(Mixture of Experts) 기법을 적용하여 성능을 높인 모델로,GPT-3.5 보다 약간 성능이 낮은 Mistral 모델보다 성능이 좋으며, GPT-3.5 보다 전반적으로 약간 높은 성능을 보입니다. - 현 시점 오픈소스 범용 챗봇 모델 중 가장 뛰어난 모델 중 하나로,초 거대 모델 + 세계 최고 수준의 전후처리를 거친 GPT-4 에는 성능이 미치지 못하더라도, 응답 속도만은 훨씬 빠르며, 라이선스 역시 Apache 2.0 으로 제공되므로 상업적 사용에도 제약이 없습니다. - 참고로 현시점 분야별 오픈소스 최고 성능 모델을 정리하자면, 범용 챗봇 모델 ..
[딥러닝] Mistral 모델 정리(Sliding Window Attention(SWA), Group-Query Attention(GQA))
·
Study/NLP
- 이번 포스팅에서는 LLM 자연어 생성 모델 중 2023 년 9월에 나온 Mistral 모델에 대해 분석하고 정리하겠습니다.여기서 다룰 Mistral 7B 모델은 Apache2.0 라이센스의 완전 오픈소스 모델이라 학습 및 응용하기에 좋으며, 성능상 더 큰 모델인 GPT-3.5 보다는 낮은 LLaMA 2 의 13B 모델에 필적하거나 일부 벤치마크에서는 능가하는 모습을 보여주어서 기존보다 경량의 성능 좋은 오픈소스 모델이 나왔다고 화제가 되었죠. 이로인해 프랑스의 AI 스타트업 Mistral AI 는 단숨에 주가가 뛰어올라 2024 년에는 기업가치가 60억 유로(약 9조 3천억원)가 되었을 정도입니다. 이 정도의 파장은 이후 DeepSeek 모델이 기존 고비용 LLM 모델들에게 일침을 날리며 다시 일으키..
[딥러닝] LLaMA2 모델 정리(Few-Shot Learning, Instruction Tuning, RLHF) + Constitutional AI
·
Study/NLP
- 이번 포스팅에서는 LLaMA2 모델을 분석하겠습니다.기존 딥러닝 모델 분석 게시글들과 다른점으로는 모델 구조적인 내용보다는 Few-shot Learning, Instruction Tuning, RLHF 와 같은 LLM 모델의 효과적인 학습 기법들을 중점적으로 정리하고 이해할 것입니다.해당 방식은 이후 나오는 다른 모델들의 학습 방식에서도 중요하게 활용되는 것이기에 제대로 이론을 정리하고 코드를 작성하도록 하겠습니다. (LLaMA2 모델 설명)- 앞서 정리한 LLaMA1 정리글을 기반으로 변경된 부분만을 빠르게 알아보겠습니다. - 외부 변경사항1. LLaMA1 의 파라미터는 7B, 13B, 33B, 65B 이지만 LLaMA2 에서는 7B, 13B, 70B 이렇게 최대 파라미터가 증량되었습니다.2. 훈련..
[딥러닝] LLaMA 모델 정리(RoPE(Rotary Positional Embedding), GELU, SwiGLU, RMSNorm, Pytorch LLaMA 자연어 생성 모델 구현)
·
Study/NLP
- 이번 포스팅에서는 메타에서 개발한 LLM 모델인 LLaMA 에 대해 알아보겠습니다.OpenAI 의 GPT 시리즈와 같은 자연어 이해 및 생성, 요약, 번역 등 다양한 언어 처리 작업에 사용될 수 있는 Transformer 기반의 언어 모델로, OpenAI 와 GPT 가 아니더라도 LLM 을 연구 개발 할 수 있다는 것을 보여준 모델로써 의의가 있습니다.이전에 정리한 GPT 모델에 비해 어떤 점에서 차이가 있는지를 중점으로 파악하고 구현하겠습니다. (LLaMA 란?)- LLaMA 모델은 Meta 에서 개발한 대규모 언어 모델 시리즈입니다.본 게시글에서는 LLaMA 첫번째 모델인 LLaMA1 에 대해 설명드리며, 이후 LLaMA 최신 모델을 따로 정리할 것입니다. - LLaMA1 은 2023 년 2 월 ..
[딥러닝] ViT 모델 정리(BERT 기반 Image Encoder, Pytorch ViT 이미지 분류 모델 구현)
·
Study/NLP
- 이번 포스팅에서는 BERT 모델을 기반으로,자연어 의미가 아닌 이미지 의미를 추출하기 위해 만들어진 비전 인코더,즉 ViT(Vision Transformer) 를 알아보겠습니다.ViT 는 그 이름과 같이 이미지 의미를 보다 잘 추출하기 위하여 Transformer 의 Attention 개념을 Vision 분야에 적용시킨 것과 같습니다.BERT 의 입력값으로 이미지를 넣은 것이라고 생각해도 무방하다고 하며,그렇기에 기존의 BERT 설명 게시글을 읽고 오신다면 이해에 도움이 될 것입니다. (ViT 모델 설명)- ViT(Vision Transformer) 란, 2020 년 구글의 "An Image is Worth 16x16 Words: Transformers for Image Recognition at S..
[딥러닝] BERT 모델 정리(Encoder Only Transformer, Pytorch BERT 자연어 인코딩 모델 구현)
·
Study/NLP
- 이번 포스팅에서는 GPT 와 같이 Transformer 모델이라는 커다란 줄기에서 갈라져 나온 어텐션 기반 인코더인 BERT 를 알아보겠습니다.GPT 정리 게시글에서 그랬던 것 처럼 Transformer 정리 게시글을 기반으로 설명을 할 것이기에 먼저 Transformer 내용을 이해하시길 바랍니다. (BERT 란?)- BERT(Bidirectional Encoder Representations from Transformers) 란,구글이 2018 년 10 월 발표한 “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” 논문의 NLP 모델입니다. - Transformer 모델에서 갈라져 나온 인코더와 디코더..
[딥러닝] GPT 모델 정리(Decoder Only Transformer, Pytorch GPT-1 자연어 생성 모델 구현)
·
Study/NLP
- 이번 포스팅에서는 앞서 정리한 Transformer 모델에서 파생되어 만들어진 GPT 모델에 대해 정확히 이해하고 Pytorch 로 GPT-1 모델을 구현할 것입니다.앞서 트랜스포머 모델에서 설명했던 내용을 기반으로 설명을 하며, 그렇기에 트랜스포머 모델을 이해하신다면 이해하는 것이 어렵지 않을 것입니다.중복된 내용은 자세한 설명을 생략하겠습니다. - 본 게시글의 의의는,현재 LLM 분야에서 가장 앞서가고 있는 GPT 모델을 처음부터 이해하여 생성형 AI 를 직접 만들고 응용할 수 있는 능력을 기르는 것입니다. GPT 시리즈의 첫 모델의 내용뿐만이 아닌, 그 이후 GPT 모델들이 개선되고 발전한 흐름을 살펴보고 다음 공부 방향을 어떻게 정해야 하는지까지 알아보겠습니다. (GPT 란?)- GPT(Gen..