
[딥러닝] DeepSeek-VL2 모델 정리(멀티 모달, Dynamic Tiling Vision Encoding 미세 이미지 인식 강화 기법, VLAdaptor)
·
Study/NLP
- 이번 포스팅에서는 현 시점 오픈소스 멀티 모달 LLM 모델중 최고 성능을 가지고 있으며, GPT-4o 모델보다 벤치마크 성능이 높게 나왔던 DeepSeek-VL2 모델에 대해 정리하겠습니다. 이전에 정리한 멀티모달 모델 설명글인 LLaVA 모델 설명글에서 설명했듯, 멀티 모달이라고 하더라도 특별한 것은 없으며, LLM 모델에 더하여 이미지 인코딩 모델이 앞쪽에 추가된 형태이므로,DeepSeek-VL2 의 LLM 기반 모델(Backbone 이라 하겠습니다.)인 DeepSeek-V3 내용은 되도록 생략하고,이미지 인코더 쪽의 백본과 그 연결 방식을 중점적으로 살펴보겠습니다. 논문 링크(DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advance..