
[딥러닝] BLIP 논문 리뷰(이미지 캡셔닝, 비디오 내용 분석, 이미지 검색)
·
Study/Computer Vision
- 이번 포스팅에서는 CLIP 을 기반으로 발전한 이미지 내용 분석 및 자연어 생성 멀티 모달 모델인 BLIP 의 논문을 정리하겠습니다. 앞서 리뷰한 CoCa 모델에서 CLIP 을 기반으로 하여 이미지 캡셔닝, 비디오 내용 분석에 대한 새로운 접근 방식과 성능 향상 방법론을 배웠는데, BLIP 에서 발전한 BLIP-2 는 그보다 성능이 좋은 모델로 평가되므로 이전에 정리한 내용을 기반으로 어떤 방식으로 성능을 향상시켰는지를 파악할 수 있을 것입니다. [BLIP]- 논문 : BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (2022, salesforce) (서론)- V..