[딥러닝] 이미지 특징 추출 CNN 모델 기법 정리
·
Study/Computer Vision
- 이번 포스팅에서는 이미지에서 특징을 추출하여 고유한 패턴의 벡터를 반환하는 CNN 백본 모델에서 적용되는 기법들 중,현 시점 효과가 입증된 것들을 위주로, 논문 리뷰를 통째로 하기에는 내용이 짧은 것들을 한꺼번에 정리하겠습니다. (Spatial Dropout)- 논문 : Efficient Object Localization Using Convolutional Networks 2014- 딥러닝의 Dropout 은 과적합(Overfitting) 을 방지하기 위한 정규화 기법입니다.딥러닝은 주어지는 데이터와 목적이 되는 손실함수에 따라 자동으로 파라미터가 학습이 되는 머신러닝 알고리즘이니만큼, 주어진 목적에만 맞다면 비효율적으로 파라미터가 결정되기도 합니다. 예를들어 예전에 정리한 AutoEncoder 게..
[딥러닝] YOLO 시리즈 정리 v2~v4 (Word Tree, Feature Pyramid Network (FPN), PANet (Path Aggregation Network), SPP (Spatial Pyramid Pooling))
·
Study/Computer Vision
- 이번 포스팅에서는 앞서 정리한 YOLO v1 모델에 대한 기반 지식을 가지고, 그 개선 버전인 v2 에서 v4 까지를 정리하겠습니다.아시다시피 YOLO 모델은 객체 탐지 분야를 거의 독점하고 있으며, 버전도 굉장히 많습니다.현 시점 v12 까지 나와서 굉장한 성능을 보여주고 있는데, 버전이 많은 만큼 모든 버전을 전부 정리하는 것은 비효율적이기에, 비슷한 버전끼리는 묶어서 진행해 나가려고 합니다. 저는 아래와 같은 분류로 하여 최신 모델까지를 숏컷으로 진행할 것입니다. 1. YOLO 기초 구조 개선 단계v1~v3 : Grid 기반 단일 패스 탐지 구조 고도화v4 : SPP, Mosaic 등의 추가 구성요소로 효율 증가 2. 원작자 라인이 아닌 모델 발전 시작, C/CUDA 기반 darknet 프레임워..
[딥러닝] YOLO v1 정리 (1-stage 객체 탐지)
·
Study/Computer Vision
- 이번 포스팅에서는 객체 탐지 기술 범주의 Faster R-CNN 에서 바로 넘어가 YOLO 시리즈의 첫번째 모델을 정리하겠습니다.현 시점 최고 정확도, 최고 속도의 객체 탐지 모델은 YOLO 시리즈가 장악했으며, Image Segment 영역에 있어서도 YOLO 모델이 강세를 띄고 있는 만큼, 이번 정리글을 기반으로 YOLO 모델의 뼈대를 이해하고, 최신 모델(현재 v12 까지 나왔습니다.)까지 빠르게 진행해나갈 예정입니다. (YOLO 설명)- YOLO 모델은 Joseph Redmon 이 2016 년에 제안(v1)한 논문 "You Only Look Once: Unified, Real-Time Object Detection" 를 기반으로 하는 1-stage 구조의 객체 탐지 모델입니다.앞서 설명한 Fa..
[딥러닝] 딥러닝 객체 탐지 모델 R-CNN 시리즈 총정리 (R-CNN, Fast R-CNN, Faster R-CNN)
·
Study/Computer Vision
- 이번 포스팅에서는 딥러닝을 이용한 객체 탐지 모델인 R-CNN 시리즈에 대해 알아보겠습니다.오래된 기술이지만 컴퓨터 비전 분야의 발전 역사상 의미가 깊은 모델이며, 딥러닝 기반 객체 탐지 모델의 시초이므로 제대로 정리하고 넘어가려고 합니다. - 객체 탐지란,이미지 내에서 어떠한 객체의 위치를 파악하는 무척이나 활용도가 높은 기능입니다. 사람의 경우 시각 정보에서 가장 중요하고 빈번하게 사용하는 기능으로,여러 분야의 자동화 및 자율 동작 로봇을 구현하는 데에 있어 첫번째의 과제이기도 하죠. 일반적으로 의미하는 객체 탐지는, 어떠한 모델 f 에 시각 이미지 x 를 넣으면, 해당 이미지 내의 객체의 위치가 4개의 직사각형 좌표로 나오는 것을 의미하며, 그것을 넘어 객체의 윤곽을 전부 탐지하는 기술은 객체탐..
[딥러닝] U-Net 정리 (Skip-Connection Image Segmentation)
·
Study/Computer Vision
- 이번 포스팅에서는 DeepLearning CNN 레이어 기반의 Image Segmentation 모델인 U-Net 을 정리하겠습니다.U-Net 은 동일한 CNN 기반 Image Segmentation 모델인 FCN 에서 발전한 모델로,최신 Segmentation 모델 및 Stable Diffusion 이미지 생성 모델에서도 응용될 정도로 중요한 기술입니다. U-Net 은 2015 년 발표된 U-Net: Convolutional Networks for Biomedical Image Segmentation 논문을 기반으로 두고 있으며,의료 영상 분석에서의 성능 향상을 위한 목적으로 탄생했습니다. - 본 게시글을 이해하기 위해선 이전에 정리한 FCN 모델 정리글을 참고하세요. (U-Net 설명)- U-Ne..
[딥러닝] FCN(Fully Convolutional Networks) 정리 (Image Segmentation, DeConvolution, Skip Connections)
·
Study/Computer Vision
- 이번 포스팅에서는 딥러닝 CNN 기반의 Image Segmentation 모델인 FCN 을 정리하겠습니다.FCN 은 Sementic Segmentation 기술을 이해하기 위한 기본적이고 핵심적인 출발점입니다. - Image Segmentation 기술은,객체의 위치를 4개의 좌표로 표시하는 객체 탐지보다 더 세밀하게, 객체를 전체 이미지에서 분리하는 기술이며,산업적으로는 이미지 편집 분야, 자율주행, 위성 영상 분석, 의료 영상 분석 분야 등에서 중요하게 사용되는 기술입니다. 해당 범주의 최신 기술들을 이해하여 응용하고 연구하고 개발할 수 있도록, 가장 기본이 되는 FCN 을 먼저 이해해 보겠습니다. - 현 시점 추가 공부 및 정리 순서는U-Net -> DeepLab -> Mask R-CNN -> ..
[딥러닝] AutoEncoder & Variational AutoEncoder 정리
·
Study/Data Science
(AutoEncoder)- AE란, 입력 데이터를 압축(인코딩) 한 후, 다시 원래대로 복원(디코딩) 하도록 학습하는 비지도 학습 신경망을 뜻합니다.다른 지도 학습 모델과는 달리, 입력 데이터를 그대로 정답 데이터로 사용하기에 따로 정답 레이블링을 할 필요가 없는 비지도 학습 모델이죠. - AutoEncoder 의 구조는,이미지 출처 이렇습니다. 딥러닝을 아시는 분이라면 더이상 설명할 필요도 없을만큼 간단한 구조로,입력 이미지를 받아서 점차 작은 벡터로 줄여나가는 부분을 Encoder 라고 하고,인코더에서 인코딩되어 축약된 중간 벡터 부분을 Latent Vector 라고 하며,Latent Vector 를 기반으로 원본 이미지를 복원하는 부분을 Decoder 라고 합니다. - AutoEncoder 의 의미..
[딥러닝] SigLIP(Sigmoid Loss for Image-Text Pretraining) 모델 정리 (ViT 이미지 인코더 백본)
·
Study/Computer Vision
- 이번 포스팅에서는 DeepSeek-VL2 모델에서 사용한 이미지 인코더 모듈의 Backbone 으로 사용된 siglip_so400m_384 에 대해 정리할 것입니다.앞서 DeepSeek-VL2 모델 정리글에서는,class SigLIPVisionEncoder(nn.Module): def __init__(self, pretrained_model_name: str = "openai/siglip-so400m-384"): super().__init__() from transformers import CLIPVisionModel self.model = CLIPVisionModel.from_pretrained(pretrained_model_name) def forw..
[딥러닝] DeepSeek-VL2 모델 정리(멀티 모달, Dynamic Tiling Vision Encoding 미세 이미지 인식 강화 기법, VLAdaptor)
·
Study/NLP
- 이번 포스팅에서는 현 시점 오픈소스 멀티 모달 LLM 모델중 최고 성능을 가지고 있으며, GPT-4o 모델보다 벤치마크 성능이 높게 나왔던 DeepSeek-VL2 모델에 대해 정리하겠습니다. 이전에 정리한 멀티모달 모델 설명글인 LLaVA 모델 설명글에서 설명했듯, 멀티 모달이라고 하더라도 특별한 것은 없으며, LLM 모델에 더하여 이미지 인코딩 모델이 앞쪽에 추가된 형태이므로,DeepSeek-VL2 의 LLM 기반 모델(Backbone 이라 하겠습니다.)인 DeepSeek-V3 내용은 되도록 생략하고,이미지 인코더 쪽의 백본과 그 연결 방식을 중점적으로 살펴보겠습니다. 논문 링크(DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advance..
[딥러닝] LLaVA 모델 정리(멀티 모달 LLM, LLaMA + CLIP(Contrastive Language–Image Pretraining)-ViT)
·
Study/NLP
- 이번 포스팅에서는 멀티 모달 LLaVA (Large Language and Vision Assistant) 모델을 정리하겠습니다.이전 게시글에서 Langchain 으로 사용해 보았던 바로 그 모델인데, 이번에는 단순한 모델의 사용 방법이 아닌 멀티 모달 LLM 모델의 내부 구조에서 원리까지를 자세히 다루어볼 것입니다. - 현 시점 오픈소스 최고 성능 모델은 2024 년 12월에 출시된 DeepSeek-VL2 모델입니다.제가 굳이 2023 년 4 월에 출시된 LLaVA 모델을 리뷰하는 이유는, LLaVA 모델이 기존에 제가 정리한 LLaMA 모델을 기반으로 나온 모델이며, GPT-4o 에 필적하는 DeepSeek-VL2 모델이 기존 멀티 모달 모델과 어떠한 차이점으로 성능을 높인 것인지에 대해 비교하며..