[DETR] End-to-End Object Detection with Transformers
·
Paper Review
DETRViT는 Transformer 구조를 활용하여, Classification을 수행하였습니다. 그럼, Object Detection은 어떻게 할까요 ?바로 DETR (End-to-End Object Detection with Transformers) 논문을 통해 해결 방법을 확인할 수 있습니다.DETR은 end-to-end로 object detection을 수행하면서 높은 성능을 보입니다. AbstractObject Detection을 direct set prediction problem(직접적인 집합 예측 문제)로 보는 방법을 제시NMS와 같이 후처리, anchor generation 같이 사전 정의해야하는 pipeline을 제거Bi-partite Matching(이분매칭)과 Transformer..
[YOLO v3] An Imcremental Improvement
·
Paper Review
YOLO v3YOLO v3는 기존의 YOLO에서 최신 기법들을 적용하여 성능을 개선한 모델입니다. 세부적으로, Loss 측정 방법, Feature 추출 방법 등에서의 차이를 중점적으로 다룹니다. YOLO v3는 IoU threshold 50%를 기준으로 측정했을 때 기존 SOTA들보다 성능이 우수하고 작은 객체에 대한 성능이 개선되었습니다. 하지만, 높은 IoU와 큰 물체에서 성능이 떨어지는 한계를 가지기도 합니다. YOLO와 YOLO v3의 차이Bounding Box PredictionYOLO v2에서는 예측한 bounding box \(t\)값 \(t_x, t_y, t_w, t_h\)를 구하고, 적절한 수식을 통해 \(b\)값 \(b_x, b_y, b_w, b_h\)으로 변경한 후 L2 Loss를 통..
[YOLO v2] YOLO9000: Better, Faster, Stronger
·
Paper Review
YOLO v2YOLO v1은 1 stage object detector로 빠른 처리 속도를 가지지만, 2 stage object detector 보다 성능이 떨어진다는 한계가 존재했습니다. SSD는 이미지의 크기를 300x300으로 학습 시켰을 경우 처리 속도가 빠르지만 정확도가 낮으며 512x512로 학습시켰을 경우 정확도가 높가지만 처리 속도가 느린 trade off 관계를 가집니다. YOLO v2는 이를 개선하여 성능이 좋으면서 속도도 빠르도록 다양한 아이디어를 도입했습니다. 또한, Object Detection 데이터셋과 Classification 데이터셋을 합쳐 9000개 이상의 클래스를 탐지할 수 있는 YOLO 9000 모델도 제안합니다. 본 논문은 다음과 같이 3개의 파트로 구성되어 있습니다..
[SSD] Single Shot MultiBox Detector
·
Paper Review
SSDR-CNN 계열의 2 stage detector는 region proposals와 같은 다양한 시각을 모델에 제공하여 높은 정확도를 제공합니다. 하지만, region proposals을 사용하여 물체가 있을 법한 위치를 찾아내고 CNN을 통과하여 feature extraction 하는 과정은 시간이 많이 소비되어 느리다는 큰 단점을 가지고 있습니다. 반면, YOLO v1은 원본 이미지 전체를 통합된 네트워크로 처리하기 때문에 처리 속도가 매우 빠르다는 장점을 가지고 있지만, 각 grid 별로 2개의 bounding box만 선택하여 상대적으로 적은 시각을 제공하기 때문에 정확도가 떨어지는 단점을 가지고 있습니다. 이처럼 일반적으로 정확도와 속도는 trade-off 관계에 있지만, SSD에서는 다양한..
[YOLO v1] You Only Look Once: Unified, Real-Time Object Detection
·
Paper Review
YOLO v1해당 논문이 발표되기 이전에는 2 stage object detection 방법이 일반적이였습니다. 2 stage object detection은 각각의 stage를 순차적으로 처리하기 때문에 속도가 느리다는 단점이 있었습니다. YOLO v1은 이를 통합한 1 stage object detection 방법을 제안하며 더욱 빠른 처리 속도를 제공합니다.Preview2 stage object detectionYOLO v1이 나오기 이전 R-CNN과 같은 기존의 object detection 모델은 2 stage로 동작했습니다.첫 번째로, 입력 이미지를 Region Proposal 과정을 거쳐 "물체가 있을 법한" 위치를 찾아냅니다.두 번째로, 찾아낸 이미지들을 CNN에 넣어 Feature를 추출..
[ViT] Vision Transformer, AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
·
Paper Review
ViT (Vision Transformer)Transformer 구조는 NLP 분야에서 놀라운 성과를 보이며 사실상 표준으로 사용하고 있습니다.이에 따라 CV 분야에서도 Transformer를 적용하려는 시도는 있었지만, 여전히 CNN 기반 모델들에 비해 성능이 떨어졌습니다. (Stand Alone Self Attention)하지만, ViT는 새로운 접근 방식으로 이를 극복하고 CV분야에 성공적으로 적용시켰습니다. ArchitectureViT의 전체적인 구조는 위 그림과 같습니다. 그림의 아래 부분의 입력 이미지를 Encoder에 넣어주기 전에 Transformer가 연산할 수 있도록 데이터를 변화해주는 작업( Input Embedding)을 진행합니다. Embedding 된 이미지는 Encoder에 들..
[EfficientNet] Rethinking Model Scaling for Convolutional Neural Networks
·
Paper Review
EfficientNetAbstract이 논문에서는 네트워크의 깊이(Depth), 너비(Width), 이미지의 해상도(Resolution)을 "균형있게" 조절(Scaling)하면 성능이 향상된다는 것을 파악했습니다.깊이, 너비, 해상도를 compound coefficient를 사용하여 균일하게 확장하는 새로운 스케일링 방법을 제시하였고, 이를 사용하여 훨씬 적은 파라미터로 뛰어난 정확도와 효율성을 달성하였습니다. Introduction기존의 Convolution Network들은 일반적으로 깊이, 너비, 이미지의 해상도 중 하나만 스케일링하여 성능을 개선했습니다.논문의 저자는 네트워크의 너비, 깊이, 이미지의 해상도를 균형있게 일정한 비율로 조정한다면 높은 성능을 낼 수 있다는 것을 파악했습니다. 따라서,..
[SENet] Squeeze and Excitation Networks
·
Paper Review
SENet기존의 네트워크들은 깊이(Depth)를 늘리거나 층(Layer)의 관계를 수정하여 성능을 끌어올리는 방법을 생각했습니다.SENet은 채널 간의 상호작용(Channel Relationship)에 초점을 맞추어 성능을 끌어올린 모델입니다. 즉, 채널 간의 특징을 파악하고 채널 사이의 상호 종속 특징들을 명시적으로 모델링하면서 그에 맞게 재조정하는 과정을 거칩니다.이를 위해 새로운 형태의 Architecture Unit인 SE Block을 이 논문에서 소개합니다.SE BlockSE Block은 Squeeze와 Excitation으로 크게 2단계를 거쳐 채널 간의 상호작용을 고려하게 됩니다.Squeeze는 "짜내다"라는 뜻으로 많은 양의 정보를 압축하는 의미가 있으며, 논문에서는 Global Infor..
욱근욱
'Paper Review' 카테고리의 글 목록