Loading [MathJax]/jax/output/CommonHTML/jax.js
[DiPE-Linear] Disentangled Interpretable Representation for Efficient Long-term Time Series Forecasting
·
Paper Review
[Paper] [Github] 이 논문은 장기 시계열 예측(Long-term Time Series Forecasting, LTSF)을 위한 효율적이고 해석 가능한 DiPE-Linear(Disentangled interpretable-Parameter-Efficient Linear network)를 제안합니다. Introduction딥러닝 모델들은 높은 정확도를 제공하지만, 블랙박스(Black Box) 특성으로 인해 사용자 신뢰를 떨어뜨립니다.또한, 기존의 시계열 예측 방법(또는 기법)들은 다음과 같은 한계점을 가지고 있습니다.RNN : 병렬화가 어렵습니다.CNN : 높은 계산 비용을 요구합니다.Transformer : 여러 개선에도 불구하고 많은 수의 파라미터를 가지, 긴 입력 시퀀스에 쉽게 과적합됩니다..
[LTSF-Linear] / [DLinear, NLinear] Are Transformers Effective for Time Series Forecasting ?
·
Paper Review
[paper] [paper2] [Github] Transformer 기반 시계열 예측 모델의 문제점LTSF(Long-term Time Series Forecasting) 분야에서 Transformer 구조를 적용한 모델이 큰 주목을 받으면서 해당 논문 저자들은 다음과 같은 가설들로 "Transformer는 정말 시계열 예측 문제에서 효과적일까?" 하는 근본적인 의문을 가졌습니다. 그리고 여러 실험을 통해 Transformer 기반 모델들의 성능이 다소 과장되었다고 판단했습니다.1. 순서 정보의 상실LTSF에서 시간의 순서 정보는 예측에 있어 매우 중요합니다. Transformer는 이 순서 정보를 보존하기 위해 포지셔널 인코딩(Position Encoding) 같은 기법이 있지만, Self-Attenti..
[DETR] End-to-End Object Detection with Transformers
·
Paper Review
DETRViT는 Transformer 구조를 활용하여, Classification을 수행하였습니다. 그럼, Object Detection은 어떻게 할까요 ?바로 DETR (End-to-End Object Detection with Transformers) 논문을 통해 해결 방법을 확인할 수 있습니다.DETR은 end-to-end로 object detection을 수행하면서 높은 성능을 보입니다. AbstractObject Detection을 direct set prediction problem(직접적인 집합 예측 문제)로 보는 방법을 제시NMS와 같이 후처리, anchor generation 같이 사전 정의해야하는 pipeline을 제거Bi-partite Matching(이분매칭)과 Transformer..
[YOLO v3] An Imcremental Improvement
·
Paper Review
YOLO v3YOLO v3는 기존의 YOLO에서 최신 기법들을 적용하여 성능을 개선한 모델입니다. 세부적으로, Loss 측정 방법, Feature 추출 방법 등에서의 차이를 중점적으로 다룹니다. YOLO v3는 IoU threshold 50%를 기준으로 측정했을 때 기존 SOTA들보다 성능이 우수하고 작은 객체에 대한 성능이 개선되었습니다. 하지만, 높은 IoU와 큰 물체에서 성능이 떨어지는 한계를 가지기도 합니다. YOLO와 YOLO v3의 차이Bounding Box PredictionYOLO v2에서는 예측한 bounding box ttx,ty,tw,th를 구하고, 적절한 수식을 통해 bbx,by,bw,bh으로 변경한 후 L2 Loss를 통..
[YOLO v2] YOLO9000: Better, Faster, Stronger
·
Paper Review
YOLO v2YOLO v1은 1 stage object detector로 빠른 처리 속도를 가지지만, 2 stage object detector 보다 성능이 떨어진다는 한계가 존재했습니다. SSD는 이미지의 크기를 300x300으로 학습 시켰을 경우 처리 속도가 빠르지만 정확도가 낮으며 512x512로 학습시켰을 경우 정확도가 높가지만 처리 속도가 느린 trade off 관계를 가집니다. YOLO v2는 이를 개선하여 성능이 좋으면서 속도도 빠르도록 다양한 아이디어를 도입했습니다. 또한, Object Detection 데이터셋과 Classification 데이터셋을 합쳐 9000개 이상의 클래스를 탐지할 수 있는 YOLO 9000 모델도 제안합니다. 본 논문은 다음과 같이 3개의 파트로 구성되어 있습니다..
[SSD] Single Shot MultiBox Detector
·
Paper Review
SSDR-CNN 계열의 2 stage detector는 region proposals와 같은 다양한 시각을 모델에 제공하여 높은 정확도를 제공합니다. 하지만, region proposals을 사용하여 물체가 있을 법한 위치를 찾아내고 CNN을 통과하여 feature extraction 하는 과정은 시간이 많이 소비되어 느리다는 큰 단점을 가지고 있습니다. 반면, YOLO v1은 원본 이미지 전체를 통합된 네트워크로 처리하기 때문에 처리 속도가 매우 빠르다는 장점을 가지고 있지만, 각 grid 별로 2개의 bounding box만 선택하여 상대적으로 적은 시각을 제공하기 때문에 정확도가 떨어지는 단점을 가지고 있습니다. 이처럼 일반적으로 정확도와 속도는 trade-off 관계에 있지만, SSD에서는 다양한..
[YOLO v1] You Only Look Once: Unified, Real-Time Object Detection
·
Paper Review
YOLO v1해당 논문이 발표되기 이전에는 2 stage object detection 방법이 일반적이였습니다. 2 stage object detection은 각각의 stage를 순차적으로 처리하기 때문에 속도가 느리다는 단점이 있었습니다. YOLO v1은 이를 통합한 1 stage object detection 방법을 제안하며 더욱 빠른 처리 속도를 제공합니다.Preview2 stage object detectionYOLO v1이 나오기 이전 R-CNN과 같은 기존의 object detection 모델은 2 stage로 동작했습니다.첫 번째로, 입력 이미지를 Region Proposal 과정을 거쳐 "물체가 있을 법한" 위치를 찾아냅니다.두 번째로, 찾아낸 이미지들을 CNN에 넣어 Feature를 추출..
[ViT] Vision Transformer, AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
·
Paper Review
ViT (Vision Transformer)Transformer 구조는 NLP 분야에서 놀라운 성과를 보이며 사실상 표준으로 사용하고 있습니다.이에 따라 CV 분야에서도 Transformer를 적용하려는 시도는 있었지만, 여전히 CNN 기반 모델들에 비해 성능이 떨어졌습니다. (Stand Alone Self Attention)하지만, ViT는 새로운 접근 방식으로 이를 극복하고 CV분야에 성공적으로 적용시켰습니다. ArchitectureViT의 전체적인 구조는 위 그림과 같습니다. 그림의 아래 부분의 입력 이미지를 Encoder에 넣어주기 전에 Transformer가 연산할 수 있도록 데이터를 변화해주는 작업( Input Embedding)을 진행합니다. Embedding 된 이미지는 Encoder에 들..
욱근욱