[MobileNet] Efficient Convolutional Neural Networks for Mobile Vision Applications
·
Paper Review
MobileNetMobileNet은 경량화에 집중하였습니다. 그 이유는 핸드폰이나 임베디드 시스템 같이 저용량 메모리환경에서 딥러닝을 사용하기 위해서입니다. MobileNet의 경량화 비결을 알기 위해선 Depthwise Separable Convolusion의 이해가 필요합니다.ArchitectureDepthwise Separable ConvolutionDepthwise Separable Convolution은 위 그림과 같이 Depthwise Convolution과 Pointwise Convolution의 두 개의 별도 단계로 분리하여 계산 효율성을 크게 향상시키는 기법입니다.Standard Convolution$$ D_K \cdot D_K \cdot M \cdot M \cdot D_F \cdot D..
[GAN] Generative Adversarial Nets
·
Paper Review
GAN History[paper]GAN (Generative Adversarial Nets)은 위와 같이 진짜와 동일해 보이는 이미지(노란색 박스)를 생성하는 모델입니다.2014년 arXive 논문 발표 이후, 다음 그림과 같이 후속 연구들이 계속해서 이어지고 있는 것을 확인할 수 있습니다. 이 포스트에선 GAN부터 시작하여 다양하게 발전한 GAN들을 하나씩 간단하게 살펴보기 위해 작성합니다.Original GANGAN은 서로 다른 두 개의 모델 Generator(생성기)와 Discriminator(판별기)를 적대적으로(Adversarial) 학습시키며 실제 데이터와 비슷한 데이터를 생성합니다. 생성기는 실제(Real) 데이터의 분포를 학습하여 비슷한(Fake) 데이터를 생성하는 모델이며, 판별기는 실제..
[SegNet] A Deep ConvolutionalEncoder-Decoder Architecture for ImageSegmentation
·
Paper Review
SegNet논문 저자는 도로를 달리면서 촬영한 영상(Road Scene)의 Semantic Segmentation을 수행하기 위해 모델은 조금 더 class에 대해 빠르고 정확하게 구분해야 한다고 말합니다. 이를 논문 저자는 다음과 같은 Architecture로 해결하였습니다. Architecture크게 Encoder와 Decoder로 나뉘는데 Encoder는 VGG16에서 FC Layer를 제외한 13개의 Layer를 사용하였고, Decoder는 Encoder를 뒤집은 구조로 볼 수 있습니다. DeConvNet 중간의 Conv, Deconv 를 제거하고 Deconvolution 대신 Convolution을 사용하였고, FC Layer를 제거하여 파라미터 수를 크게 줄였으며, 이로 인해 메모리의 효율성을..
[DeConvNet] Learning Deconvolution Network for Semantic Segmentation
·
Paper Review
DeConvNet앞서 설명한 FCN의 한계점으로, 큰 Object의 경우 전체가 아니라 일부분만 정답으로 예측하여 같은 Object여도 다른 Object로 예측하고 작은 Object의 경우 아예 무시하는 문제와 Object의 디테일한 모습이 사라지는 문제를 가지고 있습니다.논문의 저자는 이러한 문제를 고정된 Receptive Field와 단순한 Deconvolution(Transposed Convolution) 때문이라 하였고 이를 DeconvNet을 통해 해결하였습니다.ArchitectureDeconvNet의 구조는 크게 Convolution Network(Encoder)와 Deconvolution Network(Decoder) 부분으로 구성되어 있으며, 대칭적인 특징을 가지고 있습니다. Encoder..
[FCN] Fully Convolutional Networks for Semantic Segmentation
·
Paper Review
Semantic SegmentationSemantic Segmentation은 이미지 내에 있는 물체들을 의미 있는 단위로 분할하는 것입니다.더 정확하게는 다음 그림처럼, 이미지의 각 픽셀(Pixel)이 어느 클래스에 속하는지 예측하는 것입니다.FCN (Fully Convolution Netwroks)기존의 분류 문제에서 자주 쓰이는 모델인 AlexNet, VGGNet, GoogLeNet 들은 일반적으로 Convolution Layer와 Fully Connected Layer로 구성되어 있습니다.이러한 모델들은 Convolution Layer에서 Fully Connected를 통과하는 과정에서 모든 노드들이 서로 곱해진 후 더해지는 연결 때문에 이미지의 위치 정보를 잃어버리게 됩니다.또한 Dense La..
[Transformer] Attention Is All You Need (2)
·
Paper Review
Attention Is All You Need해당 글과 그림의 출처는 lllustrated Transformer과 lllustrated Transformer(번역)을 참고하였습니다.Positional Encoding을 이용해서 Sequence(시퀀스)의 순서 나타내기RNN이 자연어 처리에서 유용했던 이유는 단어의 위치에 따라 단어를 순차적으로 입력받아서 처리하는 RNN의 특성으로 인해 각 단어의 위치 정보(Position Information)를 가질 수 있다는 점에 있었습니다.하지만 Transformer 모델에서는 입력 문장에서 단어들의 순서에 대해서 고려하고 있지 않으므로 단어의 위치 정보를 다른 방식으로 알려줄 필요가 있습니다.  이를 위해서, Transformer 모델은 각각의 입력 embeddi..
[Transformer] Attention Is All You Need (1)
·
Paper Review
Attention Is All You Need해당 글과 그림의 출처는 lllustrated Transformer과 lllustrated Transformer(번역)을 참고하였습니다.이 글에서는 Attention을 활용한 모델인 Transformer에 대해 다룹니다. 우선 이 모델의 핵심을 정리한다면, multi-head self-attention을 이용해 sequential computation을 줄여 더 많은 부분을 병렬 처리가 가능하게 만들면서 동시에 더 많은 단어들 간 dependency를 모델링 한다는 것입니다. A High-Level Look전체적인 흐름을 먼저 살펴보겠습니다. 기계번역 모델은 특정 언어로 된 문장을 입력 받아 다른 언어로 번역한 문장을 출력합니다. 그 모델을 열어 보면, Enc..
[R-CNN] Rich feature hierarchies for accurate object detection and semantic segmentation 정리
·
Paper Review
R-CNN(Region proposals CNN) Rich feature hierarchies for accurate object detection and semantic segmentationObject detection performance, as measured on the canonical PASCAL VOC dataset, has plateaued in the last few years. The best-performing methods are complex ensemble systems that typically combine multiple low-level image features with high-level context. Iarxiv.orgAbstract본 논문에서는, 이전까지 최고의..
욱근욱
'Paper Review' 카테고리의 글 목록 (2 Page)