[EfficientNet] Rethinking Model Scaling for Convolutional Neural Networks
·
Paper Review
EfficientNetAbstract이 논문에서는 네트워크의 깊이(Depth), 너비(Width), 이미지의 해상도(Resolution)을 "균형있게" 조절(Scaling)하면 성능이 향상된다는 것을 파악했습니다.깊이, 너비, 해상도를 compound coefficient를 사용하여 균일하게 확장하는 새로운 스케일링 방법을 제시하였고, 이를 사용하여 훨씬 적은 파라미터로 뛰어난 정확도와 효율성을 달성하였습니다. Introduction기존의 Convolution Network들은 일반적으로 깊이, 너비, 이미지의 해상도 중 하나만 스케일링하여 성능을 개선했습니다.논문의 저자는 네트워크의 너비, 깊이, 이미지의 해상도를 균형있게 일정한 비율로 조정한다면 높은 성능을 낼 수 있다는 것을 파악했습니다. 따라서,..
[SENet] Squeeze and Excitation Networks
·
Paper Review
SENet기존의 네트워크들은 깊이(Depth)를 늘리거나 층(Layer)의 관계를 수정하여 성능을 끌어올리는 방법을 생각했습니다.SENet은 채널 간의 상호작용(Channel Relationship)에 초점을 맞추어 성능을 끌어올린 모델입니다. 즉, 채널 간의 특징을 파악하고 채널 사이의 상호 종속 특징들을 명시적으로 모델링하면서 그에 맞게 재조정하는 과정을 거칩니다.이를 위해 새로운 형태의 Architecture Unit인 SE Block을 이 논문에서 소개합니다.SE BlockSE Block은 Squeeze와 Excitation으로 크게 2단계를 거쳐 채널 간의 상호작용을 고려하게 됩니다.Squeeze는 "짜내다"라는 뜻으로 많은 양의 정보를 압축하는 의미가 있으며, 논문에서는 Global Infor..
[MobileNet] Efficient Convolutional Neural Networks for Mobile Vision Applications
·
Paper Review
MobileNetMobileNet은 경량화에 집중하였습니다. 그 이유는 핸드폰이나 임베디드 시스템 같이 저용량 메모리환경에서 딥러닝을 사용하기 위해서입니다. MobileNet의 경량화 비결을 알기 위해선 Depthwise Separable Convolusion의 이해가 필요합니다.ArchitectureDepthwise Separable ConvolutionDepthwise Separable Convolution은 위 그림과 같이 Depthwise Convolution과 Pointwise Convolution의 두 개의 별도 단계로 분리하여 계산 효율성을 크게 향상시키는 기법입니다.Standard Convolution$$ D_K \cdot D_K \cdot M \cdot M \cdot D_F \cdot D..
[GAN] Generative Adversarial Nets
·
Paper Review
GAN History[paper]GAN (Generative Adversarial Nets)은 위와 같이 진짜와 동일해 보이는 이미지(노란색 박스)를 생성하는 모델입니다.2014년 arXive 논문 발표 이후, 다음 그림과 같이 후속 연구들이 계속해서 이어지고 있는 것을 확인할 수 있습니다. 이 포스트에선 GAN부터 시작하여 다양하게 발전한 GAN들을 하나씩 간단하게 살펴보기 위해 작성합니다.Original GANGAN은 서로 다른 두 개의 모델 Generator(생성기)와 Discriminator(판별기)를 적대적으로(Adversarial) 학습시키며 실제 데이터와 비슷한 데이터를 생성합니다. 생성기는 실제(Real) 데이터의 분포를 학습하여 비슷한(Fake) 데이터를 생성하는 모델이며, 판별기는 실제..
[SegNet] A Deep ConvolutionalEncoder-Decoder Architecture for ImageSegmentation
·
Paper Review
SegNet논문 저자는 도로를 달리면서 촬영한 영상(Road Scene)의 Semantic Segmentation을 수행하기 위해 모델은 조금 더 class에 대해 빠르고 정확하게 구분해야 한다고 말합니다. 이를 논문 저자는 다음과 같은 Architecture로 해결하였습니다. Architecture크게 Encoder와 Decoder로 나뉘는데 Encoder는 VGG16에서 FC Layer를 제외한 13개의 Layer를 사용하였고, Decoder는 Encoder를 뒤집은 구조로 볼 수 있습니다. DeConvNet 중간의 Conv, Deconv 를 제거하고 Deconvolution 대신 Convolution을 사용하였고, FC Layer를 제거하여 파라미터 수를 크게 줄였으며, 이로 인해 메모리의 효율성을..
[DeConvNet] Learning Deconvolution Network for Semantic Segmentation
·
Paper Review
DeConvNet앞서 설명한 FCN의 한계점으로, 큰 Object의 경우 전체가 아니라 일부분만 정답으로 예측하여 같은 Object여도 다른 Object로 예측하고 작은 Object의 경우 아예 무시하는 문제와 Object의 디테일한 모습이 사라지는 문제를 가지고 있습니다.논문의 저자는 이러한 문제를 고정된 Receptive Field와 단순한 Deconvolution(Transposed Convolution) 때문이라 하였고 이를 DeconvNet을 통해 해결하였습니다.ArchitectureDeconvNet의 구조는 크게 Convolution Network(Encoder)와 Deconvolution Network(Decoder) 부분으로 구성되어 있으며, 대칭적인 특징을 가지고 있습니다. Encoder..
[FCN] Fully Convolutional Networks for Semantic Segmentation
·
Paper Review
Semantic SegmentationSemantic Segmentation은 이미지 내에 있는 물체들을 의미 있는 단위로 분할하는 것입니다.더 정확하게는 다음 그림처럼, 이미지의 각 픽셀(Pixel)이 어느 클래스에 속하는지 예측하는 것입니다.FCN (Fully Convolution Netwroks)기존의 분류 문제에서 자주 쓰이는 모델인 AlexNet, VGGNet, GoogLeNet 들은 일반적으로 Convolution Layer와 Fully Connected Layer로 구성되어 있습니다.이러한 모델들은 Convolution Layer에서 Fully Connected를 통과하는 과정에서 모든 노드들이 서로 곱해진 후 더해지는 연결 때문에 이미지의 위치 정보를 잃어버리게 됩니다.또한 Dense La..
[Transformer] Attention Is All You Need (2)
·
Paper Review
Attention Is All You Need해당 글과 그림의 출처는 lllustrated Transformer과 lllustrated Transformer(번역)을 참고하였습니다.Positional Encoding을 이용해서 Sequence(시퀀스)의 순서 나타내기RNN이 자연어 처리에서 유용했던 이유는 단어의 위치에 따라 단어를 순차적으로 입력받아서 처리하는 RNN의 특성으로 인해 각 단어의 위치 정보(Position Information)를 가질 수 있다는 점에 있었습니다.하지만 Transformer 모델에서는 입력 문장에서 단어들의 순서에 대해서 고려하고 있지 않으므로 단어의 위치 정보를 다른 방식으로 알려줄 필요가 있습니다.  이를 위해서, Transformer 모델은 각각의 입력 embeddi..
욱근욱