ReLU Family
·
ML & DL/기초 이론
ReLURectified Linear Unit$$ ReLU(x) = max(0,x) $$LeakyReLU$$ LeakyReLU_{\alpha} = max(\alpha x, x) $$GELUGaussian Error Linear Unit$$ GELU(x) = 0.5 \cdot x \cdot (1 + \tanh(\sqrt{2/\pi} \cdot (x + 0.044715 \cdot x^3))) $$PReLUParametric ReLU$$ PReLU(x) = \max(0, x) + a \cdot \min(0, x) $$ELUExponential Linear Unit$$ ELU_{\alpha} = \begin{cases} \alpha (\exp(x) - 1) & \text{if } x = 0 \end{cases}..
Transfer Learning & Knowledge distillation
·
ML & DL/기초 이론
Transfer Learning 이하 전이 학습이란, 한 데이터셋으로 사전 훈련된(pre-trained) 모델을 다른 데이터셋 혹은 다른 문제(Task)에 적용시켜 푸는 것을 의미한다. 특히 컴퓨터 비전(Computer Vision)의 분야에서 전이 학습으로 모델을 학습시키면 더 좋은 성능을 이끌어낼 수 있어 가장 많이 사용하는 방법 중 하나입니다. 왜냐하면, 전이 학습을 사용하지 않은 모델에 비해 비교적 빠르고, 정확한 성능을 이끌어내기 때문입니다. 이러한 아이디어는 한 데이터셋에서 모델은 다음 그림과 같이 다양한 이미지의 보편적인 특징(Feature)들을 학습하여, 다른 데이터셋에서도 이 보편적인 특징(Feature) 사용할 수 있는 경우가 많지 않을까? 라는 가정으로 접근했다고 합니다. 그러면 어떻..
Parameter Estimation (모수 추정), 가능도 (Likelihood), MLE (Maximum Likelihood Estimation)
·
ML & DL/기초 이론
Parameter Estimation 통계학에서 중요한 개념 중 하나로, 모집단을 분석하기에는 많은 비용이 발생하므로 부분(표본) 집단을 통해 모집단의 특성을 파악하는 것입니다. 모집단의 일부인 표본에 통계 분석 방법을 적용해 모수를 추정하는 방법을 모수 추정이라 한다. 모수란 모집단의 특성을 나타내는 수치로 평균, 분산, 상관계수 등이 있습니다. 일반적으로 모수 추정의 목적은 관측된 데이터의 실제 확률 분포 \(p(X|\theta)\)를 가장 잘 근사하는 수학적 모형을 찾는 것입니다. 이와 같이 근사화한 모델을 사용한 이유는 실제 데이터의 확률 분포 또는 모수를 정확히 알 수 없기 때문입니다. 따라서 임의의 확률 모형 \(p(x|\cdot)\)을 가정한 뒤, 이 모형이 데이터를 가장 잘 설명하는 모수를..
Probability Model(확률 모형), Random Variable(확률 변수)
·
ML & DL/기초 이론
Probability Model, 확률 모형 확률 모형은 어떤 사건이 발생할 가능성(확률)을 수학적으로 만든 방법입니다. 이는 확률 변수(random variable)라는 것을 이용하여 데이터 분포를 수학적으로 정의하는 방법라고도 합니다. 보통 미리 정해진 확률 분포 함수 또는 확률 밀도 함수를 사용하며, 이 함수들의 계수를 모수(parameter)라고 부릅니다. 모수(parameter)는 \(\theta\)라고 표기하기도 하며, 이는 확률 모형을 정의하는 데 중요한 역할을 하는 값으로 요약 통계량(Descriptive Measure)라고 부릅니다. 예를 들어 가장 널리 쓰이는 확률 모형의 하나인 가우시안 정규 분포(Gaussian normal distribution)는 다음과 같은 수식으로 확률 밀도 ..
Regularization: Overfitting을 해결하는 방법들
·
ML & DL/기초 이론
앞의 포스트에서 Overfitting과 Underfitting에 대해 설명하였습니다. 여기서 Overfitting이 발생하지 않도록 미리 예방하는 기법들이 다양하게 있는데 차례대로 설명하겠습니다. Regularization(정규화)을 설명하기 앞서, Normalization도 정규화라고 불리기 때문에 개념을 정확히 구분해야 합니다. Normalization은 데이터의 값을 조정하는 작업이며, Regularization은 모델의 복잡도를 조정하는 작업입니다. Regularization Regularization(정규화)은 모델에 제약(penalty)를 주어 복잡도를 줄이는 방법입니다. 모델의 복잡도는 모델이 가지는 파라미터의 수에 비례하며, Regularization은 이 파라미터의 값이 커지는 것을 제한..
Overfitting & Underfitting
·
ML & DL/기초 이론
Overfitting & Underfitting 우리가 모델을 학습할 때, 파라미터(parameter)를 수정(update)하여 학습 데이터에 맞는 모델을 만드는 것이 목표입니다. 즉 일반화(Generalization) 성능을 높이는 것을 목표로 합니다. 위 그림과 같이 Train Loss는 낮지만 Valid Loss는 커지고 있습니다. 이런 상황을 일반화 성능이 안좋다고 말하며, 당연히 Train Loss 자체가 낮아도 이 일반화 성능이 안좋다고 말합니다. 위 그림처럼 너무 많이 학습 데이터에만 집중하다 보면 훈련 데이터에는 잘 맞지만 새로운 데이터에는 맞지 않은 과적합(Overfitting)이 일어날 수 있습니다. 반대로, 모델이 너무 단순하거나 학습 데이터가 너무 작다면 학습 데이터를 제대로 설명하..
Gradient Descent & Optimizer(SGD, Momentum, Adagrad, RMSprop, Adam)
·
ML & DL/기초 이론
Gradient Descent 경사 하강법(Gradient Descent)은 함수의 기울기(Gradient)를 이용하여 비용 함수(Cost Function)의 최소값을 찾는 최적화(Optimize) 알고리즘입니다. 먼저, 함수의 최소값을 찾기 위해서는 미분을 통해 함수의 기울기를 구해야 합니다. 경사 하강법은 초기에 임의의 가중치(Weight)를 가지고 시작합니다. 이후 각 가중치에 대한 함수의 기울기(Gradient)를 계산하여 기울기가 작아지는 방향으로 가중치를 업데이트 합니다. 여기서 기울기가 작아지는 방향이란 함수의 기울기가 0인 지점(최소값)으로 가능 방향입니다. 이를 식으로 나타내면 다음과 같습니다. $$ w = w - \eta \frac{\partial loss}{\partial w} $$ ..
Neural Network & Linear Neural Networks & Multi Layer Perceptron
·
ML & DL/기초 이론
Artificial Neural Network 인공 신경망(Artificial Neural Network)는 생물학적 뇌의 동작 원리에서 영감을 받아 만들어진 기계학습 모델 중 하나입니다. 인공 신경망은 여러 개의 뉴런(Neuron)으로 구성되어 있으며, 입력값을 받아서 가중치(Weight)와 편향(Bias)을 곱한 값에 활성화 함수(Activation Function)를 적용하여 출력값을 내보내는 과정을 반복하여 학습합니다. 이렇게 여러 개의 뉴런들이 연결되어 있으며, 입력값이 들어왔을 때 연결된 뉴런들을 통과하며 결과를 출력하는 형태를 층(Layer)이라고 합니다. 일반적으로 인공 신경망은 입력층(Input layer), 은닉층(Hidden layer), 출력층(Output layer)로 구성되어 있..
욱근욱
'ML & DL/기초 이론' 카테고리의 글 목록