Parameter Estimation
통계학에서 중요한 개념 중 하나로, 모집단을 분석하기에는 많은 비용이 발생하므로 부분(표본) 집단을 통해 모집단의 특성을 파악하는 것입니다. 모집단의 일부인 표본에 통계 분석 방법을 적용해 모수를 추정하는 방법을 모수 추정이라 한다.
모수란 모집단의 특성을 나타내는 수치로 평균, 분산, 상관계수 등이 있습니다.
일반적으로 모수 추정의 목적은 관측된 데이터의 실제 확률 분포 \(p(X|\theta)\)를 가장 잘 근사하는 수학적 모형을 찾는 것입니다. 이와 같이 근사화한 모델을 사용한 이유는 실제 데이터의 확률 분포 또는 모수를 정확히 알 수 없기 때문입니다.
따라서 임의의 확률 모형 \(p(x|\cdot)\)을 가정한 뒤, 이 모형이 데이터를 가장 잘 설명하는 모수를 찾는 과정을 모수 추정이라 말합니다.
Likelihood
가능도(Likelihood)를 이해하기 위해 확률과 비교하며 함께 이해한다. (서로 반대되는 개념이기 때문에)
즉, 확률이란 모수를 알고 있는 상태에서 표분이 관찰될 가능성을 의미하고, 모수를 알고 있다는 것은 확률 분포가 결정되어 있는 상태라고 할 수 있다. 반면 가능도는 모수를 모르는 상태 즉, 확률 분포를 모르틑 상태에서 관측한 표본이 나타날 가능성에 기반해 모수 추정(확률 분포 추정)을 진행한다. 정리하자면, 가능도는 표본을 관측해 이 표본들이 어떤 확률분포를 갖는 모집단에서 추출되었는지를 역으로 찾는 것을 의미한다.
가능도의 필요성
가능도(우도)란 한 마디로 추출된 표본으로부터 어떤 분포를 가진 확률 밀도함수의 y값을 구해 모두 곱해준 값을 의미합니다. 다른 의미로 가능도는 관측된 표본이 어떤 분포로부터 나왔을지를 수치로 푠현한 것을 말합니다.
만약 모수로부터 추출된 표본이 [1, 4, 5, 6, 9]가 있고, 모수의 후보인 주황색 확률 밀도 함수와, 파란색 확률 밀도 함수 중 어떤 것이 더 모수와 가깝다고 추정할 수 있을까요 ? 바로 중황색 확률 밀도 함수입니다. 이를 수치적으로 계산하기 위해서는 각 후보 확률 밀도 함수를 대상으로 각 표본을 전부 넣고 해당 확률 밀도 함수의 y값인 기여도를 구해 모두 곱해줍니다. 이렇게 기여도를 모두 곱하면 likelihood 값이 됩니다. 이때 이 likelihood 값이 가장 큰 확률 밀도 함수가 , 모수가 지닌 분포를 따를 가능성이 높습니다. 또 이런 가장 높은 likelihood 값으로 모수의 확률 밀도 함수를 추정하는 방법을 최대 우도 추정법(MLE)라고 합니다. 이를 수식으로 표현하면 다음과 같다
$$ P(X|\theta) = \prod_{k=1}^{n} P(x_k | \theta) $$
\(\theta = \theta_1, \theta_2, \cdots, \theta_m\) : 어떤 분포를 따른다 가정하는 확률 분포 함수 집합
\(X = x_1, x_2, \cdots, x_n\) : 모수에서 추출된 표본의 집합
\(p\) : 확률 밀도 함수
MLE(Maximum Likelihood Estimation)
최대 우도 추정법은 주어진 또는 관측한 데이터를 토대로 우리가 상정한 확률 모형이 데이터를 가장 잘 설명할 수 있는 모수\(\theta\) 값을 찾는 방법입니다.
관측치가 주어졌을 때 likelihood 함수 값을 최대화하는 \(\theta\)를 찾는 것이 목표입니다. 이 \(\theta\)는 어떤 확률 밀도 함수를 표현한 것입니다. 또 관측치 \(X = x_1, x_2, \cdots, x_n\) 가 있을 때 이들을 수식으로 표현하면 likelihood 함수는 다음과 같습니다.
$$ P(X|\theta) = P(x_1, x_2, \cdots, x_n | \theta) $$
이 때 MLE란 likelihood 함수 값을 최대로 만드는 확률 밀도 함수\(\hat{\theta}\)를 찾는 것입니다. 이를 나타내면 다음과 같습니다.
$$ \hat{\theta} = argmax P(X|\theta) $$
이 때 관측한 표본이 독립이라 가정하는 (independent and identical distributed, i.i.d) 가정이 충족된다면 아래가 성립합니다.
$$ P(X|\theta) = \prod_{k=1}^{n} P(x_k|\theta) $$
[확률/통계] 모수 추정과 추정량, 추정치
1. 모수 추정 개요 통계학의 대전제는 분석 대상 전체(모집단)를 분석하기에는 많은 비용이 발생하므로 부분(표본)을 통해 모집단의 특성을 파악하는 것이다. 모집단의 일부인 표본에 통계 분석
roytravel.tistory.com
Probability Model (확률 모형) 및 likelihood 개념 학습
gaussian37's blog
gaussian37.github.io
'ML & DL > 기초 이론' 카테고리의 다른 글
ReLU Family (0) | 2024.10.23 |
---|---|
Transfer Learning & Knowledge distillation (0) | 2023.03.31 |
Probability Model(확률 모형), Random Variable(확률 변수) (0) | 2023.03.22 |
Regularization: Overfitting을 해결하는 방법들 (0) | 2023.03.21 |
Overfitting & Underfitting (0) | 2023.03.21 |