요약
- 추론 통계는 빈도주의(최대우도추정)와 베이지안(최대사후확률추정) 관점으로 나뉘며, 우도는 빈도주의의 핵심 개념임.
- 확률은 특정 사건이 일어날 가능성으로, 데이터 형태에 따라 확률질량함수(이산형)와 확률밀도함수(연속형)로 표현됨.
- 우도(가능도)는 이미 관측된 데이터가 특정 파라미터 값을 가진 확률분포에서 나왔을 가능성의 정도를 의미함.
- 확률이 파라미터를 고정하고 미래 데이터를 예측한다면, 우도는 데이터를 고정하고 과거의 파라미터를 역추적하는 척도임.
- 직관적으로 확률은 원인에서 결과로 향하는 도박사의 관점, 우도는 결과에서 원인을 찾는 탐정의 관점과 같음.
1. 개요
앞서 설명한 추론 통계에 대해서 복습하면, 추론 통계는 샘플 데이터를 바탕으로 모집단을 추론한다는 개념이라고 설명했다. 여기서 추정은 빈도주의와 베이지안 두가지 관점으로 나뉜다. (참고: 추론 통계)
- 빈도주의 : 내가 보유한 데이터에 가장 잘 맞는 통계 모델을 학습하는 방향으로 대표적으로 최대우도추정
- 베이지안 : 내가 보유한 데이터에서 해당 데이터에 대한 사전 지식에도 잘 맞는 통계 모델을 학습하는 방향으로 대표적으로 최대사후확률추정
여기서, 빈도주의 관점에서 반드시 등장하는 개념이 우도(또는 가능도)(likelihood)로 확률과 개념이 헷갈리기 때문에 정확히 이해해보자.
2. 확률 (Probability)
2.1 개념
확률(probability)은 특정 사건(event)가 일어날 확률
확률을 이해하기 위해 몇가지 용어에 대해서 이해하자.
- 시행(experiment) : 동일한 조건에서 여러 번 반복적으로 수행이 가능한 실험이나 관측
- 샘플 공간(sample space): 시행에서 발생 가능한 모든 결과들의 집합 (표기: )
- 사건(event): 샘플 공간의 부분집합, 분석 목적에 따라 달라짐
다시 말해, 확률은 여러 번 수행가능한 시행들의 결과 집합인 샘플 공간의 부분 집합인 특정 사건이 일어날 확률을 의미한다. 특정 사건 A에 대한 확률을 라고 표기하며, 사건 A의 원소 개수에서 샘플 공간 전체 원소 개수를 나누면 사건 A에 대한 확률이다.
2.2 확률을 나타내는 함수
확률을 나타내는 함수는 데이터의 형태에 따라 확률질량함수(PMF)와 확률밀도함수(PDF)로 구분된다.
확률질량함수
확률질량함수(Probability Mass Function, PMF)는 이산형 데이터에 대하여 모든 원소 각각에 대한 확률을 나타낸 함수
주사위 눈과 같은 데이터는 1,2,…,6 과 같이 정수 값으로 떨어지는 이산형 데이터이다. 이처럼 이산형 데이터는 각 원소별로 확률을 구할 수 있으며, 이러한 확률을 나타내는 함수를 확률질량함수(PMF)라고 한다.
확률밀도함수
확률밀도함수(Probability Density Function, PDF)는 연속형 데이터에서 직접적인 값이 아닌 구간에 대한 확률을 나타낸 함수
키나 몸무게와 같은 연속형 데이터의 경우 특정 값에 대한 확률을 구할 수 없다. 이처럼 연속형 데이터는 확률질량함수가 아닌 구간에 대한 확률을 나타내는 함수를 확률밀도함수(PDF)라고 하며, 구간 내 함수를 적분하여 구한 면적을 확률이라고 한다.
아래 그래프는 확률밀도함수(PDF)의 예시이다. 이때 y 값은 x값에 대한 확률이 아닌 확률밀도 값이다. 어차피 단일 값에 대해서 적분하면 확률은 0이 된다.
3. 우도 (Likelihood)
3.1 개념
우도(likelihood, 가능도)는 관측된 데이터가 특정 파라미터 값을 가지는 확률분포에서 나왔을 ‘가능성(possibility)‘의 정도를 의미한다.
확률(Probability)이 파라미터를 알고 있는 상태에서 미래의 데이터를 예측하는 것이라면, 우도는 이미 관측된 데이터를 바탕으로 그 데이터를 만들어낸 파라미터가 무엇이었을지 역추적하는 척도이다.
- 확률(): 파라미터() 고정, 데이터()가 변수 총합(적분)은 1
- 우도(): 데이터() 고정, 파라미터()가 변수 총합(적분)이 1이 아닐 수 있음
3.2 수식적 정의
우도 함수는 확률질량(밀도)함수와 수식적 형태는 같으나, 입력 변수와 관점이 반대이다.
- : 데이터 가 관측되었을 때, 파라미터가 일 우도 (변수: )
- : 파라미터가 일 때, 데이터 가 관측될 확률(밀도) (변수: )
3.3 예시: 동전 던지기 (베르누이 분포)
동전의 앞면이 나올 확률을 라고 하자. (여기서 파라미터 )
상황 A: 확률의 관점 (p 고정, x 미지수)
- “공정한 동전()을 던졌을 때, 앞면()이 나올 확률은?”
상황 B: 우도의 관점 (x 고정, p 미지수)
- “동전을 던졌는데 앞면()이 나왔다. 이 동전의 앞면 확률()이 0.5일 가능성과 0.9일 가능성 중 어디가 높은가?”
- 해석: 앞면이 관측된 상황에서는, 이 동전이 인(앞면이 아주 잘 나오는) 동전일 가능성(우도)이 더 높다.
3.4 결합 우도
관측 데이터가 하나가 아니라 이고 각 시행이 독립적(i.i.d)이라면, 전체 우도는 개별 확률의 곱으로 정의한다.
이처럼 통계학에서는 이 곱해진 우도 값()을 최대화(Maximize) 하는 를 찾는 것을 목표로 하며, 이를 최대우도추정(MLE)이라고 한다. 추가로, 계산의 편의를 위해 보통 로그를 취해 합()으로 바꿔 계산한다.
4. 비교
직관적 이해
- 우도를 이해하는 가장 좋은 방법은 ‘시간의 방향’ 과 ‘목적’ 의 차이를 보는 것
- 확률: 모델이 주어졌을 때, 데이터가 관측될 확률
- 우도: 데이터가 주어졌을 때, 이 데이터가 어떤 모델(파라미터) 에서 나왔을지 설명하는 정도
| 구분 | 확률(Probability) | 우도(Likelihood) |
|---|---|---|
| 관점 | 도박사 | 탐정 |
| 상황 | 주사위가 공정한지 아닌지(파라미터 )를 이미 알고 있다. | 이미 벌어진 사건 현장(데이터 )을 보고 있다. |
| 목적 | 미래 데이터 예측 | 과거의 원인 추정 |
| 관심사 | ”앞으로 던질 주사위에서 1이 나올까? 6이 나올까?" | "이 사건은 어떤 범인(파라미터 )이 저질렀을 가능성이 가장 높을까?” |
| 방향 | 원인(파라미터) 결과(데이터) | 결과(데이터) 원인(파라미터) |
| 질문 |
확률은 파라미터()를 고정하고 데이터()에 따라 곡선 아래 면적을 구하는 것이고, 우도는 데이터()를 고정하고 파라미터()를 움직여가며 축의 높이(가능성)를 비교하는 것입니다.
즉, 통계학의 추론 통계에서 샘플 데이터를 통해 확률 분포를 추정한다는 내용과 동일하다. 데이터를 이미 알고 있는 상황에서 어떤 파라미터 값을 가지는 확률분포인지 추정한다는 의미이다.
참고자료