요약
- 큰 수의 법칙은 시행 횟수가 늘어날수록 경험적인 통계적 확률이 이론적인 수학적 확률에 가까워지는 현상을 의미함
- 이는 데이터가 많아질수록 확률값의 오차가 줄어들어 참값에 수렴한다는 개념으로 정규분포와는 직접적인 관계가 없음
- 반면 중심극한정리는 모집단의 분포 형태와 상관없이 표본의 크기가 커지면 표본 평균들의 분포가 정규분포에 근사한다는 이론임
- 결론적으로 큰 수의 법칙은 확률 값의 수렴성을 다루고 중심극한정리는 표본 통계량의 분포 형태를 설명한다는 명확한 차이가 있음
1. 큰 수의 법칙
먼저 통계적 확률과 수학적 확률을 구분해야 한다. 통계적 확률은 통계와 관련이 있으므로 샘플과 관련되어 있다. 즉, 샘플링을 통해 추출한 샘플들만 사용해서 확률을 계산한다. 샘플 내에서 각각의 사건이 일어난 횟수를 샘플 수로 나눈다. 다시 말해 제한된 수의 샘플 내에서 각각의 사건이 일어날 확률이 동일하지 않을 수 있으며, 이를 통계적 확률이라고 한다.
반면에 수학적 확률은 이상적 확률로 볼 수 있으며, 사건이 발생할 확률이 모두 동일하다고 본다. 즉, 이해가 바탕이 된 이론적으로 계산된 확률이다. 주사위를 예를 들면, 주사위 한 눈 이 나올 수학적 확률은 1/6 이다. 그러나 실제로 여러번 던져보면 1/6이 아닐 수 있고 이를 통계적 확률이라고 한다.
이로 인해 실제 이상적이고 이론적인 수학적 확률을 구하는 것은 어렵다. 그래서 통계적 확률에서 샘플 수를 무수히 많이 늘리면 통계적 확률이 수학적 확률에 근사해진다. 이것이 바로 큰 수의 법칙(Law of Large Numbers, LLN) 이다.
즉, 큰 수의 법칙은 시행 횟수가 많아지면 통계적 확률이 수학적 확률과 유사해지는 법칙으로, 사실 정규분포와는 관계가 없다! 아예 관련이 없다고 못하지만 정규분포여야만 큰 수의 법칙이 적용되는 것은 아니다.
샘플 수가 많아진다는 것과 정규분포라는 말이 연관지어 진다. 이 내용은 큰 수의 법칙이 아니라 중심극한정리와 관련이 있다.
2. 중심극한정리
중심극한정리(Central Limit Theorem, CLT) 는 모집단의 확률분포와 관계없이 샘플 크기가 커질수록 샘플의 평균(또는 샘플의 합)이 정규분포와 가까워진다 라는 정리이다. 즉, 샘플 그 자체가 아니라 샘플의 모수(평균 또는 샘플의 합)이 정규분포와 관련이 있다.
그래서 중요한 점은 샘플링을 여러 번하는 것이 중요하여 샘플 수에 집중한다. 아래와 같이 샘플()가 증가하면, 각 샘플 내 데이터들()에 대한 평균()의 분포가 정규 분포를 따른다.
참고자료