요약

많은 통계 분석 방법론은 데이터의 정규성을 가정하므로 비정규분포 데이터를 정규분포와 유사하게 만드는 정규성 변환이 필수적임.

데이터가 왼쪽으로 치우치고 오른쪽 꼬리가 긴 경우에는 로그나 제곱근 변환을 사용하여 큰 값을 압축하는 방식을 적용함.

반대로 데이터가 오른쪽으로 치우친 경우에는 거듭제곱이나 지수 변환을 통해 데이터를 확장하여 분포를 조정함.

선형 모델 분석 시 입력 변수가 변하더라도 오차의 분산이 일정하게 유지되어야 하므로 분산 안정화 과정이 필요함.

특히 로그 변환은 곱셈적 구조를 덧셈적 구조로 변환하여 분산이 평균에 비례해 커지는 문제를 해결하는 데 효과적임.

1. 정규성 변환

1.1 개요

기존의 데이터가 비정규분포면 정규화를 표준화를 적용해도 비정규분포를 유지한다. 그러나 통계 분석 시, 데이터 정규성을 가정하는 경우가 많기 때문에 비정규분포 데이터를 정규분포 형태로 변환하고 이를 정규성 변환 (normality transformation) 이라고 한다.

단, 항상 데이터가 정규분포를 따를 필요는 없다. 통계학의 큰 분류 중 하나인 추론 통계에서 추론(빈도주의 또는 베이지안)을 통해 샘플 데이터가 어느 확률 분포에 기인했는지 추론할 수 있다.

그렇다면 왜 정규성을 가정하는가?

여러 통계 방법론에서 정규성을 가정한 상태에서 분석을 진행하고, 계산하기 수월하다. 또한, 일반적으로 많은 데이터가 정규분포를 따른다.

따라서, 정규성을 가정한 특정 방법론의 입력값으로 사용하기 위해서 정규성이 확보된 샘플 데이터를 넣어야 의미 있는 결과가 나온다.

1.2 적용

정규성 변환을 적용하기 전에 과거 다뤘던 왜도에 대해서 다시 살펴보자(참고: 기술통계 내 분포 중 왜도(skewness))

왜도(skewness)란 데이터 분포의 좌우 비대칭성을 나타내는 척도

대표적으로 피어슨의 최빈값 왜도계수를 활용: 평균 - 최빈값

왜도 > 0 의미: 평균 > 최빈값 으로 실제 데이터가 왼쪽으로 몰려있는 분포이며, 우측으로 왜곡(right-skewed)

왜도 < 0 의미: 평균 < 최빈값 으로 실제 데이터가 오른쪽으로 몰려있는 분포이며, 좌측으로 왜곡(left-skewed)

왜도가 0보다 큰 경우

데이터가 왼쪽으로 몰려있으며, 오른쪽 꼬리가 길다고 표현

샘플 데이터가 왼쪽으로 몰려있는 경우를 고려하여 정규분포로 변환하는 방법은 로그 변환, 제곱근 변환, 역수 변환 등 다양하다.

대표적인 방법인 로그 변환(log transformation)은 아래 그림과 같이 1보다 큰 값들은 데이터를 압축시키고, 1보다 작은 값은 데이터를 확장시킨다.

source:59가지 통계학 궁금증 완전 정복

물론 이러한 변환을 적용했다고 데이터가 무조건 정규분포 형태를 나타내는 것은 아니다. 단지 정규분포와 비슷한 형태로 변환시키는 것이다. 참고로 로그 변환을 했을 때 정확히 정규분포를 따르는 경우를 로그-정규분포(log-normal distribution)이라고 한다.

무작정 로그 변환하면 생기는 문제점

로그 변환은 유용하기 때문에 무지성 로그 변환을 수행하기 쉽다.

이미 정규분포를 따르는 경우 로그 변환을 취하면 대칭성이 파괴되어 오히려 변환된 데이터의 분포가 왼쪽으로 왜곡(데이터는 오른쪽에 몰림)되는 효과를 낳는다.

따라서, 로그 변환과 같이 정규성 변환을 수행하기 이전에 본래 샘플 데이터의 분포를 확인하기 위해 시각화 방법인 히스토그램이나 통계적 방법인 Q-Q 플롯 및 정규성 검정의 검정통계량을 확인해야 한다.

왜도가 0보다 작은 경우

데이터가 오른쪽으로 몰려있으며, 왼쪽 꼬리가 길다고 표현

앞서 왜도가 0보다 큰 경우(데이터가 왼쪽으로 몰려 오른쪼 꼬리가 긴 분포)에는 대표적인 방법 중 하나로 로그 변환을 적용하였다. 이와 반대로 왜도가 0보다 작은 경우, 즉 데이터가 오른쪽으로 몰린 분포에 대한 정규성 변환 방법은 크게 거듭제곱 변환(power transformation)과 지수 변환(exponential transformation) 등이 있다.

이러한 정규성 변환 방법은 로그 변환과 반대로 1보다 작은 값은 데이터를 압축시키고, 1보다 큰 값은 데이터를 확장시킨다.

source: 59가지 통계학 궁금증 완전 정복

2. 분산 안정화

분산 안정화 변환(variance stabilizing transformation)은 선형 모델 가정 중 오차의 분산을 상수 값으로 일정하게 만들어 분산이 평균에 의존하지 않도록 하는 것

다시 말해, 선형 모델에서 입력 변수에 의한 출력 변수의 오차가 정규분포를 따를 때, 입력 변수 값이 변화하더라도 출력 변수의 분산은 변화하지 않는다는 의미이다.

그러나 실제 데이터에서 이러한 가정이 꺠지는 경우가 있다. 아래 그림 중 좌측 그림은 오차의 분포가 정규분포를 따를 때, 우측 그림은 오차가 불규칙한 분산을 가질 때 예시이다.

source: 59가지 통계학 궁금증 완전 정복

추가로 아래와 같이 입력 변수가 증가할수록 출력 변수 오차의 분산이 비례적으로 증가하는 경우도 있다. 이러한 상황은 실험에서 측정하고자 하는 대상의 측정값이 커지면서 측정의 정확성이 떨어지는 상황이다.

분산이 평균에 비례하는 경우

금융 수익률(%): 절댓값이 아닌 비율(%)로 자산 1백만원과 1억원의 수익률 5%는 각각 5만원과 5백만원 변동으로 평균에 따라 분산이 커진다.

매출: 매출은 고객 수와 구매 횟수, 객단가 등 여러 확률적 요인의 합과 곱으로 결정된다. 따라서, 여러 요소의 곱과 합이 섞여 분산이 점차 증가하는 사례이다.

이처럼 평균에 따라서 분산이 함께 증가하는 경우 분산 안정화가 필요한 순간이다. 분산과 평균 사이의 관계에 따라서 적합한 분산 안정화 변환 방법을 선택하지만 고려해야할 확률 분포가 너무 다양하다. 그러나 가장 많이 사용하는 방법 중 하나가 위에서 설명했던 로그 변환을 많이 사용한다.

source: 59가지 통계학 궁금증 완전 정복

왜 로그 변환?

그렇다면 왜 로그 변환을 사용하는가? 아래 수식을 참고하면, 기존의 $Y$ 는 평균( $μ$ )가 커질수록 $ϵ$ 의 영향을 많이 받아 분산이 증가한다. 즉, 오차의 분산이 일정하지 않는 경우이다. 이러한 관계에서 로그를 취하면 곱셈적 구조에서 덧셈적 구조로 바뀐다.

Y lo g Y = μ \times ϵ = lo g μ + lo g ϵ

즉, $lo g ϵ$ 과 $lo g μ$ 가 독립적이기 때문에 평균값이 커져도 분산이 더 이상 같이 커지지 않게 된다. 다시 말해 로그 변환을 통해 분산이 평균에 비레하는 종속 관계를 독립적으로 변환해준 것이다.

참고자료

59가지 통계학 궁금증 완전 정복

🧠 디지털 가든

탐색기

Q17-21. 정규성 변환과 분산 안정화

1. 정규성 변환

1.1 개요

1.2 적용

왜도가 0보다 큰 경우

왜도가 0보다 작은 경우

2. 분산 안정화

왜 로그 변환?

그래프 뷰

목차