요약

  • 특징 스케일링은 서로 다른 단위를 가진 변수들을 비교하기 위해 데이터를 특정 범위나 공통 스케일로 변환하는 필수 전처리 과정임.
  • 정규화는 주로 최소와 최대 값을 이용하여 데이터를 0과 1 사이의 특정 구간으로 압축하거나 확장하여 단위를 통일시키는 기법임.
  • 표준화는 평균과 표준편차를 사용하여 데이터를 평균이 0이고 분산이 1인 형태로 변환하는 방식임.
  • 정규화라는 용어는 모델 규제나 벡터 변환 등 다른 개념과 혼용되기 쉬우므로 통계적 맥락에서의 정확한 이해가 필요함.
  • 핵심은 두 기법 모두 데이터의 수치적 범위만 조정할 뿐 비정규분포 데이터를 정규분포로 변환시키는 것은 아니라는 점임.

1. 개요

통계 분석이든 머신러닝을 하기 전에 데이터를 사전에 처리해야 한다. 예를 들어 특성별 단위가 달라서 동일하게 비교할 수 없거나 특정 범위 내 변수 값으로 변환시켜야 하는 상황이다.

위 과정을 특징 스케일링(feature scaling) 이라고 하며, 특정 값을 늘리거나 줄이는 과정을 모두 포함하고 여기에 정규화(normalization)표준화(standardization) 개념을 사용한다.


2. 정규화

정규화 라는 용어는 굉장히 혼동을 주는 용어이다.

2.1 혼동

regularization과 혼동

데이터 차원 축소에서도 정규화(regularization)를 사용한다. 이 때 정규화(regularization)은 라쏘와 릿지와 같이 목적함수에 패털티를 가하는 개념이다. 규제화 라고 이용되지만, 정규화를 더 많이 사용하므로 구분해서 이해해야 한다.

벡터 정규화와 혼동

벡터 정규화란 특정 벡터의 방향은 유지하고 크기를 1로 변환시키는 과정이다. 데이터 관점에서 특정한 범위로 변환한다는 맥락은 동일하지만 위에서 설명하는 정규화(normalization)과는 다른 과정이다.

실험 데이터 정규화와 혼동

생물정보학에서의 실험은 주로 조작변수가 종속 변수에 어떤 효과를 주는지 알고자 한다. 이 때, 인과관계를 방해하는 변수(교란자)를 통제해야 한다. 이 변수를 통제 변수(controlled variable)이라고 한다. 다시 말해 통제 변수를 통제하는 것은 통계 분석에서 교란자를 통제하는 것과 동일하다.

또한, 배치 효과(batch effect)는 실험 중 발생하는 외부 조건으로 생기는 데이터의 변화를 의미한다. 이러한 배치 효과를 제거하는 과정을 정규화라고 한다.

표준화의 포함 관계 혼동

특정한 구간을 데이터로 변환하는 개념을 바탕으로 표준화를 정규화의 한 형태로 설명하기도 한다. 가장 큰 범주인 특징 스케일링 안에 세부 범주로 정규화(normalization)과 표준화(standardization)이 있다.

그러나 정규화의 애매한 정의 때문에 표준화를 정규화의 한 종류로 설명되기도 한다. 이러한 애매함 때문에 많은 영역에서 정규화가 등장하여 조금씩 다른 개념을 가져 혼동을 준다.()

2.2 통계분석에서 정규화

통계분석에서 정규화

  • 통계분석에서 정규화는 특정 구간이나 공통된 스케일로 데이터를 압축 또는 확장시키는 변환과정이다.
  • 특성의 단위가 서로 달라 비교가 불가능할 때, 공통의 스케일로 변환시켜 서로 비교하기 위함이 주목적이다.

2.2.1 최소-최대 스케일링

최소-최대 스케일링(min-max scaling) 은 통계분석에서 정규화의 대표적인 방법으로 데이터의 최솟값과 최댓값을 이용하여 데이터를 사이의 값으로 변환하는 방법이다. 이러한 정규화 과정을 거치면서 단위가 사라지게 된다.

추가로 샘플 데이터를 임의의 범위로 변환시킨다면 변환식은 아래와 같다.

이를 통해 아래 좌측 그림과 같이 1보다 큰 값들은 01사이로 압축시킬 수 있으며, 우측 그림과 같이1보다 작은 값들은 01사이로 확장시킬 수 있다. 이처럼 데이터가 압축 또는 확장되어 정규분포와 같은 형태를 나타나게 된다.

그러나 정규화나 표준화 시킨 데이터가 정규분포를 따르는 것은 아니다!

두 개념 모두 정규분포를 언급할 필요가 없으며, 데이터를 정규분포를 따르게 만들어 주는 것이 아니다.

정규화를 통해 특정 범위 내 데이터를 변환시킨다고 본래 데이터의 분포 특징은 전혀 변화하지 않는다. 비정규분포를 따르는 기존 데이터를 정규화를 통해 데이터를 변환시켜도 아래 그림과 같이 여전히 비정규분포 형태가 유지된다.

따라서, 정규화는 비정규분포의 샘플 데이터를 정규분포로 변환시키는 것이 아닌 서로 다른 범위를 가진 데이터를 모두 특정한 구간 내 값의 범위로 변환시켜 비교가 가능하게 만들어 줄 뿐이다.


3. 표준화

표준화(standardization)는 샘플 데이터를 평균이 0이고 분산이 1인 데이터로 변환시키는 방법으로 대표적인 방법으로 Z-점수 표준화(Z-score standardization)이 있으며, 아래와 같은 방식으로 각 데이터에서 평균()을 빼고, 표준편차()로 나누어 변환시킨다.

기존 샘플 데이터가 정규분포를 따르는 경우, 표준화를 통해 샘플 데이터를 평균이 0이고, 분산이 1인 표준 정규분포로 변환시킬 수 있다. 그러나 이는 선제조건으로 샘플 데이터가 정규분포를 따른다는 것을 명심해야 한다.

기존의 샘플 데이터가 비정규분포를 따르는 경우 정규화와 마찬가지로 표준화를 적용해도 단순히 평균이 0, 분산이 1인 데이터로 변환시킬 뿐 기존의 분포를 유지시켜 샘플 데이터의 확률 분포를 바꾸는 것과 아무런 연관이 없다.


참고자료