요약

  • 입력 변수의 분산이 작다는 것은 데이터 값들이 거의 동일하여 출력 변수의 변화를 구별할 수 있는 정보가 없음을 의미함.
  • 반대로 출력 변수의 분산이 전혀 없는 경우에도 입력 변수와 무관하게 상수 값만 도출되어 모델로서의 가치가 없음.
  • 따라서 통계 모델링이나 머신러닝 분석이 유의미한 결과를 내기 위해서는 입력과 출력 변수 모두 적절한 분산을 가져야 함.
  • 일반적으로 입력 변수의 데이터가 넓게 퍼져 있을수록 설명력이 증가하며 모델 내에서 중요한 변수일 가능성이 높음.
  • 주성분분석(PCA) 또한 이러한 원리를 이용하여 분산이 가장 큰 축을 남김으로써 데이터의 설명력을 확보하는 대표적인 예시임.

1. 변수의 분산이 작다는 의미

입력 변수의 흩어진 정도인 분산이 작으면 설명력이 없다. 예를 들어 입력 변수에 해당하는 데이터의 모든 값이 동일하다고 할 때, 이러한 결과로는 아무런 정보를 얻을 수 없다. 왜냐하면 입력 변수에 따라 출력 변수가 다른 것을 전혀 구별할 수 없기 때문이다.

반대로 출력 변수의 분산이 0인 경우도 마찬가지다. 이때는 분산이 큰 입력 변수를 적용해도 아무런 설명력을 가지지 못한다. 이러한 모델은 상수 값을 주는 모델로 쓸모가 전혀 없는 모델이다.

따라서, 입력 변수, 출력 변수 모두 어느 정도 분산을 가지고 있어야 머신러닝이든 통계 모델이 가능하고 의미 있는 결과를 도출할 수 있다.

첫 문단을 다시 설명하면, 입력 변수가 많이 퍼질수록 설명력 자체가 증가한다는 의미이다.

분산이 크다는 것은 그만큼 오류를 많이 포함하다는 의미도 맞다.

결론적으로 분산이 가장 큰 입력 변수는 해당 모델에서 설명력이 가장 높고, 가장 중요한 역할을 할 가능성이 높다.

주성분분석(PCA)에서의 분산

변환된 축 중에서 분산이 가장 큰 변수(변화된 계수 축)을 남긴다. 그래서 PCA에서 변환된 변수의 개수를 설정할 때 일반적으로 총 분산량의 85~90%이상을 만족해야 한다. 따라서, 새롭게 생성한 주성분(PC1, PC2, … PCn)들의 각 분산량을 통해 데이터를 설명하는 정도를 측정하고, 누적 분산량을 기반으로 데이터를 어느 정도 잘 설명하는 주성분의 개수를 설정할 수 있다.


참고자료