요약
- 변수가 두 개 이상일 때 데이터의 퍼짐 정도와 관계를 파악하기 위해 분산과 공분산을 모두 포함하는 공분산행렬을 활용함.
- 공분산은 각 변수가 평균에서 벗어난 편차를 서로 곱한 값의 평균이며 변수들의 변화 방향이 같으면 양수, 다르면 음수 값을 가짐.
- 행렬의 대각선 성분은 각 변수 자체의 분산을 나타내고 비대각선 성분은 변수 간의 기울기를 의미하는 공분산으로 구성된 대칭행렬임.
- 상관행렬은 공분산을 각 변수의 표준편차 곱으로 나누어 단위를 표준화한 것으로 값의 범위가 마이너스 일에서 일 사이로 고정됨.
- 즉 데이터를 표준화한 후 구한 공분산행렬은 원본 데이터의 상관행렬과 수학적으로 동일하다는 밀접한 관계가 있음.
1. 공분산행렬
변수가 2개 이상인 경우 데이터의 퍼짐 정도를 파악하기 위해 분산과 함께 공분산을 모두 고려한 공분산행렬을 활용
1.1 공분산이란?
모집단에의 공분산 수식은 다음과 같다. 이를 풀어쓰면, 각 변수의 편차 곱에 대한 평균이다.
조금 더 설명하면, 대신에 로 동일하게 적용해보자. 공분산은 변수에 대한 편차 제곱의 기댓값으로 분산 정의와 동일하게 된다. 즉 위 공분산 수식은 분산도 포함하는 일반화된 개념으로 이해하자.
다시 돌아가면, 공분산은 각 변수의 평균에서 얼마나 벗어났는지를 서로 곱한 값에 대한 평균이다. 이를 직관적으로 이해해보자.
두 변수의 벗어난 정도를 서로 곱한다. 예를 들어, 번째 위치한 값이 모두 평균보다 크거나() 모두 평균보다 작은 경우() 동일한 방향으로 양수가 나온다. 반면에 반대방향으로 어느 한 변수는 평균보다 크고, 다른 변수는 평균보다 작은 경우() 음수가 나온다.
추가로 가 독립적인 관계인 경우이다. 예를 들어 가 어떤 값이 가 항상 동일한 상수 값인 경우() 공분산은 0이 된다.
1.2 공분산행렬
앞서 공분산 를 하나의 값으로 계산했지만, 이를 행렬로 표현하면 다음과 같다.
이처럼 공분산행렬은 대칭행렬로 순서가 바뀌어도 결과는 동일하다.
- : 각 축 방향으로부터의 퍼짐 정도
- : 평면의 기울기
2. 상관행렬과의 관계
상관계수를 나타낸 상관행렬은 다음과 같다. 이를 풀어서 설명하면, 공분산에서 각각에 대한 표준편차를 나누어 표준화 효과를 가지게 된다. 즉, 상관계수는 공분산에 대한 표준화 버전이다.
다시 말해, 표준화시킨 데이터의 공분산행렬과 표준화를 하지 않은 데이터의 상관계수는 동일하다. 그래서 상관계수가 -1 ~ 1 사이의 값을 갖는 것이다.
참고자료