요약

  • ADF 검정은 시계열 데이터가 무작위로 움직이는 비정상 상태인지, 평균으로 회귀하는 정상 상태인지 판별하는 대표적인 통계 기법임.
  • 이 검정은 데이터가 예측 불가능한 상태임을 뜻하는 단위근이 존재한다는 귀무가설을 기각함으로써 정상성을 통계적으로 입증함
  • 기존의 DF 검정은 직전 시점의 데이터만 고려하기 때문에 오차항에 자기상관이라는 잡음이 섞여 신뢰도가 떨어지는 한계가 존재함.
  • ADF 검정은 과거의 여러 시차 정보를 추가하여 이러한 자기상관 잡음을 제거함으로써 더욱 엄격하고 정확하게 정상성을 검증함.
  • 검정 결과를 통해 데이터가 분석 모델에 바로 적용 가능한지, 혹은 차분과 같은 전처리가 필요한지 명확히 판단함

1. 들어가며

시계열 데이터를 분석하기 전 수행하는 정상성 검정 중 대표적인 ADF(Augmented Dickey-Fuller) 검정에 대해서 알아보자

나는 ADF 검정의 개념을 이해하는데 다소 어려움이 있었는데, 이는 선행지식에 대한 이해 부족이 원인이었다. 그래서 ADF 검정을 이해하는데 필요한 선행지식들을 먼저 살펴보자. 크게 단위근 검정, AR(1) 모델, t-검정이다.

2. 선행지식

2.1 단위근(Unit Root) 검정

단위근(Unit Root)이란 평균으로 돌아올거라는 예측이 아니라 어디로 튈지 모르는 상태를 의미

우선, 단위근 검정에 대한 예시를 통해 직관적으로 이해해보자.

예를 들어, 술 취한 사람은 현재 서있는 위치를 기준으로 어디로 튈 지 모른다. 이와 같이 예측이 불가능한 상황을 단위근이 존재한다는 의미로 이해하자.

반대로 목줄이 걸린 강아지처럼 어디로 튀어도 결국 제자리에 돌아오는 상황처럼 단위근이 없다는 의미는 결국 평균과 같은 값으로 돌아온다는 의미이다.

따라서, 단위근 검정은 단위근이 존재한다라는 귀무가설을 설정하고, 귀무가설을 기각하게 되면 단위근이 존재하지 않으므로 시계열 데이터가 비정상이 아님을 통계적으로 검정한다. 이때, 단위근 검정을 통해 시계열 데이터가 정상성이라고 단정할 순 없다. 단지 비정상이 아니다라는 의미이다.

이제 아래의 수식을 통해 단위근 검정을 이해해보자.

단위근이 존재한다는 의미는 이다. 그 이유는 가 일 때 위 수식은 가 된다. 즉, 데이터가 랜덤한 값을 갖게되어 어디로 튈지 모르는 예측 불가능한 상황이다.

2.2 AR(1) 모델

AR은 과거의 모습이 현재의 모습에 영향을 미치는 모델이며, AR(1)은 바로 직전 시점의 값이 현재 값에 영향을 미치는 모델

앞서, 단위근 검정에 대해서 살펴보았다. 수식에서 보았듯이 단위근 검정은 바로 직전 시점 에서의 변화량만 고려한다.

왜 바로 직전 시점의 값의 영향만 받는 AR(1) 모델만 파고드는가?

대부분 비정상 데이터는 랜덤 워크 형태를 띈다. 여기서 랜덤 워크의 정의 자체가 AR(1) 모델에서 단위근()이 1 인 형태이다. 이는 복잡하게 시차를 더 고려할 필요 없이 가장 최근 데이터가 오늘 값에 100% 영향을 줘서 기억되는가 라는 핵심 성질인 AR(1) 구조에서 잘 드러나기 때문이다.

예를 들어, 기차가 100칸으로 이루어졌을 때, 1번 칸이 움직일 때 2번 칸이 똑같이 100% 힘으로(단위근 = 1)로 끌려간다면 이는 그 뒤에 연결된 칸까지 힘이 줄어들지 않고 끝까지 전달된다는 의미이다. 반대로 단위근이 1보다 작은경우 뒤로 갈수록 힘이 작아져 뒤에 칸은 결국 멈춘다.

다시말해, 가장 강력하고 직접적인 연결고리인 AR(1)만 검사해도, 이 데이터가 영원히 폭주할 녀석인지 아닌지 판별할 수 있기 때문입니다.

2.3 t 검정

t-검정이란 회귀분석에서 선형 관계를 의미하는 기울기가 있는가를 따지는 검정

뒤에서 설명하겠지만, 일단 ADF 검정은 DF 검정에서 시차(lag)를 더 고려한 검정 방법이고, 이 DF 검정이 t-검정과 비슷하다고 하는데, t-검정에 대해서 짓고 넘어가자.

DF 검정은 바로 직전 시점과의 변화량이 차분값에 대한 수식에서 파라미터()를 검정한다. 다시 말해 DF 검정은 식에 대한 검정이고, 이는 대표적인 회귀분석식인 과 같은 구조이다.

이때 회귀분석에서 회귀계수인 를 통계적으로 검정하는 방법이 바로 t-검정이고, t-통계량은 아래 수식과 같다. 즉, DF 검정(추후 설명하겠지만 ADF검정도 마찬가지이다.)은 선형 관계(기울기)가 있는가?를 따지기 위해 아래와 같은 t-통계량 공식을 계산하기 때문에 DF 검정에서 t-검정과 유사하다고 한다.

  • : 추정된 회귀계수
  • : 추정의 표준오차, 추정된 회귀계수가 얼마나 틀릴 수 있는지에 대한 범위

즉, t-검정은 추정한 회귀계수가 0이 아니다(선형관계가 존재한다)를 검정하는 것이다.


3. 정상성 검정

3.1 DF 검정

Dickey-Fuller(DF) 검정은 위에서 설명한 AR(1) 모델과 단위근 검정에서 설명한 인지 검정한다.

즉, 파라미터()가 0이라는 의미는 차분값은 일정한 상수(또는 평균)이 아닌 랜덤한 값()을 지기 때문에 단위근이 존재한다는 의미이다. 따라서, 단위근이 존재한다() 라는 귀무가설을 기각할지 안할지 검정한다.

이때, 차분값인 변화량에 대한 파라미터를 검증하는 이유는 현재 변화량이 이전 데이터 크기에 영향을 받는가를 검정한다는 의미다. 즉, 위에서 설명했듯이 이전 데이터가 현재 변화량에 미치는 영향인 기울기를 검증하는 t-검증과 비슷하다는 의미로 볼 수 있다.

3.2 ADF 검정

DF 검정은 단순하지만 현재 시점의 데이터가 직전 시점의 데이터에만 영향을 받는다는 가정으로 한계가 있다.

따라서, Augmented Dickey-Fuller(ADF) 검정은 DF 검정과 달리 직전 시점만 고려하는 것이 아닌 다른 시차들(Lags)들도 고려한 모델이다.

ADF 모델의 수식은 다음과 같이 기존 DF 검정 모델에서 과거 시차들에 대한 정보가 추가됐다. 가 바로 시차를 더 고려한 부분이다.

ADF 검정의 귀무가설은 DF 검정과 동일하다. 즉, 단위근이 존재한다라는 귀무가설을 기각할지 하지 않을지 검정한다.

그렇다면, 왜 시차를 더 고려한 부분은 검정하지 않는지 의문이 생길 수 있다. 이를 고려하지 않는 이유는 시차항은 단지 가 제대로 평가 받을 수 있도록 잡음을 제거해 주는 보조 변수일 뿐 정상성 여부와는 직접적인 연관이 없다.

조금 더 자세히 설명하면, ADF 검정에서 나온 와 t-통계량(p-value)이 DF 검정의 값 보다 훨씬 더 믿을만하다. 왜냐하면, 기존의 DF 모델에서는 시계열 데이터의 ==자기상관들이 오차항()에 섞여져있다. 이는 "오차항은 서로 독립이다" 라는 전제로 이루어진 t-검정의 오류를 일으킨다. 이를 방지하기 위해 ADF 검정은 오차항에서 자기상관들을 분리하기 위해 시차항을 추가했고 이로 인해 오차항은 비교적 순수한 잡음이 됐다.==

안경을 쓴 채 시력 검사를 한다는 예를 들어보자. 아래와 같이 DF 검정은 얼룩이 묻은 안경을 쓴 채 시력 검사를 하는 것이고, ADF 검정은 안경의 얼룩을 지운 후 시력 검사를 한 것이다. 여기서 시력 검사는 정상성 검증이고 얼룩은 자기상관, 얼룩을 지운 행위가 시차항을 추가하여 자기상관을 제거했다는 의미이다. 즉, 시차항을 추가한 행위는 시력 검사 대상이 아니라 검사를 정확하게 하기 위한 도우미이다.

구분DFADF
목적시력 검사시력 검사
안경 상태얼룩짐 (자기상관 섞임)얼룩 제거 (시차항 추가로 자기상관 제거)
효과-검사 정확도 상승

따라서, DF와 ADF이 검증하는 귀무가설()은 동일하다. ADF는 뒤에 시차 항들을 추가함으로써, 를 구할 때 방해가 되는 자기상관(Serial Correlation)이라는 잡음을 제거하여 t-검정의 오류를 방지하여 엄격한 정상성 검정을 수행한다.


참고사이트