Data Analysis & ML/시계열분석

[시계열분석] 잔차진단(2) - 잔차진단 방향(정상성/정규분포/자기상관/등분산성)

YSY^ 2021. 3. 4. 20:12

[시계열분석] 잔차진단(1) - 백색잡음, 자기상관함수 - ysyblog.tistory.com/213

해당 포스팅은 위 포스팅에 이어 진행됩니다.

 

잔차진단 방향

- 모델링이 데이터의 패턴을 최대한 반영했을 경우 분석을 마무리 해도 좋다.

 

정상성

  • 자기상관이 없고 등분산성이 있는것, 시간이 흘러도 바뀌지 않고 일정한것.
  • 실제데이터에서 추세나 계절성 등이 없는것이 정상성 데이터이다.
  • Augmented Dickey-Fuller(ADF) test:
    • 가설확인
      • 대중주장(귀무가설, Null Hypothesis,𝐻0) : 시계열 데이터는 단위근(Unit Root)를 있다 / 비정상 상태이다 / 시간의존 구조(이전의 값에 영향을 받는다는 것)이다
      • 나의주장(대립가설, Alternative Hypothesis,𝐻1) : 시계열 데이터는 단위근이 없다 / 정상 상태이다 / 시간의존 구조가 아니다
    • 의사결정
      • p-value >= 나의 기준(ex. 0.05) : 내가 수집한(분석한) 시계열 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓
      • 수집한(분석한) 시계열 데이터는 단위근이 있다 / 비정상 상태이다 / 시간의존 구조이다
      • p-value < 나의 기준(ex. 0.05) : 내가 수집한(분석한) 시계열 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참
      • 수집한(분석한) 시계열 데이터는 단위근이 없다 / 정상 상태이다 / 시간의존 구조가 아니다
  • ADF-GLS test:
    • 가설확인 : ADF와 동일
  • Phillips–Perron(PP) test:
    • 가설확인 : ADF와 동일
  • Kwiatkowski Phillips Schmidt Shin(KPSS) test:
    • 가설확인 : ADF와 반대(위 test과 귀무가설과 대립가설이 다르다.)
  • 예시

ADF test값이 0.05이하이면 귀무가설을 기각하므로 정상상태라는 것이며, 0.05이상이면 정상상태가 아니라는 것이다.

 

정규분포 테스트

  • Shapiro–Wilk test:
    • 가설확인 일반적인 가설과 조금 다르다
      • 대중주장(귀무가설, Null Hypothesis, 𝐻0): 데이터는 정규분포 형태이다
      • 나의주장(대립가설, Alternative Hypothesis, 𝐻1): 데이터는 정규분포가 아닌 형태다
    • 의사결정
      • p-value >= 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓내가 수집한(분석한) 데이터는 정규분포 형태이다
      • p-value < 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참내가 수집한(분석한) 데이터는 정규분포가 아닌 형태다
  • Kolmogorov–Smirnov test:
    • 가설확인: Shapiro–Wilk와 동일
  • Lilliefors test:
    • 가설확인: Shapiro–Wilk와 동일
  • Anderson–Darling test:
    • 가설확인: Shapiro–Wilk와 동일
  • Jarque–Bera test:
    • 가설확인: Shapiro–Wilk와 동일
  • Pearson's chi-squared test:
    • 가설확인: Shapiro–Wilk와 동일
  • D'Agostino's K-squared test:
    • 가설확인: Shapiro–Wilk와 동일
  • 예시

위에서 사비로검정의 p-value가 0.05보다 낮은 것은 정규분포가 아닌 것이다.

 

자기상관 테스트

  • Ljung–Box test:
    • 가설확인
      • 대중주장(귀무가설, Null Hypothesis, 𝐻0): 시계열 데이터의 Autocorrelation은 0이다(존재하지 않는다)
      • 나의주장(대립가설, Alternative Hypothesis, 𝐻1): 시계열 데이터의 Autocorrelation은 0이 아니다(존재한다)
    • 의사결정
      • p-value >= 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재하지 않는다
      • p-value < 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재한다
  • Portmanteau test:
    • 가설확인: Ljung–Box와 동일
  • Breusch–Godfrey test:
    • 가설확인: Ljung–Box와 동일
  • Durbin–Watson statistic:
    • 가설확인: Ljung–Box와 동일
    • 의사결정: 검정통계량 범위 - [0,4][0,4]
      • 2 근방: 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재하지 않는다
      • 0 또는 4 근방: 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재한다
        • 0: 양(Positive)의 Autocorrelation 존재한다
        • 4: 음(Negative)의 Autocorrelation 존재한다
  • 예시

위 예시에서 자기상관테스트 결과 오리지널 데이터는 p-value가 대부분 0.05미만이라 자기상관이 있지만 AR(1)모델은 모두 0.05이상이라 자기상관이 없다.  AR(1) Absolute모델은 절반정도가 자기상관이 있다.

더빈왓슨검정은 회귀분석 잔차분석에서 잔차의 독립성을 체크하는데 사용하는데 여기서는 자기상관테스트로 사용한다. 위 표를 보면 더빈왓슨값이 0.798로 2보다는 1에 더 가깝기 때문에 자기상관이 있다고 판단할 수 있다.

 

등분산성 테스트

  • Goldfeld–Quandt test:
    • 가설확인
      • 대중주장(귀무가설, Null Hypothesis, 𝐻0H0): 시계열 데이터의 Homoscedasticity 상태다(등분산이다)
      • 나의주장(대립가설, Alternative Hypothesis, 𝐻1H1): 시계열 데이터의 Heteroscedasticity 상태다(등분산이 아니다 / 발산하는 분산이다)
    • 의사결정
      • p-value >= 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓내가 수집한(분석한) 시계열 데이터는 등분산이다
      • p-value < 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참내가 수집한(분석한) 시계열 데이터는 등분산이 아니다
  • Breusch–Pagan test:
    • 가설확인: Goldfeld–Quandt와 동일
  • Bartlett's test:
    • 가설확인: Goldfeld–Quandt와 동일
  • 예시

아웃라이어가 없을때는 Breusch-Pagan 테스트를 제외하고는 p-value가 0.05미만이라 등분산이 아니라고 할수 있지만 아웃라이어를 포함하면 대부분의 테스트가 p-value가 0.05보다 크기 때문에 등분산이라고 할 수 있다.

728x90
반응형