[시계열분석] 잔차진단(1) - 백색잡음, 자기상관함수 - ysyblog.tistory.com/213
해당 포스팅은 위 포스팅에 이어 진행됩니다.
잔차진단 방향
- 모델링이 데이터의 패턴을 최대한 반영했을 경우 분석을 마무리 해도 좋다.
정상성
- 자기상관이 없고 등분산성이 있는것, 시간이 흘러도 바뀌지 않고 일정한것.
- 실제데이터에서 추세나 계절성 등이 없는것이 정상성 데이터이다.
- Augmented Dickey-Fuller(ADF) test:
- 가설확인
- 대중주장(귀무가설, Null Hypothesis,𝐻0) : 시계열 데이터는 단위근(Unit Root)를 있다 / 비정상 상태이다 / 시간의존 구조(이전의 값에 영향을 받는다는 것)이다
- 나의주장(대립가설, Alternative Hypothesis,𝐻1) : 시계열 데이터는 단위근이 없다 / 정상 상태이다 / 시간의존 구조가 아니다
- 의사결정
- p-value >= 나의 기준(ex. 0.05) : 내가 수집한(분석한) 시계열 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓
- 수집한(분석한) 시계열 데이터는 단위근이 있다 / 비정상 상태이다 / 시간의존 구조이다
- p-value < 나의 기준(ex. 0.05) : 내가 수집한(분석한) 시계열 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참
- 수집한(분석한) 시계열 데이터는 단위근이 없다 / 정상 상태이다 / 시간의존 구조가 아니다
- 가설확인
- ADF-GLS test:
- 가설확인 : ADF와 동일
- Phillips–Perron(PP) test:
- 가설확인 : ADF와 동일
- Kwiatkowski Phillips Schmidt Shin(KPSS) test:
- 가설확인 : ADF와 반대(위 test과 귀무가설과 대립가설이 다르다.)
- 예시
ADF test값이 0.05이하이면 귀무가설을 기각하므로 정상상태라는 것이며, 0.05이상이면 정상상태가 아니라는 것이다.
정규분포 테스트
- Shapiro–Wilk test:
- 가설확인 일반적인 가설과 조금 다르다
- 대중주장(귀무가설, Null Hypothesis, 𝐻0): 데이터는 정규분포 형태이다
- 나의주장(대립가설, Alternative Hypothesis, 𝐻1): 데이터는 정규분포가 아닌 형태다
- 의사결정
- p-value >= 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓내가 수집한(분석한) 데이터는 정규분포 형태이다
- p-value < 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참내가 수집한(분석한) 데이터는 정규분포가 아닌 형태다
- 가설확인 일반적인 가설과 조금 다르다
- Kolmogorov–Smirnov test:
- 가설확인: Shapiro–Wilk와 동일
- Lilliefors test:
- 가설확인: Shapiro–Wilk와 동일
- Anderson–Darling test:
- 가설확인: Shapiro–Wilk와 동일
- Jarque–Bera test:
- 가설확인: Shapiro–Wilk와 동일
- Pearson's chi-squared test:
- 가설확인: Shapiro–Wilk와 동일
- D'Agostino's K-squared test:
- 가설확인: Shapiro–Wilk와 동일
- 예시
위에서 사비로검정의 p-value가 0.05보다 낮은 것은 정규분포가 아닌 것이다.
자기상관 테스트
- Ljung–Box test:
- 가설확인
- 대중주장(귀무가설, Null Hypothesis, 𝐻0): 시계열 데이터의 Autocorrelation은 0이다(존재하지 않는다)
- 나의주장(대립가설, Alternative Hypothesis, 𝐻1): 시계열 데이터의 Autocorrelation은 0이 아니다(존재한다)
- 의사결정
- p-value >= 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재하지 않는다
- p-value < 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재한다
- 가설확인
- Portmanteau test:
- 가설확인: Ljung–Box와 동일
- Breusch–Godfrey test:
- 가설확인: Ljung–Box와 동일
- Durbin–Watson statistic:
- 가설확인: Ljung–Box와 동일
- 의사결정: 검정통계량 범위 - [0,4][0,4]
- 2 근방: 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재하지 않는다
- 0 또는 4 근방: 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참내가 수집한(분석한) 시계열 데이터의 Autocorrelation은 존재한다
- 0: 양(Positive)의 Autocorrelation 존재한다
- 4: 음(Negative)의 Autocorrelation 존재한다
- 예시
위 예시에서 자기상관테스트 결과 오리지널 데이터는 p-value가 대부분 0.05미만이라 자기상관이 있지만 AR(1)모델은 모두 0.05이상이라 자기상관이 없다. AR(1) Absolute모델은 절반정도가 자기상관이 있다.
더빈왓슨검정은 회귀분석 잔차분석에서 잔차의 독립성을 체크하는데 사용하는데 여기서는 자기상관테스트로 사용한다. 위 표를 보면 더빈왓슨값이 0.798로 2보다는 1에 더 가깝기 때문에 자기상관이 있다고 판단할 수 있다.
등분산성 테스트
- Goldfeld–Quandt test:
- 가설확인
- 대중주장(귀무가설, Null Hypothesis, 𝐻0H0): 시계열 데이터의 Homoscedasticity 상태다(등분산이다)
- 나의주장(대립가설, Alternative Hypothesis, 𝐻1H1): 시계열 데이터의 Heteroscedasticity 상태다(등분산이 아니다 / 발산하는 분산이다)
- 의사결정
- p-value >= 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장과 유사하기 때문에 대중주장 참 & 나의주장 거짓내가 수집한(분석한) 시계열 데이터는 등분산이다
- p-value < 내기준(ex. 0.05): 내가 수집한(분석한) 데이터가 대중주장을 벗어나기 때문에 대중주장 거짓 & 나의주장 참내가 수집한(분석한) 시계열 데이터는 등분산이 아니다
- 가설확인
- Breusch–Pagan test:
- 가설확인: Goldfeld–Quandt와 동일
- Bartlett's test:
- 가설확인: Goldfeld–Quandt와 동일
- 예시
아웃라이어가 없을때는 Breusch-Pagan 테스트를 제외하고는 p-value가 0.05미만이라 등분산이 아니라고 할수 있지만 아웃라이어를 포함하면 대부분의 테스트가 p-value가 0.05보다 크기 때문에 등분산이라고 할 수 있다.
728x90
반응형