예측 분석 이후 예측이 잘 되었는지 그리고 데이터의 시간패턴이 잘 추출 되었는지 평가하는 것이 중요
- 검증지표는 예측값과 실제값이 얼마나 비슷한지를 측정하는 것이며, 모형이 시간특성을 잘 잡아내는지를 측정하지는 않음
회귀분석 평가지표는 아래링크 참조 : ysyblog.tistory.com/81
- 시간특성 패턴이 잘 추출되었는지 확인하기 위해선 잔차(또는 에러) 진단을 통해 백색잡음(White Noise)과 얼마나 유사한지 측정=> "Residual Diagnostics" or "Error Analysis"
잔차진단
- y = f(x) + e 라고 할 때 검증지표는 f(x)을 타겟으로 하며, 잔차진단은 잔차(e)를 타켓으로 한다.
- e (=y-f(x))가 패턴이 없다면 f(x)가 y를 잘 적합했다라고 판단하는데, 잔차가 패턴이 없다는 것은 y와 f(x)가 유사하다는 의미이기 때문.
- 검증지표는 수치로 나오지만, 잔차진단은 수치가 뿐만이 아닌 시각화로 나온다.
- 만약 잔차에 추세가 남아있다면, 추세를 추출할 필요가 있다(계절성도 마찬가지)
- 잔차진단은 무엇을 더 해야할지 알 수 있다는 장점이 있으며, 굉장히 중요하다.
백색잡음(White Noise, 𝑊𝑁)
- 백색잡음이란 아무런 패턴이 남아있지 않은 무작위한 진동이다.
- 만약 추세나 계절성이 남아있다면 백색잡음과는 멀어질 것이다. 따라서 이를 검증하는것이 잔차진단이다.
백색잡음은 다음 두가지 속성을 모두 만족해야한다.
1) 잔차들은 정규분포이고, (unbiased) 평균 0과 일정한 분산(시간이 흘러도 범위가 바뀌지 않고 일정한것)을 가져야 함:
- 백색잡음을 분포를 보면 정규분포가 된다
2) 잔차들이 시간의 흐름에 따라 상관성이 없어야 함:
- 자기상관함수(Autocorrelation Fundtion(ACF))를 통해 Autocorrelation = 0인지 확인
- 공분산(Covariance): 𝐶𝑜𝑣(𝜖𝑠,𝜖𝑘) = 𝐸[(𝜖𝑠−𝐸(𝜖𝑠))(𝜖𝑘−𝐸(𝜖𝑘))] = 𝛾𝑠,𝑘
- 자기상관함수(Autocorrelation Function): 자기 자신의 변수내에서의 관계를 보는 것(자기 자신에 대한 도구라는 것을 아는것이 중요
- 자기상관함수란 시계열 데이터의 자기상관성을 파악하기 위한 함수로, 같은 변수라도 어떤 시차를 가지고 스스로와 비슷한지에 관심을 둔다. 서로 다른 변수의 상관관계에 관심을 가지는 회귀분석과 다르게, 그 스스로가 시차 를 두고 와 로 나뉘어 두 변수와 같이 취급된다.
- 편자기상관함수(Partial Autocorrelation Function): 편 자기 상관 함수는 다른 모든 짧은 시차 항에 따라 조정한 후 k 시간 단위로 구분된 시계열(yt–1, yt–2, ..., yt–k–1)의 관측치(yt 및 yt–k) 간 상관의 측도이다.
- 즉, 자기상관성을 파악하되, 와 사이에 있는 의 영향을 제거하고 딱 둘 사이의 관계를 파악하려고 하는 것이다
회귀분석 가정과의 비교:
- 종속변수와 독립변수 간에 선형성의 관계를 가져야 함
- 독립변수들 간에 서로 독립이어야 함
- 잔차의 분포가 정규분포이어야 함
- 잔차들이 서로 독립적으로 움직여야 함
- 잔차들의 분산이 서로 같아야 함
잔차진단 그래프
왼쪽하단그래프는 acf 그래프이다.
- lag1은 잔차 et와 et-1간의 상관관계를 그린 것.
- lag2는 et와 et-1간의 상관관계를 그린 것.
- lag8는 et와 et-8간의 상관관계를 그린 것.
- 즉, 시간 t를 lag를 취한다음에 상관관계를 그린것이 acf그래프이다.
- 파란색 선은 ,파란색 범위에 있으면 자기상관이 없다는 것이고 넘어간다면 자기상관이 있다는 것이다.
- 잔차, 잔차분포, acf그래프(패턴)을 보고 추세. 계절성등이 남아있는지 파악할 수 있다.
통계량으로도 제시된다.
728x90
반응형