Data Analysis & ML/시계열분석

[시계열분석] 잔차진단(1) - 백색잡음, 자기상관함수, 편자기상관함수

YSY^ 2021. 3. 4. 19:51

 

예측 분석 이후 예측이 잘 되었는지 그리고 데이터의 시간패턴이 잘 추출 되었는지 평가하는 것이 중요

  • 검증지표는 예측값과 실제값이 얼마나 비슷한지를 측정하는 것이며, 모형이 시간특성을 잘 잡아내는지를 측정하지는 않음

회귀분석 평가지표는 아래링크 참조 : ysyblog.tistory.com/81

 

[Machine Learning][머신러닝] 회귀모델개요와 평가지표

회귀(Regression) 지도 학습(Supervised Learning)으로 예측할 Target이 연속형(continuous) 데이터(float)인 경우 회귀의 주요 평가 지표 예측값과 실제 값간의 차이를 구한다 MSE (Mean Squared Error) 실제 값..

ysyblog.tistory.com

  • 시간특성 패턴이 잘 추출되었는지 확인하기 위해선 잔차(또는 에러) 진단을 통해 백색잡음(White Noise)과 얼마나 유사한지 측정=> "Residual Diagnostics" or "Error Analysis"

 

잔차진단

  • y = f(x) + e 라고 할 때 검증지표는 f(x)을 타겟으로 하며, 잔차진단은 잔차(e)를 타켓으로 한다.
  • e (=y-f(x))가 패턴이 없다면 f(x)가 y를 잘 적합했다라고 판단하는데, 잔차가 패턴이 없다는 것은 y와 f(x)가 유사하다는 의미이기 때문.
  • 검증지표는 수치로 나오지만, 잔차진단은 수치가 뿐만이 아닌 시각화로 나온다.
  • 만약 잔차에 추세가 남아있다면, 추세를 추출할 필요가 있다(계절성도 마찬가지)
  • 잔차진단은 무엇을 더 해야할지 알 수 있다는 장점이 있으며, 굉장히 중요하다.

 

백색잡음(White Noise, 𝑊𝑁)

  • 백색잡음이란 아무런 패턴이 남아있지 않은 무작위한 진동이다.
  • 만약 추세나 계절성이 남아있다면 백색잡음과는 멀어질 것이다. 따라서 이를 검증하는것이 잔차진단이다.

백색잡음 그래프

백색잡음은 다음 두가지 속성을 모두 만족해야한다.

1) 잔차들은 정규분포이고, (unbiased) 평균 0과 일정한 분산(시간이 흘러도 범위가 바뀌지 않고 일정한것)을 가져야 함:

  • 백색잡음을 분포를 보면 정규분포가 된다

 

2) 잔차들이 시간의 흐름에 따라 상관성이 없어야 함:

  • 자기상관함수(Autocorrelation Fundtion(ACF))를 통해 Autocorrelation = 0인지 확인
    • 공분산(Covariance): 𝐶𝑜𝑣(𝜖𝑠,𝜖𝑘) = 𝐸[(𝜖𝑠−𝐸(𝜖𝑠))(𝜖𝑘−𝐸(𝜖𝑘))] = 𝛾𝑠,𝑘
    • 자기상관함수(Autocorrelation Function): 자기 자신의 변수내에서의 관계를 보는 것(자기 자신에 대한 도구라는 것을 아는것이 중요
      • 자기상관함수란 시계열 데이터의 자기상관성을 파악하기 위한 함수로, 같은 변수라도 어떤 시차를 가지고 스스로와 비슷한지에 관심을 둔다. 서로 다른 변수의 상관관계에 관심을 가지는 회귀분석과 다르게, 그 스스로가 시차  를 두고    로 나뉘어 두 변수와 같이 취급된다.

  •  편자기상관함수(Partial Autocorrelation Function): 편 자기 상관 함수는 다른 모든 짧은 시차 항에 따라 조정한 후 k 시간 단위로 구분된 시계열(yt–1, yt–2, ..., yt–k–1)의 관측치(yt 및 yt–k) 간 상관의 측도이다.
    • 즉, 자기상관성을 파악하되,  와  사이에 있는  의 영향을 제거하고 딱 둘 사이의 관계를 파악하려고 하는 것이다

 

회귀분석 가정과의 비교:

  • 종속변수와 독립변수 간에 선형성의 관계를 가져야 함
  • 독립변수들 간에 서로 독립이어야 함
  • 잔차의 분포가 정규분포이어야 함
  • 잔차들이 서로 독립적으로 움직여야 함
  • 잔차들의 분산이 서로 같아야 함

 

잔차진단 그래프

왼쪽하단그래프는 acf 그래프이다.

  • lag1은 잔차 et와 et-1간의 상관관계를 그린 것.
  • lag2는 et와 et-1간의 상관관계를 그린 것.
  • lag8는 et와 et-8간의 상관관계를 그린 것.
  • 즉, 시간 t를 lag를 취한다음에 상관관계를 그린것이 acf그래프이다.
  • 파란색 선은 ,파란색 범위에 있으면 자기상관이 없다는 것이고 넘어간다면 자기상관이 있다는 것이다.
  • 잔차, 잔차분포, acf그래프(패턴)을 보고 추세. 계절성등이 남아있는지 파악할 수 있다.
    통계량으로도 제시된다.

 

728x90
반응형