Data Analysis & ML/시계열분석

[시계열분석] 정상성이란

YSY^ 2021. 6. 19. 18:04

정상성 시계열

시계열이 정상성이다 => 시간의 흐름에 따라 "통계적 특성(Statistical Properties)"이 변하지 않음

  • 통계적 특성(Statistical Properties): 주로 평균(Mean)과 분산(Variance)/공분산(Covariance)를 얘기하지만 이를 포함한 모든 분포적 특성을 총칭함
  • Homoscedasticity(등분산성): 일정한(유한한, 발산하지않는) 분산을 가짐을 의미  Heteroscedasticity(이분산성): 발산하는 분산을 가짐을 의미

정상성(가장위), 평균이 일정하지 않은 경우(왼쪽아래), 분산이 일정하지 않은 경우(중간아래), 공분산/자기회귀가 일정하지 않은 경우

  • 약정상(Weak Stationarity, Wide-sense Stationary Process):
    • (비수학적 이해)
      1)특정 시점의 값들이 같은 분포를 가지고 있다.
      2) 랜덤하게 두개를 뽑았을 때 결합확률분포(joint distribution)가 같다
    • (수학적 이해)
      1) E(Xit)=μ,(시간이 흘러도 모든 시점의 평균이 일정하고) (The first moment estimation)
      2) Var(Xit)=E(Xit2)−E(Xit)2<∞, (시간이 흘러도 모든 시점의 분산이 일정하고) (The second moment estimation)
      3) Cov(Xis,Xik)=Cov(Xi(s+h),Xi(k+h))=f(h), (시간이 흘러도 모든 시점의 공분산이 일정하고) (The cross moment estimation)
      => covariance just depends on h.
  • 강정상(Strong Stationarity, Strictly Stationary Process):
    • "확률과정의 모든 분포 모멘트(Moment)가 시간 차이에만 의존하는 것(절대시간 미의존)"
    • 굉장히 드문 케이스 -> 동일한 데이터가 반복되는 것과 다름없음
  • 따라서 약정상 정도의 수준이 되면 정상성이 확보되었다고 판단
  • 약정상성의 특성과 백색잡음 잔차진단의 특성이 일치한다.(https://ysyblog.tistory.com/213)

 

정상성을 확보하는 목적

  • 비정상 데이터를 정상화하여 예측하고 다시 정상성 데이터로 환원하는 것이 정상성 데이터를 활용하는 목적
  • 정상성을 확보하는 이유는 예측값이 무한대로 가지 않고/값이 튀지 않고, 특정한 범위 내에서 안정적이게 예측되도록하는 것이다.
  • 정상성 확보는 바로 매출을 예측하는 것이 아닌, 점유율을 예측하고 이를 매출로 바꾸는 것과 비슷하다.
  • 즉, 넓은 범위의 값을 좁은 범위의 값으로 바꾸어서 예측의 정확성을 높이기 위해 정상성을 확보해야 하는 것이다.

1) 시계열 모형은 데이터가 Stationary라 가정한다 => Stationary여야 분석 효과가 높다, 추정해야하는 파라미터가 적어지고 알고리즘이 단순해질 수 있음.(과적합 방지)
2) 백색잡음 또한 Stationary이다 => 잔차검증 역시 Stationary 가정을 전재로 한다

 

비정상 확률과정(Non-stationary Process):

  • 추세가 있어서 The first moment estimation 가 0이 아니며 시간에 따라 변화함
  • 추세가 없지만The second moment estimation이차 모멘트(Var(yt))가 시간에 따라 변화함
  • 랜덤 워크(Random Walk): 비정상(Non-stationary) 데이터 예시, 차분시 백색잡음(정상성) 전환, 방향성이 랜덤한
  • 차분 : 바로 이전시점과 지금시점의 차분

랜덤 워크 예시

 

  • 활용단어예시:
    • Stationary Process: 정상성인 시계열데이터를 발생시키는 데이터셋(프로세스)
    • Stationary Model: 정상성인 시계열데이터를 설명하는 모델
    • Trend Stationary: 트랜드를 제거하면 정상성인 시계열데이터
    • Seasonal Stationary: 계절성을 제거하면 정상성인 시계열데이터
    • Difference Stationary: 차분을하면 정상성인 시계열데이터
    • Strictly Stationary: 시간 흐름에 따라 "통계적 특성"이 변하지 않음

 

정상성테스트

https://ysyblog.tistory.com/214?category=1186605

728x90
반응형