정상성 시계열
시계열이 정상성이다 => 시간의 흐름에 따라 "통계적 특성(Statistical Properties)"이 변하지 않음
- 통계적 특성(Statistical Properties): 주로 평균(Mean)과 분산(Variance)/공분산(Covariance)를 얘기하지만 이를 포함한 모든 분포적 특성을 총칭함
- Homoscedasticity(등분산성): 일정한(유한한, 발산하지않는) 분산을 가짐을 의미 Heteroscedasticity(이분산성): 발산하는 분산을 가짐을 의미
- 약정상(Weak Stationarity, Wide-sense Stationary Process):
- (비수학적 이해)
1)특정 시점의 값들이 같은 분포를 가지고 있다.
2) 랜덤하게 두개를 뽑았을 때 결합확률분포(joint distribution)가 같다 - (수학적 이해)
1) E(Xit)=μ,(시간이 흘러도 모든 시점의 평균이 일정하고) (The first moment estimation)
2) Var(Xit)=E(Xit2)−E(Xit)2<∞, (시간이 흘러도 모든 시점의 분산이 일정하고) (The second moment estimation)
3) Cov(Xis,Xik)=Cov(Xi(s+h),Xi(k+h))=f(h), (시간이 흘러도 모든 시점의 공분산이 일정하고) (The cross moment estimation)
=> covariance just depends on h.
- (비수학적 이해)
- 강정상(Strong Stationarity, Strictly Stationary Process):
- "확률과정의 모든 분포 모멘트(Moment)가 시간 차이에만 의존하는 것(절대시간 미의존)"
- 굉장히 드문 케이스 -> 동일한 데이터가 반복되는 것과 다름없음
- 따라서 약정상 정도의 수준이 되면 정상성이 확보되었다고 판단
- 약정상성의 특성과 백색잡음 잔차진단의 특성이 일치한다.(https://ysyblog.tistory.com/213)
정상성을 확보하는 목적
- 비정상 데이터를 정상화하여 예측하고 다시 정상성 데이터로 환원하는 것이 정상성 데이터를 활용하는 목적
- 정상성을 확보하는 이유는 예측값이 무한대로 가지 않고/값이 튀지 않고, 특정한 범위 내에서 안정적이게 예측되도록하는 것이다.
- 정상성 확보는 바로 매출을 예측하는 것이 아닌, 점유율을 예측하고 이를 매출로 바꾸는 것과 비슷하다.
- 즉, 넓은 범위의 값을 좁은 범위의 값으로 바꾸어서 예측의 정확성을 높이기 위해 정상성을 확보해야 하는 것이다.
1) 시계열 모형은 데이터가 Stationary라 가정한다 => Stationary여야 분석 효과가 높다, 추정해야하는 파라미터가 적어지고 알고리즘이 단순해질 수 있음.(과적합 방지)
2) 백색잡음 또한 Stationary이다 => 잔차검증 역시 Stationary 가정을 전재로 한다
비정상 확률과정(Non-stationary Process):
- 추세가 있어서 The first moment estimation 가 0이 아니며 시간에 따라 변화함
- 추세가 없지만The second moment estimation이차 모멘트( Var(yt))가 시간에 따라 변화함
- 랜덤 워크(Random Walk): 비정상(Non-stationary) 데이터 예시, 차분시 백색잡음(정상성) 전환, 방향성이 랜덤한
- 차분 : 바로 이전시점과 지금시점의 차분
- 활용단어예시:
- Stationary Process: 정상성인 시계열데이터를 발생시키는 데이터셋(프로세스)
- Stationary Model: 정상성인 시계열데이터를 설명하는 모델
- Trend Stationary: 트랜드를 제거하면 정상성인 시계열데이터
- Seasonal Stationary: 계절성을 제거하면 정상성인 시계열데이터
- Difference Stationary: 차분을하면 정상성인 시계열데이터
- Strictly Stationary: 시간 흐름에 따라 "통계적 특성"이 변하지 않음
정상성테스트
https://ysyblog.tistory.com/214?category=1186605
728x90
반응형
'Data Analysis & ML > 시계열분석' 카테고리의 다른 글
[시계열분석] 항공사 승객수요 스케일 및 정상성 변환 (1) | 2021.06.27 |
---|---|
[시계열분석] 정상성 변환 방법론 (0) | 2021.06.27 |
[시계열분석] 시계열 데이터 전처리 실습(Python)(2) - 다중공선성 제거 (0) | 2021.03.08 |
[시계열분석] 시계열 데이터 전처리 실습(Python)(1) - 시간현실반영 및 Scaling (0) | 2021.03.08 |
[시계열분석] 시계열 데이터 전처리 방향 - 시간현실 반영, Scaling, 다중공선성 처리 (0) | 2021.03.08 |