Data Analysis & ML/시계열분석

[시계열분석] 시계열 알고리즘 - 적분 선형확률 과정(1) - ARIMA

YSY^ 2021. 9. 11. 21:59

ARIMA(Auto-Regressive Integrated Moving Average)

ARIMA(p,d,q): 1이상의 차분이 적용하여 알고리즘의 차수(p and q)가 유한한 AR(p)와 MA(q)의 선형조합"**

  • 비정상성인 시계열 데이터 Y_t를 차분한 결과로 만들어진 위 식이가 정상성인 데이터이고 ARMA 모형을 따르면 원래의 Y_t를 ARIMA 모형이라고 함
    • => d ≥ 1 : Y_t는 비정상성 시계열 데이터이다(단위근을 갖는다)
  • d번 차분한 시계열이 정상성인 데이터이고 ARMA(p,q) 모형을 따른다면 적분차수(Order of Integrarion)가 d인 ARIMA(p,d,q)로 표기함
    • p=0: ARIMA(0,d,q) = IMA(d,q)
    • q=0: ARIMA(p,d,0) = ARI(p,d)

ARIMA(0,1,1) = IMA(1,1)

자기상관계수(ACF)가 빠르게 감소하지 않는 것이 ARIMA와 같은 적분과정(Integrated Process)의 특징"

  • 차분을 해야 정상성이 되는 Y_t이기에, 시차(Lag)가 증가해도 ACF가 1에 가까운 상관성을 유지하려 하기에 쉽게 감소하지 않음

ARIMA(0,2,1) = IMA(2,1)

ARIMA 모형 차수결정 정리

1) 추정 및 예측을 하기 전에 파라미터에 따라 모형이 어떠한 결과를 도출할지 이해(예상) 필요
2) 결과이해(예상)는 기계의 실수를 방지하고 결과의 확신을 증가시킴

  • p, q 파라미터 추론(by ACF and PACF):
    1) 정상성 형태 변환: 차분/로그변환/계절성제거 등을 통해 데이터를 정상성 형태로 변환
    2) ACF, PACF를 도식화 하여 ARMA의 파라미터 차수를 추론

  • c, d 파라미터 이해: X가 반영되지 않고 추정된 시계열 알고리즘은 결국 상수항의 적합성을 높이는 것!
    • 상수항(Const)인 c는 이론수식 복잡성으로 생략되기도 하나 존재가능
    • 높은 차수의 차분(d)은 예측 구간추정 범위를 급격하게 상승시킴
  • c = 0, d = 0: 점추정은 0, 예측의 구간추정은 과거데이터의 표준편차
  • c ≠ 0, d = 0: 점추정은 과거데이터의 평균, 예측의 구간추정은 과거데이터의 표준편차
  • p ≥ 2: 특정 변동(계절성, 싸이클)을 반영한 예측을 위해선 2이상의 차수 필수

`

cf) 차분한 것을 다시 원상복귀 하려면 누적합을 시행하면 된다.

과차분(Over-differencing)

"필요 적분차수 이상의 차분은 MA모형을 생성!"

  • ARIMA(0,d,0) 모형을 따르는 Y_t를 d번 차분하면 백색잡음만 남음
  • 추가 1차분: MA(1), 추가 2차분: MA(2)
  • 과적합은 ACF/PACF의 수치를 오히려 증가시킬 수 있음

  • 위 사진을 보면 차분을 하면 할 수록 상관성이 커지고 있다.
  • 따라서 정확하게 차분을 해야 과적합되지 않는다.

 

단위근

단위근 검정은 AR이 포함된 모형과 연관이 있다.  AR모형은 정상성조건을 만족시켜야 하는데,

AR모형

AR모형 의 모든 근의 절대 값이 1보다 커야 한다. 

만약 이 중에서 1보다 크지 않은 근이 존재하면 비정상 확률과정이라고 하며. 해당근을 단위근(unit root) 라고 한다.

단위근을 갖는다는게 비정상성 시계열 데이터인 이유는 d번 차분을 해야 정상성이 되기 때문이다.

Y_t가 ARIMA(p,1,q)를 따른다 => ΔY_t = Y_t - Y_{t-1}가 정상성이며 ARMA(p,q)를 따른다

  • 단위근이 있다는 것은 추세가 존재한다는 의미 -> 차분으로 추세제거 가능

단위근의 존재는 단위근검정을 통해 확인한다. 그리고 차분을 하여 정상성조건을 만족시킨 후 정상성을 만족하는 확률과정으로 바꾸어야 한다.

 

ARIMA 표현식 정리

 

ARIMA 모형의 한계

  • Adf는 추세가 있음 -> 비정상
  • kpss는 계절성이 없음 ->  정상
  • 그러나 그래프를 보았을때 추세보다는 계절성이 있다.
  • 따라서 ARIMA는 계절성을 제대로 처리하지 못한다.

 

해당 포스팅은 패스트캠퍼스의 <파이썬을 활용한 시계열 데이터 분석 A-Z 올인원 패키지> 강의를 듣고 정리한 내용입니다

 

728x90
반응형