반응형

Data Analysis & ML 109

[시계열분석] 시계열 알고리즘 - 선형확률과정의 분석사이클 자동화 (Auto ARIMA)

분석싸이클 자동화(Non-seasonal) "Hyndman-Khandakar algorithm for automatic ARIMA modelling" 차수가 높지않은 SARIMA 알고리즘을 자동화 한 것으로 Hyndman-Khandakar 알고리즘(2008)을 기반으로 함 정상성변환(Unit Root Calculation), 검증지표 최적화(AIC) 및 MLE 방법을 사용한 모수추정을 모두 포함 자동화 과정: 일반화 분석싸이클의 2~4단계만 자동화 1. KPSS 검정통계량(정상성 테스트)을 사용한 독립변수(Y_t)의 적분차수/차분차수 결정(0 ≤ d ≤ 2) 2. 차분된 독립변수 (1 - L)^d Y_t에 AIC를 줄여가며 초기모형 후보들 적합을 통한 Base모형의 차수 p와 q를 선택 만약 d ≤ 1,..

[시계열분석] 시계열 알고리즘 - 선형확률과정의 분석사이클

분석싸이클 정리(Non-seasonal) 1. 분석싸이클 제시: 1) 모형의 모수추정(Model Identification): - 시계열 데이터의 정상성을 확인하고 계절변동이 있는지도 확인 - ACF/PACF 를 사용해서 자기회귀이동평균 모형 p,q 차수를 결정 2) 모델링 및 검증(Parameter Estimation): - 회귀분석과 기계학습 등의 검증지표를 마찬가지로 사용 - 모형 추정은 최소제곱방법과 유사하지만 가우스-뉴튼 아이디어에 기초한 수치해석방법을 적용 3) 잔차진단(Model Diagnostics): - 자기회귀이동평균 모형을 적용시키고 남은 잔차의 정상성을 확인하는데 중점 - 잔차가 서로 독립이고 시간에 따라 평균과 분산이 일정한지 검증 - 시계열 데이터의 자기상관을 검정하기 위해 다양..

[시계열분석] 시계열 알고리즘 - 적분 선형확률 과정(3) - SARIMA 모델링 해석

SARIMA 모델링 해석 원 데이터 ADF 정상성 테스트 -> p가 0.05보다 작으므로 정상상태임. 테스트는 정상으로 나오지만, 계절성과 추세가 있는 것으로 보임 p:2? (PACF 기준 lag 2까지 유의하고 그 뒤로는 유의하지 않음) d:1? (ACF를 봤을때 추세가 어느정도 보이므로 추세 1차 차분) q:1? (ACF 기준 필요성 인지) P:1? (PACF 기준 lag 24 간격 유의성으로 필요성 인지) D:1? (계절성 차분 필요함 인지) Q:2? (ACF 기준 lag 24 간격 유의성으로 필요성 인지) m:24 (ACF/PACF 기준 lag 24 간격으로 유의한 진동 존재) 계절 차분 후 데이터 ADF 정상성 테스트 -> p가 0.05보다 작으므로 정상상태임. 하지만 계절성이 반복되고 있기 때..

[시계열분석] 시계열 알고리즘 - 적분 선형확률 과정(2) - SARIMA

SARIMA(Seasonal ARIMA) ARIMA 모형은 Non-seasonal 데이터 또는 Non-seasonal ARIMA 모델을 가정 -> 계절성 패턴 반영 모델 필요 SARIMAX 클래스 이용하면 Multiplicated SARIMA(p,d,q)x(P,D,Q,m) 모형 추정 및 예측 가능 SARIMAX의 fit 메서드는 모수를 추정하여 그 결과를 SARIMAX Result 클래스 인스턴스로 반환 매개변수 설명 p : ARIMA의 AR 성분과 동일 d : 연속 차분 작업이 수행되는 횟수 q : ARIMA의 MA 성분과 동일 m : 계절성 시차 P (계절적 AR 구성 요소) :현재 관측치에 대한 과거 시차의 영향. p 와 달리 과거 시차는 m 시차의 배수로 현재 시차와 분리. 예를 들어, m = 1..

[시계열분석] 시계열 알고리즘 - 적분 선형확률 과정(1) - ARIMA

ARIMA(Auto-Regressive Integrated Moving Average) ARIMA(p,d,q): 1이상의 차분이 적용하여 알고리즘의 차수(p and q)가 유한한 AR(p)와 MA(q)의 선형조합"** 비정상성인 시계열 데이터 Y_t를 차분한 결과로 만들어진 위 식이가 정상성인 데이터이고 ARMA 모형을 따르면 원래의 Y_t를 ARIMA 모형이라고 함 => d ≥ 1 : Y_t는 비정상성 시계열 데이터이다(단위근을 갖는다) d번 차분한 시계열이 정상성인 데이터이고 ARMA(p,q) 모형을 따른다면 적분차수(Order of Integrarion)가 d인 ARIMA(p,d,q)로 표기함 p=0: ARIMA(0,d,q) = IMA(d,q) q=0: ARIMA(p,d,0) = ARI(p,d) A..

[시계열분석] 시계열 알고리즘 - 일반 선형확률 과정(4) - ARMAX / SARMAX

ARMAX ARMA모델에 X값을 추가한 모델 아래와 같은 시간에 따른 두가지 feature가 있고 최종적으로 consump을 예측하고자 할때, m2도 독립변수로서 사용하는 모델. # 모델링 ## ARIMAX fit = sm.tsa.ARMA(raw_using.consump, (1,1), exog=raw_using.m2).fit() display(fit.summary()) ## 잔차 확인 fit.resid.plot() plt.show() ## 잔차 ACF/PACF plt.figure(figsize=(10, 8)) sm.graphics.tsa.plot_acf(fit.resid, lags=50, ax=plt.subplot(211)) plt.xlim(-1, 51) plt.ylim(-1.1, 1.1) plt.tit..

[시계열분석] 시계열 알고리즘 - 일반 선형확률 과정(3) - ARMA(자기회귀이동평균)

MA와 AR의 관계 가역성 조건 : MR과 AR는 서로 반대의 특징을 가지고 있음 1) MA(q) -> AR(∞): 변환 후 AR 모형이 Stationary Condition이면 "Invertibility" 2) AR(p) -> MA(∞): 여러개 모형변환 가능하지만 "Invertibility" 조건을 만족하는 MA 모형은 단 1개만 존재 ARMA(Auto-Regressive Moving Average) (자기회귀이동평균 ) ARMA(p,q): 알고리즘의 차수(p & q)가 유한한 AR(p)와 MA(q)의 선형조합 p: 자기회귀 다항식의 차수 q: 이동평균 다항식의 차수 AR과 MA의 정상성 조건과 가역성 조건이 동일하게 ARMA 알고리즘들에 적용 종속변수 Y_t는 종속변수 Y_t와 백색잡음 차분들(La..

[시계열분석] 시계열 알고리즘 - 일반 선형확률 과정(2) - AR(자기회귀)

AR(Auto-Regressive) AR(p) : 알고리즘의 차수(p)가 유한한 자기자신의 과거값들의 선형조합 변수의 과거 값의 선형 조합을 이용하여 관심 있는 변수를 예측 필요성 : ACF가 시차(Lag)가 증가해도 0이 되지 않고 오랜시간 남아있는 경우에 MA모형을 사용하면 차수가 무한대로 감 차수 p의 자귀회귀 모델 yt=c+ϕ1yt−1+ϕ2yt−2+⋯+ϕpyt−p+εt (εt는 백색잡음(white noise)) AR모형은 MA 모형과 달리 ACF가 기하급수적으로 빠르게 감소하나 0이 되지는 않음 AR(1) 모델의 특성 Stationarity Condition : −1 0 일때 부호를 바꿔가며(진동하며) 지속적으로 감소 1까지만 correlation이 있음 AR(2) 모델의 특성 yt=ϕ1yt−1+..

[시계열분석] 시계열 알고리즘 - 일반 선형확률 과정(1) - MA(이동평균)

일반 선형확률과정(General Linear Process) "시계열 데이터가 가우시안 백색잡음의 현재값과 과거값의 선형조합" 세부 알고리즘: WN(White Noise) MA(Moving Average) AR(Auto-Regressive) ARMA(Auto-Regressive Moving Average) ARIMA(Auto-Regressive Integrated Moving Average) SARIMA(Seasonal ARIMA) WN(White Noise) 1) 잔차들은 정규분포이고, (unbiased) 평균 0과 일정한 분산을 가져야 함:** 2) 잔차들이 시간의 흐름에 따라 상관성이 없어야 함:** - 자기상관함수(Autocorrelation Fundtion(ACF))를 통해 Autocorrela..

[프로세스 마이닝] 프로세스 마이닝(PM4PY)

프로세스 마이닝 정보 시스템에 기록이 되는 이벤트 로그를 분석 하여 프로세스와 관련된 다양한 정보를 분석하는 기술 계산 지능(Computational Intelligence) 및 데이터 마이닝과 프로세스 모델링 및 분석의 중간에 위치 이벤트 로그에서 지식을 추출함으로써, 실제 업무 프로세스를 도출하고, 모니터링하며, 개선하는 것 자동화된 프로세스 도출, 적합도 검사, 소셜 네트워크/ 조직 마이닝, 시뮬레이션 모델의 자동 생성, 모델 확장, 모델 수정, 케이스 예측 그리고 과거 데이터 기반 추천 등을 포함 데이터 마이닝과 비즈니스 프로세스 모델링 및 분석의 중요한 연결 고리 역할 이벤트 로그 프로세스 마이닝 기법을 적용하기 위해서는 “Event log”를 추출하는 것이 필수 먼저 추적 대상(케이스)을 결정..

반응형