반응형

정상성 6

[시계열분석] 항공사 승객수요 스케일 및 정상성 변환

항공사 승객수요 스케일 변환(Log / Box-Cox) # 라이브러리 호출 import numpy as np import matplotlib.pyplot as plt import statsmodels.api as sm import scipy as sp %reload_ext autoreload %autoreload 2 from module import stationarity_adf_test, stationarity_kpss_test # 데이터 준비 data = sm.datasets.get_rdataset("AirPassengers") raw = data.data.copy() # Box-Cox 변환 모수 추정 # 정규분포의 특정 범위(x)에서 lambda를 바꿔가며 정규성(measure:y)이 가장 높은 l..

[시계열분석] 정상성 변환 방법론

비정상성(Non-stationary)의 정상성(Stationary) 변환 목적: 정상성 확보를 통해 안정성이 높아지고 예측력 향상 장점: 절약성 원칙(Principle of Parsimony)(파라미터를 적게 써도됨)에 따라 적은 모수만으로 모델링 가능하기에 과적합 확률이 줄어듬 방법: 제곱, 루트, 로그, 차분 등 비정상 데이터는 범위가 무제한, 하지만 정상성데이터는 범위가 제한되기 때문에 예측이 더 쉬워지지만 무조건 정상성이 필요한 것은 아님. 정상성 변환을 하면 모델이 단조로워지기 때문에 과적합이 일어날 확률이 낮아짐 Trend: a/c/e/f/i Seasonality: d/h/i Cycle: g Non-constant Variance: i 정상성 만족 : b 1) 로그변환 시간흐름에 비례하여 값이..

[시계열분석] 정상성이란

정상성 시계열 시계열이 정상성이다 => 시간의 흐름에 따라 "통계적 특성(Statistical Properties)"이 변하지 않음 통계적 특성(Statistical Properties): 주로 평균(Mean)과 분산(Variance)/공분산(Covariance)를 얘기하지만 이를 포함한 모든 분포적 특성을 총칭함 Homoscedasticity(등분산성): 일정한(유한한, 발산하지않는) 분산을 가짐을 의미 ↔ Heteroscedasticity(이분산성): 발산하는 분산을 가짐을 의미 약정상(Weak Stationarity, Wide-sense Stationary Process): (비수학적 이해) 1)특정 시점의 값들이 같은 분포를 가지고 있다. 2) 랜덤하게 두개를 뽑았을 때 결합확률분포(joint d..

[시계열분석] 잔차진단 실습(Python) - 잔차진단 시각화 및 분석(bike-sharing-demand dataset)

[시계열분석] 잔차진단(1) - 백색잡음, 자기상관함수 : ysyblog.tistory.com/213 [시계열분석] 잔차진단(2) - 잔차진단 방향(정상성/정규분포/자기상관/등분산성) : ysyblog.tistory.com/214 해당 포스팅은 위 포스팅에 이어 진행됩니다. 데이터 코딩은 아래 포스팅에 이어 진행됩니다. [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) :ysyblog.tistory.com/209 [시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset) :ysyblog.tistory.com/210 [시계열분석] 시계열 변수 추..

[시계열분석] 잔차진단(2) - 잔차진단 방향(정상성/정규분포/자기상관/등분산성)

[시계열분석] 잔차진단(1) - 백색잡음, 자기상관함수 - ysyblog.tistory.com/213해당 포스팅은 위 포스팅에 이어 진행됩니다. 잔차진단 방향- 모델링이 데이터의 패턴을 최대한 반영했을 경우 분석을 마무리 해도 좋다. 정상성자기상관이 없고 등분산성이 있는것, 시간이 흘러도 바뀌지 않고 일정한것.실제데이터에서 추세나 계절성 등이 없는것이 정상성 데이터이다.Augmented Dickey-Fuller(ADF) test:가설확인대중주장(귀무가설, Null Hypothesis,𝐻0) : 시계열 데이터는 단위근(Unit Root)를 있다 / 비정상 상태이다 / 시간의존 구조(이전의 값에 영향을 받는다는 것)이다나의주장(대립가설, Alternative Hypothesis,𝐻1) : 시계열 데이터는..

[시계열분석] R을 활용한 시계열 분석(정상성 판단)

시계열 분석시간의 흐름에 따라 관찰된 값들을 시계열 자료라 함시계열 분석은 시간을 고려한 회귀분석이다.정상성시간에 따라 확률적인 성분이 변하지 않는다는 가정정상성이란 시계열 분석에 기초가 되는 개념이다공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않는다.따라서 비정상 시계열은 시간대에 따라 데이터가 변하고 추세와 시간대를 갖는다.시계열은 series 데이터 형태로 불러와야 한다.정상성 시계열 자료로 변환비정상성 시계열 데이터를 정상성 시계열로 바꾸는 방법은 두 가지가 있다.(1) 차분(diff) : 평균이 일정하지 않은 시계열을 정상화하는 방법으로, 현 시점 자료에서 전 시점 자료를 빼는 것일반차분(regular difference) : 바로 전 시점의 자료를 빼는 방법계절차분(se..

반응형