반응형

Data Analysis & ML/시계열분석 30

[시계열분석] 시계열 데이터 전처리 방향 - 시간현실 반영, Scaling, 다중공선성 처리

이번 포스팅에서는 시계열 데이터를 어떻게 전처리 해야하는지를 알아보겠습니다. 시간현실 반영 - 미래의 시간패턴을 미리 반영하는건 비현실적, 이는 과적합(Overfitting)을 유발한다. - 이전 실습에서 R값(결정계수)이 1이 나왔던 것은 미래시간을 안다고 가정하고 feature-enginering을 끝내고 단순히 트레인/테스트 셋으로 나누었고 test셋에도 시간정보가 들어갔기 때문, 즉 test영역의 시간은 모른다고 하는게 맞는 것이다. 예측 정확성 향상 1) Train ↑ + Test ↑ 2) Train 조건수(Condition Number)가 증가하면 분석결과 과적합(Overfitting)이 발생할 가능성 증가 Variance Inflation Factor(VIF) 변수선택 VIF는 독립변수를 다..

[시계열분석] 잔차진단 실습(Python) - 잔차진단 시각화 및 분석(bike-sharing-demand dataset)

[시계열분석] 잔차진단(1) - 백색잡음, 자기상관함수 : ysyblog.tistory.com/213 [시계열분석] 잔차진단(2) - 잔차진단 방향(정상성/정규분포/자기상관/등분산성) : ysyblog.tistory.com/214 해당 포스팅은 위 포스팅에 이어 진행됩니다. 데이터 코딩은 아래 포스팅에 이어 진행됩니다. [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) :ysyblog.tistory.com/209 [시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset) :ysyblog.tistory.com/210 [시계열분석] 시계열 변수 추..

[시계열분석] 기본 모델링 실습(Python) - OLS 모델링 및 분석 성능 평가(bike-sharing-demand dataset)

데이터 코딩은 아래 포스팅에 이어 진행됩니다. [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) :ysyblog.tistory.com/209 [시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset) :ysyblog.tistory.com/210 [시계열분석] 시계열 변수 추출 실습(Python)(3) - 종속변수들과 독립변수들과의 관계를 파악하기 위한 시각화 (bike-sharing-demand dataset) :ysyblog.tistory.com/211 [시계열분석] 시계열 변수 추출 실습(Python)(4) - 시계열 데이터 준비(train..

[시계열분석] 잔차진단(2) - 잔차진단 방향(정상성/정규분포/자기상관/등분산성)

[시계열분석] 잔차진단(1) - 백색잡음, 자기상관함수 - ysyblog.tistory.com/213 해당 포스팅은 위 포스팅에 이어 진행됩니다. 잔차진단 방향 - 모델링이 데이터의 패턴을 최대한 반영했을 경우 분석을 마무리 해도 좋다. 정상성 자기상관이 없고 등분산성이 있는것, 시간이 흘러도 바뀌지 않고 일정한것. 실제데이터에서 추세나 계절성 등이 없는것이 정상성 데이터이다. Augmented Dickey-Fuller(ADF) test: 가설확인 대중주장(귀무가설, Null Hypothesis,𝐻0) : 시계열 데이터는 단위근(Unit Root)를 있다 / 비정상 상태이다 / 시간의존 구조(이전의 값에 영향을 받는다는 것)이다 나의주장(대립가설, Alternative Hypothesis,𝐻1) : 시계..

[시계열분석] 잔차진단(1) - 백색잡음, 자기상관함수, 편자기상관함수

예측 분석 이후 예측이 잘 되었는지 그리고 데이터의 시간패턴이 잘 추출 되었는지 평가하는 것이 중요 검증지표는 예측값과 실제값이 얼마나 비슷한지를 측정하는 것이며, 모형이 시간특성을 잘 잡아내는지를 측정하지는 않음 회귀분석 평가지표는 아래링크 참조 : ysyblog.tistory.com/81 [Machine Learning][머신러닝] 회귀모델개요와 평가지표 회귀(Regression) 지도 학습(Supervised Learning)으로 예측할 Target이 연속형(continuous) 데이터(float)인 경우 회귀의 주요 평가 지표 예측값과 실제 값간의 차이를 구한다 MSE (Mean Squared Error) 실제 값.. ysyblog.tistory.com 시간특성 패턴이 잘 추출되었는지 확인하기 위..

[시계열분석] 시계열 변수 추출 실습(Python)(4) - 시계열 데이터 준비(train/test set 분리) (bike-sharing-demand dataset)

[시계열분석] 시계열 변수(빈도/추세/계절성/주기/시계열분해/더미변수/지연값) :ysyblog.tistory.com/179 [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) :ysyblog.tistory.com/209 [시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset) : ysyblog.tistory.com/210 [시계열분석] 시계열 변수 추출 실습(Python)(3) - 종속변수들과 독립변수들과의 관계를 파악하기 위한 시각화 (bike-sharing-demand dataset) : ysyblog.tistory.com/211 해당 포스..

[시계열분석] 시계열 변수 추출 실습(Python)(3) - 종속변수들과 독립변수들과의 관계를 파악하기 위한 시각화 (bike-sharing-demand dataset)

[시계열분석] 시계열 변수(빈도/추세/계절성/주기/시계열분해/더미변수/지연값) :ysyblog.tistory.com/179 [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) :ysyblog.tistory.com/209 [시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset) : ysyblog.tistory.com/210 해당 포스팅은 위 포스팅들에 이어 진행됩니다. 각 변수들의 분포 파악 # histogram plot raw_fe.hist(bins=20, grid=True, figsize=(16,12)) plt.show() target 변수 ..

[시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset)

[시계열분석] 시계열 변수(빈도/추세/계절성/주기/시계열분해/더미변수/지연값) : ysyblog.tistory.com/179 [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) : ysyblog.tistory.com/209 해당 포스팅은 위 포스팅들에 이어 진행됩니다. 이동평균(moving average) 계산 # comparison of several moving average values pd.concat([raw_all[['count']],#시간정보(파랑) raw_all[['count']].rolling(24).mean(), #데일리 패턴을 보겠다.(주황색) raw_all[['count']].rolling(24*7).mean..

[시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset)

ysyblog.tistory.com/179?category=1186605 [시계열분석] 시계열 변수(빈도/추세/계절성/주기/시계열분해/더미변수/지연값) 시계열분석은 어떤문제를 다루나 - regression, regulariRegularization Algorithms, clustering에서 주로 쓰며 ,Regression이 많이 쓰인다. 시계열 분석과 기계학습의 차이 확률 과정(Stochastic Process): 상관.. ysyblog.tistory.com 해당 포스팅은 위 포스팅에 이어 진행됩니다. Import Package and Dataset # Ignore the warnings import warnings # warnings.filterwarnings('always') #항상 warning가..

[시계열분석] 시계열 변수(빈도/추세/계절성/주기/시계열분해/더미변수/지연값)

시계열분석은 어떤문제를 다루나 - regression, regulariRegularization Algorithms, clustering에서 주로 쓰며 ,Regression이 많이 쓰인다. 시계열 분석과 기계학습의 차이 확률 과정(Stochastic Process): 상관 관계를 가지는 무한개의 변수의 순서열 시계열 데이터(Time Series Data): 일정한 시간 간격으로 기록된 확률과정의 샘플 독립변수(𝑥𝑡xt)와 알고자 하는 종속변수(𝑦𝑡yt)가 시간단위(𝑡t)를 포함 모델의 출력(Output)은 𝑦y의 시간 𝑡t에서의 예측값 기계학습과 시계열예측 간 큰 차이가 존재하기에, 시계열 변수생성은 약간의 조정들을 요구함 시계열 변수 신규 변수를 생성하는 것은 분석에서 가장 중요하고 시간이 많이 걸리는..

반응형