반응형

vif 4

[회귀분석] 다중회귀분석(3) - 다중공선성(다중공선성 검정 및 해결)

다중회귀식의 분산- 회귀분석은 여러개의 독립변수를 통해 종속변수 y의 분산을 얼마나 설명하느냐의 문제- R-square값과 관계가 있음ysyblog.tistory.com/168?category=1185073 [회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared)1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistor..ysyblog.tistory.com 다중공선성이란 위와 같이 ..

[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python)

1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/1192. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/1203. [회귀분석] 회귀분석 실습(3) - 변수선택법 (R) : ysyblog.tistory.com/121해당 포스팅은 위 포스팅에 이어 진행됩니다.다중공선성독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다.독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다.다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다.다중공선성 확인 및 해결방법 포스팅ysyblog...

[시계열분석] 시계열 데이터 전처리 실습(Python)(2) - 다중공선성 제거

[시계열분석] 시계열 데이터 전처리 방향 - 시간현실 반영, Scaling, 다중공선성 처리 :ysyblog.tistory.com/217 해당 포스팅은 위 포스팅에 이어 진행되는 실습입니다. 데이터 코딩은 아래 포스팅에 이어 진행됩니다. [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) :ysyblog.tistory.com/209 [시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset) :ysyblog.tistory.com/210 [시계열분석] 시계열 변수 추출 실습(Python)(3) - 종속변수들과 독립변수들과의 관계를 파악하기 위한 시각..

[시계열분석] 시계열 데이터 전처리 방향 - 시간현실 반영, Scaling, 다중공선성 처리

이번 포스팅에서는 시계열 데이터를 어떻게 전처리 해야하는지를 알아보겠습니다. 시간현실 반영 - 미래의 시간패턴을 미리 반영하는건 비현실적, 이는 과적합(Overfitting)을 유발한다. - 이전 실습에서 R값(결정계수)이 1이 나왔던 것은 미래시간을 안다고 가정하고 feature-enginering을 끝내고 단순히 트레인/테스트 셋으로 나누었고 test셋에도 시간정보가 들어갔기 때문, 즉 test영역의 시간은 모른다고 하는게 맞는 것이다. 예측 정확성 향상 1) Train ↑ + Test ↑ 2) Train 조건수(Condition Number)가 증가하면 분석결과 과적합(Overfitting)이 발생할 가능성 증가 Variance Inflation Factor(VIF) 변수선택 VIF는 독립변수를 다..

반응형