반응형

다중공선성 5

[회귀분석] 다중회귀분석(3) - 다중공선성(다중공선성 검정 및 해결)

다중회귀식의 분산- 회귀분석은 여러개의 독립변수를 통해 종속변수 y의 분산을 얼마나 설명하느냐의 문제- R-square값과 관계가 있음ysyblog.tistory.com/168?category=1185073 [회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared)1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistor..ysyblog.tistory.com 다중공선성이란 위와 같이 ..

[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python)

다중공선성독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다.독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다.다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다.다중공선성 확인 및 해결방법 포스팅ysyblog.tistory.com/171 [회귀분석] 다중회귀분석(2) - 다중공선성(다중공선성 검정 및 해결)1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistor..ysyblog.tisto..

[회귀분석] 다중선형회귀분석(1) - 다중선형회귀모형의 가정

다중회귀모형이란설명변수(독립변수)가 2 개 이상인 회귀모형을 분석대상으로하는 것.다중회귀모형은 분석내용을 향상시킬 수 있다는 장점이 있음추가적인 독립변수를 도입함으로써 오차항의 값을 줄일 수 있으며단순회귀분석의 단점을 극복종속변수를 설명하는 독립변수가 두개일 때 단순회귀모형을 적용하면, 모형설정이 부정확할 뿐 아니라 종속변수에 대한 중요한 설명변수(독립변수)를 누락함으로써 계수 추정량에 대해 편의(bias)가 생길 수 있다. 따라서 다중회귀분석을 통해 편의현상(bias)을 제거할 수 있다. 다중회귀모형의 식다중회귀모형의 식은 다음과 같다.여러개의 다중회귀모형 식을 아래와 같이 행렬로도 나타낼 수 있다. 다중회귀모형의 가정1. 회귀모형은 모수에 대해 선형인 모형이다. => Yi = β0 + β1 X1i +..

[시계열분석] 시계열 데이터 전처리 실습(Python)(2) - 다중공선성 제거

[시계열분석] 시계열 데이터 전처리 방향 - 시간현실 반영, Scaling, 다중공선성 처리 :ysyblog.tistory.com/217 해당 포스팅은 위 포스팅에 이어 진행되는 실습입니다. 데이터 코딩은 아래 포스팅에 이어 진행됩니다. [시계열분석] 시계열 변수 추출 실습(Python)(1) - 시계열 분해 (bike-sharing-demand dataset) :ysyblog.tistory.com/209 [시계열분석] 시계열 변수 추출 실습(Python)(2) - 이동평균/지연값/증감폭/그룹화 (bike-sharing-demand dataset) :ysyblog.tistory.com/210 [시계열분석] 시계열 변수 추출 실습(Python)(3) - 종속변수들과 독립변수들과의 관계를 파악하기 위한 시각..

[시계열분석] 시계열 데이터 전처리 방향 - 시간현실 반영, Scaling, 다중공선성 처리

이번 포스팅에서는 시계열 데이터를 어떻게 전처리 해야하는지를 알아보겠습니다. 시간현실 반영 - 미래의 시간패턴을 미리 반영하는건 비현실적, 이는 과적합(Overfitting)을 유발한다. - 이전 실습에서 R값(결정계수)이 1이 나왔던 것은 미래시간을 안다고 가정하고 feature-enginering을 끝내고 단순히 트레인/테스트 셋으로 나누었고 test셋에도 시간정보가 들어갔기 때문, 즉 test영역의 시간은 모른다고 하는게 맞는 것이다. 예측 정확성 향상 1) Train ↑ + Test ↑ 2) Train 조건수(Condition Number)가 증가하면 분석결과 과적합(Overfitting)이 발생할 가능성 증가 Variance Inflation Factor(VIF) 변수선택 VIF는 독립변수를 다..

반응형