반응형

스케일링 2

[회귀분석] 회귀분석 실습(1) - OLS 회귀분석 결과 해석 및 범주형 변수 처리 (Statsmodel)

Statsmodel을 활용한 회귀분석 statsmodels 패키지에서는 OLS 클래스를 사용하여 선형 회귀분석을 실시한다 독립변수와 종속변수가 모두 포함된 데이터프레임이 생성되며, 상수항 결합은 하지 않아도 된다. from_formula 메서드의 인수로 종속변수와 독립변수를 지정하는 formula 문자열을 넣는다. data 인수로는 독립변수와 종속변수가 모두 포함된 데이터프레임을 넣는다. EX) model = OLS.from_formula(formula, data=df) 또한 독립변수만 있는 데이터프레임 X와 종속변수만 있는 데이터프레임 y를 인수로 넣어서 만들 수도 있다. 이 때는 독립변수만 있는 데이터프레임 X가 상수항을 가지고 있어야 한다. EX) model = OLS(dfy, dfX) fit 메서..

[시계열분석] 시계열 데이터 전처리 방향 - 시간현실 반영, Scaling, 다중공선성 처리

이번 포스팅에서는 시계열 데이터를 어떻게 전처리 해야하는지를 알아보겠습니다. 시간현실 반영 - 미래의 시간패턴을 미리 반영하는건 비현실적, 이는 과적합(Overfitting)을 유발한다. - 이전 실습에서 R값(결정계수)이 1이 나왔던 것은 미래시간을 안다고 가정하고 feature-enginering을 끝내고 단순히 트레인/테스트 셋으로 나누었고 test셋에도 시간정보가 들어갔기 때문, 즉 test영역의 시간은 모른다고 하는게 맞는 것이다. 예측 정확성 향상 1) Train ↑ + Test ↑ 2) Train 조건수(Condition Number)가 증가하면 분석결과 과적합(Overfitting)이 발생할 가능성 증가 Variance Inflation Factor(VIF) 변수선택 VIF는 독립변수를 다..

반응형