반응형

PCA 2

[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python)

1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 2. [회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) : ysyblog.tistory.com/120 3. [회귀분석] 회귀분석 실습(3) - 변수선택법 (R) : ysyblog.tistory.com/121 해당 포스팅은 위 포스팅에 이어 진행됩니다. 다중공선성 독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다. 독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 한다. 다중공선성이 있으면 부정확한 회귀 결과가 도출될 수 있다. 다중공선성 확인 및 해결방법 포스팅..

[통계분석] PCA(주성분분석) (ADP실기 준비)

주성분분석 고차원의 데이터를 저차원의 데이터로 환원시키는 기법 데이터를 어떤 기준을 바탕으로 변환을 하고, 그 변환으로 인해 '주성분'이 추출된다. 따라서 추출된 주성분은 원래 가지고 있는 데이터와 다르다. 변환된 데이터이다. 따라서 변수의 의미가 중요한 경우에는 PCA를 사용하면 안 된다. 왜냐면, PCA는 데이터에 변환을 가하는 것이기 때문이다. PCA는 탐색적 분석이다. 즉, 변인을 탐색해서 변환을 통해 주성분을 결정하는 방법이다. PCA의 본질은 차원 축소이다. 차원이 축소됐다는 것은 원본 데이터가 아니라 변환(projection) 된 데이터, 즉 주성분을 이용해 분석 혹은 모델링을 진행하겠다는 것이다. import pandas as pd url = "https://archive.ics.uci.e..

반응형