다중회귀식의 분산
- 회귀분석은 여러개의 독립변수를 통해 종속변수 y의 분산을 얼마나 설명하느냐의 문제
- R-square값과 관계가 있음
ysyblog.tistory.com/168?category=1185073
다중공선성이란 위와 같이 나타낼 수 있다. 독립변수들 끼리 많이 겹치는 것을 말한다.
다중공선성
- 상관관계가 매우 높은 독립변수들이 동시에 모델에 포함될 때 발생
- 만약 두 변수가 완벽하게 다중공선성에 걸려있으면, 같은 변수를 두번넣은 것이며 최소제곱법을 계산하는 것이 어렵다.
- 완벽한 다중공선성이 아니더라도 다중공선성이 높다면 회귀계수의 표준오차가 비정상적으로 커지게된다.
- 회귀계수의 유의성은 t-값에 의해 계산되는데(회귀계수 / 표준오차) 다중공선성으로 인해 표준오차가 비정상적으로 커지면 t값이 작아져서 p값이 유의해지지 않아 유의해야할 변수가 유의하지 않게됨.
- 회귀계수(베타)값을 제대로 측정하지 못하게 됨.
다중공선성을 해결해야 하는 경우
1. 설명적 회귀분석(explanatory regression)
- 설명변수와 종속변수의 관계를 설명하는 것이 목적일 경우 다중공선성을 해결하여야함
- 다중공선성이 있으면 특정 변수에 대한 효과를 제대로 측정할 수 없기 때문
2. 예측적 회귀분석(Predictive regression)
- 모델이 잘 나오기만 했다면 굳이 해결하지 않아도 됨.
- 예측적 회귀분석의 목표는 Y값을 제대로 예측하는 것이기 때문에, X(설명변수)들의 계수는 딱히 신경쓸 필요가 없기 때문
다중공선성 확인
1. 산포도 및 상관계수 확인
- 두 독립변수의 산포도를 보았을 때, 상관관계가 너무 높으면 다중공선성이 있다고 판단
- 상관계수가 0,9를 넘는다면(높다면) 다중공선성의 문제가 있다고 할 수 있음
2. 허용/공차(tolerance)를 확인
- tolerance란 한개의 독립변수를 종속변수로 나머지 독립변수를 독립변수로 하는 회귀분석을 했을 때 나오는 R-squared값을 이용, 1-R^2 를 의미한다.
- 만약 R^2가 1이면 독립변수 간에 심각한 상관관계가 있다는 것을 의미하며, tolerance는 이 경우에 0이 될 것이다.
- 따라서 tolerance가 0이면 완벽한 상관성을 의미하며 다중공선성이 심각하다는 것을 의미한다.
3. 분산팽창지수(VIF : Variance Inflation Factor)
- VIF = 1 / tolerance = 1 / (1 - R^2)
- VIF가 크다는 것은 다중공선성이 크다는 의미
- 일반적으로 10보다 크면 문제가 있다고 판단
- 이는 연속형 변수의 경우에 해당된다고 보아야 함
- 만약 더미변수의 VIF가 3이상이라면 이 경우 다중공선성을 의심해 보아야함
4. 상태지수(Condition Index)
- 100이상이면 심각한 다중공선성이 있다고 판단
- 거의 잘 사용하지 않음
다중공선성 해결
1. 다중공선성이 큰 변수가 유의하지 아닌지 확인해야함
- 대부분의 경우 변수를 무조건 빼라고하는데 그렇지 않다.
- 다중공선성이 있음에도 해당 독립변수가 유의하다면, 이는 표준오차가 비정상적으로 팽창되었음에도 불구하고 유의하다는 의미이므로 그 자체로 매우 유의하다는 의미가 되어 그대로 두어도 무방함(완벽한 다중공선성이 아닌한 문제가 크게 되지 않음)
- 특히 조절효과를 확인하기 위해 교호작용 변수를 추가하는 경우, 연구자가 의도적으로 넣으므로써 어느 정도의 다중공선성을 피할 수 없음
- 약간의 다중공선성 문제가 발생하더라도 연구자의 의도와 변수의 유의성에 따라 결정해야함
2. 해당 변수를 제거
- 가장 일반적인 방법
- 문제는 해당변수가 연구의 중심이 되는 중요변수의 경우 문제
- 이런 경우의 근본적인 원인은 기존 연구 및 이론/논리적 구성이 사전에 부족했기 때문
3. 주성분분석으로 변수를 재조합
- 주성분 분석은 겹치는 분산을 제거하는 효과가 있음
- 문제는 제거된 분산이 꼭 겹치는 것이 아니어서, 경우에 따라 재조합된 변수들이 이상한 결과를 낼 수 있음
4. 다중공선성이 발생한 독립변수들을 합침
- 다중공선성이 높은 변수들은 결국 비슷하다는 것을 의미
- 하지만 유의하다고 해도 해석이 어려워짐
- 하나로 합치는 방법으로는 평균값을 가장 많이 사용하나, 이것도 완벽하지 않음
5. 능형 회귀분석(Ridge)
6. Mean Centering방법
- 모든 변수를 각 변수의 평균값으로 뺀 뒤에 회귀분석 진행
- 완벽하지는 않음
다중공선성 실습은 아래 링크에서 볼 수 있습니다.
해당 포스팅은아래 유튜브 영상을 참고하여 만들었습니다.
'Data Analysis & ML > 회귀분석' 카테고리의 다른 글
[회귀분석] 단순선형회귀분석(Linear Regression)(11) - 회귀직선의 오차 (0) | 2024.03.27 |
---|---|
[회귀분석] 단순선형회귀분석(Linear Regression)(10) - 회귀효과 / 회귀오류 (1) | 2024.03.27 |
[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python) (4) | 2023.07.23 |
[회귀분석] 회귀분석 실습(3) - 변수선택법 (R) (1) | 2023.07.23 |
[회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) (0) | 2023.07.23 |