Data Analysis & ML/회귀분석

[회귀분석] 다중회귀분석(3) - 다중공선성(다중공선성 검정 및 해결)

YSY^ 2024. 4. 3. 21:16

다중회귀식의 분산

- 회귀분석은 여러개의 독립변수를 통해 종속변수 y의 분산을 얼마나 설명하느냐의 문제
- R-square값과 관계가 있음

ysyblog.tistory.com/168?category=1185073

 

[회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared)

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistor..

ysyblog.tistory.com

 

다중공선성이란 위와 같이 나타낼 수 있다. 독립변수들 끼리 많이 겹치는 것을 말한다.

 

다중공선성

  • 상관관계가 매우 높은 독립변수들이 동시에 모델에 포함될 때 발생
  • 만약 두 변수가 완벽하게 다중공선성에 걸려있으면, 같은 변수를 두번넣은 것이며 최소제곱법을 계산하는 것이 어렵다.
  • 완벽한 다중공선성이 아니더라도 다중공선성이 높다면 회귀계수의 표준오차가 비정상적으로 커지게된다.
  • 회귀계수의 유의성은 t-값에 의해 계산되는데(회귀계수 / 표준오차) 다중공선성으로 인해 표준오차가 비정상적으로 커지면 t값이 작아져서 p값이 유의해지지 않아 유의해야할 변수가 유의하지 않게됨.
  • 회귀계수(베타)값을 제대로 측정하지 못하게 됨.

 

다중공선성을 해결해야 하는 경우

1. 설명적 회귀분석(explanatory regression)

  • 설명변수와 종속변수의 관계를 설명하는 것이 목적일 경우 다중공선성을 해결하여야함
  • 다중공선성이 있으면 특정 변수에 대한 효과를 제대로 측정할 수 없기 때문

2. 예측적 회귀분석(Predictive regression)

  • 모델이 잘 나오기만 했다면 굳이 해결하지 않아도 됨. 
  • 예측적 회귀분석의 목표는 Y값을 제대로 예측하는 것이기 때문에, X(설명변수)들의 계수는 딱히 신경쓸 필요가 없기 때문

 

다중공선성 확인

1. 산포도 및 상관계수 확인
- 두 독립변수의 산포도를 보았을 때, 상관관계가 너무 높으면 다중공선성이 있다고 판단
- 상관계수가 0,9를 넘는다면(높다면) 다중공선성의 문제가 있다고 할 수 있음

2. 허용/공차(tolerance)를 확인
- tolerance란 한개의 독립변수를 종속변수로 나머지 독립변수를 독립변수로 하는 회귀분석을 했을 때 나오는 R-squared값을 이용, 1-R^2 를 의미한다.
- 만약 R^2가 1이면 독립변수 간에 심각한 상관관계가 있다는 것을 의미하며, tolerance는 이 경우에 0이 될 것이다.
- 따라서 tolerance가 0이면 완벽한 상관성을 의미하며 다중공선성이 심각하다는 것을 의미한다.

3. 분산팽창지수(VIF : Variance Inflation Factor)
- VIF = 1 / tolerance = 1 / (1 - R^2)
- VIF가 크다는 것은 다중공선성이 크다는 의미
- 일반적으로 10보다 크면 문제가 있다고 판단
- 이는 연속형 변수의 경우에 해당된다고 보아야 함
- 만약 더미변수의 VIF가 3이상이라면 이 경우 다중공선성을 의심해 보아야함

4. 상태지수(Condition Index)
- 100이상이면 심각한 다중공선성이 있다고 판단
- 거의 잘 사용하지 않음

 

다중공선성 해결

1. 다중공선성이 큰 변수가 유의하지 아닌지 확인해야함
- 대부분의 경우 변수를 무조건 빼라고하는데 그렇지 않다.
- 다중공선성이 있음에도 해당 독립변수가 유의하다면, 이는 표준오차가 비정상적으로 팽창되었음에도 불구하고 유의하다는 의미이므로 그 자체로 매우 유의하다는 의미가 되어 그대로 두어도 무방함(완벽한 다중공선성이 아닌한 문제가 크게 되지 않음)
- 특히 조절효과를 확인하기 위해 교호작용 변수를 추가하는 경우, 연구자가 의도적으로 넣으므로써 어느 정도의 다중공선성을 피할 수 없음
- 약간의 다중공선성 문제가 발생하더라도 연구자의 의도와 변수의 유의성에 따라 결정해야함

2. 해당 변수를 제거
- 가장 일반적인 방법
- 문제는 해당변수가 연구의 중심이 되는 중요변수의 경우 문제
- 이런 경우의 근본적인 원인은 기존 연구 및 이론/논리적 구성이 사전에 부족했기 때문

3. 주성분분석으로 변수를 재조합
- 주성분 분석은 겹치는 분산을 제거하는 효과가 있음
- 문제는 제거된 분산이 꼭 겹치는 것이 아니어서, 경우에 따라 재조합된 변수들이 이상한 결과를 낼 수 있음

4. 다중공선성이 발생한 독립변수들을 합침
- 다중공선성이 높은 변수들은 결국 비슷하다는 것을 의미
- 하지만 유의하다고 해도 해석이 어려워짐
- 하나로 합치는 방법으로는 평균값을 가장 많이 사용하나, 이것도 완벽하지 않음

5. 능형 회귀분석(Ridge)

6. Mean Centering방법
- 모든 변수를 각 변수의 평균값으로 뺀 뒤에 회귀분석 진행
- 완벽하지는 않음

 

다중공선성 실습은 아래 링크에서 볼 수 있습니다.

ysyblog.tistory.com/122

 

[통계분석] 회귀분석(다중공선성) (ADP 실기 준비)

다중공선성 독립 변수X는 종속변수 Y하고만 상관 관계가 있어야 하며, 독립 변수 X들끼리 상관 관계가 있어서는 안된다. 독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고

ysyblog.tistory.com

 

해당 포스팅은아래 유튜브 영상을 참고하여 만들었습니다.

www.youtube.com/watch?v=7EiN3NVmbMo

728x90
반응형