1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157
2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistory.com/155
3. [회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수의 최소제곱추정량 :ysyblog.tistory.com/156
4. [회귀분석] 단순선형회귀분석(Linear Regression)(4) - 최소제곱추정량(LSE)의 통계적 특성 :ysyblog.tistory.com/159
5. [회귀분석] 단순선형회귀분석(Linear Regression)(5) - 표준오차 :ysyblog.tistory.com/166
6. [회귀분석] 단순선형회귀분석(Linear Regression)(6) - 회귀분석과 T-test :ysyblog.tistory.com/167
7. [회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared :ysyblog.tistory.com/168
8. [회귀분석] 단순선형회귀분석(Linear Regression)(8) - 더미변수 : ysyblog.tistory.com/169
아래 포스팅은 위 포스팅들에 이어지는 포스팅입니다.
등분산성 (Homoscedasticity)
- 표준오차의 분산이 같음
- 즉, 회귀직선을 중심으로 점들이 위 아래로 퍼진 정도가 세로띠 별로 같음
이분산성(Heteroskedasticity)
- 분산이 다르다는 의미
- 즉, 회귀계수의 표준오차(분산)이 다르다는 의미이다.
- 회귀계수의 유의성을 판단하려면 t-값(회귀계수를 표준오차로 나눈것)을 구해야하는데 이때 표준오차가 이분산성을 띄게 되면 하나의 수로 나타낼 수 없음
cf) 동분산성(Homoskedasticity) : 분산이 동일하다는 의미
위 사례에서 점들이 퍼져있는 것이 회귀계수의 표준오차인데, 분산이 일정하지 않기 때문에 어느부분의 표준오차를 써야 할지 모른다.
위 그래프에서 x가 커질 수록 y도 커지면서 표준오차도 커진다. 즉 표준오차는 독립변수의 함수로 표현할 수 있다.
잔차도를 보았을때 이렇게 패턴이 보이는 모델은 이분산성인 것이다.
이분산성의 유형
1. 비례적 이분산성 : 분산의 크기가 독립변수값에 대해 비례적으로 변화
2. 분할적 이분산성 : 독립변수의 값이 여러개의 범주로 분할되는 경우, 분산의 크기가 분할된 ㅣ그룹에 따라 달라지는 경우
ex) 1960 ~ 2000년의 물가상승자료에서 1980 ~ 1990년의 물가상승률의 분산과 1991 ~2000년의 물가상승률의 분산 등으로 구분될 수 있음
이분산성의 문제점
- 회귀모형에서 기본가정들이 모두 충족한 경우 최소자승 추정치는 BLUE 의 특성, 불편성(unbiasedness), 선형성(linearity), 일치성(consistency) 그리고 효율성 (efficiency)을 모두 갖게 된다
- 만약, 이분산 현상이 발생한 경우 최소승차 추정치는 불편성과 일치성은 유지하나 추정량의 분산이 커져 최소분산을 갖는 효율성을 갖지 못해 BLUE 가 되지 못 한다
- 최소 추정치 자체는 불편성을 유지하나, 그 추정치의 분산추정량은 하향편의(downward bias)를 갖게된다,
- 이분산성 존재 시, 회귀직선의 RMSE는 서로 다른 x값에 대응하는 추정오차들의 전반적인 크기를 나타낼 뿐이다.
이분산성을 확인하는 법
1. 산포도
2. 잔차도
3. White Test
- 전체적인 설명변수들의 오차항의 분산에 대한 체계적이고 유의한 영향을 확인함 (설명변수들을 특정할 필요 없음)
- 테스트 결과가 유의하면 이분산성이 있다는 것이다.
4. Goldfeld-Quandt test
- 두 그룹의 관측치들 간에 그 신뢰성에 체계적이고 유의한 차이를 확인
- 테스트 결과가 유의하면 이분산성이 있다는 것이다.
오차항의 분산이 의존할 것으로 의심되는 설명변수들이 특정될 때, 이들의 분산에 대한 체계적이고 유의한 영향을 확인
테스트 결과가 유의하면 이분산성이 있다는 것이다.
이분산성 해결 방법
1. (Heteroskedastic) Robust Standard error
-robust standard Error는 안정성과 이분산 문제의 해결책으로 인정받는 방법
-이분산을 모를 때 사용 가능.
- 구하는 방법은 매우 복잡..
-통계 패키지에서 White의 이분산이 교정된 분산과 표준오차를 모두 구할 수 있는데, 여기서 White의 이분산 교정 표준오차가 로버스트 표준오차이다.
2. Weight least square regression(WLS regresssion)(가중최소자승법)
- 비례적 이분산성의 경우에 사용
- 이분산성의 함수를 찾아서 그 역함수로 독립변수를 만들어 추가하는 OLS추정 방법
- 회귀함수를 오차항(εi)을 각각의 분산(σi)으로 나누어 준뒤(1/σi)의 가중치를 부 여) 도출된 오차자승합을 최소화시킴으로써 도출한다
- 문제는 이분산성의 함수를 찾는것이 쉽지 않음
- 이론적으로는 쉬우나 현실적으로 어려움
3. GLS/FGLS regression(일반화된 최소자승법)
- 고전적 모형의 가정을 만족시키기 위해 원래의 변수들을 변환하고 나서 OLS를 적용하는 절차
- GLS와 FGLS 모두 근본적으로 WLS와 유사한 방법
- GLS는 이분산을 알고 있을 때 사용 가능.
- OLS는 잔차 제곱의 합을 최소화하는 방법이라면, GLS는 잔차 제곱에가중치를 곱한 합계를 극소화 한다. 이때, 이분산 제곱의 역수가 가중치 역할을 한다.
- 이론적으로는 쉬우나 현실적으로 어려움
'Data Analysis & ML > 회귀분석' 카테고리의 다른 글
[회귀분석] 다중선형회귀분석(1) - 다중선형회귀모형의 가정 (0) | 2023.01.24 |
---|---|
[회귀분석] 로지스틱 회귀분석(3) - 로지스틱 회귀분석 해석 (0) | 2021.02.16 |
[회귀분석] 단순선형회귀분석(Linear Regression)(8) - 더미변수(Dummy Variable) (0) | 2021.02.13 |
[회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared) (2) | 2021.02.13 |
[회귀분석] 단순선형회귀분석(Linear Regression)(6) - 회귀분석과 T-test (2) | 2021.02.13 |