회귀효과 - 평범으로의 회귀
- 평범으로의 회귀 : 측정한 값이 극단값인 경우, 다음에 측정하면 평균에 더 가까워지는 현상을 의미
- 중간고사에서 평균점수 정도 받은 학생들은 평균적으로 기말고사에서도 평균점수 정도를 받음
- 오른쪽 타원에 위치한 학생
- 오른쪽에 있는 길게 늘어진 타원형(중간고사에서 평균점수보다 잘 본 학생)들은 표준편차선 아래쪽에 위치한 경우가 많음
- 즉, 중간고사에서 평균보다 잘 본 학생들은 실력도 평균보다 위에 있을 수 있지만, 상대적으로 운이 좋은 학생들이 많이 포함되어 있을 가능성이 높음.
- 하지만 기말고사에서 운이 반복된다는 보장이 없기 때문에 인 표준편차선(기말고사에서는 같은 정도의 운이 반복 됐을 때 그려지는 선 )보다 아래쪽에 학생들이 좀 더 많이 위치하게됨
- 즉, 회귀직선상의 점은 표준편차선상의 점보다 낮은 위치를 통과하게 됨
- 왼쪽에 있는 타원 안에 위치한 학생
- 이들은 중간고사에서 점수를 잘 못받은 학생이며 기말고사도 평균적으로 못봄.
- 그렇지만, 평균보다 못 본 이 학생들 속에는 운이 상대적으로 나쁜 학생들이 좀 더 포함되어 있을 가능성이 높음.
- 보통 나쁜 운이 다시 반복되지 않기 때문에 기말고사 점수는 표준편차선의 위치보다 높게 형성
- 따라서 회귀직선은 아래쪽에서는 표준편차선 보다 더 위에 있고, 위쪽에서는 더 아래에 있기에 기울기가 완만해짐
- 또한 기울기가 완만해지는 이유는 본질적인 이유는 상관계수가 +1이 아니기 때문
- 상관계수가 완벽하지 않기 때문에( x와 y의 관계가 완벽하지 않기 때문에 ) 이를 예측하기 위한 추가적인 불확실성이 있어 상관계수는 1보다 작게 되고, 그 결과 회귀직선은 보수적으로 변화하게 됨
- 이것이 회귀효과
회귀오류 (regression fallacy)
- 회귀오류는 회귀효과를 무언가 중요한 효과로 착각하는 것
- 즉, 어떤 현상이 갑자기 바뀌었을 때, 특정 행동을 바뀐 원인으로 오인 하는 것을 의미
- 회귀효과의 배경
- (관찰된 점수) = (실제 실력) + (확률오차)
- EX) 실제 실력은 평균 120, 표준편차 15의 정규분포를 따라 분포한다고 가정하자.
- 또 관측치에 든 확률오차는 각각 0.5의 확률로 ±5라고 가정하자.
- (관찰된 점수) = (실제 실력) + (확률오차)
- 실제 실력이 135인 사람의 관찰된 점수는 각각 1/2의 확률로 130 또는 140
- 실제 실력이 145인 사람의 관찰된 점수는 각각 1/2의 확률로 140 또는 150
- 관찰된 점수로 140점 받은 사람의 경우 실제 실력은 135인 데 확률오차가 +5인 경우가 실제 실력은 145인데 확률오차 가 -5인 경우보다 더 가능성 높음
- 따라서 첫 번째 시험점수가 평균보다 높으면, 아마도 실제 실력은 관찰된 점수보다 낮을 가능성이 큼
- 시험점수가 올라갈 가능성보다 낮아질 가능성인 높기 때문
- 이와 비슷한 예로
- 어떤 강의에서 중간고사와 기말고사의 점수는 각각 평균이 50점, 표준편차가 10점이며 두 시험점수간 상관계수는 0.5점
- 중간고사에서 30점을 받은 일부 학생들에게 특별수업을 실시한 결과 기말고사에서 평균적으로 40점을 받았다.
- 이 결과를 특별 수업의 효과로 볼 수 있는가
- 특별 수업의 효과보다 평균으로의 회귀로 볼 수 있다
- 이를 특별 수업의 효과라고 보는 것이 회귀오류
즉, 평균으로 회귀하는 현상은 통계적으로 자연스러운 현상이며 이를 특정 행동 때문이라고 오인하지 않도록 주의하여야 한다.
해당포스팅은 류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다
728x90
반응형
'Data Analysis & ML > 회귀분석' 카테고리의 다른 글
[회귀분석] 다중회귀분석(3) - 다중공선성(다중공선성 검정 및 해결) (1) | 2024.04.03 |
---|---|
[회귀분석] 단순선형회귀분석(Linear Regression)(11) - 회귀직선의 오차 (0) | 2024.03.27 |
[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python) (4) | 2023.07.23 |
[회귀분석] 회귀분석 실습(3) - 변수선택법 (R) (1) | 2023.07.23 |
[회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) (0) | 2023.07.23 |