Data Analysis & ML/회귀분석

[회귀분석] 단순선형회귀분석(Linear Regression)(10) - 회귀효과 / 회귀오류

YSY^ 2024. 3. 27. 22:29

회귀효과 - 평범으로의 회귀

평범으로의 회귀 : 측정한 값이 극단값인 경우, 다음에 측정하면 평균에 더 가까워지는 현상을 의미

[회귀분석] 단순선형회귀분석(Linear Regression)(10) - 회귀효과 / 회귀오류 0

중간고사에서 평균점수 정도 받은 학생들은 평균적으로 기말고사에서도 평균점수 정도를 받음
오른쪽 타원에 위치한 학생
- 오른쪽에 있는 길게 늘어진 타원형(중간고사에서 평균점수보다 잘 본 학생)들은 표준편차선 아래쪽에 위치한 경우가 많음
- 즉, 중간고사에서 평균보다 잘 본 학생들은 실력도 평균보다 위에 있을 수 있지만, 상대적으로 운이 좋은 학생들이 많이 포함되어 있을 가능성이 높음.
- 하지만 기말고사에서 운이 반복된다는 보장이 없기 때문에 인 표준편차선(기말고사에서는 같은 정도의 운이 반복 됐을 때 그려지는 선 )보다 아래쪽에 학생들이 좀 더 많이 위치하게됨
- 즉, 회귀직선상의 점은 표준편차선상의 점보다 낮은 위치를 통과하게 됨
왼쪽에 있는 타원 안에 위치한 학생
- 이들은 중간고사에서 점수를 잘 못받은 학생이며 기말고사도 평균적으로 못봄.
- 그렇지만, 평균보다 못 본 이 학생들 속에는 운이 상대적으로 나쁜 학생들이 좀 더 포함되어 있을 가능성이 높음.
- 보통 나쁜 운이 다시 반복되지 않기 때문에 기말고사 점수는 표준편차선의 위치보다 높게 형성
따라서 회귀직선은 아래쪽에서는 표준편차선 보다 더 위에 있고, 위쪽에서는 더 아래에 있기에 기울기가 완만해짐
또한 기울기가 완만해지는 이유는 본질적인 이유는 상관계수가 +1이 아니기 때문
상관계수가 완벽하지 않기 때문에( x와 y의 관계가 완벽하지 않기 때문에 ) 이를 예측하기 위한 추가적인 불확실성이 있어 상관계수는 1보다 작게 되고, 그 결과 회귀직선은 보수적으로 변화하게 됨
이것이 회귀효과

회귀오류 (regression fallacy)

회귀오류는 회귀효과를 무언가 중요한 효과로 착각하는 것
즉, 어떤 현상이 갑자기 바뀌었을 때, 특정 행동을 바뀐 원인으로 오인 하는 것을 의미
회귀효과의 배경
- (관찰된 점수) ＝ (실제 실력) ＋ (확률오차)
- EX) 실제 실력은 평균 120, 표준편차 15의 정규분포를 따라 분포한다고 가정하자.
- 또 관측치에 든 확률오차는 각각 0.5의 확률로 ±5라고 가정하자.

실제 실력이 135인 사람의 관찰된 점수는 각각 1/2의 확률로 130 또는 140
실제 실력이 145인 사람의 관찰된 점수는 각각 1/2의 확률로 140 또는 150
관찰된 점수로 140점 받은 사람의 경우 실제 실력은 135인 데 확률오차가 +5인 경우가 실제 실력은 145인데 확률오차 가 -5인 경우보다 더 가능성 높음
따라서 첫 번째 시험점수가 평균보다 높으면, 아마도 실제 실력은 관찰된 점수보다 낮을 가능성이 큼
- 시험점수가 올라갈 가능성보다 낮아질 가능성인 높기 때문
이와 비슷한 예로
- 어떤 강의에서 중간고사와 기말고사의 점수는 각각 평균이 50점, 표준편차가 10점이며 두 시험점수간 상관계수는 0.5점
- 중간고사에서 30점을 받은 일부 학생들에게 특별수업을 실시한 결과 기말고사에서 평균적으로 40점을 받았다.
- 이 결과를 특별 수업의 효과로 볼 수 있는가
  - 특별 수업의 효과보다 평균으로의 회귀로 볼 수 있다
  - 이를 특별 수업의 효과라고 보는 것이 회귀오류

즉, 평균으로 회귀하는 현상은 통계적으로 자연스러운 현상이며 이를 특정 행동 때문이라고 오인하지 않도록 주의하여야 한다.

해당포스팅은 류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다

728x90

저작자표시 비영리

'Data Analysis & ML > 회귀분석' 카테고리의 다른 글

[회귀분석] 다중회귀분석(3) - 다중공선성(다중공선성 검정 및 해결) (1)	2024.04.03
[회귀분석] 단순선형회귀분석(Linear Regression)(11) - 회귀직선의 오차 (0)	2024.03.27
[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python) (4)	2023.07.23
[회귀분석] 회귀분석 실습(3) - 변수선택법 (R) (1)	2023.07.23
[회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) (0)	2023.07.23

현재글[회귀분석] 단순선형회귀분석(Linear Regression)(10) - 회귀효과 / 회귀오류

YSY의 데이터분석 블로그 데이터 분석 블로그 - 데이터분석 방법론 / 인과추론 / 머신러닝 / Python / SQL / Hadoop&Spark / 통계

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[회귀분석] 단순선형회귀분석(Linear Regression)(10) - 회귀효과 / 회귀오류

회귀효과 - 평범으로의 회귀

회귀오류 (regression fallacy)

'Data Analysis & ML > 회귀분석' 카테고리의 다른 글

'Data Analysis & ML/회귀분석'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[회귀분석] 단순선형회귀분석(Linear Regression)(10) - 회귀효과 / 회귀오류

회귀효과 - 평범으로의 회귀

회귀오류 (regression fallacy)

'Data Analysis & ML > 회귀분석' 카테고리의 다른 글

'Data Analysis & ML/회귀분석'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역