Data Analysis & ML/회귀분석

[회귀분석] 단순선형회귀분석(Linear Regression)(10) - 회귀효과 / 회귀오류

YSY^ 2024. 3. 27. 22:29

회귀효과 - 평범으로의 회귀

  • 평범으로의 회귀 : 측정한 값이 극단값인 경우, 다음에 측정하면 평균에 더 가까워지는 현상을 의미

  • 중간고사에서 평균점수 정도 받은 학생들은 평균적으로 기말고사에서도 평균점수 정도를 받음
  • 오른쪽 타원에 위치한 학생
    • 오른쪽에 있는 길게 늘어진 타원형(중간고사에서 평균점수보다 잘 본 학생)들은 표준편차선 아래쪽에 위치한 경우가 많음
    • 즉, 중간고사에서 평균보다 잘 본 학생들은 실력도 평균보다 위에 있을 수 있지만, 상대적으로 운이 좋은 학생들이 많이 포함되어 있을 가능성이 높음.
    • 하지만 기말고사에서 운이 반복된다는 보장이 없기 때문에 인 표준편차선(기말고사에서는 같은 정도의 운이 반복 됐을 때 그려지는 선 )보다 아래쪽에 학생들이 좀 더 많이 위치하게됨
    • 즉,  회귀직선상의 점은 표준편차선상의 점보다 낮은 위치를 통과하게 됨
  • 왼쪽에 있는 타원 안에 위치한 학생
    • 이들은 중간고사에서 점수를 잘 못받은 학생이며 기말고사도 평균적으로 못봄.
    • 그렇지만, 평균보다 못 본 이 학생들 속에는 운이 상대적으로 나쁜 학생들이 좀 더 포함되어 있을 가능성이 높음.
    • 보통 나쁜 운이 다시 반복되지 않기 때문에 기말고사 점수는 표준편차선의 위치보다 높게 형성
  • 따라서 회귀직선은 아래쪽에서는 표준편차선 보다 더 위에 있고, 위쪽에서는 더 아래에 있기에 기울기가 완만해짐
  • 또한 기울기가 완만해지는 이유는 본질적인 이유는 상관계수가 +1이 아니기 때문
  • 상관계수가 완벽하지 않기 때문에( x와 y의 관계가 완벽하지 않기 때문에 ) 이를 예측하기 위한 추가적인 불확실성이 있어 상관계수는 1보다 작게 되고, 그 결과 회귀직선은 보수적으로 변화하게 됨
  • 이것이 회귀효과

 

회귀오류 (regression fallacy)

  • 회귀오류는 회귀효과를 무언가 중요한 효과로 착각하는 것
  • 즉, 어떤 현상이 갑자기 바뀌었을 때,  특정 행동을 바뀐 원인으로 오인 하는 것을 의미
  • 회귀효과의 배경
    • (관찰된 점수) = (실제 실력) + (확률오차)
    •  EX) 실제 실력은 평균 120, 표준편차 15의 정규분포를 따라 분포한다고 가정하자.
    • 또 관측치에 든 확률오차는 각각 0.5의 확률로 ±5라고 가정하자.
  • 실제 실력이 135인 사람의 관찰된 점수는 각각 1/2의 확률로 130 또는 140
  • 실제 실력이 145인 사람의 관찰된 점수는 각각 1/2의 확률로 140 또는 150
  • 관찰된 점수로 140점 받은 사람의 경우 실제 실력은 135인 데 확률오차가 +5인 경우가 실제 실력은 145인데 확률오차 가 -5인 경우보다 더 가능성 높음
  • 따라서 첫 번째 시험점수가 평균보다 높으면, 아마도 실제 실력은 관찰된 점수보다 낮을 가능성이 큼
    • 시험점수가 올라갈 가능성보다 낮아질 가능성인 높기 때문
  • 이와 비슷한 예로
    • 어떤 강의에서 중간고사와 기말고사의 점수는 각각 평균이 50점, 표준편차가 10점이며 두 시험점수간 상관계수는 0.5점
    • 중간고사에서 30점을 받은 일부 학생들에게 특별수업을 실시한 결과 기말고사에서 평균적으로 40점을 받았다. 
    • 이 결과를 특별 수업의 효과로 볼 수 있는가
      • 특별 수업의 효과보다 평균으로의 회귀로 볼 수 있다
      • 이를 특별 수업의 효과라고 보는 것이 회귀오류

즉, 평균으로 회귀하는 현상은 통계적으로 자연스러운 현상이며 이를 특정 행동 때문이라고 오인하지 않도록 주의하여야 한다.

 

해당포스팅은 류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다

728x90
반응형