Data Analysis & ML/회귀분석

[회귀분석] 단순선형회귀분석(Linear Regression)(11) - 회귀직선의 오차

YSY^ 2024. 3. 27. 23:45

RMSE (제곱근-평균-제곱 오차)

  • 추정의 표준오차(standard error of estimate) 또는 회귀의 표준오차 (standard error of regression)라고도 불림
  • 실제 값과 예측치의 차이

  • 회귀직선과 RMSE
    • 회귀직선은 x값에 따라 분류된 부분집단 별로 자료의 중심을 알려줌
    • RMSE는 개별 관측치 속한 준거집단의 평균으로부터 떨어진 정도를 대략적으로 알려준다.
    • 회귀직선과 RMSE를 알면 평균과 표준편차를 알 때처럼 68-95 법칙을 활용해 볼 수 있음.

RMSE 공식

예시

  • 산포도에서 전형적인 점(typical point)은 회귀직선으로부터 위 또는 아래로 9.3kg 정도 떨어져 있다.
  • 실제 몸무게는 추정된 몸무게와 약 9.3kg 정도 다름
  • 분모에 표본크기가 아닌 자유도가 사용
    • 자유도=1,503-2=표본크기-2
    • 추정오차 계산의 기준은 회귀직선인데 이는 절편과 기울기의 두 추정치에 의해 결 정되므로 자유도는 2만큼 감소

 

회귀직선의 RMSE와 y의 표준편차

  • 일반적으로 회귀직선의 RMSE는  y의 표준편차 보다 작음
  • 이는  y의 평균값 보다 회귀직선이 산포도 상의 점들에 보다 가까이 위치하기 때문
  • 회귀직선의 RMSE는 대략 아래수식과 같음 (단, 𝑟은 𝑥와 𝑦의 상관계수)

상관계수와 회귀직선의 RMSE

  • 𝑟(상관계수)가 1인 경우
    • 산포도상의 모든 점들이 하나의 우상향하는 직선 위에 놓임
    • RMSE는 모두 0
  • 𝑟(상관계수)가 -1인 경우
    • 산포도상의 모든 점들이 하나의 우하향하는 직선 위에 놓임
    • RMSE는 모두 0
  • 𝑟 = 0 경우
    • 두 변수 x와 y간에 선형관계가 전혀 없음
    • 회귀직선은 x값으로 부터 y값을 추정하는 데 전혀 도움이 안됨
    • RMSE는 SDy와 거의 같은 값을 가지게 됨

 

잔차도

  • 선형회귀분석의 적합성을 확인해보기 위함

일반적인 잔차도

  • 잔차들의 합도 0이고 잔차들의 평균도 0
  • 잔차도 상의 점들은 우상향하거나 우하향하는 등의 체계적인 선형패턴 (linear pattern)을 보이지 않음
  • 산포도 상에서 관찰된 두 변수간 선형패턴은 이미 회귀직선에 흡수되어 버렸기 때문임

 

비선형의 패턴을 보이는 잔차도

  • 잔차도가 어떤 체계적인 패턴을 보이는 경우 회귀분석 모형이 잘못 만들어졌을 가능성이 높음
  • 잔차도에 남아 있는 뚜렷한 비선형의 패턴은 직선의 회귀분석 모형이 체계적인 비선형의 관계를 포착하지 못하고 누락시켰을 가능성이 높음
  • 따라서 잔차의 등분산성이 중요함
 

[회귀분석] 단순선형회귀분석(Linear Regression)(9) - 이분산성

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistory.com/155 3.

ysyblog.tistory.com

 

 

[회귀분석] 회귀분석 실습(2) - 잔차분석 (Python)

1. [회귀분석] 회귀분석 실습(1) - Statsmodel분석/데이터 스케일링(Python) : ysyblog.tistory.com/119 해당 포스팅은 위 포스팅에 이어 진행됩니다. 잔차분석 잔차분석은 회귀모형에 대한 가정(정규성, 등분

ysyblog.tistory.com

해당포스팅은 류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다

728x90
반응형