RMSE (제곱근-평균-제곱 오차)
- 추정의 표준오차(standard error of estimate) 또는 회귀의 표준오차 (standard error of regression)라고도 불림
- 실제 값과 예측치의 차이
- 회귀직선과 RMSE
- 회귀직선은 x값에 따라 분류된 부분집단 별로 자료의 중심을 알려줌
- RMSE는 개별 관측치 속한 준거집단의 평균으로부터 떨어진 정도를 대략적으로 알려준다.
- 회귀직선과 RMSE를 알면 평균과 표준편차를 알 때처럼 68-95 법칙을 활용해 볼 수 있음.
RMSE 공식
예시
- 산포도에서 전형적인 점(typical point)은 회귀직선으로부터 위 또는 아래로 9.3kg 정도 떨어져 있다.
- 실제 몸무게는 추정된 몸무게와 약 9.3kg 정도 다름
- 분모에 표본크기가 아닌 자유도가 사용
- 자유도=1,503-2=표본크기-2
- 추정오차 계산의 기준은 회귀직선인데 이는 절편과 기울기의 두 추정치에 의해 결 정되므로 자유도는 2만큼 감소
회귀직선의 RMSE와 y의 표준편차
- 일반적으로 회귀직선의 RMSE는 y의 표준편차 보다 작음
- 이는 y의 평균값 보다 회귀직선이 산포도 상의 점들에 보다 가까이 위치하기 때문
- 회귀직선의 RMSE는 대략 아래수식과 같음 (단, 𝑟은 𝑥와 𝑦의 상관계수)
상관계수와 회귀직선의 RMSE
- 𝑟(상관계수)가 1인 경우
- 산포도상의 모든 점들이 하나의 우상향하는 직선 위에 놓임
- RMSE는 모두 0
- 𝑟(상관계수)가 -1인 경우
- 산포도상의 모든 점들이 하나의 우하향하는 직선 위에 놓임
- RMSE는 모두 0
- 𝑟 = 0 경우
- 두 변수 x와 y간에 선형관계가 전혀 없음
- 회귀직선은 x값으로 부터 y값을 추정하는 데 전혀 도움이 안됨
- RMSE는 SDy와 거의 같은 값을 가지게 됨
잔차도
- 선형회귀분석의 적합성을 확인해보기 위함
- 잔차들의 합도 0이고 잔차들의 평균도 0
- 잔차도 상의 점들은 우상향하거나 우하향하는 등의 체계적인 선형패턴 (linear pattern)을 보이지 않음
- 산포도 상에서 관찰된 두 변수간 선형패턴은 이미 회귀직선에 흡수되어 버렸기 때문임
- 잔차도가 어떤 체계적인 패턴을 보이는 경우 회귀분석 모형이 잘못 만들어졌을 가능성이 높음
- 잔차도에 남아 있는 뚜렷한 비선형의 패턴은 직선의 회귀분석 모형이 체계적인 비선형의 관계를 포착하지 못하고 누락시켰을 가능성이 높음
- 따라서 잔차의 등분산성이 중요함
- 관련 링크 : https://ysyblog.tistory.com/170
- 잔차분석(Python 실습) 관련 링크 : https://ysyblog.tistory.com/120
해당포스팅은 류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다
728x90
반응형
'Data Analysis & ML > 회귀분석' 카테고리의 다른 글
[회귀분석] 다중회귀분석(3) - 다중공선성(다중공선성 검정 및 해결) (1) | 2024.04.03 |
---|---|
[회귀분석] 단순선형회귀분석(Linear Regression)(10) - 회귀효과 / 회귀오류 (1) | 2024.03.27 |
[회귀분석] 회귀분석 실습(4) - 다중공선성 (Python) (4) | 2023.07.23 |
[회귀분석] 회귀분석 실습(3) - 변수선택법 (R) (1) | 2023.07.23 |
[회귀분석] 회귀분석 실습(2) - 잔차분석 (Python) (0) | 2023.07.23 |