Data Analysis & ML/회귀분석

[회귀분석] 단순선형회귀분석(Linear Regression)(5) - 표준오차

YSY^ 2021. 2. 13. 16:22

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 : ysyblog.tistory.com/157

2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 : ysyblog.tistory.com/155

3. [회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수의 최소제곱추정량 : ysyblog.tistory.com/156

4. [회귀분석] 단순선형회귀분석(Linear Regression)(4) - 최소제곱추정량(LSE)의 통계적 특성 : ysyblog.tistory.com/159

 

해당 포스팅은 위 포스팅들에 이어서 진행됩니다.

 

위 두가지 그래프는 같은 회귀식을 가지고 있습니다. 하지만 점들의 분포가 다르죠. 과연 이 두개를 똑같은 것이라고 볼 수 있을까요

 

회귀계수

통계적인 사고 방식이란 사건이 우연히 발생했지 않았을까라는 것이며, 회귀방정식의 결과를 보았을 때 x가 1증가할 때 y가 2증가한다고 했는데, 2의 증가가 우연히 발생하지 않았을까를 생각해야 한다.

최소제곱법은 오차의 제곱합이 최소가 되는 회귀방정식을 구해줄 뿐, 회귀식의 회귀계수가 우연인지 아닌지 알려주지 않는다.

따라서 회귀계수 2가 우연인지 아닌지 판단해야한다.

 

다시 위의 그래프를 보자면, 좌측의 데이터에서는 직선을 중심으로 뭉쳐져 있고, 우측의 데이터에서는 퍼져있기 때문에, 좌측보다는 우측이 2가 우연히 증가했을 것입니다.

 

표준오차

대부분 모집단이 아닌 표본으로 통계분석을 하는데, 이때 우리가 가진 표본이 얼마나 모집단에 가까운지 판단해야한다.

즉 모집단의 평균을 평균의 참값이라고 할 때, 표본집단의 평균이 얼마나 모집단의 평균과 가까운지 먼지를 계산해야한다.

이론적으로는 같은 모집단에서 적합한 방법으로 표본을 구해도 표본집단의 평균은 매번 조금씩 다를 수 밖에 없음

표본평균들의 편차를 표준편차라고 한다.

표준오차가 작으면 참값(모집단의 평균)에 더 가깝다는 것이며, 표준오차가 크면 참값(모집단의 평균)에서 더 멀다는 것이다.

위 그래프에서 좌측이 표준오차가 작고 우측이 표준오차가 더 크며, 이는 좌측은 데이터의 퍼진정도가 작으며, 우측은 데이터의 퍼진정도가 크다고 할 수 있다.

따라서 위 그래프들은 아래와 같이 말할 수 있다.

  좌측 그래프 우측 그래프
표준오차 작음
회귀직선을 중심으로 데이터 분포 작음 크다.
회귀계수 2는 우연일 가능성이 낮음 우연일 가능성이 높음
통계적으로 위 회귀계수는 유의할 것이다. 유의하지 않을 것이다.

 

표준오차가 작으면 회귀계수가 우연일 확률이 낮으며, 표준오차가 크면 회귀계수가 우연일 확률이 큰것이다. 그렇다면 이 확률을 계산하는 방법은 무엇일지 다음 포스팅에서 알아 보겠다.

 

해당 포스팅은 아래 유튜브 영상을 참고하여 만들었습니다.

www.youtube.com/watch?v=EXuQXbzpKxg

728x90
반응형