Data Analysis & ML/회귀분석

[회귀분석] 단순선형회귀분석(Linear Regression)(4) - 최소제곱추정량(LSE)의 통계적 특성(불편추정량, 효율성, 선형성 가우스-마르코프 정리)

YSY^ 2021. 1. 29. 17:26

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 : ysyblog.tistory.com/157

2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 : ysyblog.tistory.com/155

3. [회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수의 최소제곱추정량 : ysyblog.tistory.com/156

 

해당 포스팅은 위 포스팅들에 이어서 진행됩니다.

 

최소제곱추정량(LSE)의 통계적 특성

최소제곱법에 의해 산출된 최소제곱추정량 W와 b는 확률변수인데 이 확률변수의 평균, 분산, 분포는 어떻게 되고, 추정값이 얼마나 잘 만들어지는지 알아볼 필요가 있다.

특히 최소제곱추정량(LSE)은 기본가정들이 충족되면 통계적으로 바람직한 특성, 불편성(unbiasedness), 효율성(efficiency), 선형성(linearity) 및 일관성(consitency)을 가지게 된다.

참고로 단순회귀모형 식과 최소제곱추정량 W와 b는 다음과 같다.

단순회귀모형 식 : y = α +βx+εi

 

불편성(불편추정량)

  • 단순 선형회귀모형의 가정들이 잘 충족된다면 확률변수의 평균, 기댓값은, 모수의 참값과 같다고 할 수 있다.
  • 즉 E(b) = α이고 E(W) = β 인 것이다.
  • 즉. 추정값인 W와 b를 반복적으로 뽑아서 평균을 낸 값이 모수의 참값인 β와  α에근접한다는 것이며 이를 불편추정량이라고 한다
  • 만약 모형이 잘못되어 중요 설명변수가 누락되었으면 불편추정량이 되지 않는다.

 

효율성

최소제곱추정량는 효율성을 갖는다: 모든 가능한 불편추정량중에서 최소의 분산을 갖는다

아래는 최소제곱추정량의 분산과 공분산이다.

  • 분산값이 작다는 것은 분포의 흩어짐이 작아서 평균 중심에 대부분의 값들이 모여있다는 것이다.
  • 오차항의 분산값(σ^2)이 커질수록 최소제곱추정량의 분산은 커지고 최소제곱추정량는 덜 정확해진다. 
  • 독립변수 X 의 값이 넓게 퍼져있을수록 최소제곱추정량의 분산은 작아지고 독립변수의 변화에 의한 종속변수의 변화를 상대적으로 잘 설명할 수 있게 된다
  • 표본의 수(m)가 증가할수록 ∑ i=1,n (Xi – X)2 의 값이 증가하게 되어 최소제곱추정량의 분산과 공분산이 작아진다. 
  • 표본의수가 증가할수록 전체 모집단의 수에 근접하게 되어 모집단의 모수에 대한 정보를 더 정확하게 구할 수 있기 때문
  • 공분산은 독립변수(X)의 평균(X)과 반대의 부호를 가진다. 

 

선형성

최소제곱추정량 W와 b는 y 의 1차함수관계인 선형결합형태를 가진 선형추정량 (linear estimator)이다.

 

가우스-마르코프 정리 (Gauss-Markov Theorem)

  • 최소제곱추정량(LSE)은 최량선형불편추정량(Best Linear Unbiased Estimator :BLUE)이다
  • 최소제곱추정량(LSE)은 모든 선형이고 불편의인 추정량들 가운데 최량(best)인 추정량이다:
  • 최량(best)는 최소의분산을 갖는 것을 의미한다
  • 모집단 회귀계수 α, β 의 추정량(estimator)으로서 선형(linear)이고 불편(unbiased)인 추정량중에서는 최소제곱추정량이 분산이 가장 작은 최상의 추정량인 것이다.

 

 

728x90
반응형