1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 : ysyblog.tistory.com/157
2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 : ysyblog.tistory.com/155
3. [회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수의 최소제곱추정량 : ysyblog.tistory.com/156
해당 포스팅은 위 포스팅들에 이어서 진행됩니다.
최소제곱추정량(LSE)의 통계적 특성
최소제곱법에 의해 산출된 최소제곱추정량 W와 b는 확률변수인데 이 확률변수의 평균, 분산, 분포는 어떻게 되고, 추정값이 얼마나 잘 만들어지는지 알아볼 필요가 있다.
특히 최소제곱추정량(LSE)은 기본가정들이 충족되면 통계적으로 바람직한 특성, 불편성(unbiasedness), 효율성(efficiency), 선형성(linearity) 및 일관성(consitency)을 가지게 된다.
참고로 단순회귀모형 식과 최소제곱추정량 W와 b는 다음과 같다.
단순회귀모형 식 : y = α +βx+εi
불편성(불편추정량)
- 단순 선형회귀모형의 가정들이 잘 충족된다면 확률변수의 평균, 기댓값은, 모수의 참값과 같다고 할 수 있다.
- 즉 E(b) = α이고 E(W) = β 인 것이다.
- 즉. 추정값인 W와 b를 반복적으로 뽑아서 평균을 낸 값이 모수의 참값인 β와 α에근접한다는 것이며 이를 불편추정량이라고 한다
- 만약 모형이 잘못되어 중요 설명변수가 누락되었으면 불편추정량이 되지 않는다.
효율성
최소제곱추정량는 효율성을 갖는다: 모든 가능한 불편추정량중에서 최소의 분산을 갖는다
아래는 최소제곱추정량의 분산과 공분산이다.
- 분산값이 작다는 것은 분포의 흩어짐이 작아서 평균 중심에 대부분의 값들이 모여있다는 것이다.
- 오차항의 분산값(σ^2)이 커질수록 최소제곱추정량의 분산은 커지고 최소제곱추정량는 덜 정확해진다.
- 독립변수 X 의 값이 넓게 퍼져있을수록 최소제곱추정량의 분산은 작아지고 독립변수의 변화에 의한 종속변수의 변화를 상대적으로 잘 설명할 수 있게 된다
- 표본의 수(m)가 증가할수록 ∑ i=1,n (Xi – X)2 의 값이 증가하게 되어 최소제곱추정량의 분산과 공분산이 작아진다.
- 표본의수가 증가할수록 전체 모집단의 수에 근접하게 되어 모집단의 모수에 대한 정보를 더 정확하게 구할 수 있기 때문
- 공분산은 독립변수(X)의 평균(X)과 반대의 부호를 가진다.
선형성
최소제곱추정량 W와 b는 y 의 1차함수관계인 선형결합형태를 가진 선형추정량 (linear estimator)이다.
가우스-마르코프 정리 (Gauss-Markov Theorem)
- 최소제곱추정량(LSE)은 최량선형불편추정량(Best Linear Unbiased Estimator :BLUE)이다
- 최소제곱추정량(LSE)은 모든 선형이고 불편의인 추정량들 가운데 최량(best)인 추정량이다:
- 최량(best)는 최소의분산을 갖는 것을 의미한다
- 모집단 회귀계수 α, β 의 추정량(estimator)으로서 선형(linear)이고 불편(unbiased)인 추정량중에서는 최소제곱추정량이 분산이 가장 작은 최상의 추정량인 것이다.
728x90
반응형