비용함수와 최소제곱법(최소자승법)
저번시간에는 선형회귀분석의 비용함수에 대해 알아보았습니다. 이제는 비용함수의 기울기가 최소(0)이 되도록 계산하겠습니다.
최소제곱법/최소자승법(OLS) 계산
비용함수의 기울기가 0이 되도록 계산 (최소제곱법/최소자승법(OLS))
기울기가 0인 것을 목표로 하기 때문에 w와 b의 기울기공식을 연립방정식으로 풀면 w와 b의 값을 알아낼 수 있습니다.
위의 W와 b의 공식을 정리하면 다음과 같습니다.
이제 위 두 식을 연립방정식으로 풀어보겠습니다. 하지만 식이 복잡하여 일반 연립방정식으로는 풀 수 없고 행렬을 이용해서 풀어주어야 합니다. 위 식을 행렬로 나타내 보겠습니다.
위 행렬은 AB = C형식으로 되어있는데 여기서 B를 구하려면 양변에 A의 역행렬을 곱해주어야 합니다. 이를 할 수 있게 해주는 공식이 크래머 공식 입니다.
크래머 공식과 분산을 활용한 기울기 계산
크래머 공식은 아래와 같습니다.
W값 계산
이를 이용하여 W를 구하면 아래와 같습니다.
위 식을 풀기 위해 분산과 관련한 공식을 사용합니다.
먼저 기대값 E(x)의 공식은 다음과 같습니다.
이제 E(X)를 활용하여 위 W식을 바꾸어 줄 수 있으며, 이를 공분산과 분산의 관계로도 바꿀 수 있습니다.
cf) 분산은 제곱의 평균 - 평균의 제곱이다.
cf) 공분산 공식
이제 b를 계산합니다. b의 공식를 정리해보겠습니다.
위를 E(X)를 활용해 정리한다면 다음과 같습니다.
마지막으로 위에서 구한 공식을 활용하여 맨앞에 있었던 예제를 계산해보겠습니다.
X = [1,2,3,4,5], Y = [1,3,5,7,9]
E(X) = 3, E(Y) = 5
Cov(X,Y) = ((1-3)(1-5) + (2-3)(3-5) + (3-3)(5-5) + (4-3)(7-5) + (5-3)(9-5)) / 5 = 4
Var(X) = (1+4+9+16+25)/5 - 3^2 = 2
이를 활용하여 W를 계산하면
이를 활용하여 b를 계산하면
처음에 예상한 대로 W가 2 b가 -1이 나오며 회귀식은 H(w,b) = 2x -1 이 됩니다.
마저 계산하기
E(X)로 치환하지 않고 편차의 합을 사용하면서 계산하면 다음과 같습니다. 이제부터는 편차를 써야해서 기호를 xi, yi로 하겠습니다. E(X)는 X_bar(엑스바)로 나타내야하지만 티스토리는 해당기호를 지원하지 않기 때문에 X로 나타내겠습니다 (Y도 마찬가지입니다.). 즉, 이전과는 기호가 달라지게 됩니다. (잔차를 생각하지 못하고 수식을 찍어내서.. 죄송합니다 ㅠㅠ)
먼저 몇가지를 미리 가정합니다. 편차는 소문자 x,y로 표시합니다.
- xi (편차)= Xi – X, yi (편차) = Yi - Y
- Σxi = 0, Σyi = 0 => 오차항의 평균이 0이라고 가정했기 때문에 편차의 합도 0이다.
Xi = X + xi, Yi = Y + yi 이므로 다음과같이 만들 수 있다.
b의 값은 b = Y - WX 이다.
정리
- 이러한 방식을 최소제곱법이라 하며, 최소제곱법을 통해 얻어낸 추정량(W,b)을 최소제곱추정량(Least Square Estimator ; LSE)이라고 한다.
- W와 b는 표본자료가 무엇이든지에 관계없이 사용할 수 있는 확률변수이다.
- 어떤 변수를 넣어서 실제 값을 구한 것이 최소제곱추정값(Least Square Estimate)이다.
- 또한 최소제곱법을 이용해 최적의 Parameter를 추정하여 회귀분석을 하는 것을 OLS(Ordinary Least Square) 회귀분석 이라고 합니다.(최소제곱법을 이용해 구한 추정량을 OLS 추정량이라고도 한다.)
그런데 W와 b는 확률변수인데 이 확률변수의 평균, 분산, 분포는 어떻게 되고, 추정값이 얼마나 잘 만들어지는지 알아볼 필요가 있습니다. 이에 대해서는 다음포스팅에서 공부해보겠습니다.
해당 포스팅은 아래 링크를 참고하였습니다.