Data Analysis & ML/회귀분석

[회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수와 최소제곱법(최소자승법) (크래머공식 / 분산 / 공분산)

YSY^ 2021. 1. 28. 17:37

비용함수와 최소제곱법(최소자승법)

저번시간에는 선형회귀분석의 비용함수에 대해 알아보았습니다. 이제는 비용함수의 기울기가 최소(0)이 되도록 계산하겠습니다.

 

최소제곱법/최소자승법(OLS) 계산

비용함수의 기울기가 0이 되도록 계산 (최소제곱법/최소자승법(OLS))

 기울기가 0인 것을 목표로 하기 때문에 w와 b의 기울기공식을 연립방정식으로 풀면 w와 b의 값을 알아낼 수 있습니다.

w와 b의 기울기가 0이되도록 계산해볼 것입니다.

위의 W와 b의 공식을 정리하면 다음과 같습니다.

w 정리 결과
b 정리 결과

이제 위 두 식을 연립방정식으로 풀어보겠습니다. 하지만 식이 복잡하여 일반 연립방정식으로는 풀 수 없고 행렬을 이용해서 풀어주어야 합니다. 위 식을 행렬로 나타내 보겠습니다.

위 행렬은 AB = C형식으로 되어있는데 여기서 B를 구하려면 양변에 A의 역행렬을 곱해주어야 합니다. 이를 할 수 있게 해주는 공식이 크래머 공식 입니다.

 

크래머 공식과 분산을 활용한 기울기 계산

크래머 공식은 아래와 같습니다.

크래머 공식

W값 계산

이를 이용하여 W를 구하면 아래와 같습니다.

위 식을 풀기 위해 분산과 관련한 공식을 사용합니다.

먼저 기대값 E(x)의 공식은 다음과 같습니다.

이제 E(X)를 활용하여 위 W식을 바꾸어 줄 수 있으며, 이를 공분산과 분산의 관계로도 바꿀 수 있습니다.

W의 공식

cf) 분산은 제곱의 평균 - 평균의 제곱이다.

cf) 공분산 공식

이제 b를 계산합니다. b의 공식를 정리해보겠습니다.

위를 E(X)를 활용해 정리한다면 다음과 같습니다.

 

마지막으로 위에서 구한 공식을 활용하여 맨앞에 있었던 예제를 계산해보겠습니다.

X =  [1,2,3,4,5], Y = [1,3,5,7,9] 

E(X) = 3, E(Y) = 5

Cov(X,Y) = ((1-3)(1-5) + (2-3)(3-5) + (3-3)(5-5) + (4-3)(7-5) + (5-3)(9-5)) / 5 = 4

Var(X) = (1+4+9+16+25)/5 - 3^2 = 2

이를 활용하여 W를 계산하면 

이를 활용하여 b를 계산하면

처음에 예상한 대로 W가 2 b가 -1이 나오며 회귀식은 H(w,b)  = 2x -1 이 됩니다.

 

마저 계산하기

E(X)로 치환하지 않고 편차의 합을 사용하면서 계산하면 다음과 같습니다. 이제부터는 편차를 써야해서 기호를 xi, yi로 하겠습니다. E(X)는 X_bar(엑스바)로 나타내야하지만 티스토리는 해당기호를 지원하지 않기 때문에 X로 나타내겠습니다 (Y도 마찬가지입니다.). 즉, 이전과는 기호가 달라지게 됩니다. (잔차를 생각하지 못하고 수식을 찍어내서.. 죄송합니다 ㅠㅠ)

먼저 몇가지를 미리 가정합니다. 편차는 소문자 x,y로 표시합니다.

  • xi (편차)= Xi – X,   yi (편차) = Yi - Y
  • Σxi = 0, Σyi = 0 => 오차항의 평균이 0이라고 가정했기 때문에 편차의 합도 0이다.

Xi = X + xi, Yi = Y + yi 이므로 다음과같이 만들 수 있다.

Σxi = 0,   Σyi = 0 이라는것을 생각하고 수식을 풀어내보자
W의 값이 이것이다.

 

b의 값은 b = Y - WX 이다.

 

정리

  • 이러한 방식을 최소제곱법이라 하며, 최소제곱법을 통해 얻어낸 추정량(W,b)을 최소제곱추정량(Least Square Estimator ; LSE)이라고 한다.
  • W와 b는 표본자료가 무엇이든지에 관계없이 사용할 수 있는 확률변수이다.
  • 어떤 변수를 넣어서 실제 값을 구한 것이 최소제곱추정값(Least Square Estimate)이다.
  • 또한 최소제곱법을 이용해 최적의 Parameter를 추정하여 회귀분석을 하는 것을 OLS(Ordinary Least Square) 회귀분석 이라고 합니다.(최소제곱법을 이용해 구한 추정량을 OLS 추정량이라고도 한다.)

그런데 W와 b는 확률변수인데 이 확률변수의 평균, 분산, 분포는 어떻게 되고, 추정값이 얼마나 잘 만들어지는지 알아볼 필요가 있습니다. 이에 대해서는 다음포스팅에서 공부해보겠습니다.

 

해당 포스팅은 아래 링크를 참고하였습니다.

www.youtube.com/watch?v=ve6gtpZV83E&list=LL&index=1

728x90
반응형