회귀분석
회귀분석이란 독립변수(=설명변수)라 불리우는 하나(또는 둘 이상)의 변수에 기초하여 종속변수(=피설명 변수)라 불리우는 다른 한 변수의 값을 설명하고 예측하는 추측통계이다.
- 상관분석 : 두 변수 모두 확률변수로 가정, 두 변수간의 선형성 전도를 추정하는 것이 목적
- 회귀분석 : 독립변수는 확정변수로 가정하고 종속변수는 확률변수로 가정, 독립변수의 주어진 값으로 종속변수의 평균값을 추정, 예측하는 것이 목적
단순선형회귀분석
만약 X값이 [1,2,3,4,5] 이고 Y가 [1,3,5,7,9] 이라고 가정합니다. 예를들어 X가 2일 때 Y는 3인 것입니다. 그렇다면 X가 6일때 Y는 얼마일까요? 바로 아시겠지만 Y는 11입니다.
이를 함수로 만든다면 F(X) = 2X -1 인 것입니다.위의 예제는 간단해서 직관적으로 함수를 만들 수 있지만 X값이 수도없이 많아진다면 사람의 힘으로 구하는 것이 힘들어집니다. 따라서 컴퓨터가 이를 계산하게 되는데 이것이 바로 선형회귀분석(Linear Regression)입니다. 주어진 X값과 Y값을 학습해서 규칙을 알아낸다면 새로운 X가 들어왔을때 Y를 예측할 수 있을것입니다.
단순선형회귀모형의 가정
기본가정 : β0 과 β1은 각각 미지의 절편과 기울기 모 수이며 회귀변수 x는 수학변수(비확률변수)로 가정한다.
오차항 εi의 가정은 다음과 같다.
1. εi의 기대치는 0이다. => E(εi) = 0
2. εi의 분산이 일정하다 => Var(εi) = σ^2
3. i ≠ j일때 εi와 εj는 서로 상관이 없다. => Cov(εi,εj) = 0
4. X는 확률변수가 아니고 εi와 상관이 없다. =>Cov(X, εi) = 0
5. εi는 정규분포 N(0, σ^2)를 따른다.
위 가정들을 활용하여 다음과 같은 가정을 할 수 있다.
1. 단순회귀분석은 선형성을 가진다. (y =α +βx)
- Yi의 기대값 E(Yi)는 E(α + βx+εi)로 나타낼 수 있다.
- x가 비확률변수(수학변수)이기 때문에 확률변수 입장에서는 α +βx는 상수다. 따라서 다음과 같이 나타낼 수 있다.
E(Yi) = E(α +βx+εi) = α +βx+ E(εi)
- 이때 εi의 기대치 E(εi)는 0이라고 가정했기 때문에 E(Yi) = α +**βx**라고 할 수 있다.
2. 독립변수 X에 대한 종속변수 Y의 분산이 i에 관계없이 어떤 일정한 양의 값 σ^2를 가진다.
- Var(Yi)는 Var(α +βx+εi)인데 α +βx는 상수이기 때문에 Var(Yi) = Var(α +βx+εi) = Var(εi)이다.
- 위에서 Var(εi) =σ^2라고 가정했기 때문에 Var(Yi) = Var(α +βx+εi) =Var(εi)= σ^2이며 Var(Yi) = σ^2이다.
cf) Var(εi) = E(εi^2) - [E(εi)]^2인데 E(εi) = 0이니 Var(εi) = E(εi^2)이다.
Var(εi) = σ^2이기 때문에 E(εi^2)=σ^2이다. 즉, 오차항 εi제곱의 기대값은 σ^2이다.
3. εi와 εj는 독립이며, εi는 자기상관성이 없다.
상관관계의 공식은 다음과 같다.
Var(εi) =σ^2이기 때문에 εi의 표준편차 σx는 σ이고 εj의 표준편차 σy도 σ이다. 또한 εi와εj는 서로 상관이 없다고 가정했기 때문에 상관계수는 0이다.
σ은 0이 아니기 때문에 Cov(εi,εj) = 0이다. 공분산의 공식을 활용하여 다음과 같은 식을 끌어낼 수 있다.
이를 다시 정리하면 다음과 같이 나타낼 수 있다.
즉, εi와εj는 서로 독립인 것이다. 또한 E(εi)가 0이기 때문에 E(**εi * εj) = 0** 이라 할 수 있다.
4. X가 값이 고정되므로 Y는 ε에 의해 확률변수가 된다.
5. Y는 정규분포를 따른다.
- εi는 정규분포 N(0, σ^2)를 따르기 때문이다.
- E(Yi) =α +βx 이며 Var(Yi) =σ^2 이기 때문에 다음과 같이 정의할 수 있다.
Y~ N(α +βx, σ^2)
이번 포스팅에서는 단순선형회귀모형의 가정에 대해서 알아보았습니다. 다음 포스팅에서는 선형회귀를 추정할때 사용하는 비용함수(Cost Function)에 대해 알아보겠습니다.