다중회귀모형이란
설명변수(독립변수)가 2 개 이상인 회귀모형을 분석대상으로하는 것.
다중회귀모형은 분석내용을 향상시킬 수 있다는 장점이 있음
- 추가적인 독립변수를 도입함으로써 오차항의 값을 줄일 수 있으며
- 단순회귀분석의 단점을 극복
- 종속변수를 설명하는 독립변수가 두개일 때 단순회귀모형을 적용하면, 모형설정이 부정확할 뿐 아니라 종속변수에 대한 중요한 설명변수(독립변수)를 누락함으로써 계수 추정량에 대해 편의(bias)가 생길 수 있다.
- 따라서 다중회귀분석을 통해 편의현상(bias)을 제거할 수 있다.
다중회귀모형의 식
다중회귀모형의 식은 다음과 같다.
여러개의 다중회귀모형 식을 아래와 같이 행렬로도 나타낼 수 있다.
다중회귀모형의 가정
1. 회귀모형은 모수에 대해 선형인 모형이다. => Yi = β0 + β1 X1i + β2 X2i + εi
2. 독립변수 X1i , X2ㅑ, ... 는 비확률변수(nonstochastic)이다
3. 오차항의 평균은 0 이다 => E(εi) = 0
4. 오차항의 분산은 모든 Xi에 대해 σ2 의 일정한 분산(동분산: homoskedasity)을 갖는다
=> Var(εi) = E(εi^2) - [E(εi)]^2 => E(εi^2) = σ2
5. i ≠ j일때 εi와 εj는 서로 상관이 없다.(오차항들은 서로 독립이다) => Cov(εi,εj) = 0
6. 오차항은 각 독립변수와 독립적이다: E(Xi, εi) = XiE(εi) = 0
7. 오차항 εi는 정규분포 N(0, σ^2)를 따른다. => εi ~ N(0,σ2)
여기까지는 단순회귀모형과 가정이 비슷하나 다음 가정들은 다중회귀모형에서만 적용된다.
8. 설명변수 중 어느것도 모형 내 남아있는 다른 설명변수들의 정확한 선형조합으로 나타낼 수 없다.
=> 설명변수 X사이에 다중공선성(multicollinearity)이 존재하지 않는다.
- 한 독립변수가 다른 독립변수와 1차함수 관계면 안된다.(독립이면 선형관계가 아니고 독립이 아니면 선형관계가 있기 때문)
- 만일 ρ(X1i, X2i)의 절대값이 1 에 가까워지면, 최소자승법의 적용이 어렵게 되기 때문이다.
- 만약 ρ(X1i ,X2i ) = ±1 인 경우에는 완전공선성(perfect collinearity)이라고 한다.
EX) Yi =β0 +β1X1i + β2X2i + εi 인 식이 있다고 가정할 때 만약 X2i = 2*X1i이면
Yi =β0 + (β1+2β2)X1i + εi 가 되어버린다. 즉 다중공선성이 존재하면 3변수에서 2변수로 바뀌어버린다.
이렇게 되면 X1i과 X2i가 Yi에 미치는 영향을 개별적으로 추정할 수 없다.
'Data Analysis & ML > 회귀분석' 카테고리의 다른 글
[회귀분석] 로지스틱 회귀분석(1) - 오즈와 로짓 (0) | 2023.01.24 |
---|---|
[회귀분석] 다중선형회귀분석(2) - 다중선형회귀모형 개념/활용/검증 (0) | 2023.01.24 |
[회귀분석] 로지스틱 회귀분석(3) - 로지스틱 회귀분석 해석 (0) | 2021.02.16 |
[회귀분석] 단순선형회귀분석(Linear Regression)(9) - 이분산성 (0) | 2021.02.13 |
[회귀분석] 단순선형회귀분석(Linear Regression)(8) - 더미변수(Dummy Variable) (0) | 2021.02.13 |