Data Analysis & ML/회귀분석

[회귀분석] 다중선형회귀분석(1) - 다중선형회귀모형의 가정

YSY^ 2023. 1. 24. 18:01

다중회귀모형이란

설명변수(독립변수)가 2 개 이상인 회귀모형을 분석대상으로하는 것.

다중회귀모형은 분석내용을 향상시킬 수 있다는 장점이 있음

  1. 추가적인 독립변수를 도입함으로써 오차항의 값을 줄일 수 있으며
  2. 단순회귀분석의 단점을 극복
    • 종속변수를 설명하는 독립변수가 두개일 때 단순회귀모형을 적용하면, 모형설정이 부정확할 뿐 아니라 종속변수에 대한 중요한 설명변수(독립변수)를 누락함으로써 계수 추정량에 대해 편의(bias)가 생길 수 있다.
    •  따라서 다중회귀분석을 통해 편의현상(bias)을 제거할 수 있다.

 

다중회귀모형의 식

다중회귀모형의 식은 다음과 같다.

여러개의 다중회귀모형 식을 아래와 같이 행렬로도 나타낼 수 있다.

출처 : http://oak.go.kr/central/journallist/journaldetail.do?article_seq=17488

 

다중회귀모형의 가정

1. 회귀모형은 모수에 대해 선형인 모형이다. => Yi = β0 + β1 X1i + β2 X2i + εi

2. 독립변수 X1i , X2ㅑ, ... 는 비확률변수(nonstochastic)이다

3. 오차항의 평균은 0 이다 => E(εi) = 0

4. 오차항의 분산은 모든 Xi에 대해 σ2 의 일정한 분산(동분산: homoskedasity)을 갖는다

=> Var(εi) = E(εi^2) - [E(εi)]^2 => E(εi^2) = σ2

5. i ≠ j일때 εi와 εj는 서로 상관이 없다.(오차항들은 서로 독립이다) => Cov(εi,εj) = 0

6. 오차항은 각 독립변수와 독립적이다: E(Xi, εi) = XiE(εi) = 0

7. 오차항 εi는 정규분포 N(0, σ^2)를 따른다. => εi ~ N(0,σ2)

여기까지는 단순회귀모형과 가정이 비슷하나 다음 가정들은 다중회귀모형에서만 적용된다.

8. 설명변수 중 어느것도 모형 내 남아있는 다른 설명변수들의 정확한 선형조합으로 나타낼 수 없다.

=> 설명변수 X사이에 다중공선성(multicollinearity)이 존재하지 않는다.

  • 한 독립변수가 다른 독립변수와 1차함수 관계면 안된다.(독립이면 선형관계가 아니고 독립이 아니면 선형관계가 있기 때문)
  • 만일 ρ(X1i, X2i)의 절대값이 1 에 가까워지면, 최소자승법의 적용이 어렵게 되기 때문이다.
  • 만약 ρ(X1i ,X2i ) = ±1 인 경우에는 완전공선성(perfect collinearity)이라고 한다.

EX) Yi =β0 +β1X1i + β2X2i + εi 인 식이 있다고 가정할 때 만약 X2i = 2*X1i이면
Yi =β0 + (β1+2β2)X1i + εi 가 되어버린다. 즉 다중공선성이 존재하면 3변수에서 2변수로 바뀌어버린다.
이렇게 되면 X1i과 X2i가 Yi에 미치는 영향을 개별적으로 추정할 수 없다.

728x90
반응형