다중선형회귀분석
목적 : 정량적인 종속변수 Y와 여러가지 설명변수 X들의 사이에 선형관계식을 찾는것
다중선형회귀분석의 식
- 결합 계수(베타)들은 이미 정의가 되어 있음
- 그러나 앱실론 (노이즈)이 문제 (시스템이나 사람이 어찌할 수 없는 변동성을 노이즈라고 칭함)
- 따라서 다중선형회귀분석의 목적은 베타(회귀계수)들을 찾는것.
다중선형회귀분석의 2가지 유형
1. 설명적 회귀분석(explanatory regression)
- 설명변수와 종속변수의 관계를 설명하는 것이 목적
- 모델의 목적은 데이터를 잘 fitting하여, 설명변수가 종속변수에 얼마나 영향을 끼치는지 알아내는것
- 얼마나 모델이 잘 만들어졌는지는 R-squared로 판단 (+residual analysis(잔차분석) , p-values)
- 여기서 중요한것은 베타들이 얼마나 정확하게 추정이되었는가임
2. 예측적 회귀분석(Predictive regression)
- 머신러닝쪽에서 활용
- 과거데이터로부터 회귀모형을 만든 후, 미래에 X값만 있었을 때 Y값을 얼마나 잘 예측할 수 있을것인가가 목적
- 모델의 목적 : 예측력을 극대화하는것이 목적
- 여기서 중요하는 것은 Y를 잘 예측하는 것
선형회귀
- 종속변수와 설명변수간에는 항상 선형관계를 가진다
- 설명변수들의 1차항의 결합으로 표현하고 1차항의 회귀계수를 찾는 것이 목표
- 왼쪽 : 설명변수가 1개일때
- 오른쪽 : 설명변수가 2개 이상일때 (설명변수가 늘어날 수록 차원이 늘어남)
계수를 찾는 방법 : OLS(최소자승법)
- 실제 target 값과 회귀식에 의해 추청된 값의 차이를 최소화하는 방법
- 아래 그림에서 예측치(하얀색 원) 실제값(빨간색 원)의 차이의 제곱합을 최소화하는 방법
제곱의 합을 최소화시기는것 → 아래의 사각형의 넓이의 합을 최소화하는 의미
최적의 베타를 측정하기 위해서는 아래 조건을 충족시켜야한다
- 노이즈는 정규분포를 따라야한다. (검증 가능)
- 선형관계가 되어야한다 (데이터를 생성하는 메커니즘이 주어지지 않다면 검증이 불가능하다)
- 각각의 관측치가 독립적이어야 한다. (많은 경우에 이 가정이 무너지는 경우가 많음)
- 만약 친구를 대리고 오면 할인을 받는 경우 → 친구와 나의 구매는 독립적이지 않게 됨
- 이거를 사후적으로 알기 힘듬
- Y의 변동성이 특정 변수의 변화에 영향을 받지 말아야한다 (Homoskedasticity) (검증 가능)
- 노이즈는 정규분포를 따라야한다. -> 잔차도 (QQ plot)로 확인
- 정규분포를 가정했을때 순위들를 X축으로, 실제 데이터의 값을 Y축으로 세팅
- 빨간선에 붙어있을 수록 정규성이라고 판단
- -2이후에 빨간선이랑 안붙고 이탈하면 괜찮지만, -1부터 이탈하면 정규성이 있다고 보기 힘듬
- -2의 의미 : 내가 지금 추출한 표본 평균은 모평균으로부터 2 * 표준 오차 (SEM) 범위 안에 95% 확률로 들어온다
4. 잔차의 등분산성
- 네번째처럼 랜덤하게 y값의 분포나 크기에 따라 잔차의 크기가 영향을 받지 않는 경우에 성립
모델 검증 (Goodness of fit)
R-squared로 확인 (아래 포스팅 참고)
https://ysyblog.tistory.com/168
더미변수
- 회귀분석은 기본적으로 수치형 데이터만 넣을 수 있음
- 만약 명목형 변수 데이터라면 더미변수화 하면 사용가능
- 더미변수로 만드는 이유는 명목형 변수들의 요소들은 상하관계로 나타낼 수 없기 때문
유의확률
- p-value가 0에 가까울 수록 베타(coff)는 0이 아니다 ⇒ 해당하는 변수는 y를 예측하는데 중요한 영향을 끼친다
- p-value가 1에 가까울 수록 베타(coff)는 0에 가깝다 ⇒ 통계적으로 유의미하지 않을 수 있다.
- 보통은 0.05미만이면 유의하다고 판단하나 0.05가 절대적인 기준은 아님.
회귀계수 (coff)
- 설명변수가 1 증가했을때 종속변수가 증가하는 단위
- 부호가 양수면 양의 상관관계, 음이면 음의 상관관계라고 볼 수 있음
- 만약 종속변수가 금액 이고 설명변수가 마력이고 설명변수의 coff가 123이면 1마력이 올라갈 수록 123원만큼 늘어난다고 해석할 수 있다
- 설명변수의 해석이 유효하려면 p-value를 먼저 봐야함.
파이썬으로 OLS 회귀분석 하기
https://ysyblog.tistory.com/119
해당 포스팅은 강필성 교수님의 비즈니스 애널리틱스 강의를 참고하여 작성하였습니다
728x90
반응형
'Data Analysis & ML > 회귀분석' 카테고리의 다른 글
[회귀분석] 로지스틱 회귀분석(2) - 로지스틱 회귀식과 회귀계수 추정(최대 우도 추정법(MLE)) (2) | 2023.01.24 |
---|---|
[회귀분석] 로지스틱 회귀분석(1) - 오즈와 로짓 (0) | 2023.01.24 |
[회귀분석] 다중선형회귀분석(1) - 다중선형회귀모형의 가정 (0) | 2023.01.24 |
[회귀분석] 로지스틱 회귀분석(3) - 로지스틱 회귀분석 해석 (0) | 2021.02.16 |
[회귀분석] 단순선형회귀분석(Linear Regression)(9) - 이분산성 (0) | 2021.02.13 |