Data Analysis & ML/회귀분석

[회귀분석] 다중선형회귀분석(2) - 다중선형회귀모형 개념/활용/검증

YSY^ 2023. 1. 24. 18:20

다중선형회귀분석

목적 : 정량적인 종속변수 Y와 여러가지 설명변수 X들의 사이에 선형관계식을 찾는것

다중선형회귀분석의 식

  • 결합 계수(베타)들은 이미 정의가 되어 있음
  • 그러나 앱실론 (노이즈)이 문제 (시스템이나 사람이 어찌할 수 없는 변동성을 노이즈라고 칭함)
  • 따라서 다중선형회귀분석의 목적은 베타(회귀계수)들을 찾는것.

다중선형회귀분석의 2가지 유형

1. 설명적 회귀분석(explanatory regression)

  • 설명변수와 종속변수의 관계를 설명하는 것이 목적
  • 모델의 목적은 데이터를 잘 fitting하여, 설명변수가 종속변수에 얼마나 영향을 끼치는지 알아내는것
  • 얼마나 모델이 잘 만들어졌는지는 R-squared로 판단 (+residual analysis(잔차분석) , p-values)
  • 여기서 중요한것은 베타들이 얼마나 정확하게 추정이되었는가임

2. 예측적 회귀분석(Predictive regression)

  • 머신러닝쪽에서 활용
  • 과거데이터로부터 회귀모형을 만든 후, 미래에 X값만 있었을 때 Y값을 얼마나 잘 예측할 수 있을것인가가 목적
  • 모델의 목적 : 예측력을 극대화하는것이 목적
  • 여기서 중요하는 것은 Y를 잘 예측하는 것

 

선형회귀

  • 종속변수와 설명변수간에는 항상 선형관계를 가진다
  • 설명변수들의 1차항의 결합으로 표현하고 1차항의 회귀계수를 찾는 것이 목표

회귀계수를 찾는 원리

  • 왼쪽 : 설명변수가 1개일때
  • 오른쪽 : 설명변수가 2개 이상일때 (설명변수가 늘어날 수록 차원이 늘어남)

 

계수를 찾는 방법 : OLS(최소자승법)

  • 실제 target 값과 회귀식에 의해 추청된 값의 차이를 최소화하는 방법
  • 아래 그림에서 예측치(하얀색 원) 실제값(빨간색 원)의 차이의 제곱합을 최소화하는 방법

제곱의 합을 최소화시기는것 → 아래의 사각형의 넓이의 합을 최소화하는 의미

최적의 베타를 측정하기 위해서는 아래 조건을 충족시켜야한다

  1. 노이즈는 정규분포를 따라야한다. (검증 가능)
  2. 선형관계가 되어야한다 (데이터를 생성하는 메커니즘이 주어지지 않다면 검증이 불가능하다)
  3. 각각의 관측치가 독립적이어야 한다. (많은 경우에 이 가정이 무너지는 경우가 많음)
    • 만약 친구를 대리고 오면 할인을 받는 경우 → 친구와 나의 구매는 독립적이지 않게 됨
    • 이거를 사후적으로 알기 힘듬
  4. Y의 변동성이 특정 변수의 변화에 영향을 받지 말아야한다 (Homoskedasticity) (검증 가능)

 

  1. 노이즈는 정규분포를 따라야한다.  -> 잔차도 (QQ plot)로 확인
  • 정규분포를 가정했을때 순위들를 X축으로, 실제 데이터의 값을 Y축으로 세팅
  • 빨간선에 붙어있을 수록 정규성이라고 판단
  • -2이후에 빨간선이랑 안붙고 이탈하면 괜찮지만, -1부터 이탈하면 정규성이 있다고 보기 힘듬
    • -2의 의미 : 내가 지금 추출한 표본 평균은 모평균으로부터 2 * 표준 오차 (SEM) 범위 안에 95% 확률로 들어온다

4. 잔차의 등분산성

  • 네번째처럼 랜덤하게 y값의 분포나 크기에 따라 잔차의 크기가 영향을 받지 않는 경우에 성립

모델 검증 (Goodness of fit)

R-squared로 확인 (아래 포스팅 참고)

https://ysyblog.tistory.com/168

 

[회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared)

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistory.com/155 3.

ysyblog.tistory.com

 

더미변수

  • 회귀분석은 기본적으로 수치형 데이터만 넣을 수 있음
  • 만약 명목형 변수 데이터라면 더미변수화 하면 사용가능
    • 더미변수로 만드는 이유는 명목형 변수들의 요소들은 상하관계로 나타낼 수 없기 때문

유의확률

  • p-value가 0에 가까울 수록 베타(coff)는 0이 아니다 ⇒ 해당하는 변수는 y를 예측하는데 중요한 영향을 끼친다
  • p-value가 1에 가까울 수록 베타(coff)는 0에 가깝다 ⇒ 통계적으로 유의미하지 않을 수 있다.
  • 보통은 0.05미만이면 유의하다고 판단하나 0.05가 절대적인 기준은 아님.

회귀계수 (coff)

  • 설명변수가 1 증가했을때 종속변수가 증가하는 단위
  • 부호가 양수면 양의 상관관계, 음이면 음의 상관관계라고 볼 수 있음
  • 만약 종속변수가 금액 이고 설명변수가 마력이고 설명변수의 coff가 123이면 1마력이 올라갈 수록 123원만큼 늘어난다고 해석할 수 있다
  • 설명변수의 해석이 유효하려면 p-value를 먼저 봐야함.

 

파이썬으로 OLS 회귀분석 하기

https://ysyblog.tistory.com/119

 

[회귀분석] 회귀분석 실습(1) - OLS 회귀분석 결과 해석 및 범주형 변수 처리 (Statsmodel)

Statsmodel을 활용한 회귀분석 statsmodels 패키지에서는 OLS 클래스를 사용하여 선형 회귀분석을 실시한다 독립변수와 종속변수가 모두 포함된 데이터프레임이 생성되며, 상수항 결합은 하지 않아도

ysyblog.tistory.com

 

해당 포스팅은 강필성 교수님의 비즈니스 애널리틱스 강의를 참고하여 작성하였습니다

https://youtu.be/UIdvUPLQIIY

728x90
반응형