Data Analysis & ML/회귀분석

[회귀분석] 단순선형회귀분석(Linear Regression)(8) - 더미변수(Dummy Variable)

YSY^ 2021. 2. 13. 19:20

더미변수(Dummy Variable)

  • 값이 오직 0과 1로 이루어진 변수
  • 값 0과 1에는 수리적의미는 없음
  • 기본적으로는 이산형/범주형 변수인데 이를 연속형 변수처럼 사용
  • 더미변수를 사용하는 이유는 범주형 변수의 인자들에 차례대로 숫자를 붙이면 연속형 변수가 되기 때문에 회귀분석에서 사용할 수 없음

 

더미 변수의 개수

  • 더미변수의 개수는 범주의 개수 -1 이다.
  • 만약 범주의 개수대로 더미변수를 만들면 회귀분석에서 더미트랩에 걸려서 회귀분석에 되지 않음
  • 제거된 범주는 비교의 기준(reference group)가 된다.

 

더미 변수의 해석

  • 해당 범주와 기준그룹간에 유의한 차이가 있다/없다로 해석
  • 기준그룹이 아닌 다른 범주와는 비교 불가능함.

 

더미 데이터를 만드는 Python 코드는 아래 포스팅 참고 바랍니다

https://ysyblog.tistory.com/71

 

해당 포스팅은 아래 유튜브 영상을 참고하여 만들었습니다.

www.youtube.com/watch?v=qm0mBaX0fVE&list=PLalb9l0_6WApDZGksoHt474fy1U35Bv-T&index=7

728x90
반응형