더미변수(Dummy Variable)
- 값이 오직 0과 1로 이루어진 변수
- 값 0과 1에는 수리적의미는 없음
- 기본적으로는 이산형/범주형 변수인데 이를 연속형 변수처럼 사용
- 더미변수를 사용하는 이유는 범주형 변수의 인자들에 차례대로 숫자를 붙이면 연속형 변수가 되기 때문에 회귀분석에서 사용할 수 없음
더미 변수의 개수
- 더미변수의 개수는 범주의 개수 -1 이다.
- 만약 범주의 개수대로 더미변수를 만들면 회귀분석에서 더미트랩에 걸려서 회귀분석에 되지 않음
- 제거된 범주는 비교의 기준(reference group)가 된다.
더미 변수의 해석
- 해당 범주와 기준그룹간에 유의한 차이가 있다/없다로 해석
- 기준그룹이 아닌 다른 범주와는 비교 불가능함.
더미 데이터를 만드는 Python 코드는 아래 포스팅 참고 바랍니다
https://ysyblog.tistory.com/71
해당 포스팅은 아래 유튜브 영상을 참고하여 만들었습니다.
www.youtube.com/watch?v=qm0mBaX0fVE&list=PLalb9l0_6WApDZGksoHt474fy1U35Bv-T&index=7
728x90
반응형
'Data Analysis & ML > 회귀분석' 카테고리의 다른 글
[회귀분석] 로지스틱 회귀분석(3) - 로지스틱 회귀분석 해석 (0) | 2021.02.16 |
---|---|
[회귀분석] 단순선형회귀분석(Linear Regression)(9) - 이분산성 (0) | 2021.02.13 |
[회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared) (2) | 2021.02.13 |
[회귀분석] 단순선형회귀분석(Linear Regression)(6) - 회귀분석과 T-test (2) | 2021.02.13 |
[회귀분석] 단순선형회귀분석(Linear Regression)(5) - 표준오차 (0) | 2021.02.13 |