반응형

더미변수 2

[시계열분석] 시계열 변수(빈도/추세/계절성/주기/시계열분해/더미변수/지연값)

시계열분석은 어떤문제를 다루나 - regression, regulariRegularization Algorithms, clustering에서 주로 쓰며 ,Regression이 많이 쓰인다. 시계열 분석과 기계학습의 차이 확률 과정(Stochastic Process): 상관 관계를 가지는 무한개의 변수의 순서열 시계열 데이터(Time Series Data): 일정한 시간 간격으로 기록된 확률과정의 샘플 독립변수(𝑥𝑡xt)와 알고자 하는 종속변수(𝑦𝑡yt)가 시간단위(𝑡t)를 포함 모델의 출력(Output)은 𝑦y의 시간 𝑡t에서의 예측값 기계학습과 시계열예측 간 큰 차이가 존재하기에, 시계열 변수생성은 약간의 조정들을 요구함 시계열 변수 신규 변수를 생성하는 것은 분석에서 가장 중요하고 시간이 많이 걸리는..

[회귀분석] 단순선형회귀분석(Linear Regression)(8) - 더미변수(Dummy Variable)

더미변수(Dummy Variable)값이 오직 0과 1로 이루어진 변수값 0과 1에는 수리적의미는 없음기본적으로는 이산형/범주형 변수인데 이를 연속형 변수처럼 사용더미변수를 사용하는 이유는 범주형 변수의 인자들에 차례대로 숫자를 붙이면 연속형 변수가 되기 때문에 회귀분석에서 사용할 수 없음 더미 변수의 개수더미변수의 개수는 범주의 개수 -1 이다.만약 범주의 개수대로 더미변수를 만들면 회귀분석에서 더미트랩에 걸려서 회귀분석에 되지 않음제거된 범주는 비교의 기준(reference group)가 된다. 더미 변수의 해석해당 범주와 기준그룹간에 유의한 차이가 있다/없다로 해석기준그룹이 아닌 다른 범주와는 비교 불가능함. 더미 데이터를 만드는 Python 코드는 아래 포스팅 참고 바랍니다https://ysybl..

반응형