회귀분석과 T-test
표준오차가 작으면 회귀계수가 우연일 확률이 낮으며, 표준오차가 크면 회귀계수가 우연일 확률이 큰것이다. 이 확률을 계산하는 방법바로 t-test이다.
아래는 t-test를 설명한 포스팅이다.
T-test 계산법
T-test를 계산하는 방법은 기울기값을 표준오차로 나누는 것이다.
만약 기울기 값이 2.4이고 표준오차가 0.82이면 t-value는 2.93이다.
이때, 자유도가 1이며, t값은 2.93이다. (단순회귀모형은 독립변수가 1개이기 때문에 자유도도 1)
이때 5%검정일 때 값은 Critical value는 6.314이고, 1%검정일때 Critical value는 3.078이며, t-value 2.93은 이보다도 작기 때문에 p-value < 0.01이라고 할 수 있다.
즉, 위와 같은 경우는 통계적으로 유의하다고 할 수 있다.
T-test를 이용하는 이유
원래 t-test는 두 집단이 같은지 다른지를 판단할때 사용한다. 회귀분석에 t-test를 적용한다는 것은 기울기가 0인지 아닌지를 테스트 하는 것이다.
이때 귀무가설과 대립가설은 다음과 같다.
귀무가설 => 기울기가 0이다
대립가설 => 기울기가 0이 아니다.
기울기가 0인 경우
위와 같이 기울기가 0이라는 것은 다음과 같은 의미를 지닌다.
- 독립변수가 증가해도 종속변수는 아무런 변화가 없다.
- 독립변수가 원인으로 아무런 역할을 하지 못하므로, 유의하지 않다.
- 따라서 위와 같은 경우처럼 표준오차가 아무리 작아도 의미가 없는 것이다.
위와 같은 경우들도 기울기가 0이므로 아무의미가 없는 것이다.
따라서 회귀분석을 할 때 데이터의 산포도를 먼저 그려봐야한다.
회귀계수
- 데이터가 곡선형태, 원형태 등으로 되어있다면 기울기가 0이다. 즉 직선의 형태로 되어있지 않다면 분석할 수 없다는 것이다.
- 따라서 회귀분석전에 산포도(Scatter Plot)를 찍어보고, 직선형태의 데이터 분포가 나타나지 않는다면 다른 방법을 찾아야한다.
- 따라서 회귀계수(기울기)는 결국 t-test의 평균값 차이와 동일한 개념으로 회귀계수는 t-test로 유의성을 테스트해야한다.
- 회귀계수가 나오더라도, 유의하지 않으면 그 회귀계수는 0이라고 본다.
결론
- 회귀분석은 독립변수와 종속변수의 직선관계만 분석가능하며 이를 확인하기 위해 산포도를 확인해야 한다.
- 직선관계가 아닌 경우 회귀분석하면 잘못된 회귀계수를 얻게된다.
- 회귀계수 테스트는 t-test를 사용한다. 이때 자유도는 1이다.
- 따라서 독립변수가 증가하면 자유도가 증가하기 때문에, 독립변수의 추가는 비용의 추가이다.
해당 포스팅은 아래 유튜브 영상을 참고하여 만들었습니다.