Data Analysis & ML/회귀분석

[회귀분석] 단순선형회귀분석(Linear Regression)(6) - 회귀분석과 T-test

YSY^ 2021. 2. 13. 17:23

회귀분석과 T-test

표준오차가 작으면 회귀계수가 우연일 확률이 낮으며, 표준오차가 크면 회귀계수가 우연일 확률이 큰것이다. 이 확률을 계산하는 방법바로 t-test이다.

아래는 t-test를 설명한 포스팅이다.

ysyblog.tistory.com/164

 

[기초통계학] T-test(가설검정 / One-Sample Test / Two-Sample T-test / Paired T-test)

T-test 모집단의 표준편차가 알려지지 않았을 때 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법 T-test의 목적 -> 두개의 집단이 같은지 다른지 비교하기 위해 사용 -> 이를

ysyblog.tistory.com

 

T-test 계산법

T-test를 계산하는 방법은 기울기값을 표준오차로 나누는 것이다.

만약 기울기 값이 2.4이고 표준오차가 0.82이면 t-value는 2.93이다.
이때, 자유도가 1이며, t값은 2.93이다. (단순회귀모형은 독립변수가 1개이기 때문에 자유도도 1)
이때 5%검정일 때 값은 Critical value는 6.314이고, 1%검정일때 Critical value는 3.078이며, t-value 2.93은 이보다도 작기 때문에 p-value < 0.01이라고 할 수 있다.

즉, 위와 같은 경우는 통계적으로 유의하다고 할 수 있다.

T-test를 이용하는 이유

원래 t-test는 두 집단이 같은지 다른지를 판단할때 사용한다. 회귀분석에 t-test를 적용한다는 것은 기울기가 0인지 아닌지를 테스트 하는 것이다.

이때 귀무가설과 대립가설은 다음과 같다.

귀무가설 => 기울기가 0이다
대립가설 => 기울기가 0이 아니다.

기울기가 0인 경우

위와 같이 기울기가 0이라는 것은 다음과 같은 의미를 지닌다.

- 독립변수가 증가해도 종속변수는 아무런 변화가 없다.
- 독립변수가 원인으로 아무런 역할을 하지 못하므로, 유의하지 않다.
- 따라서 위와 같은 경우처럼 표준오차가 아무리 작아도 의미가 없는 것이다.

위와 같은 경우들도 기울기가 0이므로 아무의미가 없는 것이다.

따라서 회귀분석을 할 때 데이터의 산포도를 먼저 그려봐야한다.

 

회귀계수

- 데이터가 곡선형태, 원형태 등으로 되어있다면 기울기가 0이다. 즉 직선의 형태로 되어있지 않다면 분석할 수 없다는 것이다.
- 따라서 회귀분석전에 산포도(Scatter Plot)를 찍어보고, 직선형태의 데이터 분포가 나타나지 않는다면 다른 방법을 찾아야한다.
- 따라서 회귀계수(기울기)는 결국 t-test의 평균값 차이와 동일한 개념으로 회귀계수는 t-test로 유의성을 테스트해야한다.
- 회귀계수가 나오더라도, 유의하지 않으면 그 회귀계수는 0이라고 본다.

 

결론

  • 회귀분석은 독립변수와 종속변수의 직선관계만 분석가능하며 이를 확인하기 위해 산포도를 확인해야 한다.
  • 직선관계가 아닌 경우 회귀분석하면 잘못된 회귀계수를 얻게된다.
  • 회귀계수 테스트는 t-test를 사용한다. 이때 자유도는 1이다.
  • 따라서 독립변수가 증가하면 자유도가 증가하기 때문에, 독립변수의 추가는 비용의 추가이다.

 

해당 포스팅은 아래 유튜브 영상을 참고하여 만들었습니다.

www.youtube.com/watch?v=H58AMFGJUOc

728x90
반응형