Statistics & Math/기초통계학

[기초통계학] T-test(가설검정 / One-Sample Test / Two-Sample T-test / Paired T-test)

YSY^ 2021. 2. 8. 20:59

 

T-test

모집단의 표준편차가 알려지지 않았을 때 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법

 

T-test의 목적

-> 두개의 집단이 같은지 다른지 비교하기 위해 사용

-> 이를 알기 위해 두 집단의 샘플의 평균값을 비교하고, 두집단의 차이가 우연히 발생했을 확률을 구하므로서 t-test에 대한 결론을 구함

-> 즉, 두 집단의 평균값이 통계적으로 같은지 다른지를 확인

 

T-test를 위한 통계적 질문

- A대학 남학생 평균키(178.5cm)가 대한민국 평균키(179.9cm)와 우연히 같은 확률은 얼마나될까

- A대학의 남학생 평균키와 비교대상 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마나 될까

- 그렇다면 과연 1.4cm차이가 얼마나 커야 우연히 발생하지 않았다고 판단할 수 있을까

- 1.4cm 차이는 과연 큰 것인가 작은 것인가

 

-> 1.4cm가 얼마나 큰지 알 수 없기 때문에 1.4cm가 얼마나 큰지 혹은 작은지 결정할 비교대상이 필요

-> 비교대상은 바로 표준편차(분산) 입니다.

-> 또한 <우연히 발생했을 확률>은 분포곡선 아래의 면적이다. 즉 정규분포의 Z-Test의 원리와 같은 것이다.

정규분포와 Z-test는 아래 링크에서 볼 수 있다.

ysyblog.tistory.com/163

 

[기초통계학] 정규분포와 Z-Test

표준편차 평균값을 중심으로 평균적으로 s만큼 퍼져 있다는 의미가 된다. 만약 어떤 집단의 평균값이 3이고 표준편차가 1.5라면, 좌우로 1.5(1.5 ~ 4.5)정도 퍼져있다는 것이다. 즉, 표준편차는 데이

ysyblog.tistory.com

 

양측검정과 단측검정

가설검정와 양측/단측검정에 대한 내용은 아래 링크에서 볼 수 있다.

ysyblog.tistory.com/22

 

[기초통계학] 가설검정

▣ 가설검정 ▶ 가설 : 주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추즉 대립가설(antihypothesis)(연구가설) (H1) 귀무가설(null hytothesis) : 당연하다고 생각되는 사실(이게 맞으면

ysyblog.tistory.com

양측검정과 단측검정

양측검정에서 평균값 0을 중심으로 봤을 때 1.4cm가 우연히 발생했다면 95% 확률안에 들어와야하고, 우연이 아니라면 5%(0에서 가장 멀어져 있는 양쪽 끝 5%)확률에 들어가야한다.

양측검정과 다르게 5%을 한쪽으로 몰아넣은것이 단측검정이다. 양측검정처럼 1.4cm가 우연히 발생했다면 95% 확률안에 들어와야하고, 우연이 아니라면 5%(0에서 가장 멀어져 있는 양쪽 끝 5%)확률에 들어가야한다.

즉, 양측검정과 단측검정의 차이는 대립가설 차이에서 발생한다.

- 양측검정은 0보다 크거나 작은 두가지를 모두 포함하므로, 분포곡선의 양쪽 꼬리의 면적합이 5%에 들어갈 만큼 작아야한다.

- 단측검정은 0보다 크거나(우측검정) 0보다 작다(좌측검정)의 두가지로 나눌수 있고, 어느 한쪽 꼬리의 면적이 5%에 들어갈 만큼 크거나 작아야 한다.

- 0을 기준으로 양측이든 단측이든 95%에 들어오면 두 평균값의 차이인 D(a-b) 1.4cm는 우연히 발생한 것으로 두 집단의 평균값은 통계적으로 같은 것이다.

- 특정 방향을 알 수 없기 때문에, 다를 것이다라고 가정하고 양측검정을 시행한다.

H0 : D(a-b) = 0

Ha : D(a-b) > 0 or D(a-b) <0

 

T-값(자유도)

위에서 1.4cm가 얼마나 큰지 혹은 작은지 결정할 비교대상이 필요하며 비교대상은 바로 표준편차(분산)이라고 했었다.

표준편차는 데이터가 평균값을 기준으로 평균적으로 퍼진 정도이며, 그 자체는 의미가 없는 편차이다.

만약, 집단의 평균값과 비교대상의 값의 편차가 의미 없는 편차인 표준편차보다 크면 그 차이가 의미가 있다고 판단하며(차이가 있다) 평균값의 편차가 표준편차보다 작다면 , 그 차이는 우연히 발생했다고 보아야 한다.

 

t값의 공식

 

집단의 평균값을 알기 위해 통계적 가설에 의거하여 집단의 평균값과 비교대상의 값의 차이가 0과 같은지 다른지 알려고 한다.

위의 값에서 그 차이는 분자에 있다.

t-값의 공식의 분모를 보면, 표준편차를 데이터의 루트 값으로 나누었는데, 이는 모집단과는 다르게 표본에서는 표본의 진짜 표준편차는 표본의 개수와 관련이 있다는 의미이다.

그런데 위 공식을 보면 자유도(Degree of freedom)이라는 것이 있다. 자유도라는 것은 데이터의 개수이다.

위 표는 z분포(표준정규분포)와 자유도(n)(데이터개수)이 5,15,25일 때의 t분포 그래프이다. 이때 n이 증가할 수록 t분포가 z분포에 가까워지는 모습을 볼 수 있다. 즉, 데이터를 많이 모을 수록 t분포는 표준정규분포가 되어간다는 것이다.

따라서 표본의 크기(n)이 커지면 t값은 커지고, 표본의 크기(n)이 커질 수록 t-분포는 표준정규분포에 근사한다.

t-test에서 자유도는 n-1로 걔산되므로, 표본의 크기가 커지면 자유도가 커지고, 자유도가 커졌다는 것은,  t-분포에 묶여 있다가 자유롭게 표준정규분포를 사용할 수 있음을 의미한다.

 

위 예시에서 표준편차(s)가 7.05cm이고 표본의 크기(n)이 101명이면 t값은 대략 1.996이다.  T-table을 이용해서 해당 값을 판단한다.

위 table에서 one-tail은 단측검정, two-tail은 양측검정이기 때문에 여기서는 two-tail을 보면된다.

위에서 df(자유도)는 101-1 = 100이며 5%로 검정하기 때문에 위 표에서의 값(Critical value)은 1.984이다. 이 값은 양측검정이 시작되는 지점의 값이다.

따라서 해당 값을 넘어간다면 집단의 평균값과 비교대상의 값차이가 우연히 발생했을 확률은 95%가 아니라 5%에 들어왔다는 것이며, 이는 우연히 발생했을 확률이 5%보다 작은 것이다.

위 예시의  t값은 대략 1.996으로 Critical value 1.984보다 크므로 집단의 평균값과 비교대상의 값 차이인 1.4cm가 우연히 발생했을 확률은 5%보다 작으므로, 이 차이는 통계적으로 유의하다.

따라서 A대학 학생의 키는 비교대상 키와 통계적으로 유의하게 다르다.

-> 이는 차이인 1.4cm가 우연히 발생했을 확률은 5%보다 작으며 이는 우연히 발생했다고 보기 어렵다.

-> 왜 다른지 원인이 있다고 볼 수 있기 때문에, 이 원인을 찾아야 한다.

 

One-Sample Test

위에서 했던 한개의 집단을 가지고 t-test를 하는 것이다. 즉, 한 집단의 평균값이 내가 생각한 값과 다른지 비교할 때 시행하는 것이다.

예를들어, A대학의 평균키 178.5cm가 통계적으로 180cm으로 볼 수 있는것인가이다.

 

Two-Sample T-test

두 집단을 비교하는 test가 Two-Sample T-test이다. 예를들어, A대학의 평균키와 B대학의 평균키를 비교할때 사용한다.

참고로 Two-Sample T-test의 공식은 다음과 같다.

분모부분이 복잡한데, s^2이 문제이다.

s^2의 분모는 두개의 샘플 사이즈에서 -1씩 2를 뺀 것이다. 분자는, 학생모든학생의 키를 평균으로 빼서 제곱해서 더하는 과정을 해야한다.(분산 계산방법).

개념적으로는 one-sample-test의 공식과 유사하다.

 

Paired T-test

샘플은 One-Sample Test처럼 1개이지만, 시간적으로 다른 시점에서의 값들을 비교할 때 사용하는 것이다.

예를들어, A대학의 학생의 시험 평균이 76점이었고, 새로운 교육방식을 도입한 후 시험 평균이 84점일 때 새로운 교육방식이 효과가 있는지 알아보기 위해 before와 after를 비교하는 것이다.

공식은  One-Sample Test와 같은 것을 사용한다.

 

 

 

해당포스팅은 아래 유튜브를 참고하여 만들었습니다.

www.youtube.com/watch?v=AovOoq4p3nY&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=3

 

 

 

 

728x90
반응형