T-test
모집단의 표준편차가 알려지지 않았을 때 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법
T-test의 목적
-> 두개의 집단이 같은지 다른지 비교하기 위해 사용
-> 이를 알기 위해 두 집단의 샘플의 평균값을 비교하고, 두집단의 차이가 우연히 발생했을 확률을 구하므로서 t-test에 대한 결론을 구함
-> 즉, 두 집단의 평균값이 통계적으로 같은지 다른지를 확인
T-test를 위한 통계적 질문
- A대학 남학생 평균키(178.5cm)가 대한민국 평균키(179.9cm)와 우연히 같은 확률은 얼마나될까
- A대학의 남학생 평균키와 비교대상 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마나 될까
- 그렇다면 과연 1.4cm차이가 얼마나 커야 우연히 발생하지 않았다고 판단할 수 있을까
- 1.4cm 차이는 과연 큰 것인가 작은 것인가
-> 1.4cm가 얼마나 큰지 알 수 없기 때문에 1.4cm가 얼마나 큰지 혹은 작은지 결정할 비교대상이 필요
-> 비교대상은 바로 표준편차(분산) 입니다.
-> 또한 <우연히 발생했을 확률>은 분포곡선 아래의 면적이다. 즉 정규분포의 Z-Test의 원리와 같은 것이다.
정규분포와 Z-test는 아래 링크에서 볼 수 있다.
양측검정과 단측검정
가설검정와 양측/단측검정에 대한 내용은 아래 링크에서 볼 수 있다.
양측검정에서 평균값 0을 중심으로 봤을 때 1.4cm가 우연히 발생했다면 95% 확률안에 들어와야하고, 우연이 아니라면 5%(0에서 가장 멀어져 있는 양쪽 끝 5%)확률에 들어가야한다.
양측검정과 다르게 5%을 한쪽으로 몰아넣은것이 단측검정이다. 양측검정처럼 1.4cm가 우연히 발생했다면 95% 확률안에 들어와야하고, 우연이 아니라면 5%(0에서 가장 멀어져 있는 양쪽 끝 5%)확률에 들어가야한다.
즉, 양측검정과 단측검정의 차이는 대립가설 차이에서 발생한다.
- 양측검정은 0보다 크거나 작은 두가지를 모두 포함하므로, 분포곡선의 양쪽 꼬리의 면적합이 5%에 들어갈 만큼 작아야한다.
- 단측검정은 0보다 크거나(우측검정) 0보다 작다(좌측검정)의 두가지로 나눌수 있고, 어느 한쪽 꼬리의 면적이 5%에 들어갈 만큼 크거나 작아야 한다.
- 0을 기준으로 양측이든 단측이든 95%에 들어오면 두 평균값의 차이인 D(a-b) 1.4cm는 우연히 발생한 것으로 두 집단의 평균값은 통계적으로 같은 것이다.
- 특정 방향을 알 수 없기 때문에, 다를 것이다라고 가정하고 양측검정을 시행한다.
H0 : D(a-b) = 0
Ha : D(a-b) > 0 or D(a-b) <0
T-값(자유도)
위에서 1.4cm가 얼마나 큰지 혹은 작은지 결정할 비교대상이 필요하며 비교대상은 바로 표준편차(분산)이라고 했었다.
표준편차는 데이터가 평균값을 기준으로 평균적으로 퍼진 정도이며, 그 자체는 의미가 없는 편차이다.
만약, 집단의 평균값과 비교대상의 값의 편차가 의미 없는 편차인 표준편차보다 크면 그 차이가 의미가 있다고 판단하며(차이가 있다) 평균값의 편차가 표준편차보다 작다면 , 그 차이는 우연히 발생했다고 보아야 한다.
집단의 평균값을 알기 위해 통계적 가설에 의거하여 집단의 평균값과 비교대상의 값의 차이가 0과 같은지 다른지 알려고 한다.
위의 값에서 그 차이는 분자에 있다.
t-값의 공식의 분모를 보면, 표준편차를 데이터의 루트 값으로 나누었는데, 이는 모집단과는 다르게 표본에서는 표본의 진짜 표준편차는 표본의 개수와 관련이 있다는 의미이다.
그런데 위 공식을 보면 자유도(Degree of freedom)이라는 것이 있다. 자유도라는 것은 데이터의 개수이다.
위 표는 z분포(표준정규분포)와 자유도(n)(데이터개수)이 5,15,25일 때의 t분포 그래프이다. 이때 n이 증가할 수록 t분포가 z분포에 가까워지는 모습을 볼 수 있다. 즉, 데이터를 많이 모을 수록 t분포는 표준정규분포가 되어간다는 것이다.
따라서 표본의 크기(n)이 커지면 t값은 커지고, 표본의 크기(n)이 커질 수록 t-분포는 표준정규분포에 근사한다.
t-test에서 자유도는 n-1로 걔산되므로, 표본의 크기가 커지면 자유도가 커지고, 자유도가 커졌다는 것은, t-분포에 묶여 있다가 자유롭게 표준정규분포를 사용할 수 있음을 의미한다.
위 예시에서 표준편차(s)가 7.05cm이고 표본의 크기(n)이 101명이면 t값은 대략 1.996이다. T-table을 이용해서 해당 값을 판단한다.
위 table에서 one-tail은 단측검정, two-tail은 양측검정이기 때문에 여기서는 two-tail을 보면된다.
위에서 df(자유도)는 101-1 = 100이며 5%로 검정하기 때문에 위 표에서의 값(Critical value)은 1.984이다. 이 값은 양측검정이 시작되는 지점의 값이다.
따라서 해당 값을 넘어간다면 집단의 평균값과 비교대상의 값차이가 우연히 발생했을 확률은 95%가 아니라 5%에 들어왔다는 것이며, 이는 우연히 발생했을 확률이 5%보다 작은 것이다.
위 예시의 t값은 대략 1.996으로 Critical value 1.984보다 크므로 집단의 평균값과 비교대상의 값 차이인 1.4cm가 우연히 발생했을 확률은 5%보다 작으므로, 이 차이는 통계적으로 유의하다.
따라서 A대학 학생의 키는 비교대상 키와 통계적으로 유의하게 다르다.
-> 이는 차이인 1.4cm가 우연히 발생했을 확률은 5%보다 작으며 이는 우연히 발생했다고 보기 어렵다.
-> 왜 다른지 원인이 있다고 볼 수 있기 때문에, 이 원인을 찾아야 한다.
One-Sample Test
위에서 했던 한개의 집단을 가지고 t-test를 하는 것이다. 즉, 한 집단의 평균값이 내가 생각한 값과 다른지 비교할 때 시행하는 것이다.
예를들어, A대학의 평균키 178.5cm가 통계적으로 180cm으로 볼 수 있는것인가이다.
Two-Sample T-test
두 집단을 비교하는 test가 Two-Sample T-test이다. 예를들어, A대학의 평균키와 B대학의 평균키를 비교할때 사용한다.
참고로 Two-Sample T-test의 공식은 다음과 같다.
분모부분이 복잡한데, s^2이 문제이다.
s^2의 분모는 두개의 샘플 사이즈에서 -1씩 2를 뺀 것이다. 분자는, 학생모든학생의 키를 평균으로 빼서 제곱해서 더하는 과정을 해야한다.(분산 계산방법).
개념적으로는 one-sample-test의 공식과 유사하다.
Paired T-test
샘플은 One-Sample Test처럼 1개이지만, 시간적으로 다른 시점에서의 값들을 비교할 때 사용하는 것이다.
예를들어, A대학의 학생의 시험 평균이 76점이었고, 새로운 교육방식을 도입한 후 시험 평균이 84점일 때 새로운 교육방식이 효과가 있는지 알아보기 위해 before와 after를 비교하는 것이다.
공식은 One-Sample Test와 같은 것을 사용한다.
해당포스팅은 아래 유튜브를 참고하여 만들었습니다.
www.youtube.com/watch?v=AovOoq4p3nY&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=3
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] Two-way ANOVA(이원배치 분산분석)(1) - Interaction(상호작용) (0) | 2021.02.14 |
---|---|
[기초통계학] One-way ANOVA(일원배치 분산분석) (F-Value) (2) | 2021.02.14 |
[기초통계학] 가설검정 (0) | 2020.06.11 |
[기초통계학] 추정 (0) | 2020.06.11 |
[기초통계학] 확률분포 (0) | 2020.06.10 |