One-way ANOVA(일원배치 분산분석)
세 집단 비교
T-test는 두개 집단이 유사한지 아닌지 비교하는 것입니다. 그런데 만약 집단이 3개라면 어떻게 될까요. 물론 T-test를 3번하면 될것입니다.
하지만 그룹이 3개일때 t-test를 세번하면 1종오류에 걸립니다.
1종오류란 실제로는 유의하지 않은데 유의하다고 나온 경우를 말합니다.
5% p-value를 기준으로 세번의 t-test를 할턴데, 0.05라는 p-value를 세번 적용하기 때문에, 동원된 총 p-value 는 0.05*3 = 0.15입니다. 우리는 0.05라고 생각하고 적용하였지만 실제로는 0.15이기 때문에 1종오류가 생깁니다.
따라서 새로운 방법을 적용해야 합니다. 그것이 바로 One-way ANOVA입니다.
One-way는 독립변수가 하나라는 뜻이며, ANOVA는 Analysis of Varience의 약자이며, 분산분석이라고 합니다.
하지만 왜 평균분석을 하지 않고 분산분석을 할까요.
One-way ANOVA의 변수
- 종속변수 : 연속형 변수만 가능
- 독립변수 : 이산형/범주형 변수만 가능
EX) 아이들에게 폭력영화/드라마/공익광고를 보여주었을때 폭력적인 행동을 점수화 할 때
- 종속변수 : 아이들의 폭력행동 점수
- 독립변수 : 영상의 종류(폭력영화/드라마/공익광고)
- 종류가 3가지가 있다고 해서 독립변수가 3가지가 아니라 1가지(영상의 종류)이다. 독립변수의 level이 세가지인 것이다.
One-way ANOVA 식
우변의 u는 평균이다. 평균이 있는 이유는 종속변수의 값이 100% 독립변수의 영향이라고 볼 수 없기 때문이다. 예를 들어 사과의 출하량을 종속변수로, 비료를 준 그룹과 그렇지 않은 그룹의 사과 출하량을 비교할 때, 비료를 주지 않은 그룹의 사과 출하량이 상식적으로 0이되지 않을 것이기 때문.
하지만 ANOVA에서 평균값은 중요하지 않습니다. 중요한 것은 Tj(타우_제이)이다.
T는 독립변수를 의미하고 j는 그룹을 의미합니다.(j = 1,2,3,4.....)
Y는 종속변수이다. ANOVA에서 종속변수는 연속성변수이다. j는 독립변수의 그룹을 대표하는 문자이며 i는 그 그룹내의 ID이다.'
e는 오차이며 j는 독립변수의 그룹을 대표하는 문자이며, i는 그 그룹내의 ID이다.
여기서 말하는 오차는 Tj에 의해 설명되지 않는 random한 오차이며, 이 오차는 무작위로 발생했으며 큰 의미는 없다고 가정합니다.(무작위가 아니라면 문제가 있다는 것임)
즉, 위의 식은 그룹별(독립변수)차이가 종속변수에 나타나는 것인지 아닌지 보겠다는 것이다.
F-Value(F값)(Between Variance, Within Variance)
t-test에는 t-value가 있듯이 ANOVA에는 F-value가 있다. 이것 역시 0~1사이의 확률로 판단한다.
ANOVA가 분산분석인 이유눈 F값이 두 개의 분산의 비율이기 때문이기 때문이다.
따라서 두 종류의 평균이 필요하다.
위 데이터에서 두 종류의 평균값을 알아볼 수 있다. 첫째는 빨간색 선인 전체평균(71)이다. 두번째는 파란색선인 각각의 평균(각 그룹의 평균값)이다. 평균의 개수는 5개라고 할 수 있으나 평균의 종류는 2개이다.(전체평균과 그룹평균)
여기서 첫번째 분산은 전체 평균으로부터 각 그룹평균까지의 거리(분산)이다. 이를 Between Variance라고 부른다. 이렇게 부르는 이유는 그룹간의 차이는 전체평균이 기준이 되어서 전체평균과의 거리를 계산하는 것이기 때문이다.
Between Variance가 크다는 것은 전체평균으로 부터 각 그룹의 평균값이 멀리 떨어져 있는 것이며, 적어도 어떤 그룹 한개는 다른 그룹과 평균이 다를 수 있다는 것이다.
그런데 Between Variance가 얼마나 커야 통계적으로 큰지 모르기 때문에 이것과 비교할 다른 Variance(분산)이 필요합니다. 그것이 바로 두번째 분산 Within Variance(그룹내의 분산)입니다.
각 그룹의 분산 각각을 다 합치면 그룹내의 분산이 나옵니다. t-test에서 t-value를 계산할 때 표준편차와 같은 의미이다.(random한 변화의 정도이므로)
따라서 Between Variance가 Within Variance보다 충분히 커야 Between Variance가 통계적으로 크다고 말할 수 있고,이것은 적어도 어느 한 그룹의 평균값이 전체 평균과는 다르다고 할 수 있다.
따라서 F값이란 Between Variance와 Within Variance의 비율이다.
즉, t-값과 마찬가지로 분자부분의 분산을 비교대상인 분모부분의 분산과 비교하여 비율로 나타낸 값이 F값이다.
분모의 Within Variance는 random한 값으로 Between Variance가 이것보다는 훨씬 커야한다.
One-way ANOVA의 통계적 가설
H0(귀무가설) => u1 = u2 = u3.... = uk(k는 그룹의 개수)
H1(대립가설) => ui ≠ uj (적어도 한 그룹의 평균은 다르다)
F값이 충분히 커서 유의하다면(p-value<0.05), 이는 Between Variance가 충분히 크다는 것인데. 이것만으로는 몇개의 그룹이, 어떤 그룹이 전체평균과 어떻게 다르다는 것인지 알 수 없음
F값 계산
한 예시를 들어 Between Variance를 계산해보면
위에서 제곱의 합 3.5062는 분산의 윗부분(분자)입니다. 분산의 분모는 바로 자유도입니다.
t-test에서는 자유도은 샘플의 크기와 관계가 있지만 Anova에서의 자유도는 df = k-1(k는 그룹의 개수)입니다.
위에서 그룹은 1,2,3의 세개의 그룹이므로 df = 2입니다.
ANOVA에서는 분산이 두개이므로 자유도도 두개이므로 위 자유도(2)는 첫번째 자유도(df1)라고 합니다.
Within Variance를 계산해보면
위에서 계산된 14.7934는 역시 분산의 윗부분분자)이며, 분모부분이 자유도이다.
df2 = n -k(n은 샘플의 크기. k는 그룹의 개수) 이므로
df2 = 10 -3 = 7 입니다.
참고로 df1과 df2를 합치면 9이며 n-1과 똑같습니다. 즉, 자유도 두개를 합치면 t-test의 자유도와 동일하다.
정리하면
Between Variance의 분자부분 3.5062는 제곱한 것의 합이므로 Sum of Squared의 약자 SS를 써서
SSBetween(SSB) = 3.5062, df1 = 2라고 표시할 수 있다.
Within Variance의 분자부분 14.7934는 제곱한 것의 합이므로 Sum of Squared의 약자 SS를 써서
SSWithin(SSW) = 14.7934, df2 = 7라고 표시할 수 있다.
최종 F값은 다음과 같습니다.
Critical Value가 4.74인데 위 예시의 F값은 0.8296이므로 한참 모자르기 때문에 유의하지 않습니다.
실제로 이경우 p-value는 0.4749이므로 해당 예시는 통계적으로 유의하지 않습니다.
사후검정
만약 통계적으로 유의하다면, 우리가 아는 것은 단지 적어도 셋 중하나가 평균이 다르다는 것이다. 따라서 One-way ANOVA 결과 만으로는 어떤 그룹이 어떻게 다른지 알 수 없기 때문에 사후검정을 실시하여야 한다.
사후검정이란, 여러다발의 t-test입니다. 하지만 이때는 1종오류가 발생하지 않습니다. 사후검정은 각 그룹의 평균이 다른 그룹의 평균과 같은지 다른지 개별적으로 비교할 수 있습니다.
사후검정의 종류는 다음과 같습니다.
- Fisher's LSD / Bonferroni / Sheffe / Turkey / Duncan (어떤것을 쓰든 상관없음)
- 사후검정은 유의한 경우에만 합니다.(위의 사례처럼 유의하지 않을 경우 결과가 의미가 없기 때문)
One-way ANOVA 실습
파이썬을 활용하여 One-way ANOVA를 실습하는 포스팅 링크입니다.
해당 포스팅은 아래 유튜브 영상을 참고하여 만들었습니다.
www.youtube.com/watch?v=2ZgdukOPnyU&list=PLalb9l0_6WArk6oZej3KzduU8TRQA9gcV&index=8
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] Two-way ANOVA(이원배치 분산분석)(2) - F-value(F값) 계산 (0) | 2021.02.15 |
---|---|
[기초통계학] Two-way ANOVA(이원배치 분산분석)(1) - Interaction(상호작용) (0) | 2021.02.14 |
[기초통계학] T-test(가설검정 / One-Sample Test / Two-Sample T-test / Paired T-test) (0) | 2021.02.08 |
[기초통계학] 가설검정 (0) | 2020.06.11 |
[기초통계학] 추정 (0) | 2020.06.11 |