Statistics & Math/기초통계학

[기초통계학] One-way ANOVA(일원배치 분산분석) (F-Value)

YSY^ 2021. 2. 14. 20:03

One-way ANOVA(일원배치 분산분석)

세 집단 비교

T-test는 두개 집단이 유사한지 아닌지 비교하는 것입니다. 그런데 만약 집단이 3개라면 어떻게 될까요. 물론 T-test를 3번하면 될것입니다. 

하지만 그룹이 3개일때 t-test를 세번하면 1종오류에 걸립니다.

1종오류란 실제로는 유의하지 않은데 유의하다고 나온 경우를 말합니다.

5% p-value를 기준으로 세번의 t-test를 할턴데, 0.05라는 p-value를 세번 적용하기 때문에, 동원된 총 p-value 는 0.05*3 = 0.15입니다. 우리는 0.05라고 생각하고 적용하였지만 실제로는 0.15이기 때문에 1종오류가 생깁니다.

따라서 새로운 방법을 적용해야 합니다. 그것이 바로 One-way ANOVA입니다.

One-way는 독립변수가 하나라는 뜻이며, ANOVA는 Analysis of Varience의 약자이며, 분산분석이라고 합니다.

하지만 왜 평균분석을 하지 않고 분산분석을 할까요.

 

One-way ANOVA의 변수

- 종속변수 : 연속형 변수만 가능

- 독립변수 : 이산형/범주형 변수만 가능

EX) 아이들에게 폭력영화/드라마/공익광고를 보여주었을때 폭력적인 행동을 점수화 할 때

- 종속변수 : 아이들의 폭력행동 점수

- 독립변수 : 영상의 종류(폭력영화/드라마/공익광고)

- 종류가 3가지가 있다고 해서 독립변수가 3가지가 아니라 1가지(영상의 종류)이다. 독립변수의 level이 세가지인 것이다.

 

One-way ANOVA 식

우변의 u는 평균이다. 평균이 있는 이유는 종속변수의 값이 100% 독립변수의 영향이라고 볼 수 없기 때문이다. 예를 들어 사과의 출하량을 종속변수로, 비료를 준 그룹과 그렇지 않은 그룹의 사과 출하량을 비교할 때, 비료를 주지 않은 그룹의 사과 출하량이 상식적으로 0이되지 않을 것이기 때문.

하지만 ANOVA에서 평균값은 중요하지 않습니다. 중요한 것은 Tj(타우_제이)이다.

T는 독립변수를 의미하고 j는 그룹을 의미합니다.(j = 1,2,3,4.....)

Y는 종속변수이다. ANOVA에서 종속변수는 연속성변수이다. j는 독립변수의 그룹을 대표하는 문자이며 i는 그 그룹내의 ID이다.'

e는 오차이며 j는 독립변수의 그룹을 대표하는 문자이며, i는 그 그룹내의 ID이다.

여기서 말하는 오차는 Tj에 의해 설명되지 않는 random한 오차이며, 이 오차는 무작위로 발생했으며 큰 의미는 없다고 가정합니다.(무작위가 아니라면 문제가 있다는 것임)

즉, 위의 식은 그룹별(독립변수)차이가 종속변수에 나타나는 것인지 아닌지 보겠다는 것이다.

 

F-Value(F값)(Between Variance, Within Variance)

t-test에는 t-value가 있듯이 ANOVA에는 F-value가 있다. 이것 역시 0~1사이의 확률로 판단한다.

ANOVA가 분산분석인 이유눈 F값이 두 개의 분산의 비율이기 때문이기 때문이다.

따라서 두 종류의 평균이 필요하다. 

위 데이터에서 두 종류의 평균값을 알아볼 수 있다. 첫째는 빨간색 선인 전체평균(71)이다. 두번째는 파란색선인 각각의 평균(각 그룹의 평균값)이다. 평균의 개수는 5개라고 할 수 있으나 평균의 종류는 2개이다.(전체평균과 그룹평균)

여기서 첫번째 분산은 전체 평균으로부터 각 그룹평균까지의 거리(분산)이다. 이를 Between Variance라고 부른다. 이렇게 부르는 이유는 그룹간의 차이는 전체평균이 기준이 되어서 전체평균과의 거리를 계산하는 것이기 때문이다.

Between Variance가 크다는 것은 전체평균으로 부터 각 그룹의 평균값이 멀리 떨어져 있는 것이며, 적어도 어떤 그룹 한개는 다른 그룹과 평균이 다를 수 있다는 것이다.

그런데 Between Variance가 얼마나 커야 통계적으로 큰지 모르기 때문에 이것과 비교할 다른 Variance(분산)이 필요합니다. 그것이 바로 두번째 분산 Within Variance(그룹내의 분산)입니다.

각 그룹의 분산 각각을 다 합치면 그룹내의 분산이 나옵니다. t-test에서 t-value를 계산할 때 표준편차와 같은 의미이다.(random한 변화의 정도이므로)

따라서 Between Variance가 Within Variance보다 충분히 커야 Between Variance가 통계적으로 크다고 말할 수 있고,이것은 적어도 어느 한 그룹의 평균값이 전체 평균과는 다르다고 할 수 있다.

따라서 F값이란 Between Variance와 Within Variance의 비율이다.

책에 따라 MS라고 나타내기도한다. MS는 제곱합이며 MStreatment는 변화를 준부분, MSerror는 무의미한 변동(에러)이다.

즉, t-값과 마찬가지로 분자부분의 분산을 비교대상인 분모부분의 분산과 비교하여 비율로 나타낸 값이 F값이다.

분모의 Within Variance는 random한 값으로 Between Variance가 이것보다는 훨씬 커야한다.

 

One-way ANOVA의 통계적 가설

H0(귀무가설) => u1 = u2 = u3.... = uk(k는 그룹의 개수)

H1(대립가설) => ui ≠ uj (적어도 한 그룹의 평균은 다르다)

F값이 충분히 커서 유의하다면(p-value<0.05), 이는 Between Variance가 충분히 크다는 것인데. 이것만으로는 몇개의 그룹이, 어떤 그룹이 전체평균과 어떻게 다르다는 것인지 알 수 없음

 

F값 계산

한 예시를 들어 Between Variance를 계산해보면

위에서 제곱의 합 3.5062는 분산의 윗부분(분자)입니다. 분산의 분모는 바로 자유도입니다.

t-test에서는 자유도은 샘플의 크기와 관계가 있지만 Anova에서의 자유도는 df = k-1(k는 그룹의 개수)입니다.

위에서 그룹은 1,2,3의 세개의 그룹이므로 df = 2입니다.

ANOVA에서는 분산이 두개이므로 자유도도 두개이므로 위 자유도(2)는 첫번째 자유도(df1)라고 합니다.

 

Within Variance를 계산해보면

위에서 계산된 14.7934는 역시 분산의 윗부분분자)이며, 분모부분이 자유도이다.

df2 = n -k(n은 샘플의 크기. k는 그룹의 개수) 이므로

df2 = 10 -3 = 7  입니다.

참고로 df1과 df2를 합치면 9이며 n-1과 똑같습니다. 즉, 자유도 두개를 합치면 t-test의 자유도와 동일하다.

 

정리하면

Between Variance의 분자부분 3.5062는 제곱한 것의 합이므로 Sum of Squared의 약자 SS를 써서

SSBetween(SSB) = 3.5062, df1 = 2라고 표시할 수 있다.

Within Variance의 분자부분 14.7934는 제곱한 것의 합이므로 Sum of Squared의 약자 SS를 써서

SSWithin(SSW) = 14.7934, df2 = 7라고 표시할 수 있다.

최종 F값은 다음과 같습니다.

F-table

Critical Value가 4.74인데 위 예시의 F값은 0.8296이므로 한참 모자르기 때문에 유의하지 않습니다.

실제로 이경우 p-value는 0.4749이므로 해당 예시는 통계적으로 유의하지 않습니다.

 

사후검정

만약 통계적으로 유의하다면, 우리가 아는 것은 단지 적어도 셋 중하나가 평균이 다르다는 것이다. 따라서 One-way ANOVA 결과 만으로는 어떤 그룹이 어떻게 다른지 알 수 없기 때문에 사후검정을 실시하여야 한다.

사후검정이란, 여러다발의 t-test입니다. 하지만 이때는 1종오류가 발생하지 않습니다. 사후검정은 각 그룹의 평균이 다른 그룹의 평균과 같은지 다른지 개별적으로 비교할 수 있습니다.

사후검정의 종류는 다음과 같습니다.

- Fisher's LSD / Bonferroni / Sheffe / Turkey / Duncan (어떤것을 쓰든 상관없음)

- 사후검정은 유의한 경우에만 합니다.(위의 사례처럼 유의하지 않을 경우 결과가 의미가 없기 때문)

 

One-way ANOVA 실습

파이썬을 활용하여 One-way ANOVA를 실습하는 포스팅 링크입니다.

ysyblog.tistory.com/117

 

[통계분석] 분산분석(ANOVA), 이항검정 (ADP실기 준비)

분산분석(ANOVA) 두개이상 집단들의 평균간 차이에 대한 통계적 유의성을 검정 사후 검정 : 분산분석 후 어떤 집단이 유의미한 차이를 가지고 있는지 확인 귀무가설 : 집단들 사이의 평균은 같음

ysyblog.tistory.com

 

 

해당 포스팅은 아래 유튜브 영상을 참고하여 만들었습니다.

www.youtube.com/watch?v=2ZgdukOPnyU&list=PLalb9l0_6WArk6oZej3KzduU8TRQA9gcV&index=8

728x90
반응형