[기초통계학] One-wayANOVA(일원배치 분산분석) :ysyblog.tistory.com/174
[기초통계학] Two-way ANOVA(이원배치 분산분석)(1) - Interaction(상호작용) : ysyblog.tistory.com/175
해당 포스팅은 위 포스팅에 이어진행됩니다.
Two-way ANOVA의 F값
- 독립변수가 2개이기 때문에 F값 역시 2개가 되어야 한다.
- 추가적으로 Interaction도 유의한지 아닌지 알아야 한다.
- 따라서 interaction에 대한 F값도 하나 더 필요하다. 즉, 총 3개의 F값이 필요하다.(첫번째 독립변수의 Main effect를 측정하기 위한 F값, 두번째 독립변수의 Main effect를 측정하기 위한 F값, Interaction effect를 측정하기 위한 F값)
- 그렇기에 총 3개의 Between Variance가 필요하다.
- 하지만 3개의 Within variance가 꼭 필요하지 않다. Within variance의 역할은 Between variance가 충분히 큰지 혹은 작은지 알기 위한 비교대상이기 때문에 비교대상은 동일해야한다. 즉, Within variance는 단 1개만 있어도 된다.
Two-way ANOVA의 통계적가설과 사후검정
- 통계적 가설은 3개가 필요하다
- 첫번째 main effect에 대한 통계적 가설
- H0(귀무가설) : u11 = u12 = ... = u1k (k는 그룹의 개수)
- H1(대립가설) : H1 => u1i ≠ u1j(적어도 한 그룹의 평균은 다르다)
- 유의하다면 사후검정 필요
- 두번째 main effect에 대한 통계적 가설
- H0(귀무가설): u21 = u22 = ... = u2k (k는 그룹의 개수)
- H1(대립가설): u2i ≠ u2j(적어도 한 그룹의 평균은 다르다)
- 유의하다면 사후검정 필요
- Interaction effect에 대한 통계적 가설
- H0(귀무가설): Interaction effect가 존재하지 않는다.
- H1(대립가설): Interaction effect가 존재한다.
- 사후검정은 필요하지만 복잡하며, 그래프를 그려보는 것이 더 이해하기가 쉽다.
Two-way ANOVA의 F값 계산
아래의 예제는 super,best의 세제가 물 온도에 따라서 얼마나 세척력이 좋은지를 나타낸 것입니다.
Within variance 계산
SSwithin = ((4.0 - 5.0)^2 + (5.0 - 5.0)^2 + (6.0 - 5.0)^2 + (5.0 - 5.0)^2) + ((6.0 - 5.0)^2+ (6.0 - 5.0)^2+ (4.0 - 5.0)^2+(4.0 - 5.0)^2)) + ...... + ((12 - 12)^2 + (13 - 12)^2 + (10 - 12)^2 + (13 - 12)^2) = 37
df(within) = (r-1) x k1 x k2 = 3 * 2 * 3 = 18 (r = 각 셀의 실험회수, kn = n번째 독립변수의 그룹개수)
MSwithin = 37/18 = 2.06
Between variance1(Super/Best과 관련된 독립변수) 계산
SSmain effect1= r * k2 * {(8,2 - 9.1)^2 + (10.0 - 9.1)^2} = 4 * 3 * {(8,2 - 9.1)^2 +(10.0 - 9.1)^2} = 20.17
df1(within) = k1 - 1 = 2 - 1 = 1 (r = 각 셀의 실험회수, kn = n번째 독립변수의 그룹개수)
MSmain effect1 = 20.17/1 = 20.17
Between variance2(온도과 관련된 독립변수)계산
SSmain effect2= r * k1 * {(5 - 9.1)^2 +(11 - 9.1)^2 + +(11.3 - 9.1)^2} = 4* 2 * {(5 - 9.1)^2 +(11 - 9.1)^2 ++(11.3 - 9.1)^2} =200.33
df2(within) = k2 - 1 = 3 - 1 = 2 (r = 각 셀의 실험회수, kn = n번째 독립변수의 그룹개수)
MSmain effect2= 200.33/2 =100.17
Between variance3(Interaction effect)계산
셀의 평균에서 첫번째 독립변수 그룹의 평균과 두번째 독립변수 그룹의 평균을 빼고 전체 평균을 더해서 제곱한 것들을 더함
SSinteraction= r(4) * {(5 - 8.2 - 5.0 + 9.1)^2 +(9 - 8.2 - 11.0 + 9.1)^2 + (10.5 - 8.2 - 11.3 + 9.1)^2 + (5 - 10 - 5 + 9.1)^2 + (13 - 10 - 11 + 9.1)^2 + (12 - 10 - 11.3 + 9.1)^2} = 16.33
df(interaction) = (k1 - 1) * (k2 - 1) = 2 * 1 = 2 (r = 각 셀의 실험회수, kn = n번째 독립변수의 그룹개수)
MSinteraction=16.33/2 =8.17
정리
F-value1 = 20.167 / 2.056 = 9.81 (p-value : 0.0057584)
F-value2 = 100.167/ 2.056 = 48.73 (p-value : 0.0000001)
F-value(interaction) = 8.167 / 2.056 = 3.97 (p-value : 0.0372243)
위 세가지는 모두 유의하기 때문에 사후검정이 필요함
사후 검정시 interaction 같은 경우 다음과 같이 그래프로 보여주는 것이 나을 수도 있음
Two-way ANOVA 실습
파이썬을 활용하여 Two-way ANOVA를 실습하는 포스팅 링크입니다.
SS(Sum of squared)의 종류
- Variance를 계산할 때, 분자부분을 SS라고함
- 보통 Type 1/2/3으로 얘기함
- One-way ANOVA에서는 아무 차이가 없음
- 각 그룹내의 샘플 개수가 동일한 경우(Balanced)에는 보통 Type 1/2/3의 차이가 없다.
- 각 그룹내의 샘플 개수가 동일하지 않을 경우(Unbalanced)에만**보통 Type 1/2/3의 결과가 달라진다**.
Type 1 SS
- 제 1유형 제곱합이며 순차 제곱합이라고 함
- 변수를 한 개씩 순차적으로 추가하면서 제곱합을 계산하며 변수의 순서에 따라 SS가 변동
- 특별한 목적에 맞춰서 사용
- 중요 변수를 먼저 감안한 뒤에 다른 추가 변수 테스트할 경우
- 변동 불가능한 변수를 먼저 고려한 후 변동 가능한 변수를 넣고 테스트
- 일반적으로 많이 안쓰임
Type 2 SS
- 제 2유형 제겁합
- Interaction을 제외하고 계산하며 Interaction은 유의하지 않다고 전제
- 따라서 Interaction이 유의하지 않을 경우 사용하는 것이 좋음
Type 3 SS
- 제 3유형 제곱합이며, 수정제곱합이라고 함
- 다른 모둔 변수들이 모두 이미 모형에 들아가있다는 가정하에 마지막에 새로 추가되는 변수의 변동을 계산한 제곱합
- 변수의 순서에 따라 SS가 변화하지 않음
- 일반적으로 사용되는 SS는 Type 3 SS이다.
해당 포스팅은 아래 유튜브 영상을 참고하여 만들었습니다.
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] 확률의 non-naïve한 정의의 공리, 확률의 특성, 포함배제의 원리 (0) | 2023.10.15 |
---|---|
[기초통계학] 확률의 기본 개념(표본공간, 곱의 법칙, 이항정리), 표본추출정리, 확률의 공리 (1) | 2023.10.15 |
[기초통계학] Two-way ANOVA(이원배치 분산분석)(1) - Interaction(상호작용) (0) | 2021.02.14 |
[기초통계학] One-way ANOVA(일원배치 분산분석) (F-Value) (2) | 2021.02.14 |
[기초통계학] T-test(가설검정 / One-Sample Test / Two-Sample T-test / Paired T-test) (0) | 2021.02.08 |