Statistics & Math/기초통계학

[기초통계학] Two-way ANOVA(이원배치 분산분석)(2) - F-value(F값) 계산

YSY^ 2021. 2. 15. 17:06

[기초통계학] One-wayANOVA(일원배치 분산분석) :ysyblog.tistory.com/174

[기초통계학] Two-way ANOVA(이원배치 분산분석)(1) - Interaction(상호작용) : ysyblog.tistory.com/175

해당 포스팅은 위 포스팅에 이어진행됩니다.

 

Two-way ANOVA의 F값

- 독립변수가 2개이기 때문에 F값 역시 2개가 되어야 한다.
- 추가적으로 Interaction도 유의한지 아닌지 알아야 한다.

- 따라서 interaction에 대한 F값도 하나 더 필요하다. 즉, 총 3개의 F값이 필요하다.(첫번째 독립변수의 Main effect를 측정하기 위한 F값, 두번째 독립변수의 Main effect를 측정하기 위한 F값, Interaction effect를 측정하기 위한 F값)

- 그렇기에 총 3개의 Between Variance가 필요하다.

- 하지만 3개의 Within variance가 꼭 필요하지 않다. Within variance의 역할은 Between variance가 충분히 큰지 혹은 작은지 알기 위한 비교대상이기 때문에 비교대상은 동일해야한다. 즉, Within variance는 단 1개만 있어도 된다.

 

Two-way ANOVA의 통계적가설과 사후검정

- 통계적 가설은 3개가 필요하다

- 첫번째 main effect에 대한 통계적 가설

  • H0(귀무가설) : u11 = u12 = ... = u1k (k는 그룹의 개수)
  • H1(대립가설) : H1 => u1i ≠ u1j(적어도 한 그룹의 평균은 다르다)
  • 유의하다면 사후검정 필요

- 두번째 main effect에 대한 통계적 가설

  • H0(귀무가설): u21 = u22 = ... = u2k (k는 그룹의 개수)
  • H1(대립가설): u2i ≠ u2j(적어도 한 그룹의 평균은 다르다)
  • 유의하다면 사후검정 필요

- Interaction effect에 대한 통계적 가설

  • H0(귀무가설): Interaction effect가 존재하지 않는다.
  • H1(대립가설): Interaction effect가 존재한다.
  • 사후검정은 필요하지만 복잡하며, 그래프를 그려보는 것이 더 이해하기가 쉽다.

 

Two-way ANOVA의 F값 계산

아래의 예제는 super,best의 세제가 물 온도에 따라서 얼마나 세척력이 좋은지를 나타낸 것입니다.

Within variance 계산
SSwithin = ((4.0 - 5.0)^2 + (5.0 - 5.0)^2 + (6.0 - 5.0)^2 + (5.0 - 5.0)^2) + ((6.0 - 5.0)^2+ (6.0 - 5.0)^2+ (4.0 - 5.0)^2+(4.0 - 5.0)^2)) + ...... + ((12 - 12)^2 + (13 - 12)^2 + (10 - 12)^2 + (13 - 12)^2) = 37
df(within) = (r-1) x k1 x k2 = 3 * 2 * 3 = 18 (r = 각 셀의 실험회수, kn = n번째 독립변수의 그룹개수)
MSwithin = 37/18 = 2.06

Between variance1(Super/Best과 관련된 독립변수) 계산
SSmain effect1= r * k2 * {(8,2 - 9.1)^2 + (10.0 - 9.1)^2} = 4 * 3 * {(8,2 - 9.1)^2 +(10.0 - 9.1)^2} = 20.17
df1(within) = k1 - 1 = 2 - 1 = 1 (r = 각 셀의 실험회수, kn = n번째 독립변수의 그룹개수)
MSmain effect1 = 20.17/1 = 20.17

Between variance2(온도과 관련된 독립변수)계산
SSmain effect2= r * k1 * {(5 - 9.1)^2 +(11 - 9.1)^2 + +(11.3 - 9.1)^2} = 4* 2 * {(5 - 9.1)^2 +(11 - 9.1)^2 ++(11.3 - 9.1)^2} =200.33
df2(within) = k2 - 1 = 3 - 1 = 2 (r = 각 셀의 실험회수, kn = n번째 독립변수의 그룹개수)
MSmain effect2= 200.33/2 =100.17

Between variance3(Interaction effect)계산
셀의 평균에서 첫번째 독립변수 그룹의 평균과 두번째 독립변수 그룹의 평균을 빼고 전체 평균을 더해서 제곱한 것들을 더함
SSinteraction= r(4) * {(5 - 8.2 - 5.0 + 9.1)^2 +(9 - 8.2 - 11.0 + 9.1)^2 + (10.5 - 8.2 - 11.3 + 9.1)^2 + (5 - 10 - 5 + 9.1)^2 + (13 - 10 - 11 + 9.1)^2 + (12 - 10 - 11.3 + 9.1)^2} = 16.33
df(interaction) = (k1 - 1) * (k2 - 1) = 2 * 1 = 2 (r = 각 셀의 실험회수, kn = n번째 독립변수의 그룹개수)
MSinteraction=16.33/2 =8.17

정리

F-value1 = 20.167 / 2.056 = 9.81 (p-value : 0.0057584)
F-value2 = 100.167/ 2.056 = 48.73 (p-value : 0.0000001)
F-value(interaction) = 8.167 / 2.056 = 3.97 (p-value : 0.0372243)
위 세가지는 모두 유의하기 때문에 사후검정이 필요함

사후 검정시 interaction 같은 경우 다음과 같이 그래프로 보여주는 것이 나을 수도 있음

 

Two-way ANOVA 실습

파이썬을 활용하여 Two-way ANOVA를 실습하는 포스팅 링크입니다.

ysyblog.tistory.com/117

 

[통계분석] 분산분석(ANOVA), 이항검정 (ADP실기 준비)

분산분석(ANOVA) 두개이상 집단들의 평균간 차이에 대한 통계적 유의성을 검정 사후 검정 : 분산분석 후 어떤 집단이 유의미한 차이를 가지고 있는지 확인 귀무가설 : 집단들 사이의 평균은 같음

ysyblog.tistory.com

 

SS(Sum of squared)의 종류

- Variance를 계산할 때, 분자부분을 SS라고함
- 보통 Type 1/2/3으로 얘기함
- One-way ANOVA에서는 아무 차이가 없음
- 각 그룹내의 샘플 개수가 동일한 경우(Balanced)에는 보통 Type 1/2/3의 차이가 없다.
- 각 그룹내의 샘플 개수가 동일하지 않을 경우(Unbalanced)에만**보통 Type 1/2/3의 결과가 달라진다**.

Type 1 SS
- 제 1유형 제곱합이며 순차 제곱합이라고 함
- 변수를 한 개씩 순차적으로 추가하면서 제곱합을 계산하며 변수의 순서에 따라 SS가 변동
- 특별한 목적에 맞춰서 사용

  • 중요 변수를 먼저 감안한 뒤에 다른 추가 변수 테스트할 경우
  • 변동 불가능한 변수를 먼저 고려한 후 변동 가능한 변수를 넣고 테스트
    - 일반적으로 많이 안쓰임

Type 2 SS
- 제 2유형 제겁합
- Interaction을 제외하고 계산하며 Interaction은 유의하지 않다고 전제
- 따라서 Interaction이 유의하지 않을 경우 사용하는 것이 좋음

Type 3 SS
- 제 3유형 제곱합이며, 수정제곱합이라고 함
- 다른 모둔 변수들이 모두 이미 모형에 들아가있다는 가정하에 마지막에 새로 추가되는 변수의 변동을 계산한 제곱합
- 변수의 순서에 따라 SS가 변화하지 않음
- 일반적으로 사용되는 SS는 Type 3 SS이다.

해당 포스팅은 아래 유튜브 영상을 참고하여 만들었습니다.

www.youtube.com/watch?v=CNCpfK_gXqQ

728x90
반응형