가설검정
필요성1: 대부분의 분석은 "누구나" 할수 있는 "비교(A/B Test)"를 기반으로 하며, 일상생활부터 연구논문까지 다양
필요성2: "설명력"과 "(모델)복잡도"는 반비례하는 경향이 있으며, 설명력이 수반되는 모델들은 가설검정 해석이 필수
A의주장 : 서울에 사는 사람들은 한국사람이다.
B의주장 : 서울에 사는 모든 사람이 한국사람은 아니다.
가설조건
1. 상호배반적(Mutually Exclusive): A의주장과 B의주장은 모호함 없이 독립적이어야 하며 더하면 다른주장은 없어야 함
- 한국사람은 어떻게 정의하나?
2. 증명가능성(Demostrable): 성급한 일반화에 빠지지 않으려면 증명 가능한 것이나 범위로 내세워야 함
- 모든 서울사람들을 확인하기도 어렵고 서울사람들 중에는 한국사람이 아닌 외국인도 있을 수 있음
- 모든 사람을를 조사 후 외국인가 없다 하더라도 과거에는 외국인이었을 수 있음했을 수도 있음
- A의주장: 현재 서울사람들은 일반적으로 한국사람일 것이다.
- B의주장: 서울사람들이라고 해서 한국사람일것이진 않다.
3. 구체적(Specific): 충분히 구별되고 실현가능한 표현으로 정의되어야 함
- A의주장: 서울에는 다른 도시 대비 한국사람비율이 더 높다.
- B의주장: 서울에는 다른 도시 대비 한국사람비율이 더 높지 않다.
추론통계(Statistical Inference):
모집단에서 샘플링한 표본집단을 가지고 모집단의 특성을 추론하고 그 신뢰성이 있는지 검정하는 것
- 요즘은 내가 보유한 데이터를 표본으로, 보유하지 못하는 현실세계 전체의 데이터나 미래의 데이터를 모집단으로 보기도 함
- 표본을 통해 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영해야 함
- 표본의 기초통계(Descriptive Statistics) 확인을 통해 분포를 확인해야 함 (분포에 따라 분석 방법이 달라짐)
- 모집단: 현재 전 세계 사람
- 샘플집단: 현재 대한민국 사람
- 통계량(Statistic): 표본의 특성을 나타내는 수치
- 모수(Parameter): 통계량을 통해 알게 된 모집단의 특성
-
표본오차(Sampling Error): 모평균-표본평균
중심극한정리(Central Limit Theorem)
전체 모집단에서 표본을 여러번을 추출하고 Sample마다 평균을 구하면 이 평균들의 분포는 정규분포이며 전체 모집단의 평균으로 수렴한다.
- 모집단이 어떤 분포든 "Sample 평균"의 분포는 정규분포다.
- "Sample 크기"가 클수록 "Sample 평균"의 분산은 낮아진다.
- "Sample 분산"은 대체로 원집단 분산에 매우 근접한다.
- Sample 평균과 분산만으로 모집단의 평균과 분산을 추론할 수 있다.
- CLT를 통한 추론으로 모집단의 분포 형태까지 추론하지는 못한다.
가설검정
▶ 가설 : 주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추즉
- 대립가설(antihypothesis)(연구가설) (H1) => 서울에는 다른 도시 대비 한국사람비율이 더 높다.
- 귀무가설(null hytothesis) : 당연하다고 생각되는 사실(이게 맞으면 바꿀필요가 없음) (H0) => 서울에는 다른 도시 대비 한국사람비율이 더 높지 않다.
▶ 양측검정
▶ 단측검정
▶ 통계적 판단 : 모수를 추정한다는 의미
- 추정은 틀릴 가능성을 내포 : 모수를 추정할 때는 항상 오류 가능성(확률)을 제시
-
p-value
▶ 오류 : 모수를 추정한 결과가 실제와는 다른 결론에 도달
- 1종오류 : 귀무가설을 채택해야함에도 불구하고 버림
- 2종오류 : 귀무가설을 버려야하는데 채택
▶ 가설검정의 검정력
- 유의수준 알파 : 귀무가설을 채택해야하는데 기각하는확률(1종오류)
- 유의수준 베타 : 귀무가설을 기각해야하는데 채택하는확를(2종오류)
- 가설수립 : H0,H1을수립
- 유의수준(알파)의 결정 : 판단 기준을 세움
- 기각역 설정 : 어느수준부터 기각되는지
- 통계량의 계산 : 기각역을 비교하고 표본을 뽑아서 계산한 값이 어디에 들어갈지.
- 의사결정
▶ 가설수립
유의수준과 유의확률
신뢰구간 : 검정통계량이 발생가능한 구간, 구간추정이라고 함
유의수준(Significant Level, 𝛼α):
귀무가설이 참이라는 전제 하에, 대립가설이 참이라고 "오판"할 최대 확률
- 유의수준 5%:
- 서울과 다른도시의 한국사람비율이 비슷하다는 전제하에
- 100번 중 95번은 귀무가설이 관찰되고(서울과 다른도시의 한국사람 비율의 차이가 없음),
- 100번 중 5번은 대립가설이 관찰된다(서울과 다른도시의 한국사람 비율의 차이가 있음)
유의확률(p-value):
귀무가설이 참이라는 전제 하에, 대립가설이 관찰될 확률
- 유의확률 10%:
- 서울과 다른도시의 한국사람비율이 비슷하다는 전제하에
- 비율차이가 있다 오판할 확률(5%) < 비율 차이가 관찰될 확률(10%),
- 서울과 다른도시의 한국사람비율 차이가 없다!(귀무가설 채택)
- 유의확률 1%:
- 서울과 다른도시의 한국사람비율이 비슷하다는 전제하에
- 비율차이가 있다 오판할 확률(5%) > 비율 차이가 관찰될 확률(1%),
- 서울과 다른도시의 한국사람비율 차이가 있다!(대립가설 채택)
▶ 모분산을 모르는 경우에서의 가설검정
- 표본이 큰 경우의 가설검정(n이 무한대) → 표본분산은 모분산에 접근함
- 즉 모분산으로 처리
- 표본이 작은 경우의 가설검정 → t검정
▶ p값을 이용한 가설검정
- p값은 귀무가설을 기각하기 위한 최대한의 한계점을 나타내며, 유의수준 알파를 기준으로 보면 알파로부터 멀리떨어져 있는 확률을 나타냄
- p값이 0.05 보다 작거나 같으면 귀무가설을 기각
- p값의 다른 표현 : p-value, sig, 유의수준,유의확률
▶ 모집단 비율에 대한 가설검정 : 모집단에 대한 특성을 비율로 가늠하여 검정하는 것
▶ 모집단 분산에 대한 가설검정
- 평균에 대해 어느정도 산포가 나타나는지를 살펴보는 가설검정
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] One-way ANOVA(일원배치 분산분석) (F-Value) (2) | 2021.02.14 |
---|---|
[기초통계학] T-test(가설검정 / One-Sample Test / Two-Sample T-test / Paired T-test) (0) | 2021.02.08 |
[기초통계학] 추정 (0) | 2020.06.11 |
[기초통계학] 확률분포 (0) | 2020.06.10 |
[기초통계학] 확률과 통계 (0) | 2020.06.10 |