Statistics & Math/기초통계학

[기초통계학] 가설검정

YSY^ 2020. 6. 11. 15:03

가설검정

필요성1: 대부분의 분석은 "누구나" 할수 있는 "비교(A/B Test)"를 기반으로 하며, 일상생활부터 연구논문까지 다양
필요성2: "설명력"과 "(모델)복잡도"는 반비례하는 경향이 있으며, 설명력이 수반되는 모델들은 가설검정 해석이 필수

A의주장 : 서울에 사는 사람들은 한국사람이다.

B의주장 : 서울에 사는 모든 사람이 한국사람은 아니다.

 

가설조건

1. 상호배반적(Mutually Exclusive): A의주장과 B의주장은 모호함 없이 독립적이어야 하며 더하면 다른주장은 없어야 함
- 한국사람은 어떻게 정의하나?

2. 증명가능성(Demostrable): 성급한 일반화에 빠지지 않으려면 증명 가능한 것이나 범위로 내세워야 함

  • 모든 서울사람들을 확인하기도 어렵고 서울사람들 중에는 한국사람이 아닌 외국인도 있을 수 있음
  • 모든 사람을를 조사 후 외국인가 없다 하더라도 과거에는 외국인이었을 수 있음했을 수도 있음
    • A의주장: 현재 서울사람들은 일반적으로 한국사람일 것이다.
    • B의주장: 서울사람들이라고 해서 한국사람일것이진 않다.

3. 구체적(Specific): 충분히 구별되고 실현가능한 표현으로 정의되어야 함

  • A의주장: 서울에는 다른 도시 대비 한국사람비율이 더 높다.
  • B의주장: 서울에는 다른 도시 대비 한국사람비율이 더 높지 않다.

 

 

추론통계(Statistical Inference):

모집단에서 샘플링한 표본집단을 가지고 모집단의 특성을 추론하고 그 신뢰성이 있는지 검정하는 것

  • 요즘은 내가 보유한 데이터를 표본으로, 보유하지 못하는 현실세계 전체의 데이터나 미래의 데이터를 모집단으로 보기도 함
  • 표본을 통해 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영해야 함
  • 표본의 기초통계(Descriptive Statistics) 확인을 통해 분포를 확인해야 함 (분포에 따라 분석 방법이 달라짐)
    • 모집단: 현재 전 세계 사람
    • 샘플집단: 현재 대한민국 사람
  • 통계량(Statistic): 표본의 특성을 나타내는 수치
  • 모수(Parameter): 통계량을 통해 알게 된 모집단의 특성
  • 표본오차(Sampling Error): 모평균-표본평균

 

중심극한정리(Central Limit Theorem)

전체 모집단에서 표본을 여러번을 추출하고 Sample마다 평균을 구하면 이 평균들의 분포는 정규분포이며 전체 모집단의 평균으로 수렴한다.

  • 모집단이 어떤 분포든 "Sample 평균"의 분포는 정규분포다.
  • "Sample 크기"가 클수록 "Sample 평균"의 분산은 낮아진다.
  • "Sample 분산"은 대체로 원집단 분산에 매우 근접한다.
  • Sample 평균과 분산만으로 모집단의 평균과 분산을 추론할 수 있다.
  • CLT를 통한 추론으로 모집단의 분포 형태까지 추론하지는 못한다.

 

가설검정

▶ 가설 : 주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추즉

  • 대립가설(antihypothesis)(연구가설) (H1) => 서울에는 다른 도시 대비 한국사람비율이 더 높다.
  • 귀무가설(null hytothesis) : 당연하다고 생각되는 사실(이게 맞으면 바꿀필요가 없음) (H0) => 서울에는 다른 도시 대비 한국사람비율이 더 높지 않다.

▶ 양측검정

▶ 단측검정

 

▶ 통계적 판단 : 모수를 추정한다는 의미

  • 추정은 틀릴 가능성을 내포 : 모수를 추정할 때는 항상 오류 가능성(확률)을 제시
  • p-value

▶ 오류 : 모수를 추정한 결과가 실제와는 다른 결론에 도달

  1. 1종오류 : 귀무가설을 채택해야함에도 불구하고 버림
  2. 2종오류 : 귀무가설을 버려야하는데 채택

▶ 가설검정의 검정력

  • 유의수준 알파 : 귀무가설을 채택해야하는데 기각하는확률(1종오류)
  • 유의수준 베타 : 귀무가설을 기각해야하는데 채택하는확를(2종오류)
  1. 가설수립 : H0,H1을수립
  2. 유의수준(알파)의 결정 : 판단 기준을 세움
  3. 기각역 설정 : 어느수준부터 기각되는지
  4. 통계량의 계산 : 기각역을 비교하고 표본을 뽑아서 계산한 값이 어디에 들어갈지.
  5. 의사결정

▶ 가설수립

유의수준과 유의확률

신뢰구간 : 검정통계량이 발생가능한 구간, 구간추정이라고 함

유의수준(Significant Level, 𝛼α):

귀무가설이 참이라는 전제 하에, 대립가설이 참이라고 "오판"할 최대 확률

  • 유의수준 5%:
    • 서울과 다른도시의 한국사람비율이 비슷하다는 전제하에
    • 100번 중 95번은 귀무가설이 관찰되고(서울과 다른도시의 한국사람 비율의 차이가 없음),
    • 100번 중 5번은 대립가설이 관찰된다(서울과 다른도시의 한국사람 비율의 차이가 있음)

 

유의확률(p-value):

귀무가설이 참이라는 전제 하에, 대립가설이 관찰될 확률

  • 유의확률 10%:
    • 서울과 다른도시의 한국사람비율이 비슷하다는 전제하에
    • 비율차이가 있다 오판할 확률(5%) < 비율 차이가 관찰될 확률(10%),
    • 서울과 다른도시의 한국사람비율 차이가 없다!(귀무가설 채택)
  • 유의확률 1%:
    • 서울과 다른도시의 한국사람비율이 비슷하다는 전제하에
    • 비율차이가 있다 오판할 확률(5%) > 비율 차이가 관찰될 확률(1%),
    • 서울과 다른도시의 한국사람비율 차이가 있다!(대립가설 채택)

 

▶ 모분산을 모르는 경우에서의 가설검정

  • 표본이 큰 경우의 가설검정(n이 무한대) → 표본분산은 모분산에 접근함
  • 즉 모분산으로 처리
  • 표본이 작은 경우의 가설검정 → t검정

 

 

▶ p값을 이용한 가설검정

  • p값은 귀무가설을 기각하기 위한 최대한의 한계점을 나타내며, 유의수준 알파를 기준으로 보면 알파로부터 멀리떨어져 있는 확률을 나타냄
  • p값이 0.05 보다 작거나 같으면 귀무가설을 기각
  • p값의 다른 표현 : p-value, sig, 유의수준,유의확률

▶ 모집단 비율에 대한 가설검정 : 모집단에 대한 특성을 비율로 가늠하여 검정하는 것

▶ 모집단 분산에 대한 가설검정

- 평균에 대해 어느정도 산포가 나타나는지를 살펴보는 가설검정

728x90
반응형