Statistics & Math/기초통계학

[기초통계학] 모집단과 표본추출

YSY^ 2020. 6. 10. 18:47

▣ 모집단과 표본추출

 

▶ 모집단 : 통계분석 방법을 적용할 관심 대상의 전체 집합
→ 물리적인 한계로 모집단 전체를 전수조사 하기 쉽지 않음

▶표본 : 과학적인 절차를 적용하여 모집단을 대표할 수 있는 일부를 추출하여 직접적인 조사 대상이 된 모집단의 일부

▶모수(parameter) : 모집단을 분석하여 얻어지는 결과 수치(ex, 모평균,모분산,모표준편차,모비율)

▶통계량(statistic) : 표본을 분석하여 얻어지는 결과 수치(ex. 표본평균, 표본분산, 표본표준편차, 표본비율

 

▶ 모집단과 표본추출

1. 확률적 표본추출방법 : 표본추출의 방법은 동일한 확률하에서 표본을 구성(서베이가 가능한 일반적인 경우)

  • 단순 무작위 표본추출 : 모집단에서 일정한 규칙에 따라 표본을 기걔적으로 추출(난수표등을 이용)
  • 체계적 표본추출 : 모집단에 번호를 보여하고 일정한 n개의 간격으로 표본을 추출하는 방법ex. 선거일에 출구조사
  • 비례 층화 표본추출 : 모집단을 여러개의 이질적인 집단으로 구분후, 각집단 구성 개수에 비례하도록 추출하는 방법ex. 10000명중 1000명 뽑을때 1,2,3,4학년의 비율이 1:2:3:4 일때 100,200,300,400명씩 추출
  • 다단계 층화 표본추출 : 비례 층화 표본추출에서 상-하위 표본 단위를 미리 설정하고 그에 맞추어 다시 추출하는 방법
    ex. 위의 예시에서 먼저 단과대학별로 구분지은 후 학과별 구성에 맞춰 표본 추출
  • 군집 표본추출(*) : 모집단의 구성이 내부 이질적이면서 외부 동질적으로 구성되어 있다면, 모집단 전체를 조사하지 않고 몇 개의 군집을 표본으로 선택해서 조사하는 방법
    ex. 서울 시민을 대상으로 조사할때 모든 구를 조사하지않고 표본으로 몇개의 구만 선택해서 조사

2. 비확률적 표본추출 방법 : 확률과는 상관없이 자신의 의지로 표본을 뽑거나 조사대상이 자발적으로 표본을 구성(일반화가 어려울 수 있음)

  • 편의 표본추출 : 조사자의 편의에 따라 시간과 장소에 구애받지 않고 임의적으로 표본 추출
    → 조사하기 쉽고 비용이 저렴하지만 모집단에 대한 대표성을 나타내기 힘들며 실수 및 오류 다수 발생
  • 판단 표본추출 : 조사자가 적합하다고 판단한 구성원들을 표본으로 선택
    → 편의 표본추출과 다른 점은 표본으로 선택할지의 여부를 조사자가 판단.
  • 할당 표본추출 : 모집단의 속성을 대표할만한 연령,학력,직업등이 구분을 결정하고 각각에 대한 표본의 개수를 미리 결정하고 임의적으로 표본을 추출
  • 자발적 표본추출 : 조사자의 의지와는 별개로 응답자가 원하여 조사에 응하는 경우를 표본으로 선택하는 방법
    → 관심도가 높은 사람들이 주로 조사에 응하게 될것으로 결과의 왜곡이 발생할 가능성 큼

 

◈ 표본의 분포

▶ 정규분포 : 표본분포중 가장 단순하면서도 많이 나타나는 형태의 분포→ 어떤 사건이 일어난 빈도를 계산하여 그래프로 나타내면 중심을 기준으로 좌우가 대칭되는 분포

▶ 표준화 : 단순한 현상은 정규분포만을 이용해도 결과를 알아내는데 문제가 없지만 대부분의 연구에서는 복잡한 관계에 대한 분석결과가 필요하므로, 여러 특성에 대한 분석결과들을 서로 비교할 수 있도록 만드는 과정

▶  z분포

  • 표준정규분포 평균은 0, 표준편차는 1

▶  t분포 : n-1(자유도)의 차이가 있음

▶ z분포와 t분포의 관계

  • t분포의 표본 개수가 늘어날 수록 z분포와 비슷하게 됨
  • t분포의 개수가 30개 이상이면 z분포와 유사하게됨

▶ 카이제곱분포(분산의 분포)

  • 자유도가 20정도로 가면 정규분포와 유사해짐

▶ F-분포 : 두개의 분산에 대한 추론 (F(v1,v2))

  • 분산이 같은 모집단에서 x,y만큼 표본을 구하고 각각의 분산이 v1 = s1/(n-1), v2=s2/(n-1) 일 때, F = v1/v2는 각 비율을 나타냄
  •  자유도가 높아질 수록 정규분포와 비슷해짐

▶ p분포 : 표본비율 p는 모집단의 특성 중 모비율을 추정하기 위해 사용

  •  주로 성공/실패, 남성/여성 등과 같이 어느 한 사건이 발생하는 베르누이 시행의 이항분포를 활용하여 표본비율의 분포를 구함

 

▶ 표본분포 : 통계량에 대한 확률분포

  • 표본분포는 모수를 추정하기 위한 표본 통계량의 확률분포(여러번 측정)

▶ 표본평균의 오차 : 표본으로 부터 모수를 추정했을 때, 모수와 통계량 간의 차이

▶ 중심극한정리(Central Limit Theorem : CLT)

  • 표본의 개수가 충분하다면 모수를 모르는 상황에서도 표본 통계량으로 정규분포를 구성하여 모수를 추정할 수 있음
  • 중심극한정리에서는 모집단이 정규분포를 이루지 않더라도 표본의 개수가 충분하다면 정규분포를 이루게 됨.
  • 중심극한정리를 이용하면 정규분포의 모양으로 확인할 수 있어서 평균을 바로 비교가능
  • 정규분포로 구성하면 그래프의 가장 높은 상단이 평균이 되므로 평균값을 비교할 수 있음
  • 표본이 30개 이상이면 z-분포, 그 이하라면 t-분포 이용(일반적으로)
728x90
반응형