Statistics & Math/기초통계학

[기초통계학] 표본 분포와 중심극한정리

YSY^ 2024. 3. 2. 21:13

표본분포 (Sampling distribution)

  • 모집단에서 일정 크기로 표본을 여러번 뽑을 때, 그 표본의 통계량의 확률분포
    • 예를 들어 모집단에서 1000명을 sampling할 때마다 수치가 나오는데 이 수치들의 통계량을 의미
    • 즉, 여러번 추출을 진행
  • 통계적 추정/검정의 핵심

Cf) 표본평균의 확률분포를 구하는 이유

표본을 한번 Sampling을 했을때 bias가 낄 수 있기 때문에, 여러번 sampling 을 하게 되는데, 이때 분포가 생성되고 그 분포의 평균이 실제 평균과 가까울 확률이 높음

표본평균의 평균과 표준편차

  • $X_1, ... ,X_n$이 모평균 u, 모표준편차 σ 인 모집단으로부터의 확률표본 (i.i.d) 일때 (동일한 분포에서 나왔다는 의미)
  • 표본평균의 평균과 분산

CF) expected 연산은, 더하기가 있으면 분해가능하며 확률변수영역에서만 적용가능하다. (즉 n은 관련없다는 뜻)

위 수식을 보았을 떄 표본평균의 기대값은 모평균이다

또한 여기서 표본평균의 분산에 루트를 씌운값을 표준 오차(standard error of the mean, SEM)라고하며 수식은 아래와 같다.

중심극한정리(Central Limit Theorem : CLT)

  • 평균이 u, 표준편차 σ인 임의의 모집단으로부터 크기n인 표본에서의 표본평균은 n(주로 30이상)이 크면 근사적으로 평균이 u이고 분산이 $\frac{σ^2}{n}$ 인 정규분포를 따른다
  • 표본의 개수가 충분하다면 모수를 모르는 상황에서도 표본 통계량으로 정규분포를 구성하여 모수를 추정할 수 있음
    • 모집단이 정규분포라면 표본평균은 표본 개수와 상관없이 항상 정규분포를 따름
    • 정규분포로 구성하면 그래프의 가장 높은 상단이 평균이 되므로 평균값을 비교할 수 있음
  • 또한 중심극한정리에서는 모집단이 정규분포를 이루지 않더라도 표본의 개수가 충분하다면 정규분포를 이루게 됨.
  • 표본이 30개 이상이면 z-분포, 그 이하라면 t-분포 이용(일반적으로)

이항분포의 정규분포 근사

  • 서로 독립이고 동일한 모수 p를 갖는 베르누이 확률변수 $Y_1, Y_2, ..., Y_n$ 에 대해 $X = Y_1 + Y_2 + ... +Y_n$ 로부터의 표본평균에 대해 중심극한정리 적용

  • 두번째 수식은 X에 $Y_1 + Y_2 + ... +Y_n$ 을 넣은 것이다
  • 세번째 수식은 표준화를 진행
  • n이 충분히 크다면 세번째 수식은 중심극한정리에 의해서 정규분포를 따르게 된다.

표본비율 정규근사

  • 베르누이분포로부터의 크기 n인 확률표본에 대해, 표본비율 p의 분포는 n이 클 때 근사적으로 아래와 같다.

728x90
반응형