표본분포 (Sampling distribution)
- 모집단에서 일정 크기로 표본을 여러번 뽑을 때, 그 표본의 통계량의 확률분포
- 예를 들어 모집단에서 1000명을 sampling할 때마다 수치가 나오는데 이 수치들의 통계량을 의미
- 즉, 여러번 추출을 진행
- 통계적 추정/검정의 핵심
Cf) 표본평균의 확률분포를 구하는 이유
표본을 한번 Sampling을 했을때 bias가 낄 수 있기 때문에, 여러번 sampling 을 하게 되는데, 이때 분포가 생성되고 그 분포의 평균이 실제 평균과 가까울 확률이 높음
표본평균의 평균과 표준편차
- $X_1, ... ,X_n$이 모평균 u, 모표준편차 σ 인 모집단으로부터의 확률표본 (i.i.d) 일때 (동일한 분포에서 나왔다는 의미)
- 표본평균의 평균과 분산
CF) expected 연산은, 더하기가 있으면 분해가능하며 확률변수영역에서만 적용가능하다. (즉 n은 관련없다는 뜻)
위 수식을 보았을 떄 표본평균의 기대값은 모평균이다
또한 여기서 표본평균의 분산에 루트를 씌운값을 표준 오차(standard error of the mean, SEM)라고하며 수식은 아래와 같다.
중심극한정리(Central Limit Theorem : CLT)
- 평균이 u, 표준편차 σ인 임의의 모집단으로부터 크기n인 표본에서의 표본평균은 n(주로 30이상)이 크면 근사적으로 평균이 u이고 분산이 $\frac{σ^2}{n}$ 인 정규분포를 따른다
- 표본의 개수가 충분하다면 모수를 모르는 상황에서도 표본 통계량으로 정규분포를 구성하여 모수를 추정할 수 있음
- 모집단이 정규분포라면 표본평균은 표본 개수와 상관없이 항상 정규분포를 따름
- 정규분포로 구성하면 그래프의 가장 높은 상단이 평균이 되므로 평균값을 비교할 수 있음
- 또한 중심극한정리에서는 모집단이 정규분포를 이루지 않더라도 표본의 개수가 충분하다면 정규분포를 이루게 됨.
- 표본이 30개 이상이면 z-분포, 그 이하라면 t-분포 이용(일반적으로)
이항분포의 정규분포 근사
- 서로 독립이고 동일한 모수 p를 갖는 베르누이 확률변수 $Y_1, Y_2, ..., Y_n$ 에 대해 $X = Y_1 + Y_2 + ... +Y_n$ 로부터의 표본평균에 대해 중심극한정리 적용
- 두번째 수식은 X에 $Y_1 + Y_2 + ... +Y_n$ 을 넣은 것이다
- 세번째 수식은 표준화를 진행
- n이 충분히 크다면 세번째 수식은 중심극한정리에 의해서 정규분포를 따르게 된다.
표본비율 정규근사
- 베르누이분포로부터의 크기 n인 확률표본에 대해, 표본비율 p의 분포는 n이 클 때 근사적으로 아래와 같다.
728x90
반응형
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] 통계학과 자료 / 선택편향과 생존편향 (0) | 2024.03.10 |
---|---|
[기초통계학] 변수(질적변수/양적변수/독립변수/종속변수/통제변수)와 척도 (명목/순서/간격/비율) (0) | 2024.03.10 |
[기초통계학] 지수분포(지수분포의 기댓값과 분산,지수분포의 무기억성) (0) | 2024.02.18 |
[기초통계학] 확률밀도함수 (연속확률분포, 균등분포) (1) | 2024.01.06 |
[기초통계학] 포아송분포(poisson distribution) (2) | 2023.12.31 |