표준편차 포스팅에서 이어지는 내용입니다
https://ysyblog.tistory.com/163
정규분포(Normal Distribution)
- 정규 분포(normal distribution) 또는 가우스 분포(Gaussian distribution)는 연속 확률 분포 중 하나를 의미
- 정규분포는 2개의 모수 $\mu, \sigma$로 (평균, 표준편차)로 결정되며 $N(\mu, \sigma^2)$로 표현
- cf)이론적인 확률분포는 수식으로 표현되며,분포의 형태를 정하는 숫자인 Parameter(모수)를 가짐
정규분포의 확률밀도함수(probability density function)
- 𝜇 를 모평균, 𝜎를 모표준편차라고 부름.
- 모집단: 모평균과 모표준편차
- 표본: 표본평균과 표본표준편차
정규분포와 이항분포
- 위의 사진을 보면 시행횟수가 많아질 수록 이항분포는 정규분포에 근사해지는 것을 알 수 있다.
- 따라서 시행횟수 N이 커진다면 확률 p인 사건을 N번 시행하는 이항분포가 평균 Np, 분산 Npq를 따른다고 볼 수 있다.
- 드무아브르-라플라스의 정리로 증명되어있음
정규분포의 특성
- 평균 u를 중심으로한 종형으로 좌우 대칭분포
- 평균 u근처에 값이 가장 많고, 평균u에서 멀어질수록 적어짐
- 키나 몸부게 등 정규분포로 근사할 수 있는 현상이 많음
- 정가운데(평균)을 중심으로 좌우대칭이며, 양끝은 영원에 0에 닿지 않음
- 정규분포는 평균과 표준분포만으로 규정됨, 즉, 평균과 표준편차가 다른 무한대개의 서로 다른 정규분포가 존재
- 정규분포 아래의 면적은 확률을 의미함(따라서 정규분포의 곡선은 확률곡선이다.)
- 즉, 정규분포 아래의 모든 면적은 1이다.
정규분포 분산의 특성
$Var(X) = E(X^2) - {E(X)}^2$
$Var(X+c) = Var(X)$
$Var(cX) = c^2Var(X)$
$Var(X+Y) \ne Var(X)+Var(Y)$ → (X,Y가 서로 독립일 때는 성립)
$Var(X+X) \ne 4Var(X)$
- 분산은 무조건 0보다 커야하며, 분산이 0인 경우는 상수인 경우임 (P(x=a) = 1)
정규분포의 성질 (68-95-99.7% Rule)
$P(|X-\mu| \le \sigma) \approx 0.68$
$P(|X-\mu| \le 2\sigma) \approx 0.95$
$P(|X-\mu| \le 3\sigma) \approx 0.997$
- 이는 $\mu나 \sigma$값이 달라져도 변하지 않음
- 다만σ가 커질수록 더 넓어지며, σ가 작을 수록 분포가 좁아짐. 그리고 μ값에 따라서도 좌우로 움직임
표준정규분포(Standard Normal Distribution)
- 정규 분포 밀도함수에서 $Z = \Large \frac{X-\mu}{\sigma}$을 통해 X(원점수)를 Z(Z점수)로 정규화함으로써 평균이 0, 표준편차가 1인 정규분포
- z-분포라고도 부름
- z-분포로 하는 검정을 z검정(z-test)라고 함
PDF: $f(z) = \large ce^{-z^2/2} \displaystyle \int_{-\infty}^{\infty} e ^{-z^2/2}dz$ (c-> 정규화 상수) (z가 커지거나 작아지면 0으로 빠르게 수렴하게 됨)
→ 적분을 해서 1인 것을 증명해야하지만, 닫힌 형식으로 유도할 수 없음 (부정적분으로 안된다는 것을 증명되어있음)
→ 정적분으로 진행. 무한급수를 만들어 각 항을 적분하는 방식으로 진행
$ \displaystyle \int_{-\infty}^{\infty} e ^{-z^2/2}dz \displaystyle \int_{-\infty}^{\infty} e ^{-z^2/2}dz = \displaystyle \int_{-\infty}^{\infty} e ^{-x^2/2}dx \displaystyle \int_{-\infty}^{\infty} e ^{-y^2/2}dy$ (z를 x와 y로 교체)
$=\displaystyle \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e ^{-(x^2+y^2)/2}dxdy (이중적분) = \int_{0}^{2\pi} \int_{0}^{\infty} e^{-r^2/2}rdrd\theta$ ($x^2+y^2 = r^2$라는 피타고라스 정리 및 극좌표계 활용)
$u = r^2/2, du = rdr$라 놓으면
$=\displaystyle \int_{0}^{2\pi} \int_{0}^{\infty} e^{-u}du d\theta = 2\pi$
$\therefore \displaystyle \int ^{\infty} _{-\infty} e^{-z^2/2}dz = \sqrt{2\pi} \Rightarrow c = \Large \frac{1}{\sqrt{2\pi}}$
표준정규분포의 평균 및 분산
$Z \sim N(0,1)$일 때,
$E(Z) = \displaystyle \int_{-\infty} ^\infty \frac{1}{\sqrt{2\pi}}ze^{-z^2/2}dz = 0 (\because(기함수))$
$Var(Z) = E(Z^2) - {E(Z)}^2 = E(Z^2) = \displaystyle \frac{1}{\sqrt{2\pi}} \int _{- \infty} ^\infty z^2e^{-z^2/2}dz=\frac{2}{\sqrt{2\pi}}\int _0 ^\infty z^2e^{-z^2/2}dz$
$u = z, dv = ze^{-z^2/2}$
$du = dz, v = -e^{-z^2/2}$
$= \displaystyle \frac{2}{\sqrt{2\pi}} [uv |^{\infty}_0 + \int_0 ^\infty e^{-z^2/2}dz] = 1$
※ notation: 표준정규분포의 CDF
$\Phi(z) = \displaystyle \frac{1}{\sqrt{2\pi}} \int_{-\infty} ^z e^{-t^2/2}dt$
표준정규분포의 특성
$Z \sim N(0,1) 이고 CDF \Phi$를 가질 때,
$E(Z) = 0 (\because(∵ 정규분포의 대칭성)) \cdots⋯ 1차 적률(1st moment)$
$E(Z^2) = Var(Z) = 1 \cdots⋯ 2차 적률$
$E(Z^3) = 0 (\because(∵ 기함수)) \cdots⋯ 3차 적률$
정규분포의 대칭성으로 인해, $-Z \sim N(0,1)$
$X = \mu + \sigma ZX=μ+σZ이고, \mu \in \large Rμ∈R ( \rightarrow(→ 평균, 위치(location)))$
$\sigma > 0σ>0 ( \rightarrow(→ 표준편차, 크기(scale)))$ 일 때,
$E(X) = \mu$
$Var(X) = \sigma^2 Var(Z) = \sigma^2$
표준 정규분포의 예
- 학생 1000명, 시험점수의 분포가 정규분포에 근사, 평균점수는 82고 표준편차는 5라고 가정
- 이때 82점부터 90점까지 점수를 받은 학생의 수를 알려면 정규분포를 적분해야하기 때문에 이를 표준정규분포로 바꾸어야한다.
위 사진처럼 정규분포를 표준정규분포로 바꾸는 방법이 Z-score이다.
Z(82) = (82-82) / 5 = 0
Z(90) = (90-82) / 5 = 1.6
위 값을 표준정규분포포를 활용하여 확률을 계산한다.
Z(90)은 1.6이므로 표준정규분포표에서의 값은 0.9452이며, 평균보다 앞의 면적(0.5)은 빼야하니, 0,9452-0.5 = 0.4452이다.
즉 82점부터 90점까지 점수를 받을 확률은 44.52%이며, 약 445명이 이 점수구간에 포함된다고 할 수 있다.
만약 95점이 넘는 학생을 구한다면, Z(95) = 2.6이며, 이 2.6은 0.9953인데, 뒷부분을 구해야하니 1에서 0.9953을 빼준 0.0047이며, 약 4명이라고 할 수 있다.
Z-Test
- 위 사례처럼 z-score값을 활용하여 하는 테스트를 Z-test라고 한다.
- Z-test는 z값과 표준정규분포표를 활용하여 한다.
- z-score(Z값)으로 변환하는 것은 Z-Transformation이라고 하며, 표준화(Standardization)이라고 한다.
- 1표준편차당 관찰값(X)가 평균으로부터 얼마나 떨어져 있는지를 의미
- Z값은 단위로부터 자유로움
표준화(standardization)
- $Z = \Large \frac{X-\mu}{\sigma}$
- 이를 활용하여 값을 변환하는 것을 표준화라고 하며, 변환된 새로운 값은 z값이라고 함
- 평균과의 거리가 표준편차의 몇 배인가를 나타내는 것.
- 따라서 본래의 $\mu나 \sigma$와 상관없이 분포 안에서 어디에 위치하는가를 의미하기에, 본래 숫자가 아닌 분포안에서의 위치로 평가하게 되어, 표준화를 하면 데이터의 단위 문제가 없어짐
정규분포 $X \sim N(\mu, \sigma^2)$
- $CDF: P(X \le x) = P(\displaystyle \frac{X-\mu}{\sigma} \le \frac{x-\mu}{\sigma}) = \Phi(\displaystyle \frac{X-\mu}{\sigma})$
- $PDF: \displaystyle \frac{1}{\sigma \sqrt{2\pi}} \cdot e^{-\large(\frac{x-\mu}{\sigma})^2/2} \rightarrow -X = -\mu + \sigma(-z) \sim N( -\mu, \sigma^2)$
- j = 1, 2, ... 에 대하여 $X_j \sim N(\mu_j, \sigma_j^2)$ 이고 서로 독립일 때,
$\rightarrow X_1+X_2 \sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)$
$\rightarrow X_1-X_2 \sim N(\mu_1-\mu_2, \sigma_1^2+\sigma_2^2)$ ($-X_2도 분산은 \sigma_2^2$ 이다)
해당포스팅은 아래 유튜브와 류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다
www.youtube.com/watch?v=AovOoq4p3nY&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=3
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] 산포도와 상관계수, 그리고 상관관계 (0) | 2024.03.20 |
---|---|
[기초통계학] 표준편차와 자유도 (1) | 2024.03.14 |
[기초통계학] 데이터와 통계량 - 평균과 중앙값 (0) | 2024.03.12 |
[기초통계학] 실험연구와 경험적연구(자연실험) (0) | 2024.03.10 |
[기초통계학] 통계학과 자료 / 선택편향과 생존편향 (0) | 2024.03.10 |