Statistics & Math/기초통계학

[기초통계학] 정규분포(표준정규분포, 표준화)

YSY^ 2024. 3. 14. 22:31

표준편차 포스팅에서 이어지는 내용입니다

https://ysyblog.tistory.com/163

 

[기초통계학] 표준편차와 자유도

제곱근-평균-제곱 (Root Mean Square) (RMS) 계산은 표현의 역순(제곱 후 평균, 최종적으로 제곱근) 제곱 (S) : 모든 수를 제곱하여 부호를 없앤다. 평균 (M) : 제곱된 값들의 평균을 구한다. 제곱근 (R) : 제

ysyblog.tistory.com

 

정규분포(Normal Distribution)

  • 정규 분포(normal distribution) 또는 가우스 분포(Gaussian distribution)는 연속 확률 분포 중 하나를 의미
  • 정규분포는 2개의 모수 $\mu, \sigma$로 (평균, 표준편차)로 결정되며 $N(\mu, \sigma^2)$로 표현
    • cf)이론적인 확률분포는 수식으로 표현되며,분포의 형태를 정하는 숫자인 Parameter(모수)를 가짐

정규분포의 확률밀도함수(probability density function)

  •  𝜇 를 모평균, 𝜎를 모표준편차라고 부름.
  • 모집단: 모평균과 모표준편차
  • 표본: 표본평균과 표본표준편차

 

정규분포와 이항분포

  • 위의 사진을 보면 시행횟수가 많아질 수록 이항분포는 정규분포에 근사해지는 것을 알 수 있다.
  • 따라서 시행횟수 N이 커진다면 확률 p인 사건을 N번 시행하는 이항분포가 평균 Np, 분산 Npq를 따른다고 볼 수 있다.
  • 드무아브르-라플라스의 정리로 증명되어있음

 

정규분포의 특성

    • 평균 u를 중심으로한 종형으로 좌우 대칭분포
    • 평균 u근처에 값이 가장 많고, 평균u에서 멀어질수록 적어짐
    • 키나 몸부게 등 정규분포로 근사할 수 있는 현상이 많음
    • 정가운데(평균)을 중심으로 좌우대칭이며, 양끝은 영원에 0에 닿지 않음
    • 정규분포는 평균과 표준분포만으로 규정됨, 즉, 평균과 표준편차가 다른 무한대개의 서로 다른 정규분포가 존재
    • 정규분포 아래의 면적은 확률을 의미함(따라서 정규분포의 곡선은 확률곡선이다.)
      • 즉, 정규분포 아래의 모든 면적은 1이다.

정규분포 분산의 특성

$Var(X) = E(X^2) - {E(X)}^2$
​​
$Var(X+c) = Var(X)$

$Var(cX) = c^2Var(X)$

$Var(X+Y) \ne Var(X)+Var(Y)$ → (X,Y가 서로 독립일 때는 성립)

$Var(X+X) \ne 4Var(X)$

  • 분산은 무조건 0보다 커야하며, 분산이 0인 경우는 상수인 경우임 (P(x=a) = 1)

정규분포의 성질 (68-95-99.7% Rule)

$P(|X-\mu| \le \sigma) \approx 0.68$

$P(|X-\mu| \le 2\sigma) \approx 0.95$

$P(|X-\mu| \le 3\sigma) \approx 0.997$

  • 이는 $\mu나 \sigma$값이 달라져도 변하지 않음
  • 다만σ가 커질수록 더 넓어지며, σ가 작을 수록 분포가 좁아짐. 그리고 μ값에 따라서도 좌우로 움직임

분산과 평균에 따른 정규분포

표준정규분포(Standard Normal Distribution)

  • 정규 분포 밀도함수에서 $Z = \Large \frac{X-\mu}{\sigma}$을 통해 X(원점수)를 Z(Z점수)로 정규화함으로써 평균이 0, 표준편차가 1인 정규분포

  • z-분포라고도 부름
  • z-분포로 하는 검정을 z검정(z-test)라고 함
    PDF: $f(z) = \large ce^{-z^2/2} \displaystyle \int_{-\infty}^{\infty} e ^{-z^2/2}dz$ (c-> 정규화 상수) (z가 커지거나 작아지면 0으로 빠르게 수렴하게 됨)
    → 적분을 해서 1인 것을 증명해야하지만, 닫힌 형식으로 유도할 수 없음 (부정적분으로 안된다는 것을 증명되어있음)
    → 정적분으로 진행. 무한급수를 만들어 각 항을 적분하는 방식으로 진행

$ \displaystyle \int_{-\infty}^{\infty} e ^{-z^2/2}dz \displaystyle \int_{-\infty}^{\infty} e ^{-z^2/2}dz = \displaystyle \int_{-\infty}^{\infty} e ^{-x^2/2}dx \displaystyle \int_{-\infty}^{\infty} e ^{-y^2/2}dy$ (z를 x와 y로 교체)

$=\displaystyle \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e ^{-(x^2+y^2)/2}dxdy (이중적분) = \int_{0}^{2\pi} \int_{0}^{\infty} e^{-r^2/2}rdrd\theta$ ($x^2+y^2 = r^2$라는 피타고라스 정리 및 극좌표계 활용)

$u = r^2/2, du = rdr$라 놓으면

$=\displaystyle \int_{0}^{2\pi} \int_{0}^{\infty} e^{-u}du d\theta = 2\pi$
$\therefore \displaystyle \int ^{\infty} _{-\infty} e^{-z^2/2}dz = \sqrt{2\pi} \Rightarrow c = \Large \frac{1}{\sqrt{2\pi}}$

표준정규분포의 평균 및 분산

$Z \sim N(0,1)$일 때,

$E(Z) = \displaystyle \int_{-\infty} ^\infty \frac{1}{\sqrt{2\pi}}ze^{-z^2/2}dz = 0 (\because(기함수))$

$Var(Z) = E(Z^2) - {E(Z)}^2 = E(Z^2) = \displaystyle \frac{1}{\sqrt{2\pi}} \int _{- \infty} ^\infty z^2e^{-z^2/2}dz=\frac{2}{\sqrt{2\pi}}\int _0 ^\infty z^2e^{-z^2/2}dz$

$u = z, dv = ze^{-z^2/2}$
$du = dz, v = -e^{-z^2/2}$

$= \displaystyle \frac{2}{\sqrt{2\pi}} [uv |^{\infty}_0 + \int_0 ^\infty e^{-z^2/2}dz] = 1$

※ notation: 표준정규분포의 CDF

$\Phi(z) = \displaystyle \frac{1}{\sqrt{2\pi}} \int_{-\infty} ^z e^{-t^2/2}dt$

표준정규분포의 특성

$Z \sim N(0,1) 이고 CDF \Phi$를 가질 때,

$E(Z) = 0 (\because(∵ 정규분포의 대칭성)) \cdots⋯ 1차 적률(1st moment)$

$E(Z^2) = Var(Z) = 1 \cdots⋯ 2차 적률$

$E(Z^3) = 0 (\because(∵ 기함수)) \cdots⋯ 3차 적률$

정규분포의 대칭성으로 인해, $-Z \sim N(0,1)$

$X = \mu + \sigma ZX=μ+σZ이고, \mu \in \large Rμ∈R ( \rightarrow(→ 평균, 위치(location)))$

$\sigma > 0σ>0 ( \rightarrow(→ 표준편차, 크기(scale)))$ 일 때,

$E(X) = \mu$

$Var(X) = \sigma^2 Var(Z) = \sigma^2$

표준 정규분포의 예

  • 학생 1000명, 시험점수의 분포가 정규분포에 근사, 평균점수는 82고 표준편차는 5라고 가정
  • 이때 82점부터 90점까지 점수를 받은 학생의 수를 알려면 정규분포를 적분해야하기 때문에 이를 표준정규분포로 바꾸어야한다.

위 사진처럼 정규분포를 표준정규분포로 바꾸는 방법이 Z-score이다.

Z(82) = (82-82) / 5 = 0
Z(90) = (90-82) / 5 = 1.6

위 값을 표준정규분포포를 활용하여 확률을 계산한다.

표준정규분포표

Z(90)은 1.6이므로 표준정규분포표에서의 값은 0.9452이며, 평균보다 앞의 면적(0.5)은 빼야하니, 0,9452-0.5 = 0.4452이다.

즉 82점부터 90점까지 점수를 받을 확률은 44.52%이며, 약 445명이 이 점수구간에 포함된다고 할 수 있다.

만약 95점이 넘는 학생을 구한다면, Z(95) = 2.6이며, 이 2.6은 0.9953인데, 뒷부분을 구해야하니 1에서 0.9953을 빼준 0.0047이며, 약 4명이라고 할 수 있다.

Z-Test

  • 위 사례처럼 z-score값을 활용하여 하는 테스트를 Z-test라고 한다.
  • Z-test는 z값과 표준정규분포표를 활용하여 한다.
  • z-score(Z값)으로 변환하는 것은 Z-Transformation이라고 하며, 표준화(Standardization)이라고 한다.
    • 1표준편차당 관찰값(X)가 평균으로부터 얼마나 떨어져 있는지를 의미
    • Z값은 단위로부터 자유로움

 

표준화(standardization)

  • $Z = \Large \frac{X-\mu}{\sigma}$
  • 이를 활용하여 값을 변환하는 것을 표준화라고 하며, 변환된 새로운 값은 z값이라고 함
  • 평균과의 거리가 표준편차의 몇 배인가를 나타내는 것.
  • 따라서 본래의 $\mu나 \sigma$와 상관없이 분포 안에서 어디에 위치하는가를 의미하기에, 본래 숫자가 아닌 분포안에서의 위치로 평가하게 되어, 표준화를 하면 데이터의 단위 문제가 없어짐

정규분포 $X \sim N(\mu, \sigma^2)$

  • $CDF: P(X \le x) = P(\displaystyle \frac{X-\mu}{\sigma} \le \frac{x-\mu}{\sigma}) = \Phi(\displaystyle \frac{X-\mu}{\sigma})$
  • $PDF: \displaystyle \frac{1}{\sigma \sqrt{2\pi}} \cdot e^{-\large(\frac{x-\mu}{\sigma})^2/2} \rightarrow -X = -\mu + \sigma(-z) \sim N( -\mu, \sigma^2)$
  • j = 1, 2, ... 에 대하여 $X_j \sim N(\mu_j, \sigma_j^2)$ 이고 서로 독립일 때,

$\rightarrow X_1+X_2 \sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)$

$\rightarrow X_1-X_2 \sim N(\mu_1-\mu_2, \sigma_1^2+\sigma_2^2)$ ($-X_2도 분산은 \sigma_2^2$ 이다)

 

해당포스팅은 아래 유튜브와 류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다

www.youtube.com/watch?v=AovOoq4p3nY&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=3

728x90
반응형