Statistics & Math/기초통계학

[기초통계학] 정규분포(표준정규분포, 표준화)

YSY^ 2024. 3. 14. 22:31

표준편차 포스팅에서 이어지는 내용입니다

https://ysyblog.tistory.com/163

[기초통계학] 표준편차와 자유도

제곱근-평균-제곱 (Root Mean Square) (RMS) 계산은 표현의 역순(제곱 후 평균, 최종적으로 제곱근) 제곱 (S) : 모든 수를 제곱하여 부호를 없앤다. 평균 (M) : 제곱된 값들의 평균을 구한다. 제곱근 (R) : 제

ysyblog.tistory.com

정규분포(Normal Distribution)

정규 분포(normal distribution) 또는 가우스 분포(Gaussian distribution)는 연속 확률 분포 중 하나를 의미
정규분포는 2개의 모수 $μ, σ$ 로 (평균, 표준편차)로 결정되며 $N (μ, σ^{2})$ 로 표현
- cf)이론적인 확률분포는 수식으로 표현되며,분포의 형태를 정하는 숫자인 Parameter(모수)를 가짐

정규분포의 확률밀도함수(probability density function)

𝜇 를 모평균, 𝜎를 모표준편차라고 부름.
모집단: 모평균과 모표준편차
표본: 표본평균과 표본표준편차

정규분포와 이항분포

위의 사진을 보면 시행횟수가 많아질 수록 이항분포는 정규분포에 근사해지는 것을 알 수 있다.
따라서 시행횟수 N이 커진다면 확률 p인 사건을 N번 시행하는 이항분포가 평균 Np, 분산 Npq를 따른다고 볼 수 있다.
드무아브르-라플라스의 정리로 증명되어있음

정규분포의 특성

평균 u를 중심으로한 종형으로 좌우 대칭분포
평균 u근처에 값이 가장 많고, 평균u에서 멀어질수록 적어짐
키나 몸부게 등 정규분포로 근사할 수 있는 현상이 많음
정가운데(평균)을 중심으로 좌우대칭이며, 양끝은 영원에 0에 닿지 않음
정규분포는 평균과 표준분포만으로 규정됨, 즉, 평균과 표준편차가 다른 무한대개의 서로 다른 정규분포가 존재
정규분포 아래의 면적은 확률을 의미함(따라서 정규분포의 곡선은 확률곡선이다.)
- 즉, 정규분포 아래의 모든 면적은 1이다.

정규분포 분산의 특성

$V a r (X) = E (X^{2}) - {E (X)}^{2}$

$V a r (X + c) = V a r (X)$

$V a r (c X) = c^{2} V a r (X)$

$V a r (X + Y) \neq V a r (X) + V a r (Y)$ → (X,Y가 서로 독립일 때는 성립)

$V a r (X + X) \neq 4 V a r (X)$

분산은 무조건 0보다 커야하며, 분산이 0인 경우는 상수인 경우임 (P(x=a) = 1)

정규분포의 성질 (68-95-99.7% Rule)

$P (| X - μ | \leq σ) \approx 0.68$

$P (| X - μ | \leq 2 σ) \approx 0.95$

$P (| X - μ | \leq 3 σ) \approx 0.997$

이는 $μ 나 σ$ 값이 달라져도 변하지 않음
다만σ가 커질수록 더 넓어지며, σ가 작을 수록 분포가 좁아짐. 그리고 μ값에 따라서도 좌우로 움직임

[기초통계학] 정규분포(표준정규분포, 표준화) 3 — 분산과 평균에 따른 정규분포

표준정규분포(Standard Normal Distribution)

정규 분포 밀도함수에서 $Z = \frac{X - μ}{σ}$ 을 통해 X(원점수)를 Z(Z점수)로 정규화함으로써 평균이 0, 표준편차가 1인 정규분포

z-분포라고도 부름
z-분포로 하는 검정을 z검정(z-test)라고 함
PDF: $f (z) = c e^{- z^{2} / 2} \int_{- \infty}^{\infty} e^{- z^{2} / 2} d z$ (c-> 정규화 상수) (z가 커지거나 작아지면 0으로 빠르게 수렴하게 됨)
→ 적분을 해서 1인 것을 증명해야하지만, 닫힌 형식으로 유도할 수 없음 (부정적분으로 안된다는 것을 증명되어있음)
→ 정적분으로 진행. 무한급수를 만들어 각 항을 적분하는 방식으로 진행

$\int_{- \infty}^{\infty} e^{- z^{2} / 2} d z \int_{- \infty}^{\infty} e^{- z^{2} / 2} d z = \int_{- \infty}^{\infty} e^{- x^{2} / 2} d x \int_{- \infty}^{\infty} e^{- y^{2} / 2} d y$ (z를 x와 y로 교체)

$= \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} e^{- (x^{2} + y^{2}) / 2} d x d y (이 중 적 분) = \int_{0}^{2 π} \int_{0}^{\infty} e^{- r^{2} / 2} r d r d θ$ ( $x^{2} + y^{2} = r^{2}$ 라는 피타고라스 정리 및 극좌표계 활용)

$u = r^{2} / 2, d u = r d r$ 라 놓으면

$= \int_{0}^{2 π} \int_{0}^{\infty} e^{- u} d u d θ = 2 π$
$∴ \int_{- \infty}^{\infty} e^{- z^{2} / 2} d z = \sqrt{2 π} \Rightarrow c = \frac{1}{\sqrt{2 π}}$

표준정규분포의 평균 및 분산

$Z \sim N (0, 1)$ 일 때,

$E (Z) = \int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} z e^{- z^{2} / 2} d z = 0 (∵ (기 함 수))$

$V a r (Z) = E (Z^{2}) - {E (Z)}^{2} = E (Z^{2}) = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{\infty} z^{2} e^{- z^{2} / 2} d z = \frac{2}{\sqrt{2 π}} \int_{0}^{\infty} z^{2} e^{- z^{2} / 2} d z$

$u = z, d v = z e^{- z^{2} / 2}$
$d u = d z, v = - e^{- z^{2} / 2}$

$= \frac{2}{\sqrt{2 π}} [u v |_{0}^{\infty} + \int_{0}^{\infty} e^{- z^{2} / 2} d z] = 1$

※ notation: 표준정규분포의 CDF

$Φ (z) = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{z} e^{- t^{2} / 2} d t$

표준정규분포의 특성

$Z \sim N (0, 1) 이 고 C D F Φ$ 를 가질 때,

$E (Z) = 0 (∵ (∵ 정 규 분 포 의 대 칭 성)) \dots \dots 1 차 적 률 (1 s t m o m e n t)$

$E (Z^{2}) = V a r (Z) = 1 \dots \dots 2 차 적 률$

$E (Z^{3}) = 0 (∵ (∵ 기 함 수)) \dots \dots 3 차 적 률$

정규분포의 대칭성으로 인해, $- Z \sim N (0, 1)$

$X = μ + σ Z X = μ + σ Z 이 고, μ \in R μ \in R (\to (\to 평 균, 위 치 (l o c a t i o n)))$

$σ > 0 σ > 0 (\to (\to 표 준 편 차, 크 기 (s c a l e)))$ 일 때,

$E (X) = μ$

$V a r (X) = σ^{2} V a r (Z) = σ^{2}$

표준 정규분포의 예

학생 1000명, 시험점수의 분포가 정규분포에 근사, 평균점수는 82고 표준편차는 5라고 가정
이때 82점부터 90점까지 점수를 받은 학생의 수를 알려면 정규분포를 적분해야하기 때문에 이를 표준정규분포로 바꾸어야한다.

위 사진처럼 정규분포를 표준정규분포로 바꾸는 방법이 Z-score이다.

Z(82) = (82-82) / 5 = 0
Z(90) = (90-82) / 5 = 1.6

위 값을 표준정규분포포를 활용하여 확률을 계산한다.

Z(90)은 1.6이므로 표준정규분포표에서의 값은 0.9452이며, 평균보다 앞의 면적(0.5)은 빼야하니, 0,9452-0.5 = 0.4452이다.

즉 82점부터 90점까지 점수를 받을 확률은 44.52%이며, 약 445명이 이 점수구간에 포함된다고 할 수 있다.

만약 95점이 넘는 학생을 구한다면, Z(95) = 2.6이며, 이 2.6은 0.9953인데, 뒷부분을 구해야하니 1에서 0.9953을 빼준 0.0047이며, 약 4명이라고 할 수 있다.

Z-Test

위 사례처럼 z-score값을 활용하여 하는 테스트를 Z-test라고 한다.
Z-test는 z값과 표준정규분포표를 활용하여 한다.
z-score(Z값)으로 변환하는 것은 Z-Transformation이라고 하며, 표준화(Standardization)이라고 한다.
- 1표준편차당 관찰값(X)가 평균으로부터 얼마나 떨어져 있는지를 의미
- Z값은 단위로부터 자유로움

표준화(standardization)

$Z = \frac{X - μ}{σ}$
이를 활용하여 값을 변환하는 것을 표준화라고 하며, 변환된 새로운 값은 z값이라고 함
평균과의 거리가 표준편차의 몇 배인가를 나타내는 것.
따라서 본래의 $μ 나 σ$ 와 상관없이 분포 안에서 어디에 위치하는가를 의미하기에, 본래 숫자가 아닌 분포안에서의 위치로 평가하게 되어, 표준화를 하면 데이터의 단위 문제가 없어짐

정규분포 $X \sim N (μ, σ^{2})$

$C D F : P (X \leq x) = P (\frac{X - μ}{σ} \leq \frac{x - μ}{σ}) = Φ (\frac{X - μ}{σ})$
$P D F : \frac{1}{σ \sqrt{2 π}} \cdot e^{- (\frac{x - μ}{σ})^{2} / 2} \to - X = - μ + σ (- z) \sim N (- μ, σ^{2})$
j = 1, 2, ... 에 대하여 $X_{j} \sim N (μ_{j}, σ_{j}^{2})$ 이고 서로 독립일 때,

$\to X_{1} + X_{2} \sim N (μ_{1} + μ_{2}, σ_{1}^{2} + σ_{2}^{2})$

$\to X_{1} - X_{2} \sim N (μ_{1} - μ_{2}, σ_{1}^{2} + σ_{2}^{2})$ ( $- X_{2} 도 분 산 은 σ_{2}^{2}$ 이다)

해당포스팅은 아래 유튜브와 류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다

www.youtube.com/watch?v=AovOoq4p3nY&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=3

728x90

저작자표시 비영리

'Statistics & Math > 기초통계학' 카테고리의 다른 글

[기초통계학] 산포도와 상관계수, 그리고 상관관계 (0)	2024.03.20
[기초통계학] 표준편차와 자유도 (1)	2024.03.14
[기초통계학] 데이터와 통계량 - 평균과 중앙값 (0)	2024.03.12
[기초통계학] 실험연구와 경험적연구(자연실험) (0)	2024.03.10
[기초통계학] 통계학과 자료 / 선택편향과 생존편향 (0)	2024.03.10

현재글[기초통계학] 정규분포(표준정규분포, 표준화)

YSY의 데이터분석 블로그 데이터 분석 블로그 - 데이터분석 방법론 / 인과추론 / 머신러닝 / Python / SQL / Hadoop&Spark / 통계

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[기초통계학] 정규분포(표준정규분포, 표준화)

정규분포(Normal Distribution)

정규분포의 확률밀도함수(probability density function)

정규분포와 이항분포

정규분포의 특성

정규분포 분산의 특성

정규분포의 성질 (68-95-99.7% Rule)

표준정규분포(Standard Normal Distribution)

표준정규분포의 평균 및 분산

표준정규분포의 특성

표준 정규분포의 예

Z-Test

표준화(standardization)

'Statistics & Math > 기초통계학' 카테고리의 다른 글

'Statistics & Math/기초통계학'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[기초통계학] 정규분포(표준정규분포, 표준화)

정규분포(Normal Distribution)

정규분포의 확률밀도함수(probability density function)

정규분포와 이항분포

정규분포의 특성

정규분포 분산의 특성

정규분포의 성질 (68-95-99.7% Rule)

표준정규분포(Standard Normal Distribution)

표준정규분포의 평균 및 분산

표준정규분포의 특성

표준 정규분포의 예

Z-Test

표준화(standardization)

'Statistics & Math > 기초통계학' 카테고리의 다른 글

'Statistics & Math/기초통계학'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역