Statistics & Math/기초통계학

[기초통계학] 정규분포(표준정규분포, 표준화)

YSY^ 2024. 3. 14. 22:31

표준편차 포스팅에서 이어지는 내용입니다

https://ysyblog.tistory.com/163

 

[기초통계학] 표준편차와 자유도

제곱근-평균-제곱 (Root Mean Square) (RMS) 계산은 표현의 역순(제곱 후 평균, 최종적으로 제곱근) 제곱 (S) : 모든 수를 제곱하여 부호를 없앤다. 평균 (M) : 제곱된 값들의 평균을 구한다. 제곱근 (R) : 제

ysyblog.tistory.com

 

정규분포(Normal Distribution)

  • 정규 분포(normal distribution) 또는 가우스 분포(Gaussian distribution)는 연속 확률 분포 중 하나를 의미
  • 정규분포는 2개의 모수 μ,σ로 (평균, 표준편차)로 결정되며 N(μ,σ2)로 표현
    • cf)이론적인 확률분포는 수식으로 표현되며,분포의 형태를 정하는 숫자인 Parameter(모수)를 가짐

[기초통계학] 정규분포(표준정규분포, 표준화) 0

정규분포의 확률밀도함수(probability density function)

[기초통계학] 정규분포(표준정규분포, 표준화) 1

  •  𝜇 를 모평균, 𝜎를 모표준편차라고 부름.
  • 모집단: 모평균과 모표준편차
  • 표본: 표본평균과 표본표준편차

 

정규분포와 이항분포

[기초통계학] 정규분포(표준정규분포, 표준화) 2

  • 위의 사진을 보면 시행횟수가 많아질 수록 이항분포는 정규분포에 근사해지는 것을 알 수 있다.
  • 따라서 시행횟수 N이 커진다면 확률 p인 사건을 N번 시행하는 이항분포가 평균 Np, 분산 Npq를 따른다고 볼 수 있다.
  • 드무아브르-라플라스의 정리로 증명되어있음

 

정규분포의 특성

    • 평균 u를 중심으로한 종형으로 좌우 대칭분포
    • 평균 u근처에 값이 가장 많고, 평균u에서 멀어질수록 적어짐
    • 키나 몸부게 등 정규분포로 근사할 수 있는 현상이 많음
    • 정가운데(평균)을 중심으로 좌우대칭이며, 양끝은 영원에 0에 닿지 않음
    • 정규분포는 평균과 표준분포만으로 규정됨, 즉, 평균과 표준편차가 다른 무한대개의 서로 다른 정규분포가 존재
    • 정규분포 아래의 면적은 확률을 의미함(따라서 정규분포의 곡선은 확률곡선이다.)
      • 즉, 정규분포 아래의 모든 면적은 1이다.

정규분포 분산의 특성

Var(X)=E(X2)E(X)2
​​
Var(X+c)=Var(X)

Var(cX)=c2Var(X)

Var(X+Y)Var(X)+Var(Y) → (X,Y가 서로 독립일 때는 성립)

Var(X+X)4Var(X)

  • 분산은 무조건 0보다 커야하며, 분산이 0인 경우는 상수인 경우임 (P(x=a) = 1)

정규분포의 성질 (68-95-99.7% Rule)

P(|Xμ|σ)0.68

P(|Xμ|2σ)0.95

P(|Xμ|3σ)0.997

  • 이는 μσ값이 달라져도 변하지 않음
  • 다만σ가 커질수록 더 넓어지며, σ가 작을 수록 분포가 좁아짐. 그리고 μ값에 따라서도 좌우로 움직임

[기초통계학] 정규분포(표준정규분포, 표준화) 3
분산과 평균에 따른 정규분포

표준정규분포(Standard Normal Distribution)

  • 정규 분포 밀도함수에서 Z=Xμσ을 통해 X(원점수)를 Z(Z점수)로 정규화함으로써 평균이 0, 표준편차가 1인 정규분포

[기초통계학] 정규분포(표준정규분포, 표준화) 4

  • z-분포라고도 부름
  • z-분포로 하는 검정을 z검정(z-test)라고 함
    PDF: f(z)=cez2/2ez2/2dz (c-> 정규화 상수) (z가 커지거나 작아지면 0으로 빠르게 수렴하게 됨)
    → 적분을 해서 1인 것을 증명해야하지만, 닫힌 형식으로 유도할 수 없음 (부정적분으로 안된다는 것을 증명되어있음)
    → 정적분으로 진행. 무한급수를 만들어 각 항을 적분하는 방식으로 진행

ez2/2dzez2/2dz=ex2/2dxey2/2dy (z를 x와 y로 교체)

=e(x2+y2)/2dxdy()=02π0er2/2rdrdθ (x2+y2=r2라는 피타고라스 정리 및 극좌표계 활용)

u=r2/2,du=rdr라 놓으면

=02π0eududθ=2π
ez2/2dz=2πc=12π

표준정규분포의 평균 및 분산

ZN(0,1)일 때,

E(Z)=12πzez2/2dz=0(())

Var(Z)=E(Z2)E(Z)2=E(Z2)=12πz2ez2/2dz=22π0z2ez2/2dz

u=z,dv=zez2/2
du=dz,v=ez2/2

=22π[uv|0+0ez2/2dz]=1

※ notation: 표준정규분포의 CDF

Φ(z)=12πzet2/2dt

표준정규분포의 특성

ZN(0,1)CDFΦ를 가질 때,

E(Z)=0(())1(1stmoment)

E(Z2)=Var(Z)=12

E(Z3)=0(())3

정규분포의 대칭성으로 인해, ZN(0,1)

X=μ+σZX=μ+σZ,μRμR((,(location)))

σ>0σ>0((,(scale))) 일 때,

E(X)=μ

Var(X)=σ2Var(Z)=σ2

표준 정규분포의 예

  • 학생 1000명, 시험점수의 분포가 정규분포에 근사, 평균점수는 82고 표준편차는 5라고 가정
  • 이때 82점부터 90점까지 점수를 받은 학생의 수를 알려면 정규분포를 적분해야하기 때문에 이를 표준정규분포로 바꾸어야한다.

[기초통계학] 정규분포(표준정규분포, 표준화) 5

위 사진처럼 정규분포를 표준정규분포로 바꾸는 방법이 Z-score이다.

[기초통계학] 정규분포(표준정규분포, 표준화) 6

Z(82) = (82-82) / 5 = 0
Z(90) = (90-82) / 5 = 1.6

위 값을 표준정규분포포를 활용하여 확률을 계산한다.

[기초통계학] 정규분포(표준정규분포, 표준화) 7
표준정규분포표

Z(90)은 1.6이므로 표준정규분포표에서의 값은 0.9452이며, 평균보다 앞의 면적(0.5)은 빼야하니, 0,9452-0.5 = 0.4452이다.

즉 82점부터 90점까지 점수를 받을 확률은 44.52%이며, 약 445명이 이 점수구간에 포함된다고 할 수 있다.

만약 95점이 넘는 학생을 구한다면, Z(95) = 2.6이며, 이 2.6은 0.9953인데, 뒷부분을 구해야하니 1에서 0.9953을 빼준 0.0047이며, 약 4명이라고 할 수 있다.

Z-Test

  • 위 사례처럼 z-score값을 활용하여 하는 테스트를 Z-test라고 한다.
  • Z-test는 z값과 표준정규분포표를 활용하여 한다.
  • z-score(Z값)으로 변환하는 것은 Z-Transformation이라고 하며, 표준화(Standardization)이라고 한다.
    • 1표준편차당 관찰값(X)가 평균으로부터 얼마나 떨어져 있는지를 의미
    • Z값은 단위로부터 자유로움

 

표준화(standardization)

[기초통계학] 정규분포(표준정규분포, 표준화) 8

  • Z=Xμσ
  • 이를 활용하여 값을 변환하는 것을 표준화라고 하며, 변환된 새로운 값은 z값이라고 함
  • 평균과의 거리가 표준편차의 몇 배인가를 나타내는 것.
  • 따라서 본래의 μσ와 상관없이 분포 안에서 어디에 위치하는가를 의미하기에, 본래 숫자가 아닌 분포안에서의 위치로 평가하게 되어, 표준화를 하면 데이터의 단위 문제가 없어짐

정규분포 XN(μ,σ2)

  • CDF:P(Xx)=P(Xμσxμσ)=Φ(Xμσ)
  • PDF:1σ2πe(xμσ)2/2X=μ+σ(z)N(μ,σ2)
  • j = 1, 2, ... 에 대하여 XjN(μj,σj2) 이고 서로 독립일 때,

X1+X2N(μ1+μ2,σ12+σ22)

X1X2N(μ1μ2,σ12+σ22) (X2σ22 이다)

 

해당포스팅은 아래 유튜브와 류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다

www.youtube.com/watch?v=AovOoq4p3nY&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=3

728x90
반응형