표준편차 포스팅에서 이어지는 내용입니다
https://ysyblog.tistory.com/163
[기초통계학] 표준편차와 자유도
제곱근-평균-제곱 (Root Mean Square) (RMS) 계산은 표현의 역순(제곱 후 평균, 최종적으로 제곱근) 제곱 (S) : 모든 수를 제곱하여 부호를 없앤다. 평균 (M) : 제곱된 값들의 평균을 구한다. 제곱근 (R) : 제
ysyblog.tistory.com
정규분포(Normal Distribution)
- 정규 분포(normal distribution) 또는 가우스 분포(Gaussian distribution)는 연속 확률 분포 중 하나를 의미
- 정규분포는 2개의 모수
로 (평균, 표준편차)로 결정되며 로 표현- cf)이론적인 확률분포는 수식으로 표현되며,분포의 형태를 정하는 숫자인 Parameter(모수)를 가짐
![[기초통계학] 정규분포(표준정규분포, 표준화) 0](http://t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png)
정규분포의 확률밀도함수(probability density function)
![[기초통계학] 정규분포(표준정규분포, 표준화) 1](http://t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png)
- 𝜇 를 모평균, 𝜎를 모표준편차라고 부름.
- 모집단: 모평균과 모표준편차
- 표본: 표본평균과 표본표준편차
정규분포와 이항분포
![[기초통계학] 정규분포(표준정규분포, 표준화) 2](http://t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png)
- 위의 사진을 보면 시행횟수가 많아질 수록 이항분포는 정규분포에 근사해지는 것을 알 수 있다.
- 따라서 시행횟수 N이 커진다면 확률 p인 사건을 N번 시행하는 이항분포가 평균 Np, 분산 Npq를 따른다고 볼 수 있다.
- 드무아브르-라플라스의 정리로 증명되어있음
정규분포의 특성
- 평균 u를 중심으로한 종형으로 좌우 대칭분포
- 평균 u근처에 값이 가장 많고, 평균u에서 멀어질수록 적어짐
- 키나 몸부게 등 정규분포로 근사할 수 있는 현상이 많음
- 정가운데(평균)을 중심으로 좌우대칭이며, 양끝은 영원에 0에 닿지 않음
- 정규분포는 평균과 표준분포만으로 규정됨, 즉, 평균과 표준편차가 다른 무한대개의 서로 다른 정규분포가 존재
- 정규분포 아래의 면적은 확률을 의미함(따라서 정규분포의 곡선은 확률곡선이다.)
- 즉, 정규분포 아래의 모든 면적은 1이다.
정규분포 분산의 특성
- 분산은 무조건 0보다 커야하며, 분산이 0인 경우는 상수인 경우임 (P(x=a) = 1)
정규분포의 성질 (68-95-99.7% Rule)
- 이는
값이 달라져도 변하지 않음 - 다만σ가 커질수록 더 넓어지며, σ가 작을 수록 분포가 좁아짐. 그리고 μ값에 따라서도 좌우로 움직임
![[기초통계학] 정규분포(표준정규분포, 표준화) 3](http://t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png)
표준정규분포(Standard Normal Distribution)
- 정규 분포 밀도함수에서
을 통해 X(원점수)를 Z(Z점수)로 정규화함으로써 평균이 0, 표준편차가 1인 정규분포
![[기초통계학] 정규분포(표준정규분포, 표준화) 4](http://t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png)
- z-분포라고도 부름
- z-분포로 하는 검정을 z검정(z-test)라고 함
PDF: (c-> 정규화 상수) (z가 커지거나 작아지면 0으로 빠르게 수렴하게 됨)
→ 적분을 해서 1인 것을 증명해야하지만, 닫힌 형식으로 유도할 수 없음 (부정적분으로 안된다는 것을 증명되어있음)
→ 정적분으로 진행. 무한급수를 만들어 각 항을 적분하는 방식으로 진행
표준정규분포의 평균 및 분산
※ notation: 표준정규분포의 CDF
표준정규분포의 특성
정규분포의 대칭성으로 인해,
표준 정규분포의 예
- 학생 1000명, 시험점수의 분포가 정규분포에 근사, 평균점수는 82고 표준편차는 5라고 가정
- 이때 82점부터 90점까지 점수를 받은 학생의 수를 알려면 정규분포를 적분해야하기 때문에 이를 표준정규분포로 바꾸어야한다.
![[기초통계학] 정규분포(표준정규분포, 표준화) 5](https://blog.kakaocdn.net/dn/cQ5Hsg/btsFMBGLehS/KuJG1MHktNc0SPRAO8SO7K/img.png)
위 사진처럼 정규분포를 표준정규분포로 바꾸는 방법이 Z-score이다.
![[기초통계학] 정규분포(표준정규분포, 표준화) 6](https://blog.kakaocdn.net/dn/62LFj/btsFOgIgcBX/gOxQNCXQCAMmR1M7dNxulk/img.png)
Z(82) = (82-82) / 5 = 0
Z(90) = (90-82) / 5 = 1.6
위 값을 표준정규분포포를 활용하여 확률을 계산한다.
![[기초통계학] 정규분포(표준정규분포, 표준화) 7](https://blog.kakaocdn.net/dn/7ESdv/btsFMIsaqTG/EQRLq58PvNutqWnlRtMDEk/img.png)
Z(90)은 1.6이므로 표준정규분포표에서의 값은 0.9452이며, 평균보다 앞의 면적(0.5)은 빼야하니, 0,9452-0.5 = 0.4452이다.
즉 82점부터 90점까지 점수를 받을 확률은 44.52%이며, 약 445명이 이 점수구간에 포함된다고 할 수 있다.
만약 95점이 넘는 학생을 구한다면, Z(95) = 2.6이며, 이 2.6은 0.9953인데, 뒷부분을 구해야하니 1에서 0.9953을 빼준 0.0047이며, 약 4명이라고 할 수 있다.
Z-Test
- 위 사례처럼 z-score값을 활용하여 하는 테스트를 Z-test라고 한다.
- Z-test는 z값과 표준정규분포표를 활용하여 한다.
- z-score(Z값)으로 변환하는 것은 Z-Transformation이라고 하며, 표준화(Standardization)이라고 한다.
- 1표준편차당 관찰값(X)가 평균으로부터 얼마나 떨어져 있는지를 의미
- Z값은 단위로부터 자유로움
표준화(standardization)
![[기초통계학] 정규분포(표준정규분포, 표준화) 8](https://blog.kakaocdn.net/dn/bqT747/btsELpeLVkX/iRsJPf39601m6pisRHYSx0/img.webp)
- 이를 활용하여 값을 변환하는 것을 표준화라고 하며, 변환된 새로운 값은 z값이라고 함
- 평균과의 거리가 표준편차의 몇 배인가를 나타내는 것.
- 따라서 본래의
와 상관없이 분포 안에서 어디에 위치하는가를 의미하기에, 본래 숫자가 아닌 분포안에서의 위치로 평가하게 되어, 표준화를 하면 데이터의 단위 문제가 없어짐
정규분포
- j = 1, 2, ... 에 대하여
이고 서로 독립일 때,
해당포스팅은 아래 유튜브와 류근관 교수님의 <그림과 수치를 이용한 자료의 정리>강의를 참고하여 작성하였습니다
www.youtube.com/watch?v=AovOoq4p3nY&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=3
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] 산포도와 상관계수, 그리고 상관관계 (0) | 2024.03.20 |
---|---|
[기초통계학] 표준편차와 자유도 (1) | 2024.03.14 |
[기초통계학] 데이터와 통계량 - 평균과 중앙값 (0) | 2024.03.12 |
[기초통계학] 실험연구와 경험적연구(자연실험) (0) | 2024.03.10 |
[기초통계학] 통계학과 자료 / 선택편향과 생존편향 (0) | 2024.03.10 |