확률밀도함수(Probability Density Function) (PDF)
- 확률변수 X가 모든 a,b 에 대하여 $P(a \le X \le b) = \displaystyle \int_a ^b f(x)dx$ 를 만족시킬 때, X는 확률밀도함수(PDF) f(x)를 갖는다.
- a=b 인 경우, $\displaystyle \int _a ^af(x)dx = 0$
- 확률밀도함수가 필요한 이유는 P(X=x) = 0이기 때문 (특정값에 대한 확률은 0)
- 0과 1사이에는 수많은 실수가 존재함 -> 확률질량함수에서는 이 모든 실수에 대한 확률이 0임
- 따라서 확률밀도함수는 값에 일정한 범위를 두고 확률을 계산
- 확률밀도함수에도 누적분포함수(CDF)가 존재
- 확률밀도함수의 세로축은 확률 그 자체의 값이 아니라 상대적 발생 가능성을 표현한 것임
- 조건: $f(x) \ge 0, \displaystyle \int_{-\infty}^\infty f(x)dx = 1$
- 즉, 확률변수의 정의역 전체를 적분하면 1이 되며, 모든 사건 중 어느 것이든 일어날 확률이 1이라는 것을 나타냄
밀도란
- 확률밀도함수는 확률을 의미하는 것이 아니라 확률밀도를 의미하는 것임
- $f(x_0)\cdot \epsilon \approx P(X \in (x_0 - \epsilon/2, x_0+\epsilon/2))$
- 매우 작은 양의 값 ϵ 길이의 구간에 대한 면적
- X가 PDF f를 가질 때, CDF는 $F(x) = P(X \le x)=\displaystyle \int_{-\infty} ^x f(x)dx$ 이다.
- CF) <미적분학의 기본정리(Fundamental Theorem of Calculus)> <'FTC'>
- 상한이 정해지지 않은 적분이 있을때 F(x)값을 아는 것은 이를 미분을 하는 것이다.
- 정적분을 하고 싶으면 역도함수를 구해서 하한과 상한에서 그 역도함수를 빼는 것이다.
- X가 CDF $F_X(x)$를 가질 때, PDF는 $f(x) = F_X'(x)$이다 <
FTC
> - $P(a\le X \le b) = \displaystyle \int_a ^b f(x)dx = F(b) - F(a)$ <
FTC
> - 참고로 $P(a\le X \le b)$가 a,b를 포함하는지 안하는지는 중요하지 않음
연속확률분포(continuous distribution)와 이산확률분포 비교
이산 확률 분포 | 연속확률분포 | |
---|---|---|
확률함수 | PMF(확률질량함수) $P(X=x)$ | PDF(확률밀도함수) $f_X(x) (P(X=x)=0)$ |
CDF(누적분포함수) | $F_X(x) = P(X \le x)$ | |
기댓값 | $E(X) = \sum_x x P(X=x)$ | $\displaystyle \int _{-\infty} ^\infty xf_X(x)dx$ |
분산 | $Var(X) = E(Y^2) - {E(Y)}^2$ | |
표준편차 | $sd(X) = \sqrt{Var(X)}$ |
균등분포(uniform distribution) $Unif(a,b)$
- 연속확률분포의 한 종류로, 모든 확률변수에 대해 균일한 확률을 가짐
- 특정 범위가 뽑힐 확률이 그 범위의 크기에 비례하는 분포
- 두개의 매개변수 a,b를 받으며, [a,b] 범위에서 균등한 확률을 가짐
- PDF $ f(X) = c (a\le X \le b)$ (=0 otherwise)
- 확률밀도를 적분하면 1이 나와야함
$\Rightarrow 1 = \displaystyle \int_a ^b cdx = c(b-a)$
$c = \Large \frac{1}{b-a}$
- 확률밀도를 적분하면 1이 나와야함
- CDF $F(X) = \displaystyle \int_{-\infty} ^x f(t)dt = \int_a ^b f(t)dt =0 (x<a)$$1 (x > b)$
- $\frac{x-a}{b-a} (a \le x \le b)$
- 기댓값
$E(X) = \displaystyle \int _a ^b \frac{x}{b-a}dx = \frac{x^2}{2(b-a)} \large \rbrack^{b} _{a}$
$ = \displaystyle \frac{1}{2(b-a)}\cdot(b-a)(b+a) = \frac{a+b}{2}$ - 분산
$Var(X) = E(Y^2) - {E(Y)}^2 = \displaystyle \int _{-\infty} ^\infty x^2f_X(x)dx$
(-> 무의식 통계학자의 법칙(Law of unconscious statistician)) - $E(g(X)) = \displaystyle \int_{-\infty}^\infty g(x)f_X(x)dx$ (이게 맞음)
표준연속균등분포
$U \sim Unif(0,1)$ 이라 할 때,
$E(U) = \displaystyle \frac{1}{2}, E(U^2) = \displaystyle \int _0 ^1 u^2f_U(u)du = \frac {1}{3}$
$Var(U) = E(U^2) - {E(U) }^2 = \displaystyle \frac{1}{3} - \frac 14 = \frac{1}{12}$
균등분포의 보편성(universality of the uniform distribution)
- $Unif(0,1)$ 를 통하여 모든 확률분포를 만들어낼 수 있다.
$U \sim Unif(0,1)$, CDF F를 가질 때 (F는 연속인 증가함수이라고 가정)
정리) $X = F^{-1}(U) 일 때, X \sim F$
증명) $P(X \le x) = P(F^{-1}(U) \le x) = P(U \le F(x))$
균등분포의 보편성 (cont.)
- F가 증가하는 CDF라고 할 때,
$U \sim Unif(0,1)$ 이면 $X^{-1}(U) \sim $이다. → 어떤 확률분포를 simulate 할 때 유용한 성질
$\Leftrightarrow X \sim F 이면 F(X) \sim Unif(0,1)$이다.
ex) $F(x) = 1-e^{-x} (x >0)$를 따르는 X 분포를 simulate하기 위해서는
$U \sim Unif(0,1)$를 simulate한다
$F^{-1}(U) = -ln(1-U) \sim F$
균등분포의 대칭성
$ U \sim Unif(0,1)$일 때, $1-U \sim Unif(0,1)$이다.
균등분포의 선형변환
$U \sim Unif(0,1)$일 때, $a+bU \sim Unif(a, a+b)$이다.
(비선형적 변환 시 더 이상 균등분포를 따르지 않는다)
해당 포스팅은 [하버드 확률론 기초] 강의를 참고하여 작성하였습니다
728x90
반응형
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] 표본 분포와 중심극한정리 (0) | 2024.03.02 |
---|---|
[기초통계학] 지수분포(지수분포의 기댓값과 분산,지수분포의 무기억성) (0) | 2024.02.18 |
[기초통계학] 포아송분포(poisson distribution) (2) | 2023.12.31 |
[기초통계학] 가설검정과 P값 (p-value) (2) | 2023.12.31 |
[기초통계학] 기하분포와 음이항분포 (0) | 2023.12.25 |