Statistics & Math/기초통계학

[기초통계학] 확률밀도함수 (연속확률분포, 균등분포)

YSY^ 2024. 1. 6. 23:47

확률밀도함수(Probability Density Function) (PDF)

  • 확률변수 X가 모든 a,b 에 대하여 $P(a \le X \le b) = \displaystyle \int_a ^b f(x)dx$ 를 만족시킬 때, X는 확률밀도함수(PDF) f(x)를 갖는다.
  • a=b 인 경우, $\displaystyle \int _a ^af(x)dx = 0$
  • 확률밀도함수가 필요한 이유는 P(X=x) = 0이기 때문 (특정값에 대한 확률은 0)
    • 0과 1사이에는 수많은 실수가 존재함 -> 확률질량함수에서는 이 모든 실수에 대한 확률이 0임
    • 따라서 확률밀도함수는 값에 일정한 범위를 두고 확률을 계산
  • 확률밀도함수에도 누적분포함수(CDF)가 존재
  • 확률밀도함수의 세로축은 확률 그 자체의 값이 아니라 상대적 발생 가능성을 표현한 것임
  • 조건: $f(x) \ge 0, \displaystyle \int_{-\infty}^\infty f(x)dx = 1$
  • 즉, 확률변수의 정의역 전체를 적분하면 1이 되며, 모든 사건 중 어느 것이든 일어날 확률이 1이라는 것을 나타냄

확률밀도함수

밀도란

  • 확률밀도함수는 확률을 의미하는 것이 아니라 확률밀도를 의미하는 것임
  • $f(x_0)\cdot \epsilon \approx P(X \in (x_0 - \epsilon/2, x_0+\epsilon/2))$
    • 매우 작은 양의 값 ϵ 길이의 구간에 대한 면적
  • X가 PDF f를 가질 때, CDF는 $F(x) = P(X \le x)=\displaystyle \int_{-\infty} ^x f(x)dx$ 이다.
  • CF) <미적분학의 기본정리(Fundamental Theorem of Calculus)> <'FTC'>
    • 상한이 정해지지 않은 적분이 있을때 F(x)값을 아는 것은 이를 미분을 하는 것이다.
    • 정적분을 하고 싶으면 역도함수를 구해서 하한과 상한에서 그 역도함수를 빼는 것이다.
  • X가 CDF $F_X(x)$를 가질 때, PDF는 $f(x) = F_X'(x)$이다 <FTC>
  • $P(a\le X \le b) = \displaystyle \int_a ^b f(x)dx = F(b) - F(a)$ <FTC>
  • 참고로 $P(a\le X \le b)$가 a,b를 포함하는지 안하는지는 중요하지 않음

연속확률분포(continuous distribution)와 이산확률분포 비교

이산 확률 분포 연속확률분포
확률함수 PMF(확률질량함수) $P(X=x)$ PDF(확률밀도함수) $f_X(x) (P(X=x)=0)$
CDF(누적분포함수) $F_X(x) = P(X \le x)$
기댓값 $E(X) = \sum_x x P(X=x)$ $\displaystyle \int _{-\infty} ^\infty xf_X(x)dx$
분산 $Var(X) = E(Y^2) - {E(Y)}^2$
표준편차 $sd(X) = \sqrt{Var(X)}$

균등분포(uniform distribution) $Unif(a,b)$

  • 연속확률분포의 한 종류로, 모든 확률변수에 대해 균일한 확률을 가짐
  • 특정 범위가 뽑힐 확률이 그 범위의 크기에 비례하는 분포
  • 두개의 매개변수 a,b를 받으며, [a,b] 범위에서 균등한 확률을 가짐

  • PDF $ f(X) = c (a\le X \le b)$ (=0 otherwise)
    • 확률밀도를 적분하면 1이 나와야함
      $\Rightarrow 1 = \displaystyle \int_a ^b cdx = c(b-a)$
      $c = \Large \frac{1}{b-a}$
  • CDF $F(X) = \displaystyle \int_{-\infty} ^x f(t)dt = \int_a ^b f(t)dt =0 (x<a)$$1 (x > b)$
  • $\frac{x-a}{b-a} (a \le x \le b)$
  • 기댓값
    $E(X) = \displaystyle \int _a ^b \frac{x}{b-a}dx = \frac{x^2}{2(b-a)} \large \rbrack^{b} _{a}$
    $ = \displaystyle \frac{1}{2(b-a)}\cdot(b-a)(b+a) = \frac{a+b}{2}$
  • 분산
    $Var(X) = E(Y^2) - {E(Y)}^2 = \displaystyle \int _{-\infty} ^\infty x^2f_X(x)dx$
    (-> 무의식 통계학자의 법칙(Law of unconscious statistician))
  • $E(g(X)) = \displaystyle \int_{-\infty}^\infty g(x)f_X(x)dx$ (이게 맞음)

표준연속균등분포

$U \sim Unif(0,1)$ 이라 할 때,

$E(U) = \displaystyle \frac{1}{2}, E(U^2) = \displaystyle \int _0 ^1 u^2f_U(u)du = \frac {1}{3}$

$Var(U) = E(U^2) - {E(U) }^2 = \displaystyle \frac{1}{3} - \frac 14 = \frac{1}{12}$

균등분포의 보편성(universality of the uniform distribution)

  • $Unif(0,1)$ 를 통하여 모든 확률분포를 만들어낼 수 있다.

$U \sim Unif(0,1)$, CDF F를 가질 때 (F는 연속인 증가함수이라고 가정)

정리) $X = F^{-1}(U) 일 때, X \sim F$

증명) $P(X \le x) = P(F^{-1}(U) \le x) = P(U \le F(x))$

균등분포의 보편성 (cont.)

  • F가 증가하는 CDF라고 할 때,
    $U \sim Unif(0,1)$ 이면 $X^{-1}(U) \sim $이다. → 어떤 확률분포를 simulate 할 때 유용한 성질

$\Leftrightarrow X \sim F 이면 F(X) \sim Unif(0,1)$이다.

ex) $F(x) = 1-e^{-x} (x >0)$를 따르는 X 분포를 simulate하기 위해서는

  1. $U \sim Unif(0,1)$를 simulate한다

  2. $F^{-1}(U) = -ln(1-U) \sim F$

균등분포의 대칭성

$ U \sim Unif(0,1)$일 때, $1-U \sim Unif(0,1)$이다.

균등분포의 선형변환

$U \sim Unif(0,1)$일 때, $a+bU \sim Unif(a, a+b)$이다.

(비선형적 변환 시 더 이상 균등분포를 따르지 않는다)

해당 포스팅은 [하버드 확률론 기초] 강의를 참고하여 작성하였습니다

728x90
반응형