Statistics & Math/기초통계학

[기초통계학] 기하분포와 음이항분포

YSY^ 2023. 12. 25. 18:55

기하확률분포(geometric random variable)

p값에 따른 기하분포. 출처 : https://en.wikipedia.org/wiki/Geometric_distribution

  • $ Geom(p)$: 여러 번의 $Bern(p)$ 독립시행에서 첫 번째 성공까지의 실패 수
  • 성공전에 얼마나 실패했는지 보여줌
  • 이항분포나 초기하분포에서는 시행횟수 n을 정해놓고, 성공한 횟수에 관심을 가졌으나, 기하분포는 시행횟수에 초점을 맞춘것
  • 기하분포에서는 X는 성공할때까지 시행했을때 실패한 횟수이며, U는 성공할때까지 시행한 횟수를 의미
    • Y = X + 1
  • 이런 확률질량함수를 가지는 경우 모수가 p인 기하분포를 따른다고 한다.
    $X \sim Geom(p), (q = 1-p)$라고 할 때,
  • X의 확률질량함수: $P(X = k) = pq^k (k \in { 0,1,...})$
  • 조건 확인: $\displaystyle \sum _{k=0} ^\infty pq^k = \frac{p}{1-q} = 1$
    • CF) 등비급수의 극한
      • $q^k는 등비수열의 합으로 \frac{1}{1-q}로 나타낼 수 있음$
  • 기하분포는 무기억성의 특징이 있음(독립)
    • 즉, 4번째까지 실패했을때 5번째 성공확률이나, 5번째까지 실패했을때 6번째의 성공확률이나 모두 p임

기하확률분포의 기댓값

  • X는 실패한 횟수, Y는 시행횟수
  • E(X) (실패횟수의 기대값)
    $E(X) = \displaystyle \sum _{k = 0} ^\infty kpq^k = p \sum _{k = 0} ^\infty kq^k$
    $\displaystyle \sum _{k = 0} ^\infty q^k = \frac{1}{1-q}$ → 양쪽에 미분 취하기
    $ \displaystyle \sum _{k = 1} ^\infty kq^{k-1} = \frac{1}{(1-q)^2}$
    → $\displaystyle \sum _{k = 1} ^\infty kq^k = \frac{q}{p^2}$
    $\therefore E(X) = p\displaystyle \sum _{k = 0} ^\infty kq^k = p \cdot \frac{q}{p^2} = \frac{q}{p}$
  • E(Y) (시행횟수의 기대값)
    $E(Y) = E(X+1) = \frac{1}{p}$
기하확률분포의 기댓값(Story proof)

$c = E(X)$
$c = 0\cdot p(실패하지 않은경우) + (1+c) \cdot q(첫번째가 실패한경우) = q+cq$
$c = \displaystyle \frac{q}{1-q} = \frac{q}{p}$

음이항분포(Negative Binomial) $NegBin(r,p)$

출처 : https://en.wikipedia.org/wiki/Negative_binomial_distribution

  • 음이항분포는 기하분포를 일반화한 분포
  • 기하분포는 성공 확률이 p인 베르누이 시행에서 처음으로 성공할 때까지의 시행 횟수
  • 반면, 음이항분포는 성공 확률이 p인 베르누이 시행에서 r번째 성공까지의 시행 횟수, 즉, 성공전까지의 실패횟수의 분포
    • 음이항확률변수가 크다는 의미는 r번 성공까지 더 많은 시행을 했다는 의미와 같음
  • 그렇기에 음이항분포에서는 x번의 시행에서 처음 r-1번의 성공과 마지막 r번째 성공 사이에는 실패가 포함될 수 있음
  • 주의 사항 : 음수도 아니고 이항도 아님
  • 두개의 변수가 존재 : 모수 r,p
  • 여기서는 데구르트 방법을 사용 (기하를 0부터 시작) (1부터 시작하는 거면 성공횟수를 세는것)

1) 의미: 여러 번의 Bern(p) 독립시행 중에서 r번째 성공까지의 실패 횟수

2) PMF: $ P(X = n) = \displaystyle {n+r-1 \choose {r-1}}p^rq^n = \displaystyle {n+r-1 \choose {n}}p^rq^n (n = 0, 1, 2, ...)$

  • r-1 : r번 성공하기 전까지의 성공 횟수 (EX 5번째 성공까지의 실패횟수를 구하려면 이전에 4번성공했어야함)
  • n : r번 성공하기 전까지의 실패 횟수
  • 즉 r번 성공하기 전까지의 성공한 순서/실패 순서(위치)를 정해주면된다
  • n + r-1 번 중, r-1번 성공 위치를 선택하는 횟수 = n + r-1 번 중, n번 실패하는 위치를 선택하는 횟수

3) 기대값 구하기 (지시확률변수 활용)

  • X는 실패한 횟수, Y는 시행횟수
  • E(X) (실패횟수의 기대값)

→ 가장 간단한 상황: r=1일 때 $X \sim Geom(p)$
$E(X) = \Large \frac{q}{p}$
$E(X) = E(X_1 + X_2 + ... + X_r) = E(X_1)+...+E(X_r)$
$X_j$는 j-1번째와 j번째 성공 사이의 실패 횟수라 할 때,
j-1 ~ j 성공 사이의 실패횟수와, j ~ j+1성공사이의 실패횟수는 독립적이며
$X_j \sim Geom(p)$ 이므로

$E(X) = r \times \Large \frac{q}{p}$

  • E(Y) (시행횟수의 기대값)
    $E(Y) = \frac{r}{p}$

성공분포 (First Success)

  • 첫 번째 성공까지 걸린 시도 수 'First Success' 분포: $X \sim FS(p)$
  • Y = X -1라 하였을 때(성공 빼기), $Y \sim Geom(p)$

$E(X) = E(Y)+1 = \Large \frac{q}{p} +1= \Large \frac{1}{p}$

이항분포와 음이항분포의 관계

  • n번 시행해서 x번 성공할 확률 분포: 이항분포 (cf.https://ysyblog.tistory.com/392)
  • r번 성공까지 x번 시행할 확률 분포 : 음이항분포
  • 성공확률이 p인 베르누이 시행에서,
    • $X \sim Bin(n, p)$ 일 때 n번 시행해서 r번 이상 성공할 확률 $P(X \geq r)$ 와
    • $Y \sim NegBin(r, p)$ 일 때 r번 성공하는데 n번 이하 시행할 확률 $P(Y \leq n)$는 같음.
  • 즉, $P(X \geq r)=P(Y \leq n)$

예제

  1. St.Petersburg Paradox
    처음으로 동전 앞면이 나올 때까지 동전을 던진 횟수(성공 포함)를 X라 하였을 때, $2^X$달러를 받는 게임이 있다고 하자. 이 게임을 하기 위해 얼마를 내야할까
    $Y = 2^X$(받는 돈)
    Y의 기대값을 찾는 것이 이문제의 목적
    $E(Y) = \displaystyle \sum _{k=1} ^\infty 2^k \cdot \frac{1}{2^k} = \sum _{k=1}^\infty 1 = \infty$ (?..)
    ∞가 아닌, $2^{40}$ 까지라고 할 때는 $E(Y) = \displaystyle \sum _{k=1} ^{40} 2^k \cdot \frac{1}{2^k} = 40$
    $E(Y) = E(2^X) = \infty$
728x90
반응형