Statistics & Math/기초통계학

[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포

YSY^ 2023. 12. 16. 21:35

확률변수(Random Variable) (R.V)

  • 표본공간 S부터 실수 체계 R로 '맵핑' 하는 함수
    • 실수에 대한 확률시행
    • 확률시행의 일부분의 수치적인 요약 -> 임의성을 가지게됨
    • 표본공간S는 추상적이지만, 실수는 직관적이라 이해하기 쉬움
  • 어떤 사건에 어느 정도의 확률이 할당되었는지 묘사한 정보
  • cf) 변수란 : (시간에 따라) 변화하는 것을 표현하는 함수

확률변수의 2가지 종류

  1. 이산확률변수 : 유한개의 값 또는 셀 수 있는 개수의 값(열거할 수 있음)으로 구성되어 있는 확률변수. (이산 : 불연속)
    • EX) $a_1, a_2, ... ,a_n$
  2. 연속확률변수 : 연속적인 범위의 값 또는 셀 수 없는 값을 갖는 확률변수. (ex. 시간)
  • 이산확률변수와 연속확률변수의 가장 큰 차이점은 $P(X=x)$로 표현할 수 있는지 차이임

확률분포를 해석하는 방법

예) 이항확률분포 X ~ $Bin(n,p)$

  1. 의미 : n번의 독립적인 $Bernoulli(p)$ 시행에서 성공한 횟수
    • 각 시행이 독립적이라는 의미가 중요
    • p는 성공확률, 아니면 실패확률
  2. 지시확률변수(indicator random variables)
  • 어떤 사건이 일어나면 1, 아니면 0
  • 지시확률변수의 합으로 설명
  • $X = X_1+X_2+...+X_n = X_1 ,...X_​n \sim ^{iid} Bern(p)$
    • i.i.d : 독립적이고 동일하게 분포되었다. (independently identically distributed)
  • $X_j$ = 성공인 경우 1, 실패인 경우 0
  • 성공한 횟수를 세는 방식과 같음
  • 복잡한 내용을 0과 1로 표현한 것이기에 굉장히 유용함
  1. 확률질량함수(PMF)
  • X가 특정 값을 가질 확률
    → 사건의 발생확률을 구할 수 있음
  • $P(X = k) = \Large n\choose k$ $ p^k(q)^{n-k} (q=1-p)$

확률질량함수 (PMF)

  • 이산확률변수의 확률함수
  • $p_j = P(X=a_j)$ 조건: $p_j \ge 0 \displaystyle \sum_j p_j = 1$

베르누이(Bernoulli) 확률변수

  • X가 0(실패), 1(성공) 두 가지의 값만 가질 수 있으며,
  • $P(X=1)=p, P(X=0) = 1-p$ 일 때
    => X는 $Bernoulli(p)$ 분포를 따른다고 한다.
  • 기대값 : p

이항(Binomial) 확률변수

  • n번의 독립적인 베르누이(p) 시행에서 성공 횟수의 분포는 $Bin(n,p)$ 를 따른다고 한다.
    • EX) 동전을 n번 던지는 경우
  • 이항확률변수의 확률질량변수(PMF): $P(X = k) = \Large n\choose k$ $ p^k(1-p)^{n-k}$ $k \in { 0, 1, ... , n}$
  • 이항확률변수의 특징: X ~ $Bin(n,p)$, Y ~ $Bin(m,p)$ 일 때(서로 독립적임, X의 사건은 Y의 사건과 관련이없음), X+Y ~ $Bin(n+m, p)$ 를 따른다.
    • 즉, n개의 배르누이 시행에 m개의 배르누이 시행을 더하는것 (n번과 m번의 독립적인 Bern(p) 시행 중 성공 횟수)
    • 지시확률변수로 증명
      $X = X_1+X_2+ ... + X_n$
      $Y= Y_1+Y_2 + ... +Y_m$
    • $X+Y = \displaystyle \sum_j ^n X_j + \displaystyle \sum_i ^m Y_i$
    • 이항정리 (PMF로 증명)
      • X+Y가 어떤 수 k일 확률을 증명
      • 이 확률이 이항확률변수의 확률질량함수 형태와 같다면 이 확률변수가 이항확률변수라고 할 수 있음
        ​​ $P(X+Y = k) = \displaystyle \sum_{j=0} ^k P(X+Y=k|X=j)P(X=j)$
        $=\displaystyle \sum_{j=0} ^k P(Y=k-j|X=j) {n\choose j} p^j q^{n-j}$ (X와 Y가 독립이라는 것 Y의 값에 X가 영향을 주지 않는다는 것이므로 X=j는 의미가 없음 -> 없앨 수 있음)
        $=\displaystyle \sum_{j=0} ^k {m\choose k-j} p^{k-j}q^{m-k+j} {n\choose j}p^j q^{n-j}$
        $= p^k q^{m+n-k} \displaystyle \sum_{j=0} ^k{m \choose k-j}{n\choose j}$ (방데르몽드 항등식)
        $= p^k q^{m+n-k} \displaystyle {m+n\choose k}$
        ​​

이항분포 $Bin(n,p)$

  • 연속된 n번의 독립적 시행(베르누이 시행)에서 각 시행이 확률 p를 가질 때의 이산 확률 분포
  • 모수 n, p (n은 양의 정수, p는 [0,1] 사이의 값)에 의해서 분포가 결정됨
  • n=1일 때 이항 분포는 베르누이 분포
  • 이항분포의 평균 : np
  • 이항분포의 분산 : np(1-p)

이항분포가 아닌데 이항분포라고 잘못 판단하는 경우

  • 성공확률이 시행마다 다르면 이항분포라고 할 수 없음
  • EX 1) 52장의 카드 중 5장의 카드를 뽑을 때, 그 중 에이스 카드 수
    : $P(X = k)$ 구하기 $(k \in {0,1,2,3,4 } 외의 값은 0이다)$ (에이스카드는 4장까지만 있기 때문)
  • $P(X=k) = \Large \frac {{4 \choose k} {48\choose 5-k}}{52\choose 5},$ $k \in { 0, 1,2,3 ,4}$
  • EX 2) b개의 검정색 구슬과 w개의 흰색 구슬 중에서 n개의 표본을 무작위로 추출할 때, 표본에 있는 흰색 구슬의 수
  • $P(X = k) = \Large \frac{{w \choose k}{b \choose n-k}}{b+w \choose n}$, $ 0 \le k \le w , 0 \le n-k \le b$

위 두 예제 모두 초기하분포(hypergeometric distribution)로, 복원을 하지 않은 표본추출이라는 점에서 이항분포와 다르다.

▷ 조건확인: $\displaystyle \sum_{k=0} ^w P(X = k) = \large \frac{1}{b+w \choose n} \displaystyle \sum_{k=0} ^w {w \choose k}{b \choose n-k} = {b+w \choose n} \large {\frac {1} {b+w \choose n}} = 1$

→ 표본공간이 충분히 커서 복원 여부가 큰 차이가 나지 않을 때 초기하분포는 이항분포에 근사한다.

베르누이 확률변수와 이항확률변수 비교

  • 평균의 법칙 : 비슷한 것들을 모아놓으면 불확실성은 루트n만큼 증가한다.
  • 제곱근 법칙 : 표본이 늘어날 수록 불확실성(오차)은 루트n만큼 감소한다

확률변수의 독립

확률변수 $X_1, X_2, ... , X_n$가 모든 $x_1, x_2, ... ,x_n$에 대하여

$P(X_1 \le x_1, ... , X_n \le x_n) = P(X_1 \le x_1)\times ... \times P(X_n \le x_n)$ ⋯ <연속확률변수>

$P(X_1 = x_1, ... , X_n = x_n) = P(X_1 = x_1)\times ... \times P(X_n = x_n)$ <이산확률변수>

→ 완전한 독립. 쌍으로 독립(pairwise independence)보다 '센' 개념. (쌍으로 독립이라고 완전히 독립은 아니다)

ex) $X_1, X_2 \sim ^{iid} Bern(1/2)$한 동전 던지기 시행이고,

$X_3 = 1(x_1=x_2일 때; otherwise 0)$ 이라고 하자.

$\rightarrow (X_1, X_2), (X_2,X_3), (X_3,X_1)$는 쌍으로 독립이지만 $(X_1,X_2,X_3)$ 은 독립이 아니다 $(X_1,X_2값이 정해지면 X_3값이 정해진다)$

728x90
반응형