Statistics & Math/기초통계학

[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포

YSY^ 2023. 12. 16. 21:35

확률변수(Random Variable) (R.V)

  • 표본공간 S부터 실수 체계 R로 '맵핑' 하는 함수
    • 실수에 대한 확률시행
    • 확률시행의 일부분의 수치적인 요약 -> 임의성을 가지게됨
    • 표본공간S는 추상적이지만, 실수는 직관적이라 이해하기 쉬움
  • 어떤 사건에 어느 정도의 확률이 할당되었는지 묘사한 정보
  • cf) 변수란 : (시간에 따라) 변화하는 것을 표현하는 함수

[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포 0

확률변수의 2가지 종류

  1. 이산확률변수 : 유한개의 값 또는 셀 수 있는 개수의 값(열거할 수 있음)으로 구성되어 있는 확률변수. (이산 : 불연속)
    • EX) a1,a2,...,an
  2. 연속확률변수 : 연속적인 범위의 값 또는 셀 수 없는 값을 갖는 확률변수. (ex. 시간)
  • 이산확률변수와 연속확률변수의 가장 큰 차이점은 P(X=x)로 표현할 수 있는지 차이임

확률분포를 해석하는 방법

예) 이항확률분포 X ~ Bin(n,p)

  1. 의미 : n번의 독립적인 Bernoulli(p) 시행에서 성공한 횟수
    • 각 시행이 독립적이라는 의미가 중요
    • p는 성공확률, 아니면 실패확률
  2. 지시확률변수(indicator random variables)
  • 어떤 사건이 일어나면 1, 아니면 0
  • 지시확률변수의 합으로 설명
  • X=X1+X2+...+Xn=X1,...XniidBern(p)
    • i.i.d : 독립적이고 동일하게 분포되었다. (independently identically distributed)
  • Xj = 성공인 경우 1, 실패인 경우 0
  • 성공한 횟수를 세는 방식과 같음
  • 복잡한 내용을 0과 1로 표현한 것이기에 굉장히 유용함
  1. 확률질량함수(PMF)
  • X가 특정 값을 가질 확률
    → 사건의 발생확률을 구할 수 있음
  • (P(X=k)=nk) pk(q)nk(q=1p)

확률질량함수 (PMF)

  • 이산확률변수의 확률함수
  • pj=P(X=aj) 조건: pj0jpj=1

베르누이(Bernoulli) 확률변수

  • X가 0(실패), 1(성공) 두 가지의 값만 가질 수 있으며,
  • P(X=1)=p,P(X=0)=1p 일 때
    => X는 Bernoulli(p) 분포를 따른다고 한다.
  • 기대값 : p

이항(Binomial) 확률변수

  • n번의 독립적인 베르누이(p) 시행에서 성공 횟수의 분포는 Bin(n,p) 를 따른다고 한다.
    • EX) 동전을 n번 던지는 경우
  • 이항확률변수의 확률질량변수(PMF): (P(X=k)=nk) pk(1p)nk k0,1,...,n
  • 이항확률변수의 특징: X ~ Bin(n,p), Y ~ Bin(m,p) 일 때(서로 독립적임, X의 사건은 Y의 사건과 관련이없음), X+Y ~ Bin(n+m,p) 를 따른다.
    • 즉, n개의 배르누이 시행에 m개의 배르누이 시행을 더하는것 (n번과 m번의 독립적인 Bern(p) 시행 중 성공 횟수)
    • 지시확률변수로 증명
      X=X1+X2+...+Xn
      Y=Y1+Y2+...+Ym
    • X+Y=jnXj+imYi
    • 이항정리 (PMF로 증명)
      • X+Y가 어떤 수 k일 확률을 증명
      • 이 확률이 이항확률변수의 확률질량함수 형태와 같다면 이 확률변수가 이항확률변수라고 할 수 있음
        ​​ P(X+Y=k)=j=0kP(X+Y=k|X=j)P(X=j)
        =j=0kP(Y=kj|X=j)(nj)pjqnj (X와 Y가 독립이라는 것 Y의 값에 X가 영향을 주지 않는다는 것이므로 X=j는 의미가 없음 -> 없앨 수 있음)
        =j=0k(mkj)pkjqmk+j(nj)pjqnj
        =pkqm+nkj=0k(mkj)(nj) (방데르몽드 항등식)
        =pkqm+nk(m+nk)
        ​​

이항분포 Bin(n,p)

  • 연속된 n번의 독립적 시행(베르누이 시행)에서 각 시행이 확률 p를 가질 때의 이산 확률 분포
  • 모수 n, p (n은 양의 정수, p는 [0,1] 사이의 값)에 의해서 분포가 결정됨
  • n=1일 때 이항 분포는 베르누이 분포
  • 이항분포의 평균 : np
  • 이항분포의 분산 : np(1-p)

이항분포가 아닌데 이항분포라고 잘못 판단하는 경우

  • 성공확률이 시행마다 다르면 이항분포라고 할 수 없음
  • EX 1) 52장의 카드 중 5장의 카드를 뽑을 때, 그 중 에이스 카드 수
    : P(X=k) 구하기 (k0,1,2,3,40) (에이스카드는 4장까지만 있기 때문)
  • P(X=k)=(4k)(485k)(525), k0,1,2,3,4
  • EX 2) b개의 검정색 구슬과 w개의 흰색 구슬 중에서 n개의 표본을 무작위로 추출할 때, 표본에 있는 흰색 구슬의 수
  • P(X=k)=(wk)(bnk)(b+wn), 0kw,0nkb

위 두 예제 모두 초기하분포(hypergeometric distribution)로, 복원을 하지 않은 표본추출이라는 점에서 이항분포와 다르다.

▷ 조건확인: k=0wP(X=k)=1(b+wn)k=0w(wk)(bnk)=(b+wn)1(b+wn)=1

→ 표본공간이 충분히 커서 복원 여부가 큰 차이가 나지 않을 때 초기하분포는 이항분포에 근사한다.

베르누이 확률변수와 이항확률변수 비교

[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포 1

  • 평균의 법칙 : 비슷한 것들을 모아놓으면 불확실성은 루트n만큼 증가한다.
  • 제곱근 법칙 : 표본이 늘어날 수록 불확실성(오차)은 루트n만큼 감소한다

확률변수의 독립

확률변수 X1,X2,...,Xn가 모든 x1,x2,...,xn에 대하여

P(X1x1,...,Xnxn)=P(X1x1)×...×P(Xnxn) ⋯ <연속확률변수>

P(X1=x1,...,Xn=xn)=P(X1=x1)×...×P(Xn=xn) <이산확률변수>

→ 완전한 독립. 쌍으로 독립(pairwise independence)보다 '센' 개념. (쌍으로 독립이라고 완전히 독립은 아니다)

ex) X1,X2iidBern(1/2)한 동전 던지기 시행이고,

X3=1(x1=x2;otherwise0) 이라고 하자.

(X1,X2),(X2,X3),(X3,X1)는 쌍으로 독립이지만 (X1,X2,X3) 은 독립이 아니다 (X1,X2X3)

728x90
반응형