확률변수(Random Variable) (R.V)
- 표본공간 S부터 실수 체계 R로 '맵핑' 하는 함수
- 실수에 대한 확률시행
- 확률시행의 일부분의 수치적인 요약 -> 임의성을 가지게됨
- 표본공간S는 추상적이지만, 실수는 직관적이라 이해하기 쉬움
- 어떤 사건에 어느 정도의 확률이 할당되었는지 묘사한 정보
- cf) 변수란 : (시간에 따라) 변화하는 것을 표현하는 함수
확률변수의 2가지 종류
- 이산확률변수 : 유한개의 값 또는 셀 수 있는 개수의 값(열거할 수 있음)으로 구성되어 있는 확률변수. (이산 : 불연속)
- EX) $a_1, a_2, ... ,a_n$
- 연속확률변수 : 연속적인 범위의 값 또는 셀 수 없는 값을 갖는 확률변수. (ex. 시간)
- 이산확률변수와 연속확률변수의 가장 큰 차이점은 $P(X=x)$로 표현할 수 있는지 차이임
확률분포를 해석하는 방법
예) 이항확률분포 X ~ $Bin(n,p)$
- 의미 : n번의 독립적인 $Bernoulli(p)$ 시행에서 성공한 횟수
- 각 시행이 독립적이라는 의미가 중요
- p는 성공확률, 아니면 실패확률
- 지시확률변수(indicator random variables)
- 어떤 사건이 일어나면 1, 아니면 0
- 지시확률변수의 합으로 설명
- $X = X_1+X_2+...+X_n = X_1 ,...X_n \sim ^{iid} Bern(p)$
- i.i.d : 독립적이고 동일하게 분포되었다. (independently identically distributed)
- $X_j$ = 성공인 경우 1, 실패인 경우 0
- 성공한 횟수를 세는 방식과 같음
- 복잡한 내용을 0과 1로 표현한 것이기에 굉장히 유용함
- 확률질량함수(PMF)
- X가 특정 값을 가질 확률
→ 사건의 발생확률을 구할 수 있음 - $P(X = k) = \Large n\choose k$ $ p^k(q)^{n-k} (q=1-p)$
확률질량함수 (PMF)
- 이산확률변수의 확률함수
- $p_j = P(X=a_j)$ 조건: $p_j \ge 0 \displaystyle \sum_j p_j = 1$
베르누이(Bernoulli) 확률변수
- X가 0(실패), 1(성공) 두 가지의 값만 가질 수 있으며,
- $P(X=1)=p, P(X=0) = 1-p$ 일 때
=> X는 $Bernoulli(p)$ 분포를 따른다고 한다. - 기대값 : p
이항(Binomial) 확률변수
- n번의 독립적인 베르누이(p) 시행에서 성공 횟수의 분포는 $Bin(n,p)$ 를 따른다고 한다.
- EX) 동전을 n번 던지는 경우
- 이항확률변수의 확률질량변수(PMF): $P(X = k) = \Large n\choose k$ $ p^k(1-p)^{n-k}$ $k \in { 0, 1, ... , n}$
- 이항확률변수의 특징: X ~ $Bin(n,p)$, Y ~ $Bin(m,p)$ 일 때(서로 독립적임, X의 사건은 Y의 사건과 관련이없음), X+Y ~ $Bin(n+m, p)$ 를 따른다.
- 즉, n개의 배르누이 시행에 m개의 배르누이 시행을 더하는것 (n번과 m번의 독립적인 Bern(p) 시행 중 성공 횟수)
- 지시확률변수로 증명
$X = X_1+X_2+ ... + X_n$
$Y= Y_1+Y_2 + ... +Y_m$ - $X+Y = \displaystyle \sum_j ^n X_j + \displaystyle \sum_i ^m Y_i$
- 이항정리 (PMF로 증명)
- X+Y가 어떤 수 k일 확률을 증명
- 이 확률이 이항확률변수의 확률질량함수 형태와 같다면 이 확률변수가 이항확률변수라고 할 수 있음
$P(X+Y = k) = \displaystyle \sum_{j=0} ^k P(X+Y=k|X=j)P(X=j)$
$=\displaystyle \sum_{j=0} ^k P(Y=k-j|X=j) {n\choose j} p^j q^{n-j}$ (X와 Y가 독립이라는 것 Y의 값에 X가 영향을 주지 않는다는 것이므로 X=j는 의미가 없음 -> 없앨 수 있음)
$=\displaystyle \sum_{j=0} ^k {m\choose k-j} p^{k-j}q^{m-k+j} {n\choose j}p^j q^{n-j}$
$= p^k q^{m+n-k} \displaystyle \sum_{j=0} ^k{m \choose k-j}{n\choose j}$ (방데르몽드 항등식)
$= p^k q^{m+n-k} \displaystyle {m+n\choose k}$
이항분포 $Bin(n,p)$
- 연속된 n번의 독립적 시행(베르누이 시행)에서 각 시행이 확률 p를 가질 때의 이산 확률 분포
- 모수 n, p (n은 양의 정수, p는 [0,1] 사이의 값)에 의해서 분포가 결정됨
- n=1일 때 이항 분포는 베르누이 분포
- 이항분포의 평균 : np
- 이항분포의 분산 : np(1-p)
이항분포가 아닌데 이항분포라고 잘못 판단하는 경우
- 성공확률이 시행마다 다르면 이항분포라고 할 수 없음
- EX 1) 52장의 카드 중 5장의 카드를 뽑을 때, 그 중 에이스 카드 수
: $P(X = k)$ 구하기 $(k \in {0,1,2,3,4 } 외의 값은 0이다)$ (에이스카드는 4장까지만 있기 때문) - $P(X=k) = \Large \frac {{4 \choose k} {48\choose 5-k}}{52\choose 5},$ $k \in { 0, 1,2,3 ,4}$
- EX 2) b개의 검정색 구슬과 w개의 흰색 구슬 중에서 n개의 표본을 무작위로 추출할 때, 표본에 있는 흰색 구슬의 수
- $P(X = k) = \Large \frac{{w \choose k}{b \choose n-k}}{b+w \choose n}$, $ 0 \le k \le w , 0 \le n-k \le b$
위 두 예제 모두 초기하분포(hypergeometric distribution)로, 복원을 하지 않은 표본추출이라는 점에서 이항분포와 다르다.
▷ 조건확인: $\displaystyle \sum_{k=0} ^w P(X = k) = \large \frac{1}{b+w \choose n} \displaystyle \sum_{k=0} ^w {w \choose k}{b \choose n-k} = {b+w \choose n} \large {\frac {1} {b+w \choose n}} = 1$
→ 표본공간이 충분히 커서 복원 여부가 큰 차이가 나지 않을 때 초기하분포는 이항분포에 근사한다.
베르누이 확률변수와 이항확률변수 비교
- 평균의 법칙 : 비슷한 것들을 모아놓으면 불확실성은 루트n만큼 증가한다.
- 제곱근 법칙 : 표본이 늘어날 수록 불확실성(오차)은 루트n만큼 감소한다
확률변수의 독립
확률변수 $X_1, X_2, ... , X_n$가 모든 $x_1, x_2, ... ,x_n$에 대하여
$P(X_1 \le x_1, ... , X_n \le x_n) = P(X_1 \le x_1)\times ... \times P(X_n \le x_n)$ ⋯ <연속확률변수>
$P(X_1 = x_1, ... , X_n = x_n) = P(X_1 = x_1)\times ... \times P(X_n = x_n)$ <이산확률변수>
→ 완전한 독립. 쌍으로 독립(pairwise independence)보다 '센' 개념. (쌍으로 독립이라고 완전히 독립은 아니다)
ex) $X_1, X_2 \sim ^{iid} Bern(1/2)$한 동전 던지기 시행이고,
$X_3 = 1(x_1=x_2일 때; otherwise 0)$ 이라고 하자.
$\rightarrow (X_1, X_2), (X_2,X_3), (X_3,X_1)$는 쌍으로 독립이지만 $(X_1,X_2,X_3)$ 은 독립이 아니다 $(X_1,X_2값이 정해지면 X_3값이 정해진다)$
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] 기댓값 (Expected Value) (1) | 2023.12.17 |
---|---|
[기초통계학] 누적분포함수(Cumulative Distribution Function) (1) | 2023.12.17 |
[기초통계학] Gambler's Ruin(도박꾼의 파산) (1) | 2023.12.16 |
[기초통계학] Monty Hall(몬티홀) 문제와 Simpson's Paradox(심슨의 역설) (4) | 2023.12.03 |
[기초통계학] 독립(Independence)과 조건부확률(Conditional Probability)(2) (전체 확률의 법칙, 수형도를 통한 조건부확률의 이해) (0) | 2023.11.05 |