Statistics & Math/기초통계학

[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포

YSY^ 2023. 12. 16. 21:35

확률변수(Random Variable) (R.V)

표본공간 S부터 실수 체계 R로 '맵핑' 하는 함수
- 실수에 대한 확률시행
- 확률시행의 일부분의 수치적인 요약 -> 임의성을 가지게됨
- 표본공간S는 추상적이지만, 실수는 직관적이라 이해하기 쉬움
어떤 사건에 어느 정도의 확률이 할당되었는지 묘사한 정보
cf) 변수란 : (시간에 따라) 변화하는 것을 표현하는 함수

[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포 0

확률변수의 2가지 종류

이산확률변수 : 유한개의 값 또는 셀 수 있는 개수의 값(열거할 수 있음)으로 구성되어 있는 확률변수. (이산 : 불연속)
- EX) $a_{1}, a_{2}, . . ., a_{n}$
연속확률변수 : 연속적인 범위의 값 또는 셀 수 없는 값을 갖는 확률변수. (ex. 시간)

이산확률변수와 연속확률변수의 가장 큰 차이점은 $P (X = x)$ 로 표현할 수 있는지 차이임

확률분포를 해석하는 방법

예) 이항확률분포 X ~ $B i n (n, p)$

의미 : n번의 독립적인 $B e r n o u l l i (p)$ 시행에서 성공한 횟수
- 각 시행이 독립적이라는 의미가 중요
- p는 성공확률, 아니면 실패확률
지시확률변수(indicator random variables)

어떤 사건이 일어나면 1, 아니면 0
지시확률변수의 합으로 설명
$X = X_{1} + X_{2} + . . . + X_{n} = X_{1}, . . . X_{} n \sim^{i i d} B e r n (p)$
- i.i.d : 독립적이고 동일하게 분포되었다. (independently identically distributed)
$X_{j}$ = 성공인 경우 1, 실패인 경우 0
성공한 횟수를 세는 방식과 같음
복잡한 내용을 0과 1로 표현한 것이기에 굉장히 유용함

확률질량함수(PMF)

X가 특정 값을 가질 확률
→ 사건의 발생확률을 구할 수 있음
$(\binom{P (X = k) = n}{k})$ $p^{k} (q)^{n - k} (q = 1 - p)$

확률질량함수 (PMF)

이산확률변수의 확률함수
$p_{j} = P (X = a_{j})$ 조건: $p_{j} \geq 0 \sum_{j} p_{j} = 1$

베르누이(Bernoulli) 확률변수

X가 0(실패), 1(성공) 두 가지의 값만 가질 수 있으며,
$P (X = 1) = p, P (X = 0) = 1 - p$ 일 때
=> X는 $B e r n o u l l i (p)$ 분포를 따른다고 한다.
기대값 : p

이항(Binomial) 확률변수

n번의 독립적인 베르누이(p) 시행에서 성공 횟수의 분포는 $B i n (n, p)$ 를 따른다고 한다.
- EX) 동전을 n번 던지는 경우
이항확률변수의 확률질량변수(PMF): $(\binom{P (X = k) = n}{k})$ $p^{k} (1 - p)^{n - k}$ $k \in 0, 1, . . ., n$
이항확률변수의 특징: X ~ $B i n (n, p)$ , Y ~ $B i n (m, p)$ 일 때(서로 독립적임, X의 사건은 Y의 사건과 관련이없음), X+Y ~ $B i n (n + m, p)$ 를 따른다.
- 즉, n개의 배르누이 시행에 m개의 배르누이 시행을 더하는것 (n번과 m번의 독립적인 Bern(p) 시행 중 성공 횟수)
- 지시확률변수로 증명
  $X = X_{1} + X_{2} + . . . + X_{n}$
  $Y = Y_{1} + Y_{2} + . . . + Y_{m}$
- $X + Y = \sum_{j}^{n} X_{j} + \sum_{i}^{m} Y_{i}$
- 이항정리 (PMF로 증명)
  - X+Y가 어떤 수 k일 확률을 증명
  - 이 확률이 이항확률변수의 확률질량함수 형태와 같다면 이 확률변수가 이항확률변수라고 할 수 있음
    $P (X + Y = k) = \sum_{j = 0}^{k} P (X + Y = k | X = j) P (X = j)$
    $= \sum_{j = 0}^{k} P (Y = k - j | X = j) (\binom{n}{j}) p^{j} q^{n - j}$ (X와 Y가 독립이라는 것 Y의 값에 X가 영향을 주지 않는다는 것이므로 X=j는 의미가 없음 -> 없앨 수 있음)
    $= \sum_{j = 0}^{k} (\binom{m}{k - j}) p^{k - j} q^{m - k + j} (\binom{n}{j}) p^{j} q^{n - j}$
    $= p^{k} q^{m + n - k} \sum_{j = 0}^{k} (\binom{m}{k - j}) (\binom{n}{j})$ (방데르몽드 항등식)
    $= p^{k} q^{m + n - k} (\binom{m + n}{k})$

이항분포 $B i n (n, p)$

연속된 n번의 독립적 시행(베르누이 시행)에서 각 시행이 확률 p를 가질 때의 이산 확률 분포
모수 n, p (n은 양의 정수, p는 [0,1] 사이의 값)에 의해서 분포가 결정됨
n=1일 때 이항 분포는 베르누이 분포
이항분포의 평균 : np
이항분포의 분산 : np(1-p)

이항분포가 아닌데 이항분포라고 잘못 판단하는 경우

성공확률이 시행마다 다르면 이항분포라고 할 수 없음
EX 1) 52장의 카드 중 5장의 카드를 뽑을 때, 그 중 에이스 카드 수
: $P (X = k)$ 구하기 $(k \in 0, 1, 2, 3, 4 외 의 값 은 0 이 다)$ (에이스카드는 4장까지만 있기 때문)
$P (X = k) = \frac{(\binom{4}{k}) (\binom{48}{5 - k})}{(\binom{52}{5})},$ $k \in 0, 1, 2, 3, 4$
EX 2) b개의 검정색 구슬과 w개의 흰색 구슬 중에서 n개의 표본을 무작위로 추출할 때, 표본에 있는 흰색 구슬의 수
$P (X = k) = \frac{(\binom{w}{k}) (\binom{b}{n - k})}{(\binom{b + w}{n})}$ , $0 \leq k \leq w, 0 \leq n - k \leq b$

위 두 예제 모두 초기하분포(hypergeometric distribution)로, 복원을 하지 않은 표본추출이라는 점에서 이항분포와 다르다.

▷ 조건확인: $\sum_{k = 0}^{w} P (X = k) = \frac{1}{(\binom{b + w}{n})} \sum_{k = 0}^{w} (\binom{w}{k}) (\binom{b}{n - k}) = (\binom{b + w}{n}) \frac{1}{(\binom{b + w}{n})} = 1$

→ 표본공간이 충분히 커서 복원 여부가 큰 차이가 나지 않을 때 초기하분포는 이항분포에 근사한다.

베르누이 확률변수와 이항확률변수 비교

[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포 1

평균의 법칙 : 비슷한 것들을 모아놓으면 불확실성은 루트n만큼 증가한다.
제곱근 법칙 : 표본이 늘어날 수록 불확실성(오차)은 루트n만큼 감소한다

확률변수의 독립

확률변수 $X_{1}, X_{2}, . . ., X_{n}$ 가 모든 $x_{1}, x_{2}, . . ., x_{n}$ 에 대하여

$P (X_{1} \leq x_{1}, . . ., X_{n} \leq x_{n}) = P (X_{1} \leq x_{1}) \times . . . \times P (X_{n} \leq x_{n})$ ⋯ <연속확률변수>

$P (X_{1} = x_{1}, . . ., X_{n} = x_{n}) = P (X_{1} = x_{1}) \times . . . \times P (X_{n} = x_{n})$ <이산확률변수>

→ 완전한 독립. 쌍으로 독립(pairwise independence)보다 '센' 개념. (쌍으로 독립이라고 완전히 독립은 아니다)

ex) $X_{1}, X_{2} \sim^{i i d} B e r n (1 / 2)$ 한 동전 던지기 시행이고,

$X_{3} = 1 (x_{1} = x_{2} 일 때; o t h e r w i s e 0)$ 이라고 하자.

$\to (X_{1}, X_{2}), (X_{2}, X_{3}), (X_{3}, X_{1})$ 는 쌍으로 독립이지만 $(X_{1}, X_{2}, X_{3})$ 은 독립이 아니다 $(X_{1}, X_{2} 값 이 정 해 지 면 X_{3} 값 이 정 해 진 다)$

728x90

저작자표시 비영리

'Statistics & Math > 기초통계학' 카테고리의 다른 글

[기초통계학] 기댓값 (Expected Value) (1)	2023.12.17
[기초통계학] 누적분포함수(Cumulative Distribution Function) (1)	2023.12.17
[기초통계학] Gambler's Ruin(도박꾼의 파산) (1)	2023.12.16
[기초통계학] Monty Hall(몬티홀) 문제와 Simpson's Paradox(심슨의 역설) (4)	2023.12.03
[기초통계학] 독립(Independence)과 조건부확률(Conditional Probability)(2) (전체 확률의 법칙, 수형도를 통한 조건부확률의 이해) (0)	2023.11.05

현재글[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포

확률변수(Random Variable) (R.V)

확률변수의 2가지 종류

확률분포를 해석하는 방법

확률질량함수 (PMF)

베르누이(Bernoulli) 확률변수

이항(Binomial) 확률변수

이항분포 $B i n (n, p)$

이항분포가 아닌데 이항분포라고 잘못 판단하는 경우

베르누이 확률변수와 이항확률변수 비교

확률변수의 독립

'Statistics & Math > 기초통계학' 카테고리의 다른 글

'Statistics & Math/기초통계학'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포

확률변수(Random Variable) (R.V)

확률변수의 2가지 종류

확률분포를 해석하는 방법

확률질량함수 (PMF)

베르누이(Bernoulli) 확률변수

이항(Binomial) 확률변수

이항분포 Bin(n,p)

이항분포가 아닌데 이항분포라고 잘못 판단하는 경우

베르누이 확률변수와 이항확률변수 비교

확률변수의 독립

'Statistics & Math > 기초통계학' 카테고리의 다른 글

'Statistics & Math/기초통계학'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

이항분포 $B i n (n, p)$