확률변수(Random Variable) (R.V)
- 표본공간 S부터 실수 체계 R로 '맵핑' 하는 함수
- 실수에 대한 확률시행
- 확률시행의 일부분의 수치적인 요약 -> 임의성을 가지게됨
- 표본공간S는 추상적이지만, 실수는 직관적이라 이해하기 쉬움
- 어떤 사건에 어느 정도의 확률이 할당되었는지 묘사한 정보
- cf) 변수란 : (시간에 따라) 변화하는 것을 표현하는 함수
![[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포 0](http://t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png)
확률변수의 2가지 종류
- 이산확률변수 : 유한개의 값 또는 셀 수 있는 개수의 값(열거할 수 있음)으로 구성되어 있는 확률변수. (이산 : 불연속)
- EX)
- EX)
- 연속확률변수 : 연속적인 범위의 값 또는 셀 수 없는 값을 갖는 확률변수. (ex. 시간)
- 이산확률변수와 연속확률변수의 가장 큰 차이점은
로 표현할 수 있는지 차이임
확률분포를 해석하는 방법
예) 이항확률분포 X ~
- 의미 : n번의 독립적인
시행에서 성공한 횟수- 각 시행이 독립적이라는 의미가 중요
- p는 성공확률, 아니면 실패확률
- 지시확률변수(indicator random variables)
- 어떤 사건이 일어나면 1, 아니면 0
- 지시확률변수의 합으로 설명
- i.i.d : 독립적이고 동일하게 분포되었다. (independently identically distributed)
= 성공인 경우 1, 실패인 경우 0- 성공한 횟수를 세는 방식과 같음
- 복잡한 내용을 0과 1로 표현한 것이기에 굉장히 유용함
- 확률질량함수(PMF)
- X가 특정 값을 가질 확률
→ 사건의 발생확률을 구할 수 있음
확률질량함수 (PMF)
- 이산확률변수의 확률함수
조건:
베르누이(Bernoulli) 확률변수
- X가 0(실패), 1(성공) 두 가지의 값만 가질 수 있으며,
일 때
=> X는 분포를 따른다고 한다.- 기대값 : p
이항(Binomial) 확률변수
- n번의 독립적인 베르누이(p) 시행에서 성공 횟수의 분포는
를 따른다고 한다.- EX) 동전을 n번 던지는 경우
- 이항확률변수의 확률질량변수(PMF):
- 이항확률변수의 특징: X ~
, Y ~ 일 때(서로 독립적임, X의 사건은 Y의 사건과 관련이없음), X+Y ~ 를 따른다.- 즉, n개의 배르누이 시행에 m개의 배르누이 시행을 더하는것 (n번과 m번의 독립적인 Bern(p) 시행 중 성공 횟수)
- 지시확률변수로 증명
- 이항정리 (PMF로 증명)
- X+Y가 어떤 수 k일 확률을 증명
- 이 확률이 이항확률변수의 확률질량함수 형태와 같다면 이 확률변수가 이항확률변수라고 할 수 있음
(X와 Y가 독립이라는 것 Y의 값에 X가 영향을 주지 않는다는 것이므로 X=j는 의미가 없음 -> 없앨 수 있음) (방데르몽드 항등식)
이항분포
- 연속된 n번의 독립적 시행(베르누이 시행)에서 각 시행이 확률 p를 가질 때의 이산 확률 분포
- 모수 n, p (n은 양의 정수, p는 [0,1] 사이의 값)에 의해서 분포가 결정됨
- n=1일 때 이항 분포는 베르누이 분포
- 이항분포의 평균 : np
- 이항분포의 분산 : np(1-p)
이항분포가 아닌데 이항분포라고 잘못 판단하는 경우
- 성공확률이 시행마다 다르면 이항분포라고 할 수 없음
- EX 1) 52장의 카드 중 5장의 카드를 뽑을 때, 그 중 에이스 카드 수
: 구하기 (에이스카드는 4장까지만 있기 때문) - EX 2) b개의 검정색 구슬과 w개의 흰색 구슬 중에서 n개의 표본을 무작위로 추출할 때, 표본에 있는 흰색 구슬의 수
,
위 두 예제 모두 초기하분포(hypergeometric distribution)로, 복원을 하지 않은 표본추출이라는 점에서 이항분포와 다르다.
▷ 조건확인:
→ 표본공간이 충분히 커서 복원 여부가 큰 차이가 나지 않을 때 초기하분포는 이항분포에 근사한다.
베르누이 확률변수와 이항확률변수 비교
![[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포 1](http://t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png)
- 평균의 법칙 : 비슷한 것들을 모아놓으면 불확실성은 루트n만큼 증가한다.
- 제곱근 법칙 : 표본이 늘어날 수록 불확실성(오차)은 루트n만큼 감소한다
확률변수의 독립
확률변수
→ 완전한 독립. 쌍으로 독립(pairwise independence)보다 '센' 개념. (쌍으로 독립이라고 완전히 독립은 아니다)
ex)
728x90
반응형
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] 기댓값 (Expected Value) (1) | 2023.12.17 |
---|---|
[기초통계학] 누적분포함수(Cumulative Distribution Function) (1) | 2023.12.17 |
[기초통계학] Gambler's Ruin(도박꾼의 파산) (1) | 2023.12.16 |
[기초통계학] Monty Hall(몬티홀) 문제와 Simpson's Paradox(심슨의 역설) (4) | 2023.12.03 |
[기초통계학] 독립(Independence)과 조건부확률(Conditional Probability)(2) (전체 확률의 법칙, 수형도를 통한 조건부확률의 이해) (0) | 2023.11.05 |