독립 확률변수 (독립성의 정의)
- 모든 x, y 값에 대하여 $P(X \le x, Y \le y) = P(X \le x) P(Y \le y)$ 등식이 성립할 때,
확률변수 X, Y가 독립이라고 할 수 있다. - 이산확률변수의 경우, $P(X=x, Y=y) = P(X = x)P(Y = y)$
(※ 연속확률변수에서는 성립하지 않음!)
평균(Average, Expected Value)
- 산술평균(전부 더해서 나누기)(unweighted average): 1, 2, 3, 4, 5, 6 → $\large \frac {1+2+3+4+5+6}{6}$
- 가중평균(weighted average): 1,1,1,1,1,3,3,5 → $\large \frac {5}{8} \times 1 + \large \frac{2}{8} \times 3+ \large \frac{1}{8} \times 5$
$\large \frac{5}{8}, \large \frac{2}{8}, \large \frac{1}{8}$ 는 가중치. 가중치는 전부 더해서 1이다.
이산확률변수의 기댓값
- $ E(X) = \displaystyle \sum_{x} P(X = x) (P(X = x) >0)$
$\sum$ 값 * 확률질량함수 - 셀수 있는 리스트에 한해 적용
베르누이 확률변수의 기댓값
- $X \sim Bern(p)$
$E(X) = 1 \cdot P(X=1) + 0 \cdot P(X = 0) = p$ - X = 사건 A가 발생한 경우 1, 그 외의 경우 0
- X를 지시확률변수로 생각해 볼 수 있다
- E(X) = P(A)
- 기댓값과 확률의 관계를 이어줌
이항확률분포의 기댓값
$ X \sim Bin(n,p)$
$E(X) = \displaystyle \sum _{k=1} ^n k {n\choose k} p^k q ^{n-k} = \sum _{k=1} ^n n {n-1\choose {k-1}} p^k q ^{n-k}$ (k에 대한 의존을 제거)
$= \displaystyle np \sum _{k=1} ^n {n-1\choose {k-1}} p^{k-1} q ^{n-k}$
$= \displaystyle np\sum _{k=1} ^n {n-1\choose j} p^j q ^{n-1-j}$
이항정리에 의하여 $\displaystyle \sum _{k=1} ^n {n-1\choose j} p^j q ^{n-1-j} = 1 $
따라서 이항확률분포의 기대값은 $np$
기댓값의 선형성(linearity)
- $E(X+Y) = E(X) +E(Y)$ → X, YX,Y가 서로 독립이 아닌 경우에도 성립!
- $E(cX) = cE(X)$ (c는 상수)
선형성 증명하기
$T = X+Y$ 라 할 때, $E(T) = E(X) + E(Y)$
$→ \displaystyle \sum_t tP(T = t)=\sum_x xP(X=x)+\sum_y yP(Y = y)$
- 이산확률변수이므로 확률질량함수를 사용할 수 있음
- 평균을 구하는 방법은 전부 더해서 나누는 방법과, 그룹으로 묶어서 가중평균을 구하는 방법이 있다.
조약돌의 합으로 정의할 수 있음 (전체는 부분의 합)
$E(X) = \displaystyle \sum _x xP(X = x)= \sum _s X(s)P({s}) $ P(s)는 조약돌 s의 질량 (앞의 식은 Grouped, 뒤의 식은 Ungrouped)
$E(T) = \displaystyle \sum_s (X+Y)(s)P({s}) = \sum_s (X(s)+Y(s))P({s})$
$= \displaystyle \sum_s X(s)P({s}) + \sum_s Y(s)P({s}) = E(X) + E(Y)$
- 상수로 곱할 수 있음 (위 E(x)식에서 상수를 시그마 밖으로 꺼내기만 하면됨)
E(cX) = cE(X) (c는 상수)
→ 가장 극단적인 상황: X = Y 이라는 극단적인 종속 상황에서도 성립
$E(X+Y) = E(2X) = 2E(X) = E(X)+E(Y) $
이항확률변수의 기댓값(선형성 이용)
$X = X_1+ ... +X_n $ 이기 때문에 ($X_i$는 각각 베르누이 시행)
$E(X) = n\cdot E(X_1) = np$
EX) 에이스 카드 문제
$X_j$를 j번째 카드가 에이스인 사건을 나타내는 지시확률변수라고 할 때 ($j \in {1,2,3,4,5 }$)
$E(X) = E(X_1+...+X_5) = E(X_1) + ... +E(X_5)=5$
= 5⋅P(첫번째 카드가 에이스)($\frac {4}{52}$) =$\large \frac {5}{13}$
- $X_j$가 서로 종속임에도 성립
- 초기하분포의 기댓값 계산방법 ≅ 이항분포의 기댓값 계산방법
예제
- Putnam 문제: $1, 2, ..., n (n \ge 2)$의 어떤 순열에 대해서 극댓값의 갯수의 기댓값을 구하시오.
- 극대값이란 : 특정 부분만을 놓고 대소를 비교했을 때 가장 함숫값이 크면 극대, 가장 작으면 극소라고 하는 것이다
- 3,2,1,4,7,5,6 이라는 순열이 있을때, 7은 양옆의 4,5보다 크기에 극댓값, 3은 오른쪽의 2보다 크기에 극대값, 6은 왼쪽의 5보다 크기에 극대값
- 중간에 있는 수는 양옆의 수보다 커야하며, 양끝의 수는 왼쪽/오른쪽에 있는 수보다 커야함
$I_j$가 j번째 위치에 극대값이 있음을 가리키는 지시확률변수라 할 때,
$\sum I_j$ = 극대값의 수
$E(I_1+...+I_n) = E(I_1)+...+E(I_n) = \Large \frac{n-2}{3} + \frac{2}{2} = \frac{n+1}{3}$
- 특정 중간 위치에서, 해당 숫자가 양옆의 수보다 클 확률은 $\frac{1}{3}$
- 다만 순열의 양쪽끝은 해당사항이 없기에 2를빼준다.
- 순열의 양쪽 끝 위치에서, 해당 숫자가 옆의 수보다 클 확률은 $\frac{1}{2}$
- 끝은 2개이기에, 위 식에서 +1을 해준다
- 간단한 상황: n=2
- [[ 1 212 ]] [[ 2121 ]] → E(X)=1
- 극단적인 상황:n → ∞
- 극대값 수의 기댓값 → ∞
평균의 법칙
- 시행횟수가 증가할수록 확률오차의 절대적 크기는 증가한다.
- 시행횟수가 증가할수록 시행횟수에 대비한 확률오차의 상대적 크기는 감소함. 이게 바로 평균의 법칙이다.
'Statistics & Math > 기초통계학' 카테고리의 다른 글
[기초통계학] 가설검정과 P값 (p-value) (2) | 2023.12.31 |
---|---|
[기초통계학] 기하분포와 음이항분포 (0) | 2023.12.25 |
[기초통계학] 누적분포함수(Cumulative Distribution Function) (1) | 2023.12.17 |
[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포 (0) | 2023.12.16 |
[기초통계학] Gambler's Ruin(도박꾼의 파산) (1) | 2023.12.16 |