Statistics & Math/기초통계학

[기초통계학] 기댓값 (Expected Value)

YSY^ 2023. 12. 17. 22:02

독립 확률변수 (독립성의 정의)

  • 모든 x, y 값에 대하여 $P(X \le x, Y \le y) = P(X \le x) P(Y \le y)$ 등식이 성립할 때,
    확률변수 X, Y가 독립이라고 할 수 있다.
  • 이산확률변수의 경우, $P(X=x, Y=y) = P(X = x)P(Y = y)$
    (※ 연속확률변수에서는 성립하지 않음!)

평균(Average, Expected Value)

  1. 산술평균(전부 더해서 나누기)(unweighted average): 1, 2, 3, 4, 5, 6 → $\large \frac {1+2+3+4+5+6}{6}$
  2. 가중평균(weighted average): 1,1,1,1,1,3,3,5 → $\large \frac {5}{8} \times 1 + \large \frac{2}{8} \times 3+ \large \frac{1}{8} \times 5$
    $\large \frac{5}{8}, \large \frac{2}{8}, \large \frac{1}{8}$ 는 가중치. 가중치는 전부 더해서 1이다.

이산확률변수의 기댓값

  • $ E(X) = \displaystyle \sum_{x} P(X = x) (P(X = x) >0)$
    $\sum$ 값 * 확률질량함수
  • 셀수 있는 리스트에 한해 적용

베르누이 확률변수의 기댓값

  • $X \sim Bern(p)$
    $E(X) = 1 \cdot P(X=1) + 0 \cdot P(X = 0) = p$
  • X = 사건 A가 발생한 경우 1, 그 외의 경우 0
    • X를 지시확률변수로 생각해 볼 수 있다
  • E(X) = P(A)
  • 기댓값과 확률의 관계를 이어줌

이항확률분포의 기댓값

$ X \sim Bin(n,p)$
$E(X) = \displaystyle \sum _{k=1} ^n k {n\choose k} p^k q ^{n-k} = \sum _{k=1} ^n n {n-1\choose {k-1}} p^k q ^{n-k}$ (k에 대한 의존을 제거)
$= \displaystyle np \sum _{k=1} ^n {n-1\choose {k-1}} p^{k-1} q ^{n-k}$
$= \displaystyle np\sum _{k=1} ^n {n-1\choose j} p^j q ^{n-1-j}$
이항정리에 의하여 $\displaystyle \sum _{k=1} ^n {n-1\choose j} p^j q ^{n-1-j} = 1 $
따라서 이항확률분포의 기대값은 $np$

기댓값의 선형성(linearity)

  • $E(X+Y) = E(X) +E(Y)$ → X, YX,Y가 서로 독립이 아닌 경우에도 성립!
  • $E(cX) = cE(X)$ (c는 상수)

선형성 증명하기

$T = X+Y$ 라 할 때, $E(T) = E(X) + E(Y)$

$→ \displaystyle \sum_t tP(T = t)=\sum_x xP(X=x)+\sum_y yP(Y = y)$

  • 이산확률변수이므로 확률질량함수를 사용할 수 있음
  • 평균을 구하는 방법은 전부 더해서 나누는 방법과, 그룹으로 묶어서 가중평균을 구하는 방법이 있다.

조약돌의 합으로 정의할 수 있음 (전체는 부분의 합)

$E(X) = \displaystyle \sum _x xP(X = x)= \sum _s X(s)P({s}) $ P(s)는 조약돌 s의 질량 (앞의 식은 Grouped, 뒤의 식은 Ungrouped)
$E(T) = \displaystyle \sum_s (X+Y)(s)P({s}) = \sum_s (X(s)+Y(s))P({s})$
$= \displaystyle \sum_s X(s)P({s}) + \sum_s Y(s)P({s}) = E(X) + E(Y)$

  • 상수로 곱할 수 있음 (위 E(x)식에서 상수를 시그마 밖으로 꺼내기만 하면됨)
    E(cX) = cE(X) (c는 상수)

→ 가장 극단적인 상황: X = Y 이라는 극단적인 종속 상황에서도 성립

$E(X+Y) = E(2X) = 2E(X) = E(X)+E(Y) $

이항확률변수의 기댓값(선형성 이용)

$X = X_1+ ... +X_n $ 이기 때문에 ($X_i$는 각각 베르누이 시행)
$E(X) = n\cdot E(X_1) = np$

EX) 에이스 카드 문제
$X_j$를 j번째 카드가 에이스인 사건을 나타내는 지시확률변수라고 할 때 ($j \in {1,2,3,4,5 }$)

$E(X) = E(X_1+...+X_5) = E(X_1) + ... +E(X_5)=5$
= 5⋅P(첫번째 카드가 에이스)($\frac {4}{52}$) =$\large \frac {5}{13}$

  • $X_j$가 서로 종속임에도 성립
  • 초기하분포의 기댓값 계산방법 ≅ 이항분포의 기댓값 계산방법

예제

  1. Putnam 문제: $1, 2, ..., n (n \ge 2)$의 어떤 순열에 대해서 극댓값의 갯수의 기댓값을 구하시오.
  • 극대값이란 : 특정 부분만을 놓고 대소를 비교했을 때 가장 함숫값이 크면 극대, 가장 작으면 극소라고 하는 것이다
    • 3,2,1,4,7,5,6 이라는 순열이 있을때, 7은 양옆의 4,5보다 크기에 극댓값, 3은 오른쪽의 2보다 크기에 극대값, 6은 왼쪽의 5보다 크기에 극대값
    • 중간에 있는 수는 양옆의 수보다 커야하며, 양끝의 수는 왼쪽/오른쪽에 있는 수보다 커야함

$I_j$가 j번째 위치에 극대값이 있음을 가리키는 지시확률변수라 할 때,
$\sum I_j$ = 극대값의 수
$E(I_1+...+I_n) = E(I_1)+...+E(I_n) = \Large \frac{n-2}{3} + \frac{2}{2} = \frac{n+1}{3}$

  • 특정 중간 위치에서, 해당 숫자가 양옆의 수보다 클 확률은 $\frac{1}{3}$
    • 다만 순열의 양쪽끝은 해당사항이 없기에 2를빼준다.
  • 순열의 양쪽 끝 위치에서, 해당 숫자가 옆의 수보다 클 확률은 $\frac{1}{2}$
    • 끝은 2개이기에, 위 식에서 +1을 해준다
  • 간단한 상황: n=2
  • [[ 1 212 ]] [[ 2121 ]] → E(X)=1
  • 극단적인 상황:n → ∞
  • 극대값 수의 기댓값 → ∞

 

평균의 법칙

  • 시행횟수가 증가할수록 확률오차의 절대적 크기는 증가한다.

  • 시행횟수가 증가할수록 시행횟수에 대비한 확률오차의 상대적 크기는 감소함. 이게 바로 평균의 법칙이다.

 

728x90
반응형