반응형

기초통계학 24

[기초통계학] 포아송분포(poisson distribution)

포아송분포(poisson distribution) (푸아송분포)낮은 확률로 일어나는 무작위 사건에 대해 평균이 $\lambda$ 일때 몇 번(k) 일어나는지를 나타내는 확률분포ex) 한 시간 동안 오는 이메일의 갯수이항분포의 특수한 경우이며, 시행횟수가 무수히 많아지고 발생확률은 아주 작은 경우$X \sim Pois(\lambda)$ 로 표현포아송 분포 공식 : $P(X=k) = \Large \frac {e^{- \lambda} \lambda^k}{k!}$ $ (k \in {0,1,2,... })$이항분포는 0부터 n까지 k의 범위가 정해져 있지만 포아송에서는 음수가 아닌 모든 정수가 가능함.λ는 (속도를 나타내는) 모수(비율모수)로, λ>0 인 상수이다.평균을 나타내며 동시에 분산이기도함. 뜩 평균과 ..

[기초통계학] 가설검정과 P값 (p-value)

통계에서 p-value(p값) 라는 용어를 많이 쓰지만 이것이 무엇인지 제대로 알고 쓰는 사람은 많지 않습니다. 따라서 이번 포스팅에서는 p-value에 대해 알아보겠습니다. 가설 검정가설검정 :  모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미 보통 p-value는 가설검정을 할 때 자주 활용되는데요. 가설을 입증하는 것은 먼저 차이가 없다는것을 가정(귀무가설)한다음, 차이가 없지 않다를 증명하는 방식입니다. 즉, 가장 보수적인 상태를 놓고 새로운 가설을 만들어서, 기존의 가설을 비판해서 반박이 되는지 확인하는 것입니다.EX) 힉스입자를 판별한 건힉스입자를 발견한 논문에서 힉스입자가 존재한다는 아래와 같이 증명하였습니다귀무가설 : 우리..

[기초통계학] 기하분포와 음이항분포

기하확률분포(geometric random variable) $ Geom(p)$: 여러 번의 $Bern(p)$ 독립시행에서 첫 번째 성공까지의 실패 수 성공전에 얼마나 실패했는지 보여줌 이항분포나 초기하분포에서는 시행횟수 n을 정해놓고, 성공한 횟수에 관심을 가졌으나, 기하분포는 시행횟수에 초점을 맞춘것 기하분포에서는 X는 성공할때까지 시행했을때 실패한 횟수이며, U는 성공할때까지 시행한 횟수를 의미 Y = X + 1 이런 확률질량함수를 가지는 경우 모수가 p인 기하분포를 따른다고 한다. $X \sim Geom(p), (q = 1-p)$라고 할 때, X의 확률질량함수: $P(X = k) = pq^k (k \in { 0,1,...})$ 조건 확인: $\displaystyle \sum _{k=0} ^\inf..

[기초통계학] 기댓값 (Expected Value)

독립 확률변수 (독립성의 정의)모든 x, y 값에 대하여 $P(X \le x, Y \le y) = P(X \le x) P(Y \le y)$ 등식이 성립할 때,확률변수 X, Y가 독립이라고 할 수 있다.이산확률변수의 경우, $P(X=x, Y=y) = P(X = x)P(Y = y)$(※ 연속확률변수에서는 성립하지 않음!)평균(Average, Expected Value)산술평균(전부 더해서 나누기)(unweighted average): 1, 2, 3, 4, 5, 6 → $\large \frac {1+2+3+4+5+6}{6}$가중평균(weighted average): 1,1,1,1,1,3,3,5 → $\large \frac {5}{8} \times 1 + \large \frac{2}{8} \times 3+ \l..

[기초통계학] 누적분포함수(Cumulative Distribution Function)

누적분포함수(CDF) 주어진 확률변수가 특정 값보다 작거나 같은 확률을 나타내는 함수 (분포를 설명하는 방식) '누적'이라는 이름은 특정 값보다 작은 값들의 확률을 모두 누적해서 구한다는 의미에서 붙여진 이름 '누적분포'함수 이기 때문에 확률변수에 대응하는 모든 확률의 합은 1이 되어야 한다. $X \le x$이라는 사건 → 확률을 구할 수 있음 cf) X = 7 -> 사건을 의미 $F(X) = P(X \le x)$ 이때 F를 누적분포함수라고 지칭 이산확률분포인 경우 누적분포함수는 각 확률 질량 함수 값들을 누적하여 계산 즉, 확률 변수가 특정 값보다 작거나 같을 확률을 해당 값 이하의 모든 확률질량함수 값의 합으로 계산 $F(x)=P(X \leq x)= \sum_{i \leq x}P(X=i)$ 연속확률..

[기초통계학] 확률변수 (Random Variable), 베르누이시행, 이항분포

확률변수(Random Variable) (R.V)표본공간 S부터 실수 체계 R로 '맵핑' 하는 함수실수에 대한 확률시행확률시행의 일부분의 수치적인 요약 -> 임의성을 가지게됨표본공간S는 추상적이지만, 실수는 직관적이라 이해하기 쉬움어떤 사건에 어느 정도의 확률이 할당되었는지 묘사한 정보cf) 변수란 : (시간에 따라) 변화하는 것을 표현하는 함수확률변수의 2가지 종류이산확률변수 : 유한개의 값 또는 셀 수 있는 개수의 값(열거할 수 있음)으로 구성되어 있는 확률변수. (이산 : 불연속)EX) $a_1, a_2, ... ,a_n$연속확률변수 : 연속적인 범위의 값 또는 셀 수 없는 값을 갖는 확률변수. (ex. 시간)이산확률변수와 연속확률변수의 가장 큰 차이점은 $P(X=x)$로 표현할 수 있는지 차이임확..

[기초통계학] Gambler's Ruin(도박꾼의 파산)

Gambler's Ruin(도박꾼의 파산) A와 B 두 명의 도박꾼이 매 라운드 $1씩 걸고 도박을 한다. 이긴 사람은 상대방의 $1을 가져가고, 둘 중 한 명이 가지고 온 돈이 바닥날 때까지 이 과정을 반복한다. $p = P(A가 어떤 라운드를 이긴다)$ $q = 1-p$ A는 i 달러, B는 N-i 달러를 가지고 게임을 한다고 할 때, p의 확률로 A가 1달러를 더 얻고, q의 확률로 1달러를 잃는다. 0, N은 흡수상태(absorbing state)라 하여, 게임 종료를 나타낸다. $p_i$​​ : A가 i 달러로 시작하여 게임을 이길 확률 $p_i = p \cdot p_{i+1}+q \cdot p_{i-1} ( 1 \le i \le N-1) 이고$ $ p_0 = 0 (A가 파산한 상태에서 시작하는..

[기초통계학] Monty Hall(몬티홀) 문제와 Simpson's Paradox(심슨의 역설)

Monty Hall 문제 세 개의 문 중에 하나 뒤에는 자동차가 있고, 나머지 두 개 뒤에는 염소가 있다. Monty가 내가 고르지 않은 문 중 하나를 열어 염소가 있는 것을 보여줬다면, 나는 처음 고른 문에서 바꾸는 것이 유리한가, 그렇지 않은가? 1. 수형도로 확인한다. CASE 1) 내가 고른문이 1번, 자동차가 있는 문이 1번인 경우 Monty는 2번이나 3번문을 열수밖에 없으며 각각의 확률은 1/2씩이다 CASE 2) 내가 고른문이 1번, 자동차가 있는 문이 2번인 경우 Monty는 3번문을 열어줄 수 밖에 없으며 확률은 1이다 CASE 3) 내가 고른문이 1번, 자동차가 있는 문이 3번인 경우 Monty는 2번문을 열어줄 수 밖에 없으며 확률은 1이다 여기서 내가 1번문을 선택했는데, Mont..

[기초통계학] 독립(Independence)과 조건부확률(Conditional Probability)(2) (전체 확률의 법칙, 수형도를 통한 조건부확률의 이해)

전체 확률의 법칙 A1, A2, A3, A4: 전체인 S를 분할한 것 (공간을 서로소 집합으로 분할) 주어진 자료로 문제를 잘 '분할'하여 접근하기 S를 $A_1, A_2, ... A_n$ 의 서로소인 분할들로 나누어 놓았다고 했을 때, $P(B) = P(B \cap A_1) + P(B \cap A_2) + ... + P(B \cap A_n)$ 가 성립하며, 이는 곧 $ = P(B|A_1)P(A_1) + P(B|A_2)P(A_2) +... + P(B|A_n)P(A_n)$ 로도 다시 쓰일 수 있다. 이를 전체 확률의 법칙(Law of Total Probability)라고 한다. 조건부 확률과 예시 조건부 독립: 'A와 B는 조건 C 하에서 독립이다' 정의) $P(A \cap B|C) = P(A|C)P(B|..

[기초통계학] 독립(Independence)과 조건부확률(Conditional Probability) (1)

독립 (Independence) 정의) $P(A \cap B) = P(A)P(B)$이 성립할 때, 사건 A와 B는 독립이다. 주의하기: 서로소(disjoint) 와 구별하기 – A와 B가 서로소인 사건이라면, A가 발생했을 때 B는 발생할 수 없다. (한편, A와 B가 독립이라면, 사건 A의 발생은 B의 발생여부에 대한 그 어떤 영향도 끼치지 않음) $P(A \cap B) = P(A)P(B)$ $P(B \cap C) = P(B)P(C)$ $P(C \cap A) = P(C)P(A)$ $P(A \cap B \cap C) = P(A)P(B)P(C)$ 가 모두 성립할 때, 사건 A, B, C는 독립이다. → 쌍으로 독립(pairwise independence)과 전체 독립 모두 확인해야 A, B, C의 독립을 ..

반응형