반응형

Statistics & Math 43

[기초통계학] 산포도와 상관계수, 그리고 상관관계

산포도 (Scatter plot) 두 변수 사이의 관계를 살펴보기 위해 산포도를 이용한다. 설명변수는 x로 표기하고 가로축에 표시 피설명변수는 y로 표기하고 세로축에 표시 설명변수와 피설명변수간 관계가 약한경우 변수 사이의 관계가 약하면 한 변수 값으로 다른 변수 값을 예측하기 어려움 위 산포도에서 중간고사에서 150점 받은 학생들의 기말고사 성적은 55점에서 175점 사이에 분포하므로 중간고사 점수로 기말고사 점수를 예측하기 어려움 설명변수와 피설명변수간 관계가 강한경우 변수 사이의 관계가 강하면 한 변수 값으로 다른 변수 값을 예측하는것이 가능해짐 아래 산포도에서 중간고사에서 150점 받은 학생들의 기말고사 성적은 105점에서 175점 사이에 분포함 (위 케이스보다 예측 범위가 감소함) 상관계수 상관..

[기초통계학] 정규분포(표준정규분포, 표준화)

표준편차 포스팅에서 이어지는 내용입니다 https://ysyblog.tistory.com/163 [기초통계학] 표준편차와 자유도 제곱근-평균-제곱 (Root Mean Square) (RMS) 계산은 표현의 역순(제곱 후 평균, 최종적으로 제곱근) 제곱 (S) : 모든 수를 제곱하여 부호를 없앤다. 평균 (M) : 제곱된 값들의 평균을 구한다. 제곱근 (R) : 제 ysyblog.tistory.com 정규분포(Normal Distribution) 정규 분포(normal distribution) 또는 가우스 분포(Gaussian distribution)는 연속 확률 분포 중 하나를 의미 정규분포는 2개의 모수 $\mu, \sigma$로 (평균, 표준편차)로 결정되며 $N(\mu, \sigma^2)$로 표현 ..

[기초통계학] 표준편차와 자유도

제곱근-평균-제곱 (Root Mean Square) (RMS) 계산은 표현의 역순(제곱 후 평균, 최종적으로 제곱근) 제곱 (S) : 모든 수를 제곱하여 부호를 없앤다. 평균 (M) : 제곱된 값들의 평균을 구한다. 제곱근 (R) : 제곱-평균된 값에 제곱근을 취한다. 표준편차 표준편차(SD)는 “평균으로부터의 편차들”의 RMS와 “대략” 비슷 (편차들에 대해 적용한 RMS) 다만 중간에 있는 M을 계산할때 1을빼서 계산 (CF. 이것과 관계있는 개념이 자유도) 표준편차는 관측치들이 평균으로부터 얼마나 떨어져 있는지 알려줌 평균값을 중심으로 평균적으로 s만큼 퍼져 있다는 의미 만약 어떤 집단의 평균값이 3이고 표준편차가 1.5라면, 좌우로 1.5(1.5 ~ 4.5)정도 퍼져있다는 것. 68-95법칙 관측..

[기초통계학] 데이터와 통계량 - 평균과 중앙값

데이터와 통계량 변수 : 어떤 대응관계로 변화하는 수, 혹은 함수관계로 대응하며 주어진 범위 안에서 변화하는수 → 변수는 데이터로 구성되고, 데이터를 근거로 변수의 특성을 파악 데이터 : 조사의 목적에 맞는 변수를 기반으로, 표본으로부터 수집된 자료 → 사회과학분야에서 보통 통계조사를 할때는 표본의 특징을 표현하기 위해 단일자료 수집 → 핵심적 연구나 조사를 목적으로 할 때는 다중자료를 수집 기초 통계량 평균 (Mean) 평균(mean)은 관측치의 총합을 관측치의 개수로 나누어 구한다. 중심경향도 : 데이터를 종합하여 그 중심을 이루는 값이 어느정도가 될지를 구한 것 통계에서 가장 많이 사용되는 중심경향도(u) 표본의 특성을 제시할 때 가장 먼저 사용 중앙값 (Median) 절반 이상의 숫자들이 이 값보..

[기초통계학] 실험연구와 경험적연구(자연실험)

실험 연구 실험연구란 변인들의 관계를 발견하기 위해 상황을 통제하여 독립변수를 인의적으로 control하여 그것이 종속변수에 어떤 영향을 미치는지를 측정 및 분석하는 연구이다 많은 경우 연구자는 특정 처리(예컨대, 대학 교육, 백신 투여 등)의 효과를 처리집단과 통제집단간 반응(예컨대, 소득, 소아마비 발병률 등)을 비교함 으로써 파악하고자 한다. 여기서 처리를 가한 집단을 처리집단(treatment group), 처리를 가하지 않은 집단을 통제집단(control group)이라고 부른다. 실험 연구의 특징 독립 변수 중 몇개를 실험자가 control한다 무작위 배정 (randomized control) 처리집단(treatment)과 통제집단(control)으로 구분. 확률에 의존한 무작위 배정.(예컨대..

[기초통계학] 통계학과 자료 / 선택편향과 생존편향

통계학이란 통계학은 자료를 정리/분석해 유용한 정보를 얻기 위한 언어이자 도구 통계학의 분류 통계학은 크게 두 가지로 분류할 수 있다. 기술통계학 (descriptive statistics) 자료를 변수 별로 따로따로 또는 관계되는 변수끼리 묶어서 요약 추론통계학(inferential statistics) 정리된 자료에 담긴 의미를 해석하여 미지의 세계에 대해 추론 모집단과 표본사이의 관계 통계학은 표본의 자료를 수집, 정리, 요약 나아가 요약된 자료를 토대로 그 자료의 모태가 되는 모집단에 대해 짐작, 추측해 보는 작업을 포함 자료의 종류 횡단면 자료(cross-sectional data) 한 시점에서 여러 개체를 관측한 자료. 시계열 자료(time-series data) 한 개체를 여러 시점에 걸쳐 ..

[기초통계학] 변수(질적변수/양적변수/독립변수/종속변수/통제변수)와 척도 (명목/순서/간격/비율)

변수(Variable) 정보가 수집되는 특정한 개체나 대상 (보통 열(Column) 값들을 의미) 질적변수 / 양적변수(데이터의 특성에 따른 분류) 질적변수(Qualitative Variable) 변수의 값이 비수치적 특정 카테고리에 포함 시키도록 하는 변수 (ex.색상, 성별, 종교) 명목변수(Nominal Variable): 변수의 값이 특정한 범주(Category)에 들어가지만 해당 범주간 순위는 존재하지 않는 것 (ex.혈액형) 순위변수(Ordinal Variable): 변수의 값이 특정 범주에 들어가면서 변수의 값이 순위를 가지는 경우 (ex.성적) 양적변수(Quantitative Variable) 변수의 값을 숫자로 나타 낼 수 있는 변수 (ex. 키, 몸무게, 소득) 이산변수(Discrete..

[기초통계학] 표본 분포와 중심극한정리

표본분포 (Sampling distribution) 모집단에서 일정 크기로 표본을 여러번 뽑을 때, 그 표본의 통계량의 확률분포 예를 들어 모집단에서 1000명을 sampling할 때마다 수치가 나오는데 이 수치들의 통계량을 의미 즉, 여러번 추출을 진행 통계적 추정/검정의 핵심 Cf) 표본평균의 확률분포를 구하는 이유 표본을 한번 Sampling을 했을때 bias가 낄 수 있기 때문에, 여러번 sampling 을 하게 되는데, 이때 분포가 생성되고 그 분포의 평균이 실제 평균과 가까울 확률이 높음 표본평균의 평균과 표준편차 $X_1, ... ,X_n$이 모평균 u, 모표준편차 σ 인 모집단으로부터의 확률표본 (i.i.d) 일때 (동일한 분포에서 나왔다는 의미) 표본평균의 평균과 분산 CF) expect..

[기초통계학] 지수분포(지수분포의 기댓값과 분산,지수분포의 무기억성)

지수분포(Exponential Distribution) $Expo(\lambda)$ 연속확률분포의 일종 지수분포는 첫사건이 발생하는 데 걸리는 시간분포 사건이 서로 독립적일 때, 일정 시간 동안 발생하는 사건의 횟수가 푸아송 분포를 따른다면, 다음 사건이 일어날 때까지 대기 시간은 지수분포를 따름 모수 λ (rate parameter(비율 모수)- 속도를 나타내는 모수) 지수분포의 확률밀도함수 정의 $PDF: f(x) = \lambda e^{-\lambda x}, x>0 (0 otherwise)$ 조건 확인: $\displaystyle \int ^\infty _0 \lambda e^{-\lambda x} dx = 1$ e는 자연상수를 의미 지수분포의 누적분포함수 λ는 평균속도이므로, $ \frac{1}{..

[기초통계학] 확률밀도함수 (연속확률분포, 균등분포)

확률밀도함수(Probability Density Function) (PDF) 확률변수 X가 모든 a,b 에 대하여 $P(a \le X \le b) = \displaystyle \int_a ^b f(x)dx$ 를 만족시킬 때, X는 확률밀도함수(PDF) f(x)를 갖는다. a=b 인 경우, $\displaystyle \int _a ^af(x)dx = 0$ 확률밀도함수가 필요한 이유는 P(X=x) = 0이기 때문 (특정값에 대한 확률은 0) 0과 1사이에는 수많은 실수가 존재함 -> 확률질량함수에서는 이 모든 실수에 대한 확률이 0임 따라서 확률밀도함수는 값에 일정한 범위를 두고 확률을 계산 확률밀도함수에도 누적분포함수(CDF)가 존재 확률밀도함수의 세로축은 확률 그 자체의 값이 아니라 상대적 발생 가능성을..

반응형