반응형

분류 전체보기 339

[기초통계학] Two-way ANOVA(이원배치 분산분석)(2) - F-value(F값) 계산

[기초통계학] One-wayANOVA(일원배치 분산분석) :ysyblog.tistory.com/174 [기초통계학] Two-way ANOVA(이원배치 분산분석)(1) - Interaction(상호작용) : ysyblog.tistory.com/175 해당 포스팅은 위 포스팅에 이어진행됩니다. Two-way ANOVA의 F값 - 독립변수가 2개이기 때문에 F값 역시 2개가 되어야 한다. - 추가적으로 Interaction도 유의한지 아닌지 알아야 한다. - 따라서 interaction에 대한 F값도 하나 더 필요하다. 즉, 총 3개의 F값이 필요하다.(첫번째 독립변수의 Main effect를 측정하기 위한 F값, 두번째 독립변수의 Main effect를 측정하기 위한 F값, Interaction effect..

[기초통계학] Two-way ANOVA(이원배치 분산분석)(1) - Interaction(상호작용)

[기초통계학] One-way ANOVA(일원배치 분산분석) : ysyblog.tistory.com/174 [기초통계학] One-way ANOVA(일원배치 분산분석) (F-Value)One-way ANOVA 세 집단 비교 T-test는 두개 집단이 유사한지 아닌지 비교하는 것입니다. 그런데 만약 집단이 3개라면 어떻게 될까요. 물론 T-test를 3번하면 될것입니다. 하지만 그룹이 3개일때 t-test를ysyblog.tistory.com위의 일원배치분산분석 포스팅에서 이어집니다.Two-way ANOVA- 독립변수가 2개 + α 인 경우 사용하는 ANOVA입니다.- A라는 변수의 그룹들과 B라는 변수의 그룹들에 따라 종속변수가 변화할 것이라는 모델에서 사용- 여기서 독립변수는 Main Effect(주효과)가..

[기초통계학] One-way ANOVA(일원배치 분산분석) (F-Value)

One-way ANOVA(일원배치 분산분석)세 집단 비교T-test는 두개 집단이 유사한지 아닌지 비교하는 것입니다. 그런데 만약 집단이 3개라면 어떻게 될까요. 물론 T-test를 3번하면 될것입니다. 하지만 그룹이 3개일때 t-test를 세번하면 1종오류에 걸립니다.1종오류란 실제로는 유의하지 않은데 유의하다고 나온 경우를 말합니다.5% p-value를 기준으로 세번의 t-test를 할턴데, 0.05라는 p-value를 세번 적용하기 때문에, 동원된 총 p-value 는 0.05*3 = 0.15입니다. 우리는 0.05라고 생각하고 적용하였지만 실제로는 0.15이기 때문에 1종오류가 생깁니다.따라서 새로운 방법을 적용해야 합니다. 그것이 바로 One-way ANOVA입니다.One-way는 독립변수가 하..

[코멘토] 데이터분석 직무부트캠프 후기

코멘토에서 진행했던 5주간의 직무부트캠프를 마치고 후기를 적어봅니다.제가 선택한 수업은 수업, 즉 실무에서 데이터분석을 어떻게 하나를 알아보는 수업이었습니다. 1. 직무부트 신청 계기직무부트캠프 신청 계기는 먼저 취업이 안되서이다. 우선 나의 이력을 잠깐 말씀드리자면, 대학교에서 데이터분석을 경험했으며, 1년정도 대기업 영업직무를 수행하였으며, 퇴사 후 6개월동안 학원을 다니며 데이터 분석 공부를 하였다. 원래부터 데이터분석 관련 직무를 하고 싶었지만 그렇지 못하였기 때문에 퇴사하고 직무를 바꿔보려고 공부한 것이다. 6개월 동안 누구보다 열심히 공부하고 여러 프로젝트를 경험했기 때문에, 이 정도면 취업이 될까 생각하였지만 현실은 냉혹하였다. 사실 이 직무는 석박사가 아니면 거의 뽑지 않는다. 대기업뿐만..

[회귀분석] 단순선형회귀분석(Linear Regression)(9) - 이분산성

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 :ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 :ysyblog.tistory.com/155 3. [회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수의 최소제곱추정량 :ysyblog.tistory.com/156 4. [회귀분석] 단순선형회귀분석(Linear Regression)(4) - 최소제곱추정량(LSE)의 통계적 특성 :ysyblog.tistory.com/159 5. [회귀분석] 단순선형회귀분석(Linear Regression)(5) - 표준오차 :ysyblog.tistory...

[회귀분석] 단순선형회귀분석(Linear Regression)(8) - 더미변수(Dummy Variable)

더미변수(Dummy Variable)값이 오직 0과 1로 이루어진 변수값 0과 1에는 수리적의미는 없음기본적으로는 이산형/범주형 변수인데 이를 연속형 변수처럼 사용더미변수를 사용하는 이유는 범주형 변수의 인자들에 차례대로 숫자를 붙이면 연속형 변수가 되기 때문에 회귀분석에서 사용할 수 없음 더미 변수의 개수더미변수의 개수는 범주의 개수 -1 이다.만약 범주의 개수대로 더미변수를 만들면 회귀분석에서 더미트랩에 걸려서 회귀분석에 되지 않음제거된 범주는 비교의 기준(reference group)가 된다. 더미 변수의 해석해당 범주와 기준그룹간에 유의한 차이가 있다/없다로 해석기준그룹이 아닌 다른 범주와는 비교 불가능함. 더미 데이터를 만드는 Python 코드는 아래 포스팅 참고 바랍니다https://ysybl..

[회귀분석] 단순선형회귀분석(Linear Regression)(7) - R-squared (R^2)(결정계수) (SST/SSR/SSE/Adjusted R-squared)

R-squared (R^2)(결정계수)회귀분석을 할 때 R-*squared값 *이라는 것을 많이 들어봤을 겁니다. 이 값이 굉장히 중요하다고 이야기를 하는데 이게 뭔지 제대로 알고 쓰는 경우는 별로 없습니다. 따라서 이번포스팅에서는 R-squared값에 대해 알아 볼 것입니다.분산회귀분석에서는 종속변수와 독립변수의 인과관계를 논리적으로 전제하고 독립변수로 종속변수를 설명하는 것이다.그런데 회귀분석 뿐만아니라 모든 통계는 결국 분산을 얼마나 잘 설명하는지가 목적이다.즉, 회귀분석이란 종속변수의 분산을 독립변수로 설명하는 과정이다.따라서 회귀분석은 이론/논리를 통해서 종속변수를 설명할 수 있는 모델을 만들어 종속변수의 분산을 모델(독립변수(들))로 설명한다.이때 모델(독립변수(들))가 문제가 없다면 종속변수..

[회귀분석] 단순선형회귀분석(Linear Regression)(6) - 회귀분석과 T-test

회귀분석과 T-test표준오차가 작으면 회귀계수가 우연일 확률이 낮으며, 표준오차가 크면 회귀계수가 우연일 확률이 큰것이다. 이 확률을 계산하는 방법바로 t-test이다.아래는 t-test를 설명한 포스팅이다.ysyblog.tistory.com/164 두개의 집단이 같은지 다른지 비교하기 위해 사용 -> 이를" data-og-host="ysyblog.tistory.com" data-og-source-url="https://ysyblog.tistory.com/164" data-og-url="https://ysyblog.tistory.com/164" data-og-image="https://scrap.kakaocdn.net/dn/scjVp/hyJeA46171/uNrfYk4kD794eXRue1HZWK/img...

[회귀분석] 단순선형회귀분석(Linear Regression)(5) - 표준오차

1. [회귀분석] 단순선형회귀분석(Linear Regression)(1) - 단순선형회귀분석과 가정 : ysyblog.tistory.com/157 2. [회귀분석] 단순선형회귀분석(Linear Regression)(2) - 선형회귀분석과 비용함수 : ysyblog.tistory.com/155 3. [회귀분석] 단순선형회귀분석(Linear Regression)(3) - 비용함수의 최소제곱추정량 : ysyblog.tistory.com/156 4. [회귀분석] 단순선형회귀분석(Linear Regression)(4) - 최소제곱추정량(LSE)의 통계적 특성 : ysyblog.tistory.com/159 해당 포스팅은 위 포스팅들에 이어서 진행됩니다. 위 두가지 그래프는 같은 회귀식을 가지고 있습니다. 하지만 점..

[기초통계학] T-test(가설검정 / One-Sample Test / Two-Sample T-test / Paired T-test)

T-test 모집단의 표준편차가 알려지지 않았을 때 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법 T-test의 목적 -> 두개의 집단이 같은지 다른지 비교하기 위해 사용 -> 이를 알기 위해 두 집단의 샘플의 평균값을 비교하고, 두집단의 차이가 우연히 발생했을 확률을 구하므로서 t-test에 대한 결론을 구함 -> 즉, 두 집단의 평균값이 통계적으로 같은지 다른지를 확인 T-test를 위한 통계적 질문 - A대학 남학생 평균키(178.5cm)가 대한민국 평균키(179.9cm)와 우연히 같은 확률은 얼마나될까 - A대학의 남학생 평균키와 비교대상 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마나 될까 - 그렇다면 과연 1.4cm차이가 얼마나 커야 우연히 발생하지 않았다고 판..

반응형