반응형

Data Analysis & ML 113

[회귀분석] 다중선형회귀분석(1) - 다중선형회귀모형의 가정

다중회귀모형이란설명변수(독립변수)가 2 개 이상인 회귀모형을 분석대상으로하는 것.다중회귀모형은 분석내용을 향상시킬 수 있다는 장점이 있음추가적인 독립변수를 도입함으로써 오차항의 값을 줄일 수 있으며단순회귀분석의 단점을 극복종속변수를 설명하는 독립변수가 두개일 때 단순회귀모형을 적용하면, 모형설정이 부정확할 뿐 아니라 종속변수에 대한 중요한 설명변수(독립변수)를 누락함으로써 계수 추정량에 대해 편의(bias)가 생길 수 있다. 따라서 다중회귀분석을 통해 편의현상(bias)을 제거할 수 있다. 다중회귀모형의 식다중회귀모형의 식은 다음과 같다.여러개의 다중회귀모형 식을 아래와 같이 행렬로도 나타낼 수 있다. 다중회귀모형의 가정1. 회귀모형은 모수에 대해 선형인 모형이다. => Yi = β0 + β1 X1i +..

[Matching][매칭] PSM(Propensity Score Matching) (PSMPY)

매칭 (Matching) 실험집단과 통제집단 간의 특성이 유사하도록 인위적으로 매칭 장점 : 통제변수의 역할과 유사하지만, 관찰가능한 통제 변수를 기반으로 분석 대상을 균일하게 조정함으로써 그 외 관찰되지 않은 요인들도 유사할 것으로 가정 즉 통제변수는 딱 지정하는 변수만 유사하게 만들 수 있지만, 매칭은 지정하는 변수만 유사하게 만드는 것이 아닌 집단 자체를 유사하게 만듬 단점 : 분석대상의 숫자가 작아질 수 있음, 외적 타당성에 더 취약해짐 대표적 매칭 방법론 모든 통제변수에 대해 값이 적당히 유사한 데이터만 매칭 : Coarsened Exact Matching(CEM) 모든 통제변수들에 기반하여 실험집단이 될 경향성을 계산 후, 경향성이 유사한 데이터만 매칭 : Propensity Score Mat..

[인과추론] 이중차분법 (Difference in Difference)

이중차분법 (Difference in Difference) 차이의 차이 이용하여 treatment effect가 존재하는지 분석하는 기법 실험집단과 통제집단 간 비교 가능하지 않은 요인(선택편향) 분해 1중 차분 : 실험 집단(&대조군 집단) 내에서 정책 시행 전후 차이를 비교 2중 차분 : 실험집단에서의 정책 시행 전후 차이와 통제집단에서의 정책 시행 전후 차이를 비교 DID값이 왜 인과추론에 효과적인가 • 1종 차분 : TA - TB는 treatment에 따른 실험군의 시간에 따른 변화를, CA - CB는 대조군의 시간에 따른 변화 • 2종 차분: TA - CA 는 treatment 이후에 실험군과 대조군의 차이를, TB-CB는 treatment 시점 이전에 실험군과 대조군의 차이를 의미 DID 깂은..

[인과추론] 평행추세검증 (이중차분법/Event study approach / Leads-and lags model / Relative time model)

이중 차분법을 활용하기 위해서는 평행추세가정을 만족하여야 한다. 이번 포스팅에서는 평행추세를 검증하는 방법을 알아본다.평행추세가정평행추세가정 : 실험군과 대조군이 event가 발생하기 전에는 비슷한 흐름을 보이고 있어야 한다. 즉 ‘시간에 따라 변하는’ 선택 편향 요인은 두 집단에 유사하게 영향을 미칠 것이다. (= 실험집단과 통제집단이 시간에 따라 유사하게 변할 것이다)물론 평행추세검증은 확인하기가 힘드나, Treatment가 발생한 이전의 흐름은 검정가능하다.이를 검증하기 위해 도표를 그려서 확인한다.그러나 실험군이 여러개이고, Treatment  시점이 다르다면, 이렇게 두그룹으로 나눠서 도표로 보기 힘들다.따라서 아래의 모델을 활용하여 평행추세를 통계적으로 검증한다. 통계적 검증(Event stu..

[인과추론] 인과추론의 단계(2) (자연실험 / 평행추세가정 / 도구변수)

인과관계에 관한 근거의 단계 자연실험 이중차분법의 발전된 형태 지역(집단)별로 상이하게 발생하는 원인을 기준으로 비교분석하는 자연실험에서는 임의의 시점에서 비교가능한 대상을 상대적으로 쉽게 구성할 수 있음 실험은 실험인데 내가 한 실험이 아니라 ‘자연’이 한 실험이 자연실험. 자연의 가장 큰 특징은 “무작위”라는 것 자연실험을 활용하는 이유 보통 실험이 가능하지 않은 경우가 많음 실험집단과 통제집단간의 단순한 시간에 따른 변화량 (한 주간 변화량)을 비교하는 것은 나머지 모든 변수들도 함꼐 변하기 때문에, 비교 대상으로 적절치 않을 수 있음 [자연 실험] 도시마다 상이하게 발생한 원인 시점을 기준으로 변화량을 비교하면? 특정 시점 기준으로 실험집단과 통제집단이 달라짐 EX) 사회적 거리두기 정책(Stay..

[인과추론] 인과추론의 단계(1) (회귀분석 / 이중차분법 / 매칭)

잠재적 결과 관점에서 인과추론 문제 : 비교 가능한 대상 찾기 (ceteris paribus) 인과 추론을 위한 핵심 질문 (사회적 거리두기 정책의 효과) 사회적 거리두기 정책을 시행한 국가와 그렇지 않은 국가는 사회적 거리두기 정책여부를 제외한 코로나 19감염에 영향을 미칠 수 있는 모든 요인에서 비교 가능한 대상인가 (선택편향) 사회적 거리두기 정책 시행전후로 함께 발생한 다른 정책이나 외부 교란원인은 없는가 (선택편향) 사회적 거리두기 정책과 코로나19 확진자/사망자 수 사이에 역인과관계는 존재하지 않는가 (역인과관계) 인과관계에 관한 근거의 단계 회귀분석(Regression Analysis) 통제 변수들의 영향을 고려한 상관관계 분석을 도와주는 통계적인 분석 기법 인과관계를 분석하는 툴은 아님 회..

[인과추론] 인과관계를 알아내기 위한 분석틀

인과관계를 이해하는 틀 잠재적 결과 프레임 워크 인과 효과 = (원인이 있을 때의 결과) - (원인이 없었다면 있었을 잠재적 결과) 잠재적인 결과는 “관찰되지 못한”가상의 결과이다 EX) 비료의 사용과 농산물 생산량의 관계에서 인과관계를 분석할때 비료를 사용한 생산량은 100인데, 만약 연초에 비료를 쓰지 않았다면 생산량은 어땠을까 인과추론의 근본적 문제 잠재적인 결과는 "관찰되지 못한" 가상의 결과 (Fundamental Problem fo Causal Inference) EX) 독서와 성적의 관계 보통 사람들이 생각하는 인과관계 : (책을 읽은 우리 아이의 성적) - (책을 읽지 않은 우리 아이의 성적) 실제 현실에 나타난 결과 : (책을 읽은 엄마 친구 아들 성적) - (책을 읽지 않은 우리 아이 ..

[인과추론] 인과관계란

상관관계와 인과관계 상관관계는 인과관계를 의미하지 않는다 상관관계 : 함께 일어나는 변화 인과관계 : 원인과 결과 EX) 검색광고와 수익율과의 관계 검색광고와 수익률 간의 높은 양의 상관관계는 투자수익률이 높게 책정(1600%~4000%) 내생성을 고려한 인과관계를 기준으로 하면 투자수익률은 -20%~-60%로 감소 EX) 사업 다각화는 유효한 사업전략인가 다각화와 기업가치 간의 음의 관계가 있다라는 연구 발표 계량 경제적 방법론을 통해 다각화 전략에 대한 선택편향을 고려한 결과 , 다각화는 기업가치과 유의한 관계가 없거나 양의 관계가 없다. 선택편향 : 다각화를 한 기업과 하지 않은 기업이 큰 관계가 없다. 다각화를 해서 기업가치가 낮아지는 것이 아닌, 기업가치가 낮아진 기업이 다각화를 해서 다닥화와 ..

[시계열분석] 다변량 선형 확률과정 - 그랜져 인과관계 (Granger Causality)

인과관계와 상관관계 Spurious Regression X와 Y가 관련(인과관계)이 없거나 논리적인 스토리가 없음에도 단순하게 상관성이 높다라고 잘못 결론을 내리는 것 Post Hoc Fallacy X 다음에 Y가 일어났으므로 X가 Y의 원인이라고 판단하는, 즉 시간순서가 인과관계를 담보할 것이라는 오류 징크스 : 머리를 염색했더니 시험점수가 100점이 나오더라고 믿는 경우 오버피팅(Overfitting) : 인과관계가 있는 데이터에서 샘플(Train) 데이터에 치우쳐버린 모델 Post Hoc Fallacy : 아무런 인과관계가 없는(상관관계는 높더라도) 데이터로 만든 모델 Granger Causality 어떤 현상의 예측에 있어 다른 정보를 이용하는 것이 얼마나 유의미한지 나타내는 척도 추론불가한 문제..

[시계열분석] 다변량 선형 확률과정 - 거시경제 VAR 모형화

https://ysyblog.tistory.com/298 [시계열분석] 다변량 선형 확률과정 - VAR & IRP (백터자기회귀과정, 임펄스응답함수) 다변량 선형 확률과정 필요성 단변량 시계열(Simple/Multiple포함)은 종속변수(Y_t)가 독립변수들에만! 영향을 받는다는 큰 가정 존재 현실적으론 종속변수와 독립변수는 상호 영향을 주고받음 예시: ysyblog.tistory.com 위 포스팅에 이어 진행됩니다. 데이터 로딩 및 시각화 데이터 설명 : https://www.statsmodels.org/0.6.1/datasets/generated/macrodata.html import pandas as pd import numpy as np import matplotlib.pyplot as plt i..

반응형