잠재적 결과 관점에서 인과추론 문제 : 비교 가능한 대상 찾기 (ceteris paribus)
인과 추론을 위한 핵심 질문 (사회적 거리두기 정책의 효과)
- 사회적 거리두기 정책을 시행한 국가와 그렇지 않은 국가는 사회적 거리두기 정책여부를 제외한 코로나 19감염에 영향을 미칠 수 있는 모든 요인에서 비교 가능한 대상인가 (선택편향)
- 사회적 거리두기 정책 시행전후로 함께 발생한 다른 정책이나 외부 교란원인은 없는가 (선택편향)
- 사회적 거리두기 정책과 코로나19 확진자/사망자 수 사이에 역인과관계는 존재하지 않는가 (역인과관계)
인과관계에 관한 근거의 단계
회귀분석(Regression Analysis)
- 통제 변수들의 영향을 고려한 상관관계 분석을 도와주는 통계적인 분석 기법
- 인과관계를 분석하는 툴은 아님
- 회귀분석은 상관관걔를 분석하는 도구일 뿐, 인과관계 분석을 위해서는 적절한 연구 디자인이 필요
EX) 출산율이 여성고용율에 영향을 주는가
- 출산율 = a + b(여성고용율) + e
- 여성 고용율이 1 증가하는 것은 출산율이 b만큼 증가하는 것과 상관이 있다.
- 하지만 여성고용율에는 출산율만 영향을 끼치는 것이 아님
- 출산율 = a + b(여성 고용률) + c(소득수준) + d(복지수준) + e (다변량 회귀분석)
- 소득수준과 복지수준이 동일할 때(통제변수), 여성 고용률이 1 증가하는 것은 출산율이 b 만큼 증가하는 것과 상관이 있다.
- 통제변수 : 주요 관심 대상은 아니지만 후향변수에 영향을 미칠 것으로 예상되는 변수
- 그러나 소득수준과 복지수준을 제외한 여러가지 원인이 있을 수 있음
이중차분법 (Difference in Difference)
- 차이의 차이 이용하여 treatment effect가 존재하는지 분석하는 기법
- 실험집단과 통제집단 간 비교 가능하지 않은 요인(선택편향) 분해
- 1중 차분 : 실험 집단 내에서 정책 시행 전후 차이를 비교
- 2중 차분 : 실험집단에서의 정책 시행 전후 차이와 통제집단에서의 정책 시행 전후 차이를 비교
간단하게 정리하자면, 위 예시를 아래 도표로 만들었을때
처리집단 | 통제집단 | |
정책 시행 이전 기간 | A | B |
정책 시행 이후 기간 | C | D |
=> (A-C)-(B-D)= (A-B)-(C-D)
를 충족해야한다.
- 다만 평행추세 가정을 만족해야함
- ‘시간에 따라 변하는’ 선택 편향 요인은 두 집단에 유사하게 영향을 미칠 것이다.
(= 실험집단과 통제집단이 시간에 따라 유사하게 변할 것이다)
- ‘시간에 따라 변하는’ 선택 편향 요인은 두 집단에 유사하게 영향을 미칠 것이다.
EX) 미국내 도시에서 도시간 이동량과 코로나 확진자/사망자간의 관계 분석
- 시간에 따른 확진자의 변화량의 도시간 차이를 비교함으로써, 시간에 따라 변하지 않는 선택편향 제거
위 분석을 위해 아래 내용을 충족하여야함.
(1) 시민들의 이동성이 높은 도시와 그렇지 않은 도시는 비교 가능한 대상인가?
- 시민들의 이동성 정도와 분석 기간 내에서 ‘시간에 따라 변하지 않는’ 선택편향 요인 (예: 인구 밀도, GDP, 의료시스템 수준 등)을 제외하고, ‘시간에 따라 변하는’ 코로나19 감염에 영향을 미칠 수 있는 모든 요인은 서로 유사한가?
- 이동량이 많은 도시 → 대도시 이고 인구가 많은 도시일 가능성이 높음
- 이동량이 적은 도시 → 소도시나 시골도시라 인구가 적은 도시일 가능성이 높음
(2) (원인이 특정 시점에 발생한 경우) 사회적 거리두기 정책 시행 전후로 함께 발생한 다른 정책이나 외부
교란요인은 없는가?
(3) 시민들의 이동성과 코로나19 확진자/사망자 간의 역-인과관계는 존재하지 않는가?
매칭 (Matching)
- 실험집단과 통제집단 간의 특성이 유사하도록 인위적으로 매칭
- 장점 : 통제변수의 역할과 유사하지만, 관찰가능한 통제 변수를 기반으로 분석 대상을 균일하게 조정함으로써 그 외 관찰되지 않은 요인들도 유사할 것으로 가정
- 즉 통제변수는 딱 지정하는 변수만 유사하게 만들 수 있지만, 매칭은 지정하는 변수만 유사하게 만드는 것이 아닌 집단 자체를 유사하게 만듬
- 단점 : 분석대상의 숫자가 작아질 수 있음, 외적 타당성에 더 취약해짐
대표적 매칭 방법론
- 모든 통제변수에 대해 값이 적당히 유사한 데이터만 매칭 : Coarsened Exact Matching(CEM)
- 모든 통제변수들에 기반하여 실험집단이 될 경향성을 계산 후, 경향성이 유사한 데이터만 매칭 : Propensity Score Matching(PSM) ⇒ 이것이 더 많이 쓰임
해당 포스팅은 아래 "코로나19의 사회과학 2020" 강의를 듣고 정리한 내용입니다.
https://www.youtube.com/playlist?list=PLKKkeayRo4PU0fpXF_N3rQx6DdJqiie_9
728x90
반응형
'Data Analysis & ML > 인과추론' 카테고리의 다른 글
[인과추론] 이중차분법 (Difference in Difference) (0) | 2022.09.12 |
---|---|
[인과추론] 평행추세검증 (이중차분법/Event study approach / Leads-and lags model / Relative time model) (0) | 2022.09.12 |
[인과추론] 인과추론의 단계(2) (자연실험 / 평행추세가정 / 도구변수) (0) | 2022.07.31 |
[인과추론] 인과관계를 알아내기 위한 분석틀 (1) | 2022.07.31 |
[인과추론] 인과관계란 (0) | 2022.07.31 |