Data Analysis & ML/인과추론

[인과추론] 인과추론의 단계(1) (회귀분석 / 이중차분법 / 매칭)

YSY^ 2022. 7. 31. 20:56

잠재적 결과 관점에서 인과추론 문제 : 비교 가능한 대상 찾기 (ceteris paribus)

인과 추론을 위한 핵심 질문 (사회적 거리두기 정책의 효과)

  1. 사회적 거리두기 정책을 시행한 국가와 그렇지 않은 국가는 사회적 거리두기 정책여부를 제외한 코로나 19감염에 영향을 미칠 수 있는 모든 요인에서 비교 가능한 대상인가 (선택편향)
  2. 사회적 거리두기 정책 시행전후로 함께 발생한 다른 정책이나 외부 교란원인은 없는가 (선택편향)
  3. 사회적 거리두기 정책과 코로나19 확진자/사망자 수 사이에 역인과관계는 존재하지 않는가 (역인과관계)

 

인과관계에 관한 근거의 단계

회귀분석(Regression Analysis)

  • 통제 변수들의 영향을 고려한 상관관계 분석을 도와주는 통계적인 분석 기법
  • 인과관계를 분석하는 툴은 아님
  • 회귀분석은 상관관걔를 분석하는 도구일 뿐, 인과관계 분석을 위해서는 적절한 연구 디자인이 필요

EX) 출산율이 여성고용율에 영향을 주는가

  • 출산율 = a + b(여성고용율) + e
    • 여성 고용율이 1 증가하는 것은 출산율이 b만큼 증가하는 것과 상관이 있다.
    • 하지만 여성고용율에는 출산율만 영향을 끼치는 것이 아님
  • 출산율 = a + b(여성 고용률) + c(소득수준) + d(복지수준) + e  (다변량 회귀분석)
    • 소득수준과 복지수준이 동일할 때(통제변수), 여성 고용률이 1 증가하는 것은 출산율이 b 만큼 증가하는 것과 상관이 있다.
    • 통제변수 : 주요 관심 대상은 아니지만 후향변수에 영향을 미칠 것으로 예상되는 변수
    • 그러나 소득수준과 복지수준을 제외한 여러가지 원인이 있을 수 있음

 

이중차분법 (Difference in Difference)

  • 차이의 차이 이용하여 treatment effect가 존재하는지 분석하는 기법
  • 실험집단과 통제집단 간 비교 가능하지 않은 요인(선택편향) 분해

  • 1중 차분 : 실험 집단 내에서 정책 시행 전후 차이를 비교
  • 2중 차분 : 실험집단에서의 정책 시행 전후 차이와 통제집단에서의 정책 시행 전후 차이를 비교

 

간단하게 정리하자면, 위 예시를 아래 도표로 만들었을때

  처리집단 통제집단
정책 시행 이전 기간 A B
정책 시행 이후 기간 C D

=>  (A-C)-(B-D)= (A-B)-(C-D)

를 충족해야한다.

  • 다만 평행추세 가정을 만족해야함
    • ‘시간에 따라 변하는’ 선택 편향 요인은 두 집단에 유사하게 영향을 미칠 것이다.
      (= 실험집단과 통제집단이 시간에 따라 유사하게 변할 것이다)

EX) 미국내 도시에서 도시간 이동량과 코로나 확진자/사망자간의 관계 분석

  • 시간에 따른 확진자의 변화량의 도시간 차이를 비교함으로써, 시간에 따라 변하지 않는 선택편향 제거

위 분석을 위해 아래 내용을 충족하여야함.

(1) 시민들의 이동성이 높은 도시와 그렇지 않은 도시는 비교 가능한 대상인가?

- 시민들의 이동성 정도와 분석 기간 내에서 ‘시간에 따라 변하지 않는’ 선택편향 요인 (예: 인구 밀도, GDP, 의료시스템 수준 등)을 제외하고,  ‘시간에 따라 변하는’ 코로나19 감염에 영향을 미칠 수 있는 모든 요인은 서로 유사한가?

  • 이동량이 많은 도시 → 대도시 이고 인구가 많은 도시일 가능성이 높음
  • 이동량이 적은 도시 → 소도시나 시골도시라 인구가 적은 도시일 가능성이 높음

(2) (원인이 특정 시점에 발생한 경우) 사회적 거리두기 정책 시행 전후로 함께 발생한 다른 정책이나 외부
교란요인은 없는가?

(3) 시민들의 이동성과 코로나19 확진자/사망자 간의 역-인과관계는 존재하지 않는가?

 

매칭 (Matching)

  • 실험집단과 통제집단 간의 특성이 유사하도록 인위적으로 매칭
  • 장점 : 통제변수의 역할과 유사하지만, 관찰가능한 통제 변수를 기반으로 분석 대상을 균일하게 조정함으로써 그 외 관찰되지 않은 요인들도 유사할 것으로 가정
    • 즉 통제변수는 딱 지정하는 변수만 유사하게 만들 수 있지만, 매칭은 지정하는 변수만 유사하게 만드는 것이 아닌 집단 자체를 유사하게 만듬
  • 단점 : 분석대상의 숫자가 작아질 수 있음, 외적 타당성에 더 취약해짐

대표적 매칭 방법론

  • 모든 통제변수에 대해 값이 적당히 유사한 데이터만 매칭 : Coarsened Exact Matching(CEM)
  • 모든 통제변수들에 기반하여 실험집단이 될 경향성을 계산 후, 경향성이 유사한 데이터만 매칭 : Propensity Score Matching(PSM) ⇒ 이것이 더 많이 쓰임

 

해당 포스팅은 아래 "코로나19의 사회과학 2020" 강의를 듣고 정리한 내용입니다.

https://www.youtube.com/playlist?list=PLKKkeayRo4PU0fpXF_N3rQx6DdJqiie_9

 

코로나19 의 사회과학 2020

"코로나19 의 사회과학: 인과추론 연구방법론 관점에서" 강의 홈페이지 https://sites.google.com/view/social-science-of-covid-19

www.youtube.com

 

728x90
반응형