Data Analysis & ML/인과추론

[인과추론] 인과추론의 단계(2) (자연실험 / 평행추세가정 / 도구변수)

YSY^ 2022. 7. 31. 21:16

인과관계에 관한 근거의 단계

 

자연실험

  • 이중차분법의 발전된 형태
  • 지역(집단)별로 상이하게 발생하는 원인을 기준으로 비교분석하는 자연실험에서는 임의의 시점에서 비교가능한 대상을 상대적으로 쉽게 구성할 수 있음
  • 실험은 실험인데 내가 한 실험이 아니라 ‘자연’이 한 실험이 자연실험. 자연의 가장 큰 특징은 “무작위”라는 것

자연실험을 활용하는 이유

  • 보통 실험이 가능하지 않은 경우가 많음
  • 실험집단과 통제집단간의 단순한 시간에 따른 변화량 (한 주간 변화량)을 비교하는 것은 나머지 모든 변수들도 함꼐 변하기 때문에, 비교 대상으로 적절치 않을 수 있음
  • [자연 실험] 도시마다 상이하게 발생한 원인 시점을 기준으로 변화량을 비교하면?
    • 특정 시점 기준으로 실험집단과 통제집단이 달라짐

 

EX) 사회적 거리두기 정책(Stay-at-Home Orders)과 코로나19 확진자/사망자 수 간의 관계 분석

  • 만약 아래처럼 평행추세 가정을 만족하지 못하는 경우는?
  • 즉, 정책시행 이전에 처리집단과 통제집단이 같은 추세를 보이는가
    • 평행추세 가정 : 시간에 따라 변하는’ 선택 편향 요인은 두 집단에 유사하게 영향을 미칠 것이다는 가정

 

캘리포니아에서 3/22에 정책이 실행되었는데, 캘리포니아의 정책 실행전의 패턴과 해당기간의 뉴욕/택사사의 패턴과 다를것이라고 생각하기 쉽지 않음.

=> 즉 선택편향이 크게 나타나지 않을 것이라고 판단됨

  • 임의의 시점을 기준 → 시간에 따라 변하는 요인은 서로 유사함
  • but 사회적 거리두기 정책 시행 전후로 함께 발생한 다른 정책이나 외부 교란 요인은 없는지 검토해야함

 

평행 추세 가정 검증 (Parallel Trend Assumption)

  • 이중차분법의 핵심 가정
  • 데이터를 통해 쉽게 검증 가능
  • 처치(treatment) 또는 정책 시행 이전에 실험 집단과 통제 집단의 추세가 평행한지 확인
  • 검증 1단계 : 결과 변수의 추세 그래프 비교
    • 이중 차분법 분석에서 가장 기본적으로 요구되는 조건
    • 기준점에서 왼쪽이 평행추세 가정이 적용되는 구간

  • 검증 2단계 : 통계적 검증
    • 처치(treatement) 또는 정책 시행 기준으로 ±1, ±2, ±3...변수를 만들어서 효과를 추정
    • -1,-2,-3 기간에는 효과가 유의하지 않아야하고, +1,+2,+3 기간에는 효과가 유의해져야함

 

일반화된 질문과 실제 연구문제의 간극

  • 인과추론 방법론은 분석에 포함된 특정 대상에 대한 특정 처치 효과만을 정량화 할 수 있다.
  1. 일반화된 질문 : 사회적 거리두기 정책은 효과가 있을까
  2. 실제 연구가 답하고자 한 연구 문제 : 언제, 어디에서, 어떤 방식으로 시행된 사회적 거리두기 정책은 효과가 있을까
  3. 연구 결과 : 특정 사회적 거리두기 정책의 인과적 효과

 

도구변수

  • 자연실험이 없을때, 인위적으로 만드는 실험 조건
  • 원인 변수에는 영향을 미치지만, 결과 변수에는 직접 영향을 미치지 않는 변수
    • 도구 변수에 의해 인위적으로 야기되는 정책 적용의 부분적인 효과를 분석
    • 도구 변수를 통해 관찰되는 데이터에서 정책에 직접 관련된 부분만 도려냄으로써, 관찰되지 않은 요인과 관련된 부분을 배제하고자 하는 통계적 기법
  • 장점 : 자연 실험 세팅이 없어도 인과관계 분석 가능
  • 단점 :
    • 1) ATE 전체를 추론하는게 아닌 부분(local ATE)만 추론 가능
    • 2) 도구변수가 도려낸 원인 변수 중에서 선택편향을 포함하지 않는지 포함하는지 검증할 방법이 없음

 

  • 도구 변수의 조건
    • 적절성 조건 (relevance): 도구 변수는 원인 변수를 최대한 많이 설명 해야 한다.
    • 외생성 제한조건 (exclusive restriction): 도구 변수는 결과 변수에 영향을 줄 수 있는 모든 관찰되지 않은 변수들과 관련이 없어야 한다.
  •  도구 변수의 단점
    • 외생성 제한조건에 대해서 완전히 검증할 방법이 존재하지 않음.
    • 도구 변수에 의해 추정되는 인과 효과는 평균적인 인과 효과 (Average Treatment Effect; ATE) 가 아닌, 도구 변수에 야기되는 부분적 인과 효과 (Local Average Treatment Effect; LATE) 임.

 

도구 변수를 활용하는 2가지 방법

  1. 정책에 직접 관련된 부분만 따로 분리해서 그에 대한 효과 분석 : 2단계 최소제곱법
  2. 관찰되지 않은 요인과 관련된 부분만 따로 분리해서 그것을 추가적으로 통제한 후에 정책효과분석. ⇒ 통제 함수 활용(Control Function Approach)

 

해당 포스팅은 아래 "코로나19의 사회과학 2020" 강의를 듣고 정리한 내용입니다.

https://www.youtube.com/playlist?list=PLKKkeayRo4PU0fpXF_N3rQx6DdJqiie_9

 

코로나19 의 사회과학 2020

"코로나19 의 사회과학: 인과추론 연구방법론 관점에서" 강의 홈페이지 https://sites.google.com/view/social-science-of-covid-19

www.youtube.com

728x90
반응형