인과관계에 관한 근거의 단계
자연실험
- 이중차분법의 발전된 형태
- 지역(집단)별로 상이하게 발생하는 원인을 기준으로 비교분석하는 자연실험에서는 임의의 시점에서 비교가능한 대상을 상대적으로 쉽게 구성할 수 있음
- 실험은 실험인데 내가 한 실험이 아니라 ‘자연’이 한 실험이 자연실험. 자연의 가장 큰 특징은 “무작위”라는 것
자연실험을 활용하는 이유
- 보통 실험이 가능하지 않은 경우가 많음
- 실험집단과 통제집단간의 단순한 시간에 따른 변화량 (한 주간 변화량)을 비교하는 것은 나머지 모든 변수들도 함꼐 변하기 때문에, 비교 대상으로 적절치 않을 수 있음
- [자연 실험] 도시마다 상이하게 발생한 원인 시점을 기준으로 변화량을 비교하면?
- 특정 시점 기준으로 실험집단과 통제집단이 달라짐
EX) 사회적 거리두기 정책(Stay-at-Home Orders)과 코로나19 확진자/사망자 수 간의 관계 분석
- 만약 아래처럼 평행추세 가정을 만족하지 못하는 경우는?
- 즉, 정책시행 이전에 처리집단과 통제집단이 같은 추세를 보이는가
- 평행추세 가정 : 시간에 따라 변하는’ 선택 편향 요인은 두 집단에 유사하게 영향을 미칠 것이다는 가정
캘리포니아에서 3/22에 정책이 실행되었는데, 캘리포니아의 정책 실행전의 패턴과 해당기간의 뉴욕/택사사의 패턴과 다를것이라고 생각하기 쉽지 않음.
=> 즉 선택편향이 크게 나타나지 않을 것이라고 판단됨
- 임의의 시점을 기준 → 시간에 따라 변하는 요인은 서로 유사함
- but 사회적 거리두기 정책 시행 전후로 함께 발생한 다른 정책이나 외부 교란 요인은 없는지 검토해야함
평행 추세 가정 검증 (Parallel Trend Assumption)
- 이중차분법의 핵심 가정
- 데이터를 통해 쉽게 검증 가능
- 처치(treatment) 또는 정책 시행 이전에 실험 집단과 통제 집단의 추세가 평행한지 확인
- 검증 1단계 : 결과 변수의 추세 그래프 비교
- 이중 차분법 분석에서 가장 기본적으로 요구되는 조건
- 기준점에서 왼쪽이 평행추세 가정이 적용되는 구간
- 검증 2단계 : 통계적 검증
- 처치(treatement) 또는 정책 시행 기준으로 ±1, ±2, ±3...변수를 만들어서 효과를 추정
- -1,-2,-3 기간에는 효과가 유의하지 않아야하고, +1,+2,+3 기간에는 효과가 유의해져야함
일반화된 질문과 실제 연구문제의 간극
- 인과추론 방법론은 분석에 포함된 특정 대상에 대한 특정 처치 효과만을 정량화 할 수 있다.
- 일반화된 질문 : 사회적 거리두기 정책은 효과가 있을까
- 실제 연구가 답하고자 한 연구 문제 : 언제, 어디에서, 어떤 방식으로 시행된 사회적 거리두기 정책은 효과가 있을까
- 연구 결과 : 특정 사회적 거리두기 정책의 인과적 효과
도구변수
- 자연실험이 없을때, 인위적으로 만드는 실험 조건
- 원인 변수에는 영향을 미치지만, 결과 변수에는 직접 영향을 미치지 않는 변수
- 도구 변수에 의해 인위적으로 야기되는 정책 적용의 부분적인 효과를 분석
- 도구 변수를 통해 관찰되는 데이터에서 정책에 직접 관련된 부분만 도려냄으로써, 관찰되지 않은 요인과 관련된 부분을 배제하고자 하는 통계적 기법
- 장점 : 자연 실험 세팅이 없어도 인과관계 분석 가능
- 단점 :
- 1) ATE 전체를 추론하는게 아닌 부분(local ATE)만 추론 가능
- 2) 도구변수가 도려낸 원인 변수 중에서 선택편향을 포함하지 않는지 포함하는지 검증할 방법이 없음
- 도구 변수의 조건
- 적절성 조건 (relevance): 도구 변수는 원인 변수를 최대한 많이 설명 해야 한다.
- 외생성 제한조건 (exclusive restriction): 도구 변수는 결과 변수에 영향을 줄 수 있는 모든 관찰되지 않은 변수들과 관련이 없어야 한다.
- 도구 변수의 단점
- 외생성 제한조건에 대해서 완전히 검증할 방법이 존재하지 않음.
- 도구 변수에 의해 추정되는 인과 효과는 평균적인 인과 효과 (Average Treatment Effect; ATE) 가 아닌, 도구 변수에 야기되는 부분적 인과 효과 (Local Average Treatment Effect; LATE) 임.
도구 변수를 활용하는 2가지 방법
- 정책에 직접 관련된 부분만 따로 분리해서 그에 대한 효과 분석 : 2단계 최소제곱법
- 관찰되지 않은 요인과 관련된 부분만 따로 분리해서 그것을 추가적으로 통제한 후에 정책효과분석. ⇒ 통제 함수 활용(Control Function Approach)
해당 포스팅은 아래 "코로나19의 사회과학 2020" 강의를 듣고 정리한 내용입니다.
https://www.youtube.com/playlist?list=PLKKkeayRo4PU0fpXF_N3rQx6DdJqiie_9
728x90
반응형
'Data Analysis & ML > 인과추론' 카테고리의 다른 글
[인과추론] 이중차분법 (Difference in Difference) (0) | 2022.09.12 |
---|---|
[인과추론] 평행추세검증 (이중차분법/Event study approach / Leads-and lags model / Relative time model) (0) | 2022.09.12 |
[인과추론] 인과추론의 단계(1) (회귀분석 / 이중차분법 / 매칭) (0) | 2022.07.31 |
[인과추론] 인과관계를 알아내기 위한 분석틀 (1) | 2022.07.31 |
[인과추론] 인과관계란 (0) | 2022.07.31 |