이중 차분법을 활용하기 위해서는 평행추세가정을 만족하여야 한다. 이번 포스팅에서는 평행추세를 검증하는 방법을 알아본다.
평행추세가정
- 평행추세가정 : 실험군과 대조군이 event가 발생하기 전에는 비슷한 흐름을 보이고 있어야 한다. 즉 ‘시간에 따라 변하는’ 선택 편향 요인은 두 집단에 유사하게 영향을 미칠 것이다. (= 실험집단과 통제집단이 시간에 따라 유사하게 변할 것이다)
- 물론 평행추세검증은 확인하기가 힘드나, Treatment가 발생한 이전의 흐름은 검정가능하다.
- 이를 검증하기 위해 도표를 그려서 확인한다.
- 그러나 실험군이 여러개이고, Treatment 시점이 다르다면, 이렇게 두그룹으로 나눠서 도표로 보기 힘들다.
따라서 아래의 모델을 활용하여 평행추세를 통계적으로 검증한다.
통계적 검증(Event study approach / Leads-and lags model / Relative time model)
- 사실상 위 모델은 같은 모델이다. 다만 평행추세검증에서 위 모델의 특성이 포함되어있어서, 그 특성에 따라 모델이름이 다르게 붙여진 것이다.
- 해당 모델을 설명하면서 어떤 측면에서 각각의 이름이 붙었는지도 설명하였다.
- 이 모델은 Treatment 기준으로 ±1, ±2, ±3, ±4.. 변수를 만들어서 효과를 추정한다.
- -1,-2,-3,-4 기간에는 효과가 유의하지 않아야하고, +1. +2. +3, +4 기간에는 효과가 유의해야한다.
사건연구
모델 중 Event study approach라는 것이 있는데, 왜 이모델에 event study가 붙었는지 이해하기 위해 먼저 사건연구(event study)에 대해 간단하게 알아보겠다.
Estimation period(추정기간)
- 추정기간(Estimation period)은 event가 보고자하는 값에 영향을 미치지 않았다고 여겨지는 기간
Event window(Event기간)
- 사건기간(Event Window)은 특정 event가 값에 영향을 미칠 수 있다고 판단되는 기간을 의미.
- 사건기간은 일반적으로 특정 사건이 발생하는 시점 중심으로 그 전후의 일정기간으로서 설정함.
- 시간이 지날 수록 해당 event의 효과는 사라짐
- EX) 주 52시간 시행의 영향을 보고자 할때, 정책 시행 전 후로 영향을 끼칠 수 있음
평행추세검증을 하기 위한 데이터 세팅
- 평행추세검증을 하는 방법을 이해하기 위해 데이터 세팅을 하는 방법을 설명하고자 한다.
- 각 집단에 treatment가 동시에 적용되었을 때
- DID분석시 treatment를 받은 시점 이전은 0, 이후는 1로 세팅
- event study approach : 정책 시행의 영향을 받는 전후 기간 선정 (아래 샘플 데이터에서는 시행 4년전부터, 시행 5년후까지 해당 정책이 영향을 준다고 판단)
- 1년 전후, 2년 전후 등등을 더미변수로 만들어서, 1년전후 2년전후의 효과를 따로 측청함.
- leads and lags : 시행년도에는 시행 컬럼에 1을 채우고, 시행 1년전에는 시행-1(lag 1)에 1을 채우는 식으로 데이터 세팅
2. 각 집단에 정책이 다른 시점에 적용되었을 때
- EX ) 주 52시간 정책은 기업 규모에 따라 다른 시기에 적용됨
- EX) 지역마다 다른 거리두기 정책 시행
- relative time model : Treatment가 다르게 적용된 것을 같게 맞춰줌
- 집단1은 1971년에 정책이 시행되었기에, 1970년이 lag1, 1972년이 lead1
- 집단2은 1973년에 정책이 시행되었기에, 1972년이 lag1, 1974년이 lead1
회귀분석을 통한 평행추세검증
평행추세 검증을 하기 위한 회귀식은 아래와 같이 만들어진다.
- Individual fixed effects : 각 개별 유닛에 대해 시간에 따라서 변화하지 않는 부분을 설명하기 위해서 넣음
- time fixed effects : 특정 시점에 공통적인 영향을 주는 요인을 설명하기 위해서 넣음
- 독립변수(y) : Treatment에 따라 변한 값
- 통제변수 : 통제하고자 하는 효과
- DID값 : Lead 더미 변수의 coef값
- EX) lead1의 coef → 정책 시행 1년후의 DID값
회귀분석 결과
- lag 값들 (정책시행 이전 값들)이 유의하지 않아야함
- 유의하지 않다 → 다르다고 할 수 없다는 의미이기 때문.
- 위 표에도 lag값들이 lead값들에 비해 유의하지 않는것이 보임.
- → 집단들이 평행추세 검증을 만족한다고 볼 수 있음
Regression Coefficients Plot
- 계수들의 분포를 시각화하여 평행추세검증을 만족하는지 확인할 수 있다.
- 정책이 시행되기 전에 집단들의 패턴이 비슷하다면 특별한 효과가 나타나지 않기 때문에 정책이 시행되기 이전의 기간에는 효과가 관찰되지 않아야함.
- 위 표에서는 lag 부분에는 0에 가깝지만 lead 부분은 0과 멀어지는 것이 관찰됨.
→ 집단들이 평행추세 검증을 만족한다고 볼 수 있음
- 여기서 시간이 지날 수록 정책의 효과가 강해지는 것을 관찰할 수 있음
CF) Lag1이 빠진 이유
- lag1,2,3 ~ lead 1,2,3 은 모두 더미변수
- 더미변수를 전부 넣으면 완전 다중공선성이 발생
- 따라서 lag1이나 lead0을 빼준다. 보통 회귀분석 결과 해석시 빠진 더미변수를 기준으로 하기 때문
참고자료
- https://lost-stats.github.io/Model_Estimation/Research_Design/event_study.html
- https://docs.iza.org/dp13524.pdf
- https://byelenin.github.io/MicroEconometrics/Slides/GradMetrics_2020_Lec7B.pdf
- https://stats.stackexchange.com/questions/523032/testing-parallel-trends-in-staggered-difference-in-differences
- https://www.fnguide.com/Download/EventStudyUserGuide.pdf
- https://www.youtube.com/watch?v=yCeaZ9Ktk7g
728x90
반응형
'Data Analysis & ML > 인과추론' 카테고리의 다른 글
[Matching][매칭] PSM(Propensity Score Matching) (PSMPY) (1) | 2022.11.20 |
---|---|
[인과추론] 이중차분법 (Difference in Difference) (0) | 2022.09.12 |
[인과추론] 인과추론의 단계(2) (자연실험 / 평행추세가정 / 도구변수) (0) | 2022.07.31 |
[인과추론] 인과추론의 단계(1) (회귀분석 / 이중차분법 / 매칭) (0) | 2022.07.31 |
[인과추론] 인과관계를 알아내기 위한 분석틀 (1) | 2022.07.31 |