Data Analysis & ML/인과추론

[인과추론] 평행추세검증 (이중차분법/Event study approach / Leads-and lags model / Relative time model)

YSY^ 2022. 9. 12. 17:49

이중 차분법을 활용하기 위해서는 평행추세가정을 만족하여야 한다. 이번 포스팅에서는 평행추세를 검증하는 방법을 알아본다.

평행추세가정

  • 평행추세가정 : 실험군과 대조군이 event가 발생하기 전에는 비슷한 흐름을 보이고 있어야 한다. 즉 ‘시간에 따라 변하는’ 선택 편향 요인은 두 집단에 유사하게 영향을 미칠 것이다. (= 실험집단과 통제집단이 시간에 따라 유사하게 변할 것이다)
  • 물론 평행추세검증은 확인하기가 힘드나, Treatment가 발생한 이전의 흐름은 검정가능하다.
  • 이를 검증하기 위해 도표를 그려서 확인한다.

  • 그러나 실험군이 여러개이고, Treatment  시점이 다르다면, 이렇게 두그룹으로 나눠서 도표로 보기 힘들다.

따라서 아래의 모델을 활용하여 평행추세를 통계적으로 검증한다.

 

통계적 검증(Event study approach / Leads-and lags model / Relative time model)

  • 사실상 위 모델은 같은 모델이다. 다만 평행추세검증에서 위 모델의 특성이 포함되어있어서, 그 특성에 따라 모델이름이 다르게 붙여진 것이다.
  • 해당 모델을 설명하면서 어떤 측면에서 각각의 이름이 붙었는지도 설명하였다.
  • 이 모델은 Treatment  기준으로  ±1, ±2, ±3, ±4.. 변수를 만들어서 효과를 추정한다.
  • -1,-2,-3,-4 기간에는 효과가 유의하지 않아야하고, +1. +2. +3, +4 기간에는 효과가 유의해야한다.

 

사건연구

모델 중 Event study approach라는 것이 있는데, 왜 이모델에 event study가 붙었는지 이해하기 위해 먼저 사건연구(event study)에 대해 간단하게 알아보겠다.

Estimation period(추정기간)

  • 추정기간(Estimation period)은 event가 보고자하는 값에 영향을 미치지 않았다고 여겨지는 기간

Event window(Event기간)

  • 사건기간(Event Window)은 특정 event가 값에 영향을 미칠 수 있다고 판단되는 기간을 의미.
  • 사건기간은 일반적으로 특정 사건이 발생하는 시점 중심으로 그 전후의 일정기간으로서 설정함.
  • 시간이 지날 수록 해당 event의 효과는 사라짐
  • EX) 주 52시간 시행의 영향을 보고자 할때, 정책 시행 전 후로 영향을 끼칠 수 있음

 

평행추세검증을 하기 위한 데이터 세팅

- 평행추세검증을 하는 방법을 이해하기 위해 데이터 세팅을 하는 방법을 설명하고자 한다.

  1. 각 집단에 treatment가 동시에 적용되었을 때
  • DID분석시 treatment를 받은 시점 이전은 0, 이후는 1로 세팅
  • event study approach : 정책 시행의 영향을 받는 전후 기간 선정 (아래 샘플 데이터에서는 시행 4년전부터, 시행 5년후까지 해당 정책이 영향을 준다고 판단)
    • 1년 전후, 2년 전후 등등을 더미변수로 만들어서, 1년전후 2년전후의 효과를 따로 측청함.
  • leads and lags : 시행년도에는 시행 컬럼에 1을 채우고, 시행 1년전에는 시행-1(lag 1)에 1을 채우는 식으로 데이터 세팅

 

2. 각 집단에 정책이 다른 시점에 적용되었을 때

  • EX ) 주 52시간 정책은 기업 규모에 따라 다른 시기에 적용됨
  • EX) 지역마다 다른 거리두기 정책 시행

  • relative time model : Treatment가 다르게 적용된 것을 같게 맞춰줌

  • 집단1은 1971년에 정책이 시행되었기에, 1970년이 lag1, 1972년이 lead1
  • 집단2은 1973년에 정책이 시행되었기에, 1972년이 lag1, 1974년이 lead1

 

회귀분석을 통한 평행추세검증

평행추세 검증을 하기 위한 회귀식은 아래와 같이 만들어진다.

  • Individual fixed effects : 각 개별 유닛에 대해 시간에 따라서 변화하지 않는 부분을 설명하기 위해서 넣음
  • time fixed effects : 특정 시점에 공통적인 영향을 주는 요인을 설명하기 위해서 넣음
  • 독립변수(y) : Treatment에 따라 변한 값
  • 통제변수 : 통제하고자 하는 효과
  • DID값 : Lead 더미 변수의 coef값
    • EX) lead1의 coef → 정책 시행 1년후의 DID값

 

회귀분석 결과

  • lag 값들 (정책시행 이전 값들)이 유의하지 않아야함
    • 유의하지 않다 → 다르다고 할 수 없다는 의미이기 때문.
    • 위 표에도 lag값들이 lead값들에 비해 유의하지 않는것이 보임.
    • → 집단들이 평행추세 검증을 만족한다고 볼 수 있음

 

Regression Coefficients Plot

- 계수들의 분포를 시각화하여 평행추세검증을 만족하는지 확인할 수 있다.

  • 정책이 시행되기 전에 집단들의 패턴이 비슷하다면 특별한 효과가 나타나지 않기 때문에 정책이 시행되기 이전의 기간에는 효과가 관찰되지 않아야함.
  • 위 표에서는 lag 부분에는 0에 가깝지만 lead 부분은 0과 멀어지는 것이 관찰됨.

→ 집단들이 평행추세 검증을 만족한다고 볼 수 있음

  • 여기서 시간이 지날 수록 정책의 효과가 강해지는 것을 관찰할 수 있음

 

CF) Lag1이 빠진 이유

  • lag1,2,3 ~ lead 1,2,3 은 모두 더미변수
  • 더미변수를 전부 넣으면 완전 다중공선성이 발생
  • 따라서 lag1이나 lead0을 빼준다. 보통 회귀분석 결과 해석시 빠진 더미변수를 기준으로 하기 때문

 

참고자료

728x90
반응형