Data Analysis & ML/인과추론

[인과추론] 이중차분법 (Difference in Difference)

YSY^ 2022. 9. 12. 19:01

이중차분법 (Difference in Difference)

  • 차이의 차이 이용하여 treatment effect가 존재하는지 분석하는 기법
  • 실험집단과 통제집단 간 비교 가능하지 않은 요인(선택편향) 분해

  • 1중 차분 : 실험 집단(&대조군 집단) 내에서 정책 시행 전후 차이를 비교
  • 2중 차분 : 실험집단에서의 정책 시행 전후 차이와 통제집단에서의 정책 시행 전후 차이를 비교

 

 

DID값이 왜 인과추론에 효과적인가

• 1종 차분 : TA - TB는 treatment에 따른 실험군의 시간에 따른 변화를, CA - CB는 대조군의 시간에 따른 변화

• 2종 차분: TA - CA 는 treatment 이후에 실험군과 대조군의 차이를, TB-CB는 treatment 시점 이전에 실험군과 대조군의 차이를 의미

 

DID 깂은 아래와 같이 구할 수 있으며

DID는 1종차분값 다시 2종 차분 값을 빼는 방식이다. 실험군과 대조군 각각의 treatment 시점 전후의 차이를 구하고, 이것을 다시 실험군의 변화에서 대조군의 변화의 차이를 뺀다.

counter factual에 따른 인과 관계효과는 아래와 같이 구할 수 있다.

- counterfactual (T'A): Treatment가 없었다면 있었을 잠재적 결과

=> 그러나 현실에서 관찰하기 어렵기에 아래와 같이 정의할 수 있다.

DID는 시간에 의해 변하지 않는 요인을 제거하는 반면, 시간에 의해 변하는 요인은 제거하지 못한다. 이러한 시간에 따른 변화는 parallel trend 가정이 바탕이 된다면 제거할 수 있다. 

 즉 TA - TB에는 시간의 흐름에 따라 발생하는 효과와 treatment의 효과가 함께 포함되어 있다. 반면 CA-CB에는 treatment가 없기 때문에 시간의 흐름에 따른 변화만 포함되어 있다. 만약 

  • Tb는 관찰 가능하나, T'A-TB (시간의 흐름에 따라 발생하는 효과와 treatment의 효과가 동시에 포함)은 관찰이 불가능하다
  • T'A-TB를 대체하기 위해 control그룹의 시간에 따른 변화(CA-CB)를 활용한다. 대조군에는 treatment가 없었기에 시간의 흐름에 따른 변화만 포함되어 있다.
  • 즉, 시간에 따른 변화가 실험군과 대조군에서 동일하다면(평행추세검증을 만족한다면) 아래의 DID 계산을 통해서 인과관계만 추려낼 수 있다.

평행추세검증에 대한 설명은 아래 포스팅을 참고바란다.

https://ysyblog.tistory.com/306

 

[인과추론] 평행추세검증 (이중차분법/Event study approach / Leads-and lags model / Relative time model)

이중 차분법을 활용하기 위해서는 평행추세가정을 만족하여야 한다. 이번 포스팅에서는 평행추세를 검증하는 방법을 알아본다. 평행추세가정 평행추세가정 : 실험군과 대조군이 event가 발생하

ysyblog.tistory.com

 

DID 모형의 종류

기본적인 DID 모형

  • Treati : treatment를 받은 그룹 여부 
  • Aftert : treatment 시점 이후인지 여부 
  • Treati x Aftert (Interection Term) : treatment 그룹에서 treatment를 받은 시점 이후인지. 이 계수가 DID를 통해서 추정하고자 하는treatment에 따른 효과. 
  • δi: unit fixed effect. 패널데이터에는 실험군과 대조군 모두 시간에 따라 변화하는 데이터가 존재하기에, 각 유닛에 대해서 시간에 따라서 변화하지 않는 부분을 설명하기 위해 unit fixed effect를 넣어준다.
  • θt : time fixed effect.  실험군과 대조군에 상관없이 특정 시점에 공통적인 영향을 주는 요인을 고려하기 위해 time fixed effect를 넣어준다.
  • eit : 오차항

그러나 분석을 하다보면 Treati는 unit fixed effect에 흡수되고 Aftert는 time fixed effect에 흡수되기에 fixed effect를 넣게 되면 둘다 누락되어, Interection Term만 남아있게 된다.

 

Treatment 시점이 모두 다른 경우

Treatment 시점이 다 다른경우

  • 유닛마다 treatment 시점이 다 다르기 때문에 Aftert 를 고려할 수 없다.

  • Treat_After가 interaction이 아니라 하나의 변수로 정의된다. 즉, 특정시점에 Treatment를 받았으면 1, 아니면 0으로 정의한다.
  • 물론 Treati는 unit fixed effect에 흡수되어 사라진다.

 

실험군가 대조군이 Treatment에 영향을 받는 차이가 다른 경우

- 대조군도 Treatment 효과를 부분적으로 받는 경우

금융위기에 따른 CSR의 차이 연구

  • 위 연구에서 실험군과 대조군 모두 금융위기의 영향을 받았다.
  • 금융위기의 영향을 덜 받아서 CSR의 성과가 높은 실험군, 금융위기의 영향을 많이 받아서 CSR의 성과가 낮은 대조군으로 구분하여 금융위기 전후의 차이의 차이를 분석

  • 여기서는 After period를 두시점(Crisis, Post-Crisis) 으로 나누어있을뿐, 기본적으로는 앞의 구조와 비슷하다
  • Treati 대신에 CSRi를 활용하고 CSRi는 fixed effect로 인해 사라졌다
  • 따라서 CSRi*Crisist의 interection term만 남아 있다.

 

참고자료

https://www.youtube.com/watch?v=yCeaZ9Ktk7g

728x90
반응형