Data Analysis & ML/인과추론

[인과추론] 인과관계를 알아내기 위한 분석틀

YSY^ 2022. 7. 31. 20:10

인과관계를 이해하는 틀

  • 잠재적 결과 프레임 워크
    • 인과 효과 = (원인이 있을 때의 결과) - (원인이 없었다면 있었을 잠재적 결과)
    • 잠재적인 결과는 “관찰되지 못한”가상의 결과이다
    • EX) 비료의 사용과 농산물 생산량의 관계에서 인과관계를 분석할때
      • 비료를 사용한 생산량은 100인데, 만약 연초에 비료를 쓰지 않았다면 생산량은 어땠을까

 

인과추론의 근본적 문제

잠재적인 결과는 "관찰되지 못한" 가상의 결과 (Fundamental Problem fo Causal Inference)

EX) 독서와 성적의 관계

  • 보통 사람들이 생각하는 인과관계 : (책을 읽은 우리 아이의 성적) - (책을 읽지 않은 우리 아이의 성적)
  • 실제 현실에 나타난 결과 : (책을 읽은 엄마 친구 아들 성적) - (책을 읽지 않은 우리 아이 성적)
    • 과연 책을 읽지 않아서 성적차이가 나는 것일까

선택편향 (selection bias)

  • 분석 대상들이 처치(treatment) 여부를 직접 선택했기 때문에, 두 비교 대상간에 관찰되지 않은 요인에 의한 체계적인 차이가 존재할 수 있음
  • 현실에서의 독서 효과 = 책을 읽은 엄마 친구 아들 성적 - 책을 읽지 않은 우리아이 성적
    • 책을 읽지 않은 엄마 친구 아들 성적 - 책을 읽지 않은 엄마 친구 아들 성적 ⇒ 실제 인과관계
    • + 책을 읽지 않은 엄마 친구 아들 성적 - 책을 읽지 않은 우리 아이 성적 ⇒ 선택편향
  • 즉, 엄마 친구 아들과 우리아이가 근본적으로 비교가능한 대상인지 알아보아야 함 (가정환경 등의 차이가 있을 수 있기 때문)

역 인과관계

  • 인과 관계와 역 인과관계는 모두 동일한 상관관계를 도출
  • EX) 경찰이 많을 수록 범죄가 많이 일어난다? -> 실제로는 범죄가 많이 일어나기 때문에 경찰이 많은것임.

핵심 처치를 제외한 대부분의 요인들이 비교 가능한 대상 찾기(counterfactual)

  • 선택 편향을 없애야함
  • 위 예시에서 엄마 친구 아들과 우리아이와 가정형편, 성장배경이 유사하고, 유전자가 동일한 쌍동이 형제와 비교해야 선택편향을 줄일 수 있음

 

잠재적 결과 관점에서의 인과추론의 대원칙

Ceteris Paribus (그것만 빼고, 다 같은 조건)

무작위 통제 실험

  • 무작위 통제실험의 핵심은 무작위 배정(random assignment)
  • 무작위로 처치 여부를 결정하면, 실험 대상이 많아질수록 처치 여부를 제외한 나머지 요인들은 평균적으로 유사할 것이다(큰 수의 법칙)
  • 실험대상 ↔ 통제대상
  • A/B Test
  • 엄마 친구 아들과 우리아이를 무작위로 나누어 책을 읽었는지 여부를 제외한 나머지는 평균적으로 같게 조작한 후 성적을 비교

출처 : https://medium.com/lab2050/soluiton20500502-70f8ba8376ce

평균처치효과 / 조건부 평균처치효과

  • 모든 인과추론 방법에서 우리가 추론하는 것은 언제나 실험집단에 대한 조건부 평균처치효과이다.
  • 평균처치효과 (Average Treatment Effect : ATE) => 알 수 없음
  • 실험 집단에 대한 평균처치효과 (ATET) ⇒ 실제로 알 수 있는것
  • 통제 집단에 대한 평균처치효과 (ATEC) => 알 수 없음

ATE는 ATET와 ATEC로 구성된다.

  • 실험집단에 대한 조건부 평균처치효과(ATET)가 평균처치효과(ATE)가 될 수 있는 경우
    • 만약 ATET = ATEC 이면 ATET = ATE
    • 즉, 통제 집단이 실험집단과 유사하다면 ATET = ATE
    • Ceteris Paribus

 

인과추론의 아킬레스건 : 일반화 가능성

  • 무작위 통제실험과 준실험설계와 같은 인과추론 방법론의 가장 큰 약점은 일반화 가능성
    • 외적 타당성 (external validity)
    • 원칙적으로 특정 조건에서 시행된 실험이 다른 조건에서 유효하리라는 보장은 없다.
  • 실험 대상을 랜덤하게 나누는것 + 실험 대상 자체를 랜덤하게 추출 하는 것이 필요
  • 실험 세팅의 선정은 무작위하게 이루어졌는지, 그렇지 않다면 우리가 적용하고자 하는 상황과 조건이 실험조건과 얼마나 유사한지를 보아야함

 EX) Opower 사례 : 이웃과의 비교를 통한 전기 소비 감소를 유도하는 에너지 기업

ATE(인과관계효과)가 시간이 지날 수록 낮아지고 있다.

  • 지역별로 Opower 도입의 실험효과(y축)를 분석한 결과, Opower 를 일찍 도입한 도시(x축)에서 그 효과가 더 큰 것으로 나타남.
  • 즉, Opower 를 도입한 도시들은 무작위로 선정된 것이 아니며 환경 친화적인 고객이 많은 도시들이 먼저 도입함
    • 환경친화적인 고객이 많은 도시의 전기사업자들에게 Opower 를 일찍 도입하는 인센티브가 존재하기 때문.
    • 즉, 내적 타당성은 확보되었지만(도시 내에서 샘플 추출) 외적타당성(도시 선정)이 갖춰지지 않은 실험임

 

인과관계를 이해하는 다양한 프레임워크

잠재적 결과 프레임워크

  • 장점 : 선택편향에 대해 직관적으로 이해하기 쉽고, 준실험설계에 부합, 데이터와 적절한 실험설계(무작위 통제실험/준실험)만으로 인과관계 분석
  • 단점 : 선택편향의 원인과 인과관계의 메커니즘에 대한 분석의 틀을 제공하지 않음
  • EX) 알뜰 주유소 도입효과 분석
    • 비교가능한 대상(counterfactual)을 비알뜰주요소로 선정
    • 알뜰주유소의 변화 - 비알뜰주유소의 변화 => 인과효과
    • 알뜰주유소 도입 정책에 따른 효과는 비알뜰주유소나 알뜰주유소나 같음

정준환, 이지연 and 김형건, 2013. 알뜰주유소 전환으로 인한 자영주유소의 휘발유가격 인하효과 분석. 에너지경제연구, 12(1), pp.125-158.

내생성에 대한 통계적 이해

  • 설명 변수와 오차항 사이에 상관관계가 존재하지 않아야 한다.
  • 장점 : 다양한 내생성 가능성에 대해 편향(bias)의 방향과 정도를 이론적으로 추정
  • 단점 : 직관적이지 않으며 실험설계와 개념적인 괴리가 존재
  • 모든 프레임워크에 이론적 분석틀을 제공

인과관계에 대한 그래프 모델 (인과 그래프)

  • 비순환 방향 그래프
  • 장점 : 선택편향의 원인과 인과관계의 연결고리를 명시적으로 모델링할 수 있음(베이지안 모델링에 적합)
  • 단점 : 인과관계에 대한 모델링은 일정부분 검증할 수 없는 가정에 기반. 정확한 인과관계 추정을 위해서 데이터 이외에 검증된 이론과 지식이 필수

 

해당 포스팅은 아래 "코로나19의 사회과학 2020" 강의를 듣고 정리한 내용입니다.

https://www.youtube.com/playlist?list=PLKKkeayRo4PU0fpXF_N3rQx6DdJqiie_9

 

코로나19 의 사회과학 2020

"코로나19 의 사회과학: 인과추론 연구방법론 관점에서" 강의 홈페이지 https://sites.google.com/view/social-science-of-covid-19

www.youtube.com

 

728x90
반응형