인과관계를 이해하는 틀
- 잠재적 결과 프레임 워크
- 인과 효과 = (원인이 있을 때의 결과) - (원인이 없었다면 있었을 잠재적 결과)
- 잠재적인 결과는 “관찰되지 못한”가상의 결과이다
- EX) 비료의 사용과 농산물 생산량의 관계에서 인과관계를 분석할때
- 비료를 사용한 생산량은 100인데, 만약 연초에 비료를 쓰지 않았다면 생산량은 어땠을까
인과추론의 근본적 문제
잠재적인 결과는 "관찰되지 못한" 가상의 결과 (Fundamental Problem fo Causal Inference)
EX) 독서와 성적의 관계
- 보통 사람들이 생각하는 인과관계 : (책을 읽은 우리 아이의 성적) - (책을 읽지 않은 우리 아이의 성적)
- 실제 현실에 나타난 결과 : (책을 읽은 엄마 친구 아들 성적) - (책을 읽지 않은 우리 아이 성적)
- 과연 책을 읽지 않아서 성적차이가 나는 것일까
선택편향 (selection bias)
- 분석 대상들이 처치(treatment) 여부를 직접 선택했기 때문에, 두 비교 대상간에 관찰되지 않은 요인에 의한 체계적인 차이가 존재할 수 있음
- 현실에서의 독서 효과 = 책을 읽은 엄마 친구 아들 성적 - 책을 읽지 않은 우리아이 성적
- 책을 읽지 않은 엄마 친구 아들 성적 - 책을 읽지 않은 엄마 친구 아들 성적 ⇒ 실제 인과관계
- + 책을 읽지 않은 엄마 친구 아들 성적 - 책을 읽지 않은 우리 아이 성적 ⇒ 선택편향
- 즉, 엄마 친구 아들과 우리아이가 근본적으로 비교가능한 대상인지 알아보아야 함 (가정환경 등의 차이가 있을 수 있기 때문)
역 인과관계
- 인과 관계와 역 인과관계는 모두 동일한 상관관계를 도출
- EX) 경찰이 많을 수록 범죄가 많이 일어난다? -> 실제로는 범죄가 많이 일어나기 때문에 경찰이 많은것임.
핵심 처치를 제외한 대부분의 요인들이 비교 가능한 대상 찾기(counterfactual)
- 선택 편향을 없애야함
- 위 예시에서 엄마 친구 아들과 우리아이와 가정형편, 성장배경이 유사하고, 유전자가 동일한 쌍동이 형제와 비교해야 선택편향을 줄일 수 있음
잠재적 결과 관점에서의 인과추론의 대원칙
Ceteris Paribus (그것만 빼고, 다 같은 조건)
무작위 통제 실험
- 무작위 통제실험의 핵심은 무작위 배정(random assignment)
- 무작위로 처치 여부를 결정하면, 실험 대상이 많아질수록 처치 여부를 제외한 나머지 요인들은 평균적으로 유사할 것이다(큰 수의 법칙)
- 실험대상 ↔ 통제대상
- A/B Test
- 엄마 친구 아들과 우리아이를 무작위로 나누어 책을 읽었는지 여부를 제외한 나머지는 평균적으로 같게 조작한 후 성적을 비교
평균처치효과 / 조건부 평균처치효과
- 모든 인과추론 방법에서 우리가 추론하는 것은 언제나 실험집단에 대한 조건부 평균처치효과이다.
- 평균처치효과 (Average Treatment Effect : ATE) => 알 수 없음
- 실험 집단에 대한 평균처치효과 (ATET) ⇒ 실제로 알 수 있는것
- 통제 집단에 대한 평균처치효과 (ATEC) => 알 수 없음
- 실험집단에 대한 조건부 평균처치효과(ATET)가 평균처치효과(ATE)가 될 수 있는 경우
- 만약 ATET = ATEC 이면 ATET = ATE
- 즉, 통제 집단이 실험집단과 유사하다면 ATET = ATE
- Ceteris Paribus
인과추론의 아킬레스건 : 일반화 가능성
- 무작위 통제실험과 준실험설계와 같은 인과추론 방법론의 가장 큰 약점은 일반화 가능성
- 외적 타당성 (external validity)
- 원칙적으로 특정 조건에서 시행된 실험이 다른 조건에서 유효하리라는 보장은 없다.
- 실험 대상을 랜덤하게 나누는것 + 실험 대상 자체를 랜덤하게 추출 하는 것이 필요
- 실험 세팅의 선정은 무작위하게 이루어졌는지, 그렇지 않다면 우리가 적용하고자 하는 상황과 조건이 실험조건과 얼마나 유사한지를 보아야함
EX) Opower 사례 : 이웃과의 비교를 통한 전기 소비 감소를 유도하는 에너지 기업
- 지역별로 Opower 도입의 실험효과(y축)를 분석한 결과, Opower 를 일찍 도입한 도시(x축)에서 그 효과가 더 큰 것으로 나타남.
- 즉, Opower 를 도입한 도시들은 무작위로 선정된 것이 아니며 환경 친화적인 고객이 많은 도시들이 먼저 도입함
- 환경친화적인 고객이 많은 도시의 전기사업자들에게 Opower 를 일찍 도입하는 인센티브가 존재하기 때문.
- 즉, 내적 타당성은 확보되었지만(도시 내에서 샘플 추출) 외적타당성(도시 선정)이 갖춰지지 않은 실험임
인과관계를 이해하는 다양한 프레임워크
잠재적 결과 프레임워크
- 장점 : 선택편향에 대해 직관적으로 이해하기 쉽고, 준실험설계에 부합, 데이터와 적절한 실험설계(무작위 통제실험/준실험)만으로 인과관계 분석
- 단점 : 선택편향의 원인과 인과관계의 메커니즘에 대한 분석의 틀을 제공하지 않음
- EX) 알뜰 주유소 도입효과 분석
- 비교가능한 대상(counterfactual)을 비알뜰주요소로 선정
- 알뜰주유소의 변화 - 비알뜰주유소의 변화 => 인과효과
- 알뜰주유소 도입 정책에 따른 효과는 비알뜰주유소나 알뜰주유소나 같음
내생성에 대한 통계적 이해
- 설명 변수와 오차항 사이에 상관관계가 존재하지 않아야 한다.
- 장점 : 다양한 내생성 가능성에 대해 편향(bias)의 방향과 정도를 이론적으로 추정
- 단점 : 직관적이지 않으며 실험설계와 개념적인 괴리가 존재
- 모든 프레임워크에 이론적 분석틀을 제공
인과관계에 대한 그래프 모델 (인과 그래프)
- 비순환 방향 그래프
- 장점 : 선택편향의 원인과 인과관계의 연결고리를 명시적으로 모델링할 수 있음(베이지안 모델링에 적합)
- 단점 : 인과관계에 대한 모델링은 일정부분 검증할 수 없는 가정에 기반. 정확한 인과관계 추정을 위해서 데이터 이외에 검증된 이론과 지식이 필수
해당 포스팅은 아래 "코로나19의 사회과학 2020" 강의를 듣고 정리한 내용입니다.
https://www.youtube.com/playlist?list=PLKKkeayRo4PU0fpXF_N3rQx6DdJqiie_9
728x90
반응형
'Data Analysis & ML > 인과추론' 카테고리의 다른 글
[인과추론] 이중차분법 (Difference in Difference) (0) | 2022.09.12 |
---|---|
[인과추론] 평행추세검증 (이중차분법/Event study approach / Leads-and lags model / Relative time model) (0) | 2022.09.12 |
[인과추론] 인과추론의 단계(2) (자연실험 / 평행추세가정 / 도구변수) (0) | 2022.07.31 |
[인과추론] 인과추론의 단계(1) (회귀분석 / 이중차분법 / 매칭) (0) | 2022.07.31 |
[인과추론] 인과관계란 (0) | 2022.07.31 |