상관관계와 인과관계
상관관계는 인과관계를 의미하지 않는다
- 상관관계 : 함께 일어나는 변화
- 인과관계 : 원인과 결과
EX) 검색광고와 수익율과의 관계
- 검색광고와 수익률 간의 높은 양의 상관관계는 투자수익률이 높게 책정(1600%~4000%)
- 내생성을 고려한 인과관계를 기준으로 하면 투자수익률은 -20%~-60%로 감소
EX) 사업 다각화는 유효한 사업전략인가
- 다각화와 기업가치 간의 음의 관계가 있다라는 연구 발표
- 계량 경제적 방법론을 통해 다각화 전략에 대한 선택편향을 고려한 결과 , 다각화는 기업가치과 유의한 관계가 없거나 양의 관계가 없다.
- 선택편향 : 다각화를 한 기업과 하지 않은 기업이 큰 관계가 없다.
- 다각화를 해서 기업가치가 낮아지는 것이 아닌, 기업가치가 낮아진 기업이 다각화를 해서 다닥화와 기업가치의 관계가 음의 관계가 나타나는 것.
사회과학 실증연구에서의 신뢰도 혁명
- 과거에는 상관관계와 인과관계에 대해 크게 신경쓰지 않았음
- 그러나 최근에는 인과관계가 의사결정에 중요한 영향을 끼친다고 신경쓰게됨.
- 인과관계를 알아내기 위해 아래와 같은 IV(도구변수 활용) 와 DD(이중차분법) 등의 도구(방법)들이 개발되었음
- 불과 10년 ~ 15년전부터 아래 방법이 많이쓰이기 시작함. -> 최근에 인과추론에 대한 중요성이 높아지고 있음
사회과학의 연구 접근법
- 인과추론은 실증주의 / 환원주의에 기반함
- 한번에 하나씩 & 연구모형/이론의 집합으로써 학문
- 실증주의 : 데이터 등에 기반해서 객관적인 법칙, 인과관계 추론
- 환원주의: 복잡한 전체 현상에 대해, 세부항목으로 나누고 세부항목을 연구하고 이를 종합하므로써 상위 의미를 추론
- 현실은 너무 복잡하고 모든 것을 데이터화 할 수 없다는 비판이 있음
- 현실은 복잡하기에, 한번에 하나씩 특정한 인과관계의 메커니즘을 분리하고 식별
인과추론을 위한 첫 번째 단계
- 분석 대상 구체화 하기 (한번에 하나씩)
- 분석 대상 간의 관계 명확히 하기-
- 선행변수(x)(원인, 재료)는 무엇이며 후행변수 (Y)(결과)는 무엇인가
인과 추론을 위한 두번째 단계
인과추론의 목적
- 비료의 사용과 농산물 생산량
- 비료 사용을 늘리면 농산물 생산량은 어떻게 될까
- 교육과 임금수준관계
- 교육 비용을 낮추면, 노동자들의 임금은 어떻게 변할까
- 보건의료 시스템과 임금수준의 관계
- 보건의료 시스템에 대한 접근성을 높이면, 노동자들의 임금은 어떻게 변할까
사회과학에서의 인과추론의 본질은 선행변수에 대한 개입(intervention)과 조정(adjustment)
- ⇒ 인과관계를 알아낼때 딥러닝 같은것을 활용하는 것이 아닌 인과추론을 활용해야하는 이유
- ⇒ 목적을 확실히 하여야 어떤 수단을 쓸지 의사결정 할 수 있음
EX) 성별에 따른 취업률의 변화 (성별(X) -> 취업율(Y))
- 이런 설계는 잘못 만들어진 것
- 실제로 성별이 취업율에 영향을 준다고 해도, 이때는 선행변수에 개입과 조정을 할 수 없다.
- 왜냐하면 선행변수(성별)을 바꾸지 못하기 때문
- 만약 이력서에 포함된 사진 → (성별) → 취업률 이런 관계라면, "이력서에 포함된 사진"은 바꿀 수 있기 때문에 제대로 만들어진 설계
분석 목적 명확히 하기
- 선행변수에 대한 개입과 조정 → 인과추론 방법론
- 아프지 않도록 주사를 맞히는 것이 목적인가
- 후행변수에 대한 정밀한 예측 → 예측방법론(머신러닝, 딥러닝 등)
- 아플것 같은 사람들을 찾아내어 관리하는 것이 목적인가
EX) sns 마케팅
인플루언서(동료효과) (X) → 주변인의 구매 여부(Y)
1) 인플루언서를 섭외하여 바이럴 마케팅을 하고 싶다면 → 인과추론 방법론
2) 제품을 구매한 확률이 높은 이용자들을 찾아내어 타겟 마케팅을 하고 싶다면 → 머신러닝(딥러닝) or 추천시스템 or 예측방법론
인과추론에서 메커니즘 규명이 중요한 이유
- 사회과학에서의 인과추론의 본질은 선행변수에 대한 개입과 조정
- 효과적인 개입 전략 수립을 위해 메커니즘에 대한 규명이 중요한 역할을 함
- 메커니즘에 대한 규명은 예측방법론과의 가장 큰 차이점
EX) 재임스 린드 박사의 괴혈병 치료제
- 오렌지와 레몬이 괴혈병 치료에 중요한 역할을 하는걸 발견하고도 50년이 지나고에 치료제로 개발한 이유?
- 오렌지&레몬 → 비티민 C → 괴혈병 치료
- 오렌지와 레몬에서 어떤 요인이 괴혈병 치료에 도움이 되는지 몰랐기 때문
인과관계를 알아내기 위해서는 메커니즘 규명이 중요하지만 무언가 예측하기 위해서는 반드시 인과관계와 그것의 메커니즘을 알아야 할 필요는 없음.(결과가 중요한 것이기 때문)
해당 포스팅은 아래 "코로나19의 사회과학 2020" 강의를 듣고 정리한 내용입니다.
https://www.youtube.com/playlist?list=PLKKkeayRo4PU0fpXF_N3rQx6DdJqiie_9
728x90
반응형
'Data Analysis & ML > 인과추론' 카테고리의 다른 글
[인과추론] 이중차분법 (Difference in Difference) (0) | 2022.09.12 |
---|---|
[인과추론] 평행추세검증 (이중차분법/Event study approach / Leads-and lags model / Relative time model) (0) | 2022.09.12 |
[인과추론] 인과추론의 단계(2) (자연실험 / 평행추세가정 / 도구변수) (0) | 2022.07.31 |
[인과추론] 인과추론의 단계(1) (회귀분석 / 이중차분법 / 매칭) (0) | 2022.07.31 |
[인과추론] 인과관계를 알아내기 위한 분석틀 (1) | 2022.07.31 |