Data Analysis & ML/인과추론

[인과추론] 인과관계란

YSY^ 2022. 7. 31. 19:08

상관관계와 인과관계

상관관계는 인과관계를 의미하지 않는다

  • 상관관계 : 함께 일어나는 변화
  • 인과관계 : 원인과 결과

EX) 검색광고와 수익율과의 관계

  • 검색광고와 수익률 간의 높은 양의 상관관계는 투자수익률이 높게 책정(1600%~4000%)
  • 내생성을 고려한 인과관계를 기준으로 하면 투자수익률은 -20%~-60%로 감소

EX) 사업 다각화는 유효한 사업전략인가

  • 다각화와 기업가치 간의 음의 관계가 있다라는 연구 발표
  • 계량 경제적 방법론을 통해 다각화 전략에 대한 선택편향을 고려한 결과 , 다각화는 기업가치과 유의한 관계가 없거나 양의 관계가 없다.
    • 선택편향 : 다각화를 한 기업과 하지 않은 기업이 큰 관계가 없다.
    • 다각화를 해서 기업가치가 낮아지는 것이 아닌, 기업가치가 낮아진 기업이 다각화를 해서 다닥화와 기업가치의 관계가 음의 관계가 나타나는 것.

 

사회과학 실증연구에서의 신뢰도 혁명

  • 과거에는 상관관계와 인과관계에 대해 크게 신경쓰지 않았음
  • 그러나 최근에는 인과관계가 의사결정에 중요한 영향을 끼친다고 신경쓰게됨.
  • 인과관계를 알아내기 위해 아래와 같은 IV(도구변수 활용) 와 DD(이중차분법) 등의 도구(방법)들이 개발되었음
    • 불과 10년 ~ 15년전부터 아래 방법이 많이쓰이기 시작함. -> 최근에 인과추론에 대한 중요성이 높아지고 있음

 

사회과학의 연구 접근법

  • 인과추론은 실증주의 / 환원주의에 기반함
    • 한번에 하나씩 & 연구모형/이론의 집합으로써 학문
  • 실증주의 : 데이터 등에 기반해서 객관적인 법칙, 인과관계 추론
  • 환원주의: 복잡한 전체 현상에 대해, 세부항목으로 나누고 세부항목을 연구하고 이를 종합하므로써 상위 의미를 추론
    • 현실은 너무 복잡하고 모든 것을 데이터화 할 수 없다는 비판이 있음
  • 현실은 복잡하기에, 한번에 하나씩 특정한 인과관계의 메커니즘을 분리하고 식별

 

인과추론을 위한 첫 번째 단계

  1. 분석 대상 구체화 하기 (한번에 하나씩)
  2. 분석 대상 간의 관계 명확히 하기-
    • 선행변수(x)(원인, 재료)는 무엇이며 후행변수 (Y)(결과)는 무엇인가

인과 추론을 위한 두번째 단계

인과추론의 목적

  • 비료의 사용과 농산물 생산량
    • 비료 사용을 늘리면 농산물 생산량은 어떻게 될까
  • 교육과 임금수준관계
    • 교육 비용을 낮추면, 노동자들의 임금은 어떻게 변할까
  • 보건의료 시스템과 임금수준의 관계
    • 보건의료 시스템에 대한 접근성을 높이면, 노동자들의 임금은 어떻게 변할까

사회과학에서의 인과추론의 본질은 선행변수에 대한 개입(intervention)과 조정(adjustment)

  • ⇒ 인과관계를 알아낼때 딥러닝 같은것을 활용하는 것이 아닌 인과추론을 활용해야하는 이유
  • ⇒ 목적을 확실히 하여야 어떤 수단을 쓸지 의사결정 할 수 있음

EX) 성별에 따른 취업률의 변화 (성별(X) -> 취업율(Y))

  • 이런 설계는 잘못 만들어진 것
  • 실제로 성별이 취업율에 영향을 준다고 해도, 이때는 선행변수에 개입과 조정을 할 수 없다.
    • 왜냐하면 선행변수(성별)을 바꾸지 못하기 때문
  • 만약 이력서에 포함된 사진 → (성별) → 취업률 이런 관계라면, "이력서에 포함된 사진"은 바꿀 수 있기 때문에 제대로 만들어진 설계

분석 목적 명확히 하기

  • 선행변수에 대한 개입과 조정 → 인과추론 방법론
    • 아프지 않도록 주사를 맞히는 것이 목적인가
  • 후행변수에 대한 정밀한 예측 → 예측방법론(머신러닝, 딥러닝 등)
    • 아플것 같은 사람들을 찾아내어 관리하는 것이 목적인가

EX) sns 마케팅

인플루언서(동료효과) (X) → 주변인의 구매 여부(Y)

1) 인플루언서를 섭외하여 바이럴 마케팅을 하고 싶다면 → 인과추론 방법론

2) 제품을 구매한 확률이 높은 이용자들을 찾아내어 타겟 마케팅을 하고 싶다면 → 머신러닝(딥러닝) or 추천시스템 or 예측방법론

 

인과추론에서 메커니즘 규명이 중요한 이유

  • 사회과학에서의 인과추론의 본질은 선행변수에 대한 개입과 조정
  • 효과적인 개입 전략 수립을 위해 메커니즘에 대한 규명이 중요한 역할을 함
  • 메커니즘에 대한 규명은 예측방법론과의 가장 큰 차이점

EX) 재임스 린드 박사의 괴혈병 치료제

  • 오렌지와 레몬이 괴혈병 치료에 중요한 역할을 하는걸 발견하고도 50년이 지나고에 치료제로 개발한 이유?
    • 오렌지&레몬 → 비티민 C → 괴혈병 치료
    • 오렌지와 레몬에서 어떤 요인이 괴혈병 치료에 도움이 되는지 몰랐기 때문

인과관계를 알아내기 위해서는 메커니즘 규명이 중요하지만 무언가 예측하기 위해서는 반드시 인과관계와 그것의 메커니즘을 알아야 할 필요는 없음.(결과가 중요한 것이기 때문)

 

해당 포스팅은 아래 "코로나19의 사회과학 2020" 강의를 듣고 정리한 내용입니다.

https://www.youtube.com/playlist?list=PLKKkeayRo4PU0fpXF_N3rQx6DdJqiie_9 

 

코로나19 의 사회과학 2020

"코로나19 의 사회과학: 인과추론 연구방법론 관점에서" 강의 홈페이지 https://sites.google.com/view/social-science-of-covid-19

www.youtube.com

728x90
반응형