Data Analysis & ML/인과추론

[인과추론] 인과추론의 기본개념

YSY^ 2025. 1. 29. 20:11

인과추론의 기본개념

이 포스팅은 인과추론을 이해하는데 필요한 중요한 개념들에 대해 정리하였습니다. 아래 내용은 인과추론을 공부할 때 꼭 알아야할 개념들입니다.

해당 포스팅은 아래 내용을 다룹니다

  • 처치와 결과
  • 인과모델
  • 개입
  • 개별처치효과
  • 잠재적결과
  • SUTVA
  • 인과추정량
  • 편향
  • 독립성가정
  • 랜덤화와 식별

 

연관관계와 인과관계

  • 연관관계(상관관계)는 인과관계를 의미하지 않음
  • 인과관계를 분석하기 위해서는 문제를 구체화해야함
  • EX) 할인이 매출에 도움되는가 X ->크리스마스이전에  어린이 장난감을 할인하면 판매량이 증가할 것인가?
  • 분석단위 : 일반적으로 개입(처치)하려는 대상. 분석단위는 대부분 사람이나 가끔 회사 등 다를 수 있음

처치와 결과

  • Ti는 실험대상 i의 처치여부를 나타냄
  • 처치(Treatment) : 구하려는 효과에 대한 개입. EX) 가격할인
  • Yi : 영향을 주려는 변수(결과) EX) 판매량

인과추론의 근본적인 문제

  • 동일한 실험대상이 '처치'를 받은 상태와 받지 않은 상태를 동시에 관측할 수 없음
  • 할인을 했을 때 판매량이 높아진다가 관찰된 경우 -> 대기업이 더 공격적으로 가격을 낮출 여유가 있기에 나타난 현상일 수 있음
  • 따라서 동일한 실험 대상에서 할인이 진행되는 상황과 그렇지 않은 상황을 동시에 관측해야 실제효과를 확신할 수 있음
  • 즉 위 두가지 반사실(Counterfactual) 상황을 비교하여야 함

인과모델

  • 화살표로 표시하는 일련의 할당 메커니즘

  • 외부변수(ui)가 함수 f를 통해 처치변수 T를 유발
  • 처치변수 T는 다룬 변수 집합(uy)와 함께 함수f를 통해 결과 Y를 유발. uy는 결과가 단순히 처치변수만으로 결정되지 않음을 의미
  • 내생변수(endogenous variable, uy) : 아직 설명되지 않은 변수의 모든 변동 (ex 가격할인 모델에서의 기업규모 등)
  • 화살표는 인과관계의 비가역성(nonreversibility)를 의미

위 예시에서

  • BusinessSize는 내생변수
  • InOnSales(할인)의 원인이 BusinessSize 와 ui(다른 외부변수들)을 의미
  • AmountSold(매출, 결과)가 처치( InOnSales ), BusinessSize  와 다른 외부변수들의 결과임.
  • 즉 BusinessSize는 처치( InOnSales)과 결과(AmountSold) 모두의 공통원인임

이는 아래와 같이 선형모델로 만들 수 있음

개입(Intervention)

  • Treatment에 개입해서 어떤 일이 일어날지 추론
  •  do(T = t0)로 표현

위 식에서 볼 수 있듯이 가격을 할인한 회사의 판매량에 대한 조건부 기댓값과, 할인하도록 통제한 회사의 판매량에 대한 조건부 기대값은 다름.

CF) 기대값의 종류

  • 기대값 E[X] : 확률변수 X(주변(marginal)기댓값을 의미, 표본평균으로 근사
  • 조건부 기대값 E[Y|X=x] : x가 주어졌을 때 Y에 대한 기닷값. X=x일때 Y의 평균으로 근사

따라서 do(.)개입이 조건으로 주어질 때는 모든 회사가 가격을 할인하도록 통제한 다음 전체 표본에서 판매량을 측정

선택은 처치에 따라 표본을 필터링하고 개입은 전체 표본의 처치 여부를 통제

대부분의 인과추론은 인과 추정량에 대해 직접 관측할 수 없는 부분을 제거하기 위한 과정이며 이를 식별(identification)으로 부름

개별 처치효과(Individual Treatment Effect)(ITE)

do(.) 연산자를 사용하면 개별 실험 대상 i에 처치가 결과에 미치는 영향 ITE를 표현할 수 있음

각 실험 대상 i에 대한 처치가 t0에서 t1로 바뀔때 효과 ti는 t0과 비교하여 t1하에서의 결과차이를 나타냄

AmountSold에서 IsOnSales를 0에서 1로 바꿀 때의 효과 추론 가능

인과추론의 근본적인 문제로 인해 앞의 식 중 한 가지 항에서만 관측 할 수 있음

잠재적 결과(Potential Outcome)

잠재적 결과는 처치가 t상태일 때, 실험 대상 i의 결과는 U가 될 것이다를 의미하며 아래 수식으로 정의함.

사실적 결과(Factual outcome) : 관측할 수 있는 한 가지 잠재적 결과

반사실적 결과(Counterfactual outcome) : 관츨할 수 없는 다른 한 가지 결과

잠재적 결과를 다음과 같이 표현할 수 있음

SUTVA

위 식에는 두가지 숨겨진 가정이 있음

  1. 일치성(consistency) : T로 지정된 처치 외에 숨겨진 다른 처치는 존재하지 않음
    1. 처치를 여러번 했는데도 일부만 고려했다면 가정을 위배
      • 만약 할인 쿠폰이 매출에 영향을 끼치는지 확인하고자 할때 만약 할인을 여러번 다른형태로 시도 했다면 일치성 가정을 위배
    2. 처치가 잘못 정의된 경우에도 위배
      • 할인을 한다 -> 쿠폰, 직접할인 등을 모두 포함하고 있다면 일치성 가정을 위배
  2. 상호 간섭 없음(no interference)
    • 하나의 실험 대상에 대한 효과는 다른 실험 대상의 영향을 받지 않음
    • 파급효과(spillovers effect)나 네트워크효과가 있는 경우 이 가정은 위배 될 수 있음
    • 만약 백신이 전염성 질환 예방에 미치는 영향을 확인하고 싶을 때 한 사람에게 백신 접종하면 다른 사람들이 처치받지 않았더라도 질병에 걸리 확률이 낮아짐

위 두가지 가정을 모두 합친 것이 SUTVA(stable unit of treatment value assumption)임

인과 추정량의 종류

1. ATE(average treatment effect) (평균 처치 효과)

  • 처치 T가 평균적으로 미치는 영향. 실험 대상에 따라 영향은 다르지만 개별 대상에 미치는 영향을 알 수 없음
  • 기대값은 표본평균으로 대체 가능
  • 평균 처치효과는 아래 세가지 방식으로 표현 가능

 

2. ATT (Average Treatment effect on the Treated) (실험군에 대한 평균 처치 효과)

  • 처치 받은 대상(그룹)에 대한 처치 효과를 의미
  • 예를들어 특정 도시에서 진행한 캠페인으로 얼마나 많은 고객을 모객했는지를 확인하는 것.

 

3. CATE(Conditional Average Treatment Effect) (조건부 평균 처치효과)

  • 변수 X로 정의된 그룹에서의 처치효과. 
  • 어떤 유형의 실험 대상이 개입에 더 잘 반응하는지 알 수 있어 개인화(personalization)에 매우 우용

 

위 세가지 추정량을 가격할인 예시에 적용할 수 있다.

가격할인에 따른 평균 효과
가격을 할인한 회사가 어떻게 판매량을 늘렸는지 확인
크리스마스 주간의 할인 여부가 미치는 영향 확인

 

 

편향(Bias)

인과관계와 연관관계를 다르게 만드는 요소

편향은 추정량(estimator)과 추정하려는 모수(estimand) 차이의 평균이다. 

이 차이를 편향 추정량 (biased estimator)라고 한다.

편향의 수식적 이해

ATT에 대한 편향식은 아래와 같음

이 편향식에서는 인과적 질문에서 접하게 될 모든 문제를 포함하며 이 식은 연관관계가 인과관계가 이니라는 이유를 알려줌

  • 연관관계는 ATT에 Bias를 더한 값과 같음. 
  • 편향은 처치와 관계없이 실험군과 대조군이 어떻게 다른지에 따라 주어지고 Y0의 차이로 표현

따라서 실험군과 대조군은 유사한 그룹이어야 한다 (즉 교환 가능(exchangeable)해야함)

편향의 시각적 가이드

아래 그래프에서 보면 가격을 할인한 회사(진한색)가 할인하지 않은 회사(연한색)보다 오른쪽에 치우쳐져 있음. 즉 매출/판매량이 큰 회사가 할인을 많이하고 있다는 것을 볼 수 있다.

아래와 같은 케이스를 상향 편향(upward bias)라고 한다.

x축 : 주간 평균 매출. y축 : 주간 판매량

이 편향은 심슨의 역설과도 관계가 있다.

따라서 편향을 시각적으로 표현하면 아래와 같다. 개별대상으로 봤을 때는 이전 그래프에서 봤던 처치받은 그룹과 그렇지 않은 그룹간의 차이보다 훨씬 작다. 이유는 오른쪽 그래프의 표시된 편향 때문이다.

삼각형은 반사실적 결과를 의미

 

인과관계 효과 식별하기

식별과정 : 관측 가능한 데이터에서 인과 추정량을 찾아내는 방법

독립성 가정(Independence Assumption)

  • 처치(Treatment)가 잠재적 결과에 관한 어떠한 정보도 제공하지 않았음을 의미
  • 어떤 대상이 처치받았다고해서 처치받지 않았을 경우 결과가 더 낮거나 높음을 의미하지 않음
  • 즉 실험군과 대조군이 서로 비교가능하고 구별할 수 없음을 의미

 

랜덤화와 식별

인과 추론 문제는 두 단계로 나뉨

  1. 식별(Identification) : 관측 가능한 데이터로 인과 추정량을 표현하는 방법을 알아내는 단계
  2. 추정(Estimation) : 실제로 데이터를 사용하여 앞서 식별한 인과 추정량을 추정하는 단계

식별 과정에서 많이 쓰이는 것은 "랜덤화(randomization)" 임.

  • 랜덤화는 랜덤하게 실험대상에 처치를 배정하는 것임. 여기서 발생한 처치 배정의 변화는 인과 메커니점의 다른 요인들과는 완전히 무관

  • 랜덤화에서는 앞의 인과모델에서 외부변수 ui가 사라지게됨. 
  • 실험대상에 처치가 무작위로 이루어지므로 잠재적 결과는 물론이고 어떤 변수와도 독립적으로 됨.
  • 즉 랜덤화는 독립성 가정을 거의 강제적으로 만족하게 함

랜덤화는 두 개의 잠재적 결과 중 하나(Business size)를 실현하였다.

 

해당 포스팅은 [Causal Inference in Python / 실무로 통하는 인과추론]을 참고하여 작성하였습니다.

728x90
반응형