Data Analysis & ML/인과추론

[인과추론] 그래프 인과모델

YSY^ 2025. 2. 2. 20:09

그래프 인과모델

그래프 인과모델은 인과추론 문제를 구조화하며 식별과정을 명쾌하고 시각적으로 표현해줌

구조적 인과모델(Structural causal model, SCM) : 그래프(DAG)와 인과방정식(Causal equation)으로 구성됨.

 

인과관계 시각화

  • 이전 포스팅에서 사용했었던 어떤 이메일이 전환을 많이 일으키는지를 예시로 사용.
  • 측정하지 않는 변수를 그래프에 추가할 수 있음, 이 변수는 관측되지 않으니 U로 표시

EX) 고객소득, 사회적배경, 나이 등 -> 이를 모두 묶어서 U로 표시

rnd : 랜덤화를 의미

  • 무작위로 배정되거나 개입된 변수를 표현할 때는 들어오는 화살표를 모두 제거하면됨

  • 중요한 것은 DAG에서 가장 중요한 정보는 그래프안에 없을 수 있다는 것.
  • 한 변수에서 다른 변수로 연결되는 엣지가 없다는 것은 두 변수 사이에 직접적인 인과관계가 없다고 가정하는 의미임.

변수 추가

  • "컨설턴트 영입 여부"를 고려한다면 이것이 효과적(EX 매출에 영향이 있을 것인지)인지를 파악하는 것이 중요
  • 컨설턴트를 무작위로 배정받을 수 있다면 효과를 바로 측정할 수 있지만 비용적인 문제로 인해 현실에서는 쉽지않음
  • 측정할 수 없는 다른 요소가 변수의 원인이라는 사실을 나타내고자 각 변수에 U 노드를 추가함. 

  • 임의의 U가 모든 변수의 원인이 될 수 있지만 알아보고자 하는 중요한 인과관계에는 영향을 주지않으므로 무시함

  • 즉, 컨설턴트 고용으로 인해 6개월전의 수익에 비해 6개월 후의 수익이 얼마나 변화가 있었는지 파악하는 것이다.
  • 다만 현실에서는 다양한 노이즈가 있기 때문에 인과모델이 위처럼 작동하기가 어려움

 

그래프 모델 구조 종류

사슬 구조 (Chain Structure)

  • 위 DAG에서 T는 M의 원인이되고 M은 Y의 원인이됨.
  • 중간노드(intermediary node)는 T와 Y사이의 관계를 매개하는 역할으로 매개자(mediator)라고 부름
  • 그런데 위 예시에서 인과추론지식이 많을 수록 승진 확률이 높을 수도 있지만, 승진 확률이 높은 사람이 인과추론지식이 많은 사람일 수 있음.
  • 즉 인과관계가 아니라 연관관계 이며, 이때 두 변수는 독립이 아니다라고 볼 수 있음

T와 Y는 독립이 아니다.

  • 그런데 만약 M을 "문제 해결력이 동일한 사람"으로 고정한다면 종속성(dependence)를 차단(block)할 수 있음
  • 이를 M에 대한 조건부라고 부름
  • 이 경우 M이 주어졌을 때 T와 Y는 독립임.

분기 구조 (Fork structure)

  • 이 구조에는 공통 원인이 있음
  • 같은 변수가 그래프 아래쪽 다른 두 변수의 원인이 됨
  • 분기 구조에서 연관성은 화살표의 반대방향으로 흐름

통계학을 잘 알면 인과추론과 머신러닝을 더 잘 알게 된다.

  • 교란 요인(Confounder) : 처치와 결과 사이에 공통 원인이 있는 경우. 위 예시에서는 Statistics
  • 일반적으로 분기 구조에서 공통 원인을 공유하는 두 변수는 종속이지만 공통 원인이 주어지면 독립임

공통원인(X)가 주어지는 경우 T와 Y는 독립

충돌부 구조 (Collider Structure)

  • 두 노드가 하나의 자식(child)을 공유하지만 그들 사이에 직접적인 관계가 없는 경우
  • 두 변수가 공통의 효과를 공유하며, 공통효과를 충돌부라고 부름

  • 이 구조에서 두 부모(parent) 노드는 서로 독립이지만 공통 효과를 조건부로 두면 서로 종속이됨.
  • 한가지 원인이 이미 효과를 설명하므로 다른 원인의 가능성이 낮아지게됨(다른 요인에 의해 설명되는 현상)(explaining away)

 

  • 충볼부에 대한 조건부 대신 충돌부의 효과에 조건부를 두어 동일한 종속경로(dependence path)를 열 수 있음. 

  • 위 그래프에서 충돌부를 조건으로 두지 않고 해당 충돌부의 원인을 조건부로 해도 충돌부 원인들은 종속이 됨.
  • 승진 정보를 모르지만 거액의 연봉정보를 안다면 통계지식과 아부는 종속적인 관계가 됨.

연관성 흐름 치트 시트

  • 연관성 흐름에 대한 규칙
    1. 조건으로 주어진 비충돌부(non-collider)구조가 포함
    2. 조건부로 주어지지 않고 자식(descendant)이 없는 충돌부가 포함

그래프 내 종속성 흐름에 대한 치트 시트

  • 위에서 언급한 아래 예시에서 연관관계는 인과관계가 아닌 이유를 확인할 수 있음

  • 컨설팅과 기업의 미래 실적 사이에는 두가지 흐름이 연관됨
    • 직접적인 인과경로
    • 비인과 경로(뒷문경로(backdoor path)) : 공통 원인 때문에 교란받은 경로
      • 고가의 컨설턴트를 고용하는 회사는 고용하지 않는 회사보다 일반적으로 과거 실적이 좋음
  • 컨설팅과 미래실적 사이의 인과관계를 식별하려면 두 경로를 차단해 인과경로(causal path)를 하나만 남겨야 함.

  • 공통 원인인 회사의 과거 실적을 조건으로 하면 해당 경로가 닫힐 수 있음. 

 

조건부 독립성 가정(conditional independence assumption, CIA)

  • 위 예시에서 과거실적(profits_prev_6m)을 조건부로 두면 컨설팅(처치)와 미래실적(결과) 사이의 비인과 연관성(noncausal association)흐름을 차단할 수 있음
  • 즉 과거 실적이 비슷한 회사들의 그룹을 살펴보고 해당 그룹 내에서 컨설턴트 여부에 따른 회사 미래실적을 비교하면 그 차이는 전적으로 컨설턴드 때문에 발생했다고 볼 수 있음
  • 가정 : 실험군과 결과 사이의 모든 비인과 연관성은 측정 가능 하고 조건으로 둘 수 있는 공통의 원인
    • 독립성 가정과 유사하지만 조금 더 약한 형태의 가정

  • 조건부 독립성가정(CIA)는 공변량 X수준이 동일한 대상(회사)를 비교하면 잠재적 결과는 평균적으로 같음을 의미
  • 공변량 X값이 동일한 대상을 보면 처치가 마치 무작위로 배정된 것처럼 보임

CF) 독립성 가정 : 무시가능성(ignorability), 외생성(exogeneity), 교환가능성(exchangeability)등으로 불림

뒷문교정(backdoor adjustment)

  • 교란요인을 보정하여 뒷문경로를 차단하는 과정
  • 보정공식(adjustment formula) & 조건부 원칙(conditionality principle) : X를 조건부로 두가나 통제하면 평균 처치효과는 실험군과 대조군 간 그룹 내의 가중평균으로 식별할 수 있음
  • 처치가 X그룹내에서 무작위로 배정된 것처럼 보인다면, X로 정의된 각 그룹내에서 실험군과 대조군을 비교하고 각 그룹의 크기를 가중치로 사용해서 해당 결과의 평균을 구할 수 있음

보정공식 or 조건부 원칙으로 부른다

  • 즉, 그래프에서 비인과 경로를 통한 연관성 흐름을 X에 조건부로 두어 차단하면 ATE와 같은 인과추정량을 식별가능

앞문 보정(Front door adjustment)

  • 측정되지 않은 공통 원인이 있더라도 인과 메커니즘 지식을 활용하여 앞문(front door)로 인과효과 실별 가능

  • 이 경우 처치가 매개자에게 미치는 영향과 해당 매개자가 겨로가에 미치는 영향을 식별할 수 있어야함.
  • 그러면 처치가 결과에 미치는 영향은 이 두가지 효과를 결합한 것으로 식별 가능
  • 하지만 IT업계에서는 이러한 그래프가 설득력 있으보이는 적용사례를 찾기 어려움

 

양수성 가정(positivity assumption)

  • 공통지지(common support)나 중첩(overlap)으로도 불림.
  • 처치와 결과 사이의 차이를 X에 따라 평균을 내므로 X의 모든 그룹에 실험군과 대조군의 실험 대상이 반드시 존재해야함.
  • 처치의 조건부 확률은 반드시 양수이고 1미만이어야함.  (0 < P(T|X) < 1)
  • 양수성 가정을 위배해도 식별이 가능하지만 위험한 외삽(extrapolation)을 해야할 수 있음

 

교란편향(confounding bias)

  • 교란은 비인과적으로 연관성이 흐르는 뒷문 경로가 있을 때 발생 (위에서 언급했던 예시와 같음)
  • 일반적으로 처치와 결과가 공통원인을 공유하기 때문
  • 따라서 교란편향을 보정하려면 처치와 결과의 공통원인을 보정해야 함. (모든 뒷문 경로를 닫아야함)

관리자 자질과 교육참여도의 인과그래프

  • 하지만 모든 공통원인을 항상 보정할 수 없음. 원인을 알 수 없거나 원인을 알아도 측정하기 어렵기 때문

EX) 관리자 자질 : 정량적으로 측정하는 것이 사실상 불가능함.

대리 교란 요인 (surrogate confounder)

  • 위 예시에서 교육(처치)와 참여도(결과)사이의 관계에는 교란이 존재
  • 그러나 교란요인인 관리자자질에 대한 대리변수로 사용할 수 있는 다른 측정된 변수들이 있음
  • 이 변수들은 뒷문경로에는 없지만 통제하면 편향을 줄이는데 도움이 됨. (완전히 편향을 제거하지 못함)

  • 관리자 근속기간, 교육수준과 같은 원인과 팀의 이직률이나 성과 같은 영향들을 측정할 수 있음
  • 이는 굉장히 정성적인 영역으로 도메인 지식이 많이 필요함

A/B Test 

  • 교란 요인을 모두 아는 것은 어려움. 하지만 보통 회사에서 처치를 할 때 어떤 정보를 사용했는지 알기에 교란 요인을 파악하기 어렵지 않음
  • 처치를 무작위로 배정하면 관측할 수 없은 교란요인이 있는 그래프에서 처치의 유일한 원인이 랜덤성인 그래프로 바꿀 수 있음
  • 즉 A/B Test를 진행하면 교란요인을 통제할 수 있음

 

선택편향

  • 공통 효과와 매개자에 대한 조건부와 더 밀접한 관련이 있음

충돌부 조건부 설정

  • 예시 : 소프트웨어 만족도 조사. 교란편향을 피하고자 무작위로 고객들에게 신규기능 배포.
    • 만족도를 측정할 수 없지만 순고객추천지수(NPS)를 대리변수로 사용하여 설문조사 실행
    • 결과는 신규기능을 사용하고 NPS설문에 응답한 고객이 신규고객을 사용하지 않고 NPS 설문에도 응답한 고객보다 NPS점수가 높음
    • 그렇다면 이 차이가 신규기능의 인과효과 때문인가
    • 정답은 "그렇지 않다"

  • 문제는 NPS설문에 응답한 사람들에게서만 NPS를 측정할 수 있다는 것임.
  • 이 경우 만족한 고객은 NPS 설문에 응답할 가능성이 높기에 이 상황에서는 식별할 수 없음
    • 대조군에는 기준 만족도가 높은 고객이 더 많이 포함될 수 있음
    • 실험군에는 만족한 고객(기준만족도가 높은 고객)과 기준 만족도가 낮았으나 처치 덕분에 만족도가 높아져 설문에 응답한 고객이 포함되기 때문

선택편향 보정

  • 선택편향을 보정하는 것은 어려우며, A/B Test를 하더라도 ATE를 식별할 수 없음
  • 신규기능과 고객만족도 사이의 비인과 연관성 흐름을 차단할 수 없기 때문
  • 따라서 식별을 위해서는 결과가 선택을 야기하지 않는다고 가정해야함. 즉 고객 만족도가 고객이 설문에 응답할 가능성을 높이거나 낮추지 않는 다는 의미
  • 대신 선택과 결과를 모두 유발하는 다른 관측가능한 변수가 있을 것임
  • 고객이 설문조사에 응답하는 다른 요인은 고객의 앱 사용시간에 있을 수 있음 (이것은 도메인 지식으로 판단해야함)
  • 즉, 앱 사용시간을 통제해서 신규기능이 만족도에 미치는 영향을 식별할 수 있음

실험군과 대조군 간의 비인과 연관성은 앱 내 사용시간을 통해 흐름

 

  • 다음그래프에서 R을 조건부로 설정하면 T와 Y사이의 비인과 경로를 열게 되므로 선택편향 발생

  • 이 경로 중 두 개는 선택을 설명하는 측정 가능한 변수인 X3, X4, X5를 보정해서 닫을 수 있음
  • 하지만 닫을 수 없는 경로가 있음(점선) : Y -> R <- T  & T -> R <- U -> Y
  • 닫을 수 없는 이유는 처치가 직접 선택을 유발하고 결과가 선택과 숨겨진 공통 원인 공유
  • U의 일부 변동을 설명하는 X2와 X1에 추가 조건을 두어 마지막 경로의 편향을 줄일 수 있지만 완전히 제거할 수 없음

매개자 조건부 설정

  • 위에서 이야기한 선택편향은 불가피한 모집단의 선택으로 발생하였지만 의도치 않게 선택편향이 발생할 수 있음
  • EX) 동일한 자격을 갖춘 남성과 여성이다르게 임금을 받은지 확인, 이때 직급의 통제를 고려
    • 즉 직급이 동일한 남성과 여성의 급여가 다르다면 성별 임금 격차가 존재한다고 볼 수 있음.

  • 직급은 처치(여성)과 결과(임금)사이의 매개자임. 여기서 볼 수 있는 사실 하나는 여성차별의 한 형태로 여성은 더 높은 직급으로 승진할 가능성이 적다는 것임.
    • 즉 직급을 통제하면서 남성과 여성의 임금을 비교한다면, 단지 직접적인 차별(woman -> salary) 만을 식별할 수 있음
  • 또한 아래와 같이 매개자의 자식이 조건부로 주어지면 편향을 초래하기도함. 이러한 선택은 인과 경로를 완전히 차단하지 않지만 부분적으로는 차단함.

728x90
반응형