반응형

Data Analysis & ML/인과추론 12

[인과추론] A/B Test 설계와 결과 검증

A/B Test 설계와 결과 검증해당 포스팅은 A/B Test를 설계할 때 주의점과, A/B Test를 검증하는 방법에 대해 소개합니다.  A/B Test 설계 RCT(Randomized control trial) 검정력(Power of the test)표본크기 계산  A/B Test 검증추정값의 표준오차신뢰구간 (confidence interval) 가설검정 무작위 배정으로 독립성 확보잠재적 결과가 처치와 독립인 경우에 연관관계와 인과관계가 동일해짐하지만 처치와 결과 사이의 독립성을 의미하는 것이 아님. 처치와 결과가 독립적이면 처치는 결과에 영향을 끼치지 못함.만약 새로운 기능을 처치로 사용시간이 결과라면 새로운 기능과 사용시간이 독립이라면 실험군/대조군 상관없이 새로운기능은 결과에 아무 영향이 없..

[인과추론] 인과추론의 기본개념

인과추론의 기본개념이 포스팅은 인과추론을 이해하는데 필요한 중요한 개념들에 대해 정리하였습니다. 아래 내용은 인과추론을 공부할 때 꼭 알아야할 개념들입니다.해당 포스팅은 아래 내용을 다룹니다처치와 결과인과모델개입개별처치효과잠재적결과SUTVA인과추정량편향독립성가정랜덤화와 식별 연관관계와 인과관계연관관계(상관관계)는 인과관계를 의미하지 않음인과관계를 분석하기 위해서는 문제를 구체화해야함EX) 할인이 매출에 도움되는가 X ->크리스마스이전에  어린이 장난감을 할인하면 판매량이 증가할 것인가?분석단위 : 일반적으로 개입(처치)하려는 대상. 분석단위는 대부분 사람이나 가끔 회사 등 다를 수 있음처치와 결과Ti는 실험대상 i의 처치여부를 나타냄처치(Treatment) : 구하려는 효과에 대한 개입. EX) 가격할인..

[인과추론] A/B Test 설계 시 실험군 간의 누출 및 간섭

A/B Test 설계 시 실험군 간의 누출 및 간섭이번 포스팅에서는 A/B Test 설계를 할 때 실험군 간 간섭이 되는 경우와 이를 해결하는 방법을 알아봅니다.A/B Test 분석의 가정 : SUTVASUTVA : Stable Unit Treatment Value AssumptionA/B Test의 내적타당성을 지키기 위한 가정 중 하나 (생존 편향, SRM 등 3장 참고)각 그룹의 unit의 행동은 다른 그룹의 unit에 영향을 받지 않음 (독립)만약 안방의 스위치를 눌렀는데 불이켜지고, 다른 방에 영향을 주지 않는다면 이는 독립이라고 할 수 있음하지만 안방의 스위치를 눌렀는데, 다른 방에 불이 켜치거나, 두꺼비집이 내려가 불이 안켜진다면 독립이라고 할 수 없음SUTVA 가정을 위반한 경우 : 간섭(..

[인과추론] A/B Test와 지표(목표지표, 동인지표, 가드레일지표, 종합 평가 기준 (OEC))

이번 포스팅에서는 A/B Test를 할 때 사용하는 지표에 대해 알아보겠습니다. 지표의 분류 조직 운영을 위한 한가지 일반적인 방법에는 OKR(Objective – Key Results) 방법이 있으며, OKR에도 좋은 지표가 핵심임 지표를 정의하고 평가하고 달성하는 과정을 반복하는 것은 데이터 기반으로 의사결정을 수행하기 위한 인사이트를 획득하는데 도움이 됨 조직 지표를 논의할 때 일반적으로 사용되는 분류는 목표, 동인, 가드레일임 목표지표(Goal Metrics) 조직의 궁극적인 목표 및 회사/조직/제품의 존재 이유(Mission Statement) EX) 쇼핑몰의 경우 매출/주문자수 일 수 있으며, 플랫폼의 경우 방문자수(트래픽)이 목표일 수 있음 누구나 이해할 수 있도록 명확히 표현하야여함 조직의..

[인과추론] Structural Causal Model(SCMs) (구조적 인과모형)

Causality란?Correlation과 Causality만약 아래의 데이터가 있다고 가정할 때, 운동과 콜레스테롤 수치에 Correlation(상관관계)가 있는것으로 보이는데, 과연 운동을 많이할 수록 콜레스테롤 수치가 높다고 인과관계를 정의할 수 있는가데이터를 더 detail하게 뜯어보면, 나이에 따라 보면, 운동을 많이할 수록 콜레스테롤 수치가 줄어드는것으로 볼 수 있다.따라서 Correlation (상관관계)은 Casuality(인과관계)가 아니다.CounterfactualPotential Outcome(PO)X가 원인이고 Y가 결과이며, 만약 X가 x로 고정되었을때 (원인이 명확해졌을때)$Y_{X=1} = 1$ & $Y_{X=0} = 0 $X가 일어났으면 Y도 일어나며, X가 일어나지 않았을때..

[Matching][매칭] PSM(Propensity Score Matching) (PSMPY)

매칭 (Matching) 실험집단과 통제집단 간의 특성이 유사하도록 인위적으로 매칭 장점 : 통제변수의 역할과 유사하지만, 관찰가능한 통제 변수를 기반으로 분석 대상을 균일하게 조정함으로써 그 외 관찰되지 않은 요인들도 유사할 것으로 가정 즉 통제변수는 딱 지정하는 변수만 유사하게 만들 수 있지만, 매칭은 지정하는 변수만 유사하게 만드는 것이 아닌 집단 자체를 유사하게 만듬 단점 : 분석대상의 숫자가 작아질 수 있음, 외적 타당성에 더 취약해짐 대표적 매칭 방법론 모든 통제변수에 대해 값이 적당히 유사한 데이터만 매칭 : Coarsened Exact Matching(CEM) 모든 통제변수들에 기반하여 실험집단이 될 경향성을 계산 후, 경향성이 유사한 데이터만 매칭 : Propensity Score Mat..

[인과추론] 이중차분법 (Difference in Difference)

이중차분법 (Difference in Difference) 차이의 차이 이용하여 treatment effect가 존재하는지 분석하는 기법 실험집단과 통제집단 간 비교 가능하지 않은 요인(선택편향) 분해 1중 차분 : 실험 집단(&대조군 집단) 내에서 정책 시행 전후 차이를 비교 2중 차분 : 실험집단에서의 정책 시행 전후 차이와 통제집단에서의 정책 시행 전후 차이를 비교 DID값이 왜 인과추론에 효과적인가 • 1종 차분 : TA - TB는 treatment에 따른 실험군의 시간에 따른 변화를, CA - CB는 대조군의 시간에 따른 변화 • 2종 차분: TA - CA 는 treatment 이후에 실험군과 대조군의 차이를, TB-CB는 treatment 시점 이전에 실험군과 대조군의 차이를 의미 DID 깂은..

[인과추론] 평행추세검증 (이중차분법/Event study approach / Leads-and lags model / Relative time model)

이중 차분법을 활용하기 위해서는 평행추세가정을 만족하여야 한다. 이번 포스팅에서는 평행추세를 검증하는 방법을 알아본다.평행추세가정평행추세가정 : 실험군과 대조군이 event가 발생하기 전에는 비슷한 흐름을 보이고 있어야 한다. 즉 ‘시간에 따라 변하는’ 선택 편향 요인은 두 집단에 유사하게 영향을 미칠 것이다. (= 실험집단과 통제집단이 시간에 따라 유사하게 변할 것이다)물론 평행추세검증은 확인하기가 힘드나, Treatment가 발생한 이전의 흐름은 검정가능하다.이를 검증하기 위해 도표를 그려서 확인한다.그러나 실험군이 여러개이고, Treatment  시점이 다르다면, 이렇게 두그룹으로 나눠서 도표로 보기 힘들다.따라서 아래의 모델을 활용하여 평행추세를 통계적으로 검증한다. 통계적 검증(Event stu..

[인과추론] 인과추론의 단계(2) (자연실험 / 평행추세가정 / 도구변수)

인과관계에 관한 근거의 단계 자연실험 이중차분법의 발전된 형태 지역(집단)별로 상이하게 발생하는 원인을 기준으로 비교분석하는 자연실험에서는 임의의 시점에서 비교가능한 대상을 상대적으로 쉽게 구성할 수 있음 실험은 실험인데 내가 한 실험이 아니라 ‘자연’이 한 실험이 자연실험. 자연의 가장 큰 특징은 “무작위”라는 것 자연실험을 활용하는 이유 보통 실험이 가능하지 않은 경우가 많음 실험집단과 통제집단간의 단순한 시간에 따른 변화량 (한 주간 변화량)을 비교하는 것은 나머지 모든 변수들도 함꼐 변하기 때문에, 비교 대상으로 적절치 않을 수 있음 [자연 실험] 도시마다 상이하게 발생한 원인 시점을 기준으로 변화량을 비교하면? 특정 시점 기준으로 실험집단과 통제집단이 달라짐 EX) 사회적 거리두기 정책(Stay..

[인과추론] 인과추론의 단계(1) (회귀분석 / 이중차분법 / 매칭)

잠재적 결과 관점에서 인과추론 문제 : 비교 가능한 대상 찾기 (ceteris paribus) 인과 추론을 위한 핵심 질문 (사회적 거리두기 정책의 효과) 사회적 거리두기 정책을 시행한 국가와 그렇지 않은 국가는 사회적 거리두기 정책여부를 제외한 코로나 19감염에 영향을 미칠 수 있는 모든 요인에서 비교 가능한 대상인가 (선택편향) 사회적 거리두기 정책 시행전후로 함께 발생한 다른 정책이나 외부 교란원인은 없는가 (선택편향) 사회적 거리두기 정책과 코로나19 확진자/사망자 수 사이에 역인과관계는 존재하지 않는가 (역인과관계) 인과관계에 관한 근거의 단계 회귀분석(Regression Analysis) 통제 변수들의 영향을 고려한 상관관계 분석을 도와주는 통계적인 분석 기법 인과관계를 분석하는 툴은 아님 회..

반응형