이번 포스팅에서는 A/B Test를 할 때 사용하는 지표에 대해 알아보겠습니다.
지표의 분류
조직 운영을 위한 한가지 일반적인 방법에는 OKR(Objective – Key Results) 방법이 있으며, OKR에도 좋은 지표가 핵심임 지표를 정의하고 평가하고 달성하는 과정을 반복하는 것은 데이터 기반으로 의사결정을 수행하기 위한 인사이트를 획득하는데 도움이 됨
조직 지표를 논의할 때 일반적으로 사용되는 분류는 목표, 동인, 가드레일임
목표지표(Goal Metrics)
- 조직의 궁극적인 목표 및 회사/조직/제품의 존재 이유(Mission Statement)
- EX) 쇼핑몰의 경우 매출/주문자수 일 수 있으며, 플랫폼의 경우 방문자수(트래픽)이 목표일 수 있음
- 누구나 이해할 수 있도록 명확히 표현하야여함
- 조직의 비전인 변화하기에, 시간에 따라 반복적으로 개선 필요
- 지표와 목표의 명확한 표현 사이의 한계와 차이를 이해할 필요가 있음
- 궁극적인 성공을 가장 잘표착하는 단일(또는 매우 작은)지표집합.
- 또한 각 목표를 달성하기 위해 해야하는 핵심적인 일들이 지표에 미치는 영향이 작거나, 영향이 생기는데 시간이 오래걸리기에, 목표지표는 단기간에 움직이지 않을 수 있음
동인지표(Drive Metrics)
- 목표지표보다 단기적이며 더 민감한 지표
- 성공요인이 어떤 가설을 반영하는지 반영 (즉, 목표와 인과성을 가져야함)
- EX) 쇼핑몰의 경우 매출을 올리기 위해 인당 객단가를 동인지표로 설정할 수 있으며, 플랫폼의 경우 방문자수를 끌어오기 위한 프로모션을 할 때, 인당 투입비용을 동인지표로 설정 가능
- Sign Post Metrics, Surrogate Metrics, Indirect Metrics, Predictive Metrics라고도 불림
- 성공요인을 파악하기 위한 지표 Framework
- HEART Framework
- 행복(Happiness) : 사용자가 앱/제품을 쉽고 재미있게 이용하는가
- 참여(Engagement) : 앱이 사용자를 얼마나 붙잡아 놓고, 사용자들이 앱에서 Action을 하게 하는가
- 고객획득(Adoption) : 신규사용자들이 앱에서 새로운 가치를 발견하여 유입되는가.
- 유지(Retention) : 기존 사용자가 재방문하는가
- 작업성공(Task Success) : 유저가 쉽고 빠르게 본인이 원하고자 하는 바를 얻을 수 있는가.
- PIRATE Framework(AARRR)
- 획득(Acquisition) :고객이 제품을 찾고 찾아옴
- 활성(Activation) : 고객은 제품의 핵심가치를 경험하여 Action을 함
- 유지(Retention) : 고객이 재방문함
- 매출(Revenue) : 수익을 주기적으로 창출함
- 조회(Referred) : 다른 사람에게 제품을 추천함.(입소문)
- HEART Framework
가드레일 지표(Guardrail Metric)
- 가정을 위반하는 것을 방지하기 위해 모니터링하는 지표
- 신뢰도 가드레일 지표
- 실험결과의 신뢰도와 내적타당성 평가하여 실험설계가 제대로 되었는지 확인할 수 있는 지표
- 조직 가드레일 지표
- 비즈니스를 보호하는 지표
- 중요한 제약을 위반하지 않게 하는 지표
- EX) 판매를 촉진하기 위해 Email Push를 보내면 Email을 차단하는데, 이때 Email 수신 차단 비율
자산지표 VS 참여 지표
- 자산 지표 : 사용자수처럼 정적인 자산의 축적
- 참여 지표 : 세션 및 페이지뷰 같이 사용자의 행동 결과 및 다른 사용자의 제품이용에 의해 받는 가치 측정
비즈니스 VS 운영지표
- 비즈니스 지표 : 사용자당 매출, DAU(Daily Active User)같이 비즈니스의 상태를 추적
- 운영 지표 : 초당 쿼리, 페이지 로딩 속도 등
데이터 품질 지표
- 기초 실험의 내적 타당성과 신뢰도 보장
진단 및 디버그 지표
- 목표/도인/가드레일 지표가 문제가 있음을 나타냄을 감지할 수 있는 지표
EX) 매출이 목표지표인 경우, 간혹 장사꾼들로 인해 매출이 급증할 수 있음. 객단가 분포를 활용하여 잘못된 해석을 미리 방지할 수 있음
지표의 공식화
질적 개념을 구체적이고 계량화
- 목표지표
- 단순성 : 이해가 쉽고 폭넓게 수용되어야함
- 안정성 : 새로운 기능을 실행할 때마다 목표지표를 업데이트할 필요가 없어야 함
- 동인지표
- 목표와 이해관계 일치 : 동인지표의 성공이 목표지표의 성공인지 검증 필요(인과관계가 있는지 확인 필요)
- 행동 가능 및 관련성 : 실무자들이 이 지표를 움직이기 위해 Action을 할 Needs를 느껴야함
- 민감성 여부 : 대부분의 이니셔티브(목표를 달성하기 위해 해야하는 핵심적인 일)로부터의 영향을 측정하기 위해 민감하여야 함
- 조작에 대한 내성 : 성공을 측정할 때 조작되어서는 안됨
- 지표 개발을 위한 유용한 기법 및 고려사항
- 확장성이 낮은 가설을 사용한 다음 정확한 정의를 결정하기 위해 확장 가능한 데이터 분석에서 가설검증
- EX) 이탈률 및 짧은 체류시간은 고객 만족과 관련있기에, 이 지표를 데이터 분석과 결합하면 지표를 정밀하게 정의하는데 필요한 임계값을 결정하는데 도움이됨
- 품질 고려
- EX) 같은 클릭이더라도 반품버튼 클릭과 신규등록자 클릭은 품질이 다름
- 지표 정의에 통계적 모델을 결합할시, 모델을 해석 가능한 상태로 유지하고 시간에 걸쳐 검증하여야함.
- 장기매출을 측정할 때 LTV를 사용하지만, 생존함수가 복잡한 경우 이해관계자들이 받아들이지 못할 수 있으며, 지표의 갑작스러운 하락에 대한 원인을 조사할때 어려움이 있을 수 있음
- 좋은 결과를 측정하는 것보다 나쁜 결과를 측정하는것이 더 쉬울 수 있음
- EX) 웹사이트에 짧게 방문했을 경우 대체로 불만족했기 때문으로 해석할 수 있지만, 웹사이트에 길게 방문한 경우 만족했을수도 있으나, 실제로 필요한 정보를 찾지 못하였지만 닫기버튼을 누르지 않은 것일 수도 있음
- 지표자체는 proxy(대리)이다.
- 지표자체에 매몰되기 보다, 목표지표를 잘 설명할 수 있는지 확인하여야함.
- 확장성이 낮은 가설을 사용한 다음 정확한 정의를 결정하기 위해 확장 가능한 데이터 분석에서 가설검증
지표의 평가
- 대부분의 지표 평가와 검증은 공식화 단계에서 이루어짐
- 다만 시간이 지남에 따라 지속적으로 이루어야 하기도함
- 시간 경과에 따라 모델의 예측 오류가 작게 유지되는지
- 실험에 많이 의존하는 지표는 조작을 초래하는지 확인하기 위해 주기적으로 평가하여야함
- 목표지표와 동인지표간 인과관계 구축
- 동인지표가 실제로 목표지표를 구동하는지 여부 확인
- 인과관계 검증을 위한 접근법
- 다른 데이터 소스를 활용하여 모두 같은 방향을 가리기는지 확인
- 관측자료 분석 : 관측자료로 인과관계를 확립하는 것은 어렵지만, 가설을 무효화하는데는 도움줄 수 있음
- 다른 업체 연구 확인 : 비슷한 검증이 다른 회사에서 이뤄졌는지 확인
- 실험 수행 : 특정 지표의 영향력 평가를 위한 실험
- 과거의 실험자료 활용 : 과거의 실험자료로 새 지표 평가
지표의 진화
- 지표의 정의는 시간이 지남에 따라 달라짐
- 비즈니스의 발전
- 환경 변화: 경쟁 구도나, 사회분위기 변화에 따라 측정 지표가 변화할 수 있음
- 지표 대한 이해의 발전 : 실제 성능을 반영할 수 있도록 세분화하거나 상이한 지표로 개선
- 목표지표에 대한 인과관계 구축
- 근본적인 인과관계 모델을 모르고 가설만 있기 때문
종합 평가 기준 (OEC)
- 실험을 잘 설계하고 실행하기 위해 필요
- 단기(실험기간)에 측정할 수 있으며 계산 가능하여야함.
- 장기목표에 인과적으로 영향을 미치는 기준
- 여러번의 시행착오가 필요, 하지만 조직 내에 명확한 이해관계 일치 메커니즘 제공
비즈니스 지표와 실험지표
비즈니스 지표는 온라인 실험에 아래와 같은 조건을 갖추지 못하면 유용하지 않을 수 있음
- 추정 기능
- 효과를 측정할 수 있어야 함
- 구매가능성 같은 지표는 측정하기 어려울 수 있음
- 귀속 기능(계산 가능성)
- 실험의 목적에 맞게 지표를 계산하려면 실험군/대조군에 지표값을 귀속/연결시킬 수 있어야 함.
- 민감성 및 시기적절
- 실험 지표는 중요한 변화를 감지할 수 있을 정도로 민감해야함
- 특정 사용자들로 인해 지표가 한쪽으로 쳐진 경우, 분산을 부풀려 실험효과 탐지를 어렵게 함
- 1년단위 갱신하는 구독 계약에 대한 실험을 할때는, 갱신률 보다는 고객만족도 등의 지표를 활용해야함
- 즉, 비즈니스 보고 목적으로 사용되는 모든 지표가 실험에 적합한 것은 아님
즉, 실험을 할 때 아래 지표들을 고려하여야 한다.
- 측정가능성, 계산 가능성, 민감도 및 적시성 기능을 충족하는 비즈니스 목표
- 동인 지표
- 가드레일 지표
- 비즈니스 목표 및 동인을 위한 대리지표
- 특정 기능의 움직임을 이해하는데 도움이 되는 기능 수준 지표와 세분화된 지표
- 신뢰도 가드레일 및 데이터 품질 지표
- 진단과 디버그 지표
주요지표를 OEC로 결합하기
- 통상 최적화를 위한 단순 단일지표는 존재하지 않음
- 어떤 Trade-off를 수용할지에 대한 모델에 기반하여 이를 표현하기 위해 여러 지표를 가중 조합(OEC)를 고안
- EX) 매출 증진을 위해 Push를 보낼때 어느정도의 push차단 고객 증가는 감수할 수 있다.
- 합성된 지표가 조작가능하지 않도록 해야함
- 단일 지표의 장점
- 성공의 정의를 명확히 함
- Trade-off에 대한 조직내 사람들의 이해관계를 일치
- 의사결정에 일관성이 생김
- 단일 지표에 대한 한계를 잘이해하여 OEC 지표를 변화할 시기를 잘 결정할 수 있음
- OEC를 구상하기 위해 4개의 그룹으로 분류하는 것으로 시작
- 모든 핵심지표의 변화가 0(통계적으로 유의하지 않음)이거나 양수(통계적으로 유의)하고, 적어도 하나의 지표가 양수의 경우 변경
- 모든 핵심 지표의 변화가 0이거나 음수이거나 적어도 하나의 지표가 음수인 경우 변경하지 않음
- 모든 핵심 지표가 0이면 변경을 실시하지 않고 실험검정력을 높이거나, 방향전환 고려
- 일부 핵심지표가 양이고, 일부는 음이라면 Trade off를 기반으로 결정 (가중치 할당 가능)
- 만약 OEC를 만들 수 없다면 핵심지표의 수를 최소화해야함
- 지표가 많을 수록 적어도 1개 이상의 지표가 p<0.05를 충족할 확률은 1-(1-0.05)^k 이다
- 즉 k=5라면(지표가 5개) 하나 이상의 지표가 통계적으로 유의할 확률은 23%
OEC 예 : 아마존 이메일
- 아마존의 이메일 Push가 사용자들의 피로감을 증대시켜 이메일 차단율이 상승
- 따라서 이를 최적화 할 필요성을 느낌
- 아마존 직원들이 알고 있던 내용
- 현재 클릭율과 매출에 기반한 OEC가 사용자 생애가치 대신 단기 매출에 최적화
- 따라서 사용자가 이메일 수신을 취소할 때와 사용자 생에 기회 손실에 대한 하한을 설정하기 위한 모델 생성
- 이를 기반으로 캠페인들을 평가했을 때, 캠페인의 절반 이상이 부정적인 OEC를 보여주고 있었음
OEC 구성시 주의 사항
- 상관관계가 인과관계를 의미하지 않으며, 많은 조직에서 OEC를 선택할 때 상관관계를 인과관계로 잘못판단하는 경우가 있음
- 굿하트의 법칙, 캠벨의 법칙과 루카스 비판과 관련
해당 포스팅은 [A/B Test 신뢰할 수 있는 온라인 종합 대조 실험] 책을 참고하여 작성하였습니다
https://link.coupang.com/a/byKk9C
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
728x90
반응형
'Data Analysis & ML > 인과추론' 카테고리의 다른 글
[인과추론] A/B Test 설계 시 실험군 간의 누출 및 간섭 (1) | 2024.06.01 |
---|---|
[인과추론] Structural Causal Model(SCMs) (구조적 인과모형) (0) | 2023.12.03 |
[Matching][매칭] PSM(Propensity Score Matching) (PSMPY) (1) | 2022.11.20 |
[인과추론] 이중차분법 (Difference in Difference) (0) | 2022.09.12 |
[인과추론] 평행추세검증 (이중차분법/Event study approach / Leads-and lags model / Relative time model) (0) | 2022.09.12 |