Data Analysis & ML/인과추론

[인과추론] A/B Test와 지표(목표지표, 동인지표, 가드레일지표, 종합 평가 기준 (OEC))

YSY^ 2024. 4. 21. 20:40

이번 포스팅에서는  A/B Test를 할 때 사용하는 지표에 대해 알아보겠습니다.

지표의 분류

조직 운영을 위한 한가지 일반적인 방법에는 OKR(Objective – Key Results) 방법이 있으며, OKR에도 좋은 지표가 핵심임 지표를 정의하고 평가하고 달성하는 과정을 반복하는 것은 데이터 기반으로 의사결정을 수행하기 위한 인사이트를 획득하는데 도움이 됨

조직 지표를 논의할 때 일반적으로 사용되는 분류는 목표, 동인, 가드레일임

목표지표(Goal Metrics)

  • 조직의 궁극적인 목표 및 회사/조직/제품의 존재 이유(Mission Statement)
  • EX) 쇼핑몰의 경우 매출/주문자수 일 수 있으며, 플랫폼의 경우 방문자수(트래픽)이 목표일 수 있음
  • 누구나 이해할 수 있도록 명확히 표현하야여함
  • 조직의 비전인 변화하기에, 시간에 따라 반복적으로 개선 필요
  • 지표와 목표의 명확한 표현 사이의 한계와 차이를 이해할 필요가 있음
  • 궁극적인 성공을 가장 잘표착하는 단일(또는 매우 작은)지표집합.
    •  또한 각 목표를 달성하기 위해 해야하는 핵심적인 일들이 지표에 미치는 영향이 작거나, 영향이 생기는데 시간이 오래걸리기에, 목표지표는 단기간에 움직이지 않을 수 있음

동인지표(Drive Metrics)

  • 목표지표보다 단기적이며 더 민감한 지표
  • 성공요인이 어떤 가설을 반영하는지 반영 (즉, 목표와 인과성을 가져야함)
  • EX) 쇼핑몰의 경우 매출을 올리기 위해 인당 객단가를 동인지표로 설정할 수 있으며, 플랫폼의 경우 방문자수를 끌어오기 위한 프로모션을 할 때, 인당 투입비용을 동인지표로 설정 가능
  • Sign Post Metrics, Surrogate Metrics, Indirect Metrics, Predictive Metrics라고도 불림
  • 성공요인을 파악하기 위한 지표 Framework
    • HEART Framework
      1. 행복(Happiness) : 사용자가 앱/제품을 쉽고 재미있게 이용하는가
      2. 참여(Engagement) : 앱이 사용자를 얼마나 붙잡아 놓고, 사용자들이 앱에서 Action을 하게 하는가
      3. 고객획득(Adoption) : 신규사용자들이 앱에서 새로운 가치를 발견하여 유입되는가.
      4. 유지(Retention) : 기존 사용자가 재방문하는가
      5. 작업성공(Task Success) : 유저가 쉽고 빠르게 본인이 원하고자 하는 바를 얻을 수 있는가.
        https://clevertap.com/blog/google-heart-framework/
    • PIRATE Framework(AARRR)
      https://www.product-frameworks.com/AARRR-Metrics.html

      1. 획득(Acquisition) :고객이 제품을 찾고 찾아옴
      2. 활성(Activation) : 고객은 제품의 핵심가치를 경험하여 Action을 함
      3. 유지(Retention) : 고객이 재방문함
      4. 매출(Revenue) : 수익을 주기적으로 창출함
      5. 조회(Referred) : 다른 사람에게 제품을 추천함.(입소문)

가드레일 지표(Guardrail Metric)

  • 가정을 위반하는 것을 방지하기 위해 모니터링하는 지표
  • 신뢰도 가드레일 지표
    • 실험결과의 신뢰도와 내적타당성 평가하여 실험설계가 제대로 되었는지 확인할 수 있는 지표
  • 조직 가드레일 지표
    • 비즈니스를 보호하는 지표
    • 중요한 제약을 위반하지 않게 하는 지표
    • EX) 판매를 촉진하기 위해 Email Push를 보내면 Email을 차단하는데, 이때 Email 수신 차단 비율

자산지표 VS 참여 지표

  • 자산 지표 : 사용자수처럼 정적인 자산의 축적
  • 참여 지표 : 세션 및 페이지뷰 같이 사용자의 행동 결과 및 다른 사용자의 제품이용에 의해 받는 가치 측정

비즈니스 VS 운영지표

  • 비즈니스 지표 : 사용자당 매출, DAU(Daily Active User)같이 비즈니스의 상태를 추적
  • 운영 지표 : 초당 쿼리, 페이지 로딩 속도 등

데이터 품질 지표

  • 기초 실험의 내적 타당성과 신뢰도 보장

진단 및 디버그 지표

  • 목표/도인/가드레일 지표가 문제가 있음을 나타냄을 감지할 수 있는 지표

EX) 매출이 목표지표인 경우, 간혹 장사꾼들로 인해 매출이 급증할 수 있음. 객단가 분포를 활용하여 잘못된 해석을 미리 방지할 수 있음

지표의 공식화

질적 개념을 구체적이고 계량화

  1. 목표지표
    • 단순성 : 이해가 쉽고 폭넓게 수용되어야함
    • 안정성 : 새로운 기능을 실행할 때마다 목표지표를 업데이트할 필요가 없어야 함
  2. 동인지표
    • 목표와 이해관계 일치 : 동인지표의 성공이 목표지표의 성공인지 검증 필요(인과관계가 있는지 확인 필요)
    • 행동 가능 및 관련성 : 실무자들이 이 지표를 움직이기 위해 Action을 할 Needs를 느껴야함
    • 민감성 여부 : 대부분의 이니셔티브(목표를 달성하기 위해 해야하는 핵심적인 일)로부터의 영향을 측정하기 위해 민감하여야 함
    • 조작에 대한 내성 : 성공을 측정할 때 조작되어서는 안됨
  3. 지표 개발을 위한 유용한 기법 및 고려사항
    1. 확장성이 낮은 가설을 사용한 다음 정확한 정의를 결정하기 위해 확장 가능한 데이터 분석에서 가설검증
      1. EX) 이탈률 및 짧은 체류시간은 고객 만족과 관련있기에, 이 지표를 데이터 분석과 결합하면 지표를 정밀하게 정의하는데 필요한 임계값을 결정하는데 도움이됨
    2. 품질 고려
      1. EX) 같은 클릭이더라도 반품버튼 클릭과 신규등록자 클릭은 품질이 다름
    3. 지표 정의에 통계적 모델을 결합할시, 모델을 해석 가능한 상태로 유지하고 시간에 걸쳐 검증하여야함.
      • 장기매출을 측정할 때 LTV를 사용하지만, 생존함수가 복잡한 경우 이해관계자들이 받아들이지 못할 수 있으며, 지표의 갑작스러운 하락에 대한 원인을 조사할때 어려움이 있을 수 있음
    4. 좋은 결과를 측정하는 것보다 나쁜 결과를 측정하는것이 더 쉬울 수 있음
      • EX) 웹사이트에 짧게 방문했을 경우 대체로 불만족했기 때문으로 해석할 수 있지만, 웹사이트에 길게 방문한 경우 만족했을수도 있으나, 실제로 필요한 정보를 찾지 못하였지만 닫기버튼을 누르지 않은 것일 수도 있음
    5. 지표자체는 proxy(대리)이다.
      • 지표자체에 매몰되기 보다, 목표지표를 잘 설명할 수 있는지 확인하여야함.

지표의 평가

  • 대부분의 지표 평가와 검증은 공식화 단계에서 이루어짐
    • 다만 시간이 지남에 따라 지속적으로 이루어야 하기도함
    • 시간 경과에 따라 모델의 예측 오류가 작게 유지되는지
    • 실험에 많이 의존하는 지표는 조작을 초래하는지 확인하기 위해 주기적으로 평가하여야함
  • 목표지표와 동인지표간 인과관계 구축
    • 동인지표가 실제로 목표지표를 구동하는지 여부 확인
    • 인과관계 검증을 위한 접근법
      1. 다른 데이터 소스를 활용하여 모두 같은 방향을 가리기는지 확인
      2. 관측자료 분석 : 관측자료로 인과관계를 확립하는 것은 어렵지만, 가설을 무효화하는데는 도움줄 수 있음
      3. 다른 업체 연구 확인 : 비슷한 검증이 다른 회사에서 이뤄졌는지 확인
      4. 실험 수행 : 특정 지표의 영향력 평가를 위한 실험
      5. 과거의 실험자료 활용 : 과거의 실험자료로 새 지표 평가

지표의 진화

  • 지표의 정의는 시간이 지남에 따라 달라짐
    1. 비즈니스의 발전
    2. 환경 변화: 경쟁 구도나, 사회분위기 변화에 따라 측정 지표가 변화할 수 있음
    3. 지표 대한 이해의 발전 : 실제 성능을 반영할 수 있도록 세분화하거나 상이한 지표로 개선
  • 목표지표에 대한 인과관계 구축
    • 근본적인 인과관계 모델을 모르고 가설만 있기 때문

 

종합 평가 기준 (OEC)

  • 실험을 잘 설계하고 실행하기 위해 필요
  • 단기(실험기간)에 측정할 수 있으며 계산 가능하여야함.
  • 장기목표에 인과적으로 영향을 미치는 기준
  • 여러번의 시행착오가 필요, 하지만 조직 내에 명확한 이해관계 일치 메커니즘 제공

비즈니스 지표와 실험지표

비즈니스 지표는 온라인 실험에 아래와 같은 조건을 갖추지 못하면 유용하지 않을 수 있음

  1. 추정 기능
    • 효과를 측정할 수 있어야 함
    • 구매가능성 같은 지표는 측정하기 어려울 수 있음
  2. 귀속 기능(계산 가능성)
    • 실험의 목적에 맞게 지표를 계산하려면 실험군/대조군에 지표값을 귀속/연결시킬 수 있어야 함.
  3. 민감성 및 시기적절 
    • 실험 지표는 중요한 변화를 감지할 수 있을 정도로 민감해야함
    • 특정 사용자들로 인해 지표가 한쪽으로 쳐진 경우, 분산을 부풀려 실험효과 탐지를 어렵게 함
    • 1년단위 갱신하는 구독 계약에 대한 실험을 할때는, 갱신률 보다는 고객만족도 등의 지표를 활용해야함
    • 즉, 비즈니스 보고 목적으로 사용되는 모든 지표가 실험에 적합한 것은 아님

즉, 실험을 할 때 아래 지표들을 고려하여야 한다.

  1. 측정가능성, 계산 가능성, 민감도 및 적시성 기능을 충족하는 비즈니스 목표
  2. 동인 지표
  3. 가드레일 지표
  4. 비즈니스 목표 및 동인을 위한 대리지표
  5. 특정 기능의 움직임을 이해하는데 도움이 되는 기능 수준 지표와 세분화된 지표
  6. 신뢰도 가드레일 및 데이터 품질 지표
  7. 진단과 디버그 지표

주요지표를 OEC로 결합하기

  • 통상 최적화를 위한 단순 단일지표는 존재하지 않음
  • 어떤 Trade-off를 수용할지에 대한 모델에 기반하여 이를 표현하기 위해 여러 지표를 가중 조합(OEC)를 고안
    • EX) 매출 증진을 위해 Push를 보낼때 어느정도의 push차단 고객 증가는 감수할 수 있다.
    • 합성된 지표가 조작가능하지 않도록 해야함
  • 단일 지표의 장점
    1. 성공의 정의를 명확히 함
    2. Trade-off에 대한 조직내 사람들의 이해관계를 일치
    3. 의사결정에 일관성이 생김
    4. 단일 지표에 대한 한계를 잘이해하여 OEC 지표를 변화할 시기를 잘 결정할 수 있음
  • OEC를 구상하기 위해 4개의 그룹으로 분류하는 것으로 시작
    • 모든 핵심지표의 변화가 0(통계적으로 유의하지 않음)이거나 양수(통계적으로 유의)하고, 적어도 하나의 지표가 양수의 경우 변경
    • 모든 핵심 지표의 변화가 0이거나 음수이거나 적어도 하나의 지표가 음수인 경우 변경하지 않음
    • 모든 핵심 지표가 0이면 변경을 실시하지 않고 실험검정력을 높이거나, 방향전환 고려
    • 일부 핵심지표가 양이고, 일부는 음이라면 Trade off를 기반으로 결정 (가중치 할당 가능)
  • 만약 OEC를 만들 수 없다면 핵심지표의 수를 최소화해야함
    • 지표가 많을 수록 적어도 1개 이상의 지표가 p<0.05를 충족할 확률은 1-(1-0.05)^k 이다
    • 즉 k=5라면(지표가 5개) 하나 이상의 지표가 통계적으로 유의할 확률은 23%

OEC 예 : 아마존 이메일

  • 아마존의 이메일 Push가 사용자들의 피로감을 증대시켜 이메일 차단율이 상승
  • 따라서 이를 최적화 할 필요성을 느낌
  • 아마존 직원들이 알고 있던 내용
    • 현재 클릭율과 매출에 기반한 OEC가 사용자 생애가치 대신 단기 매출에 최적화
  • 따라서 사용자가 이메일 수신을 취소할 때와 사용자 생에 기회 손실에 대한 하한을 설정하기 위한 모델 생성
  • 이를 기반으로 캠페인들을 평가했을 때, 캠페인의 절반 이상이 부정적인 OEC를 보여주고 있었음

OEC 구성시 주의 사항

  • 상관관계가 인과관계를 의미하지 않으며, 많은 조직에서 OEC를 선택할 때 상관관계를 인과관계로 잘못판단하는 경우가 있음
  • 굿하트의 법칙, 캠벨의 법칙과 루카스 비판과 관련

 

해당 포스팅은 [A/B Test 신뢰할 수 있는 온라인 종합 대조 실험] 책을 참고하여 작성하였습니다

https://link.coupang.com/a/byKk9C

 

A/B 테스트

COUPANG

www.coupang.com

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

728x90
반응형