Data Analysis & ML/Machine Learning

[LTV] BTYD (Buy-till-you-Die) - Pareto / NBD

YSY^ 2023. 2. 11. 22:01

LTV (Life Time Value) 

  • LTV(또는 CLV)로 부르는 ‘고객 생애 가치’는 고객이 평생동안 기업에게 어느 정도의 가치를 가져다 주는지를 정량화한 지표.
  • LTV는 확률 기반 모형으로 특정한 시점 t에서 고객마다 어느 정도의 생애 가치를 가지는지 측정
  • 회사가 얼마나 수익성이 있을지 또는 신규 고객을 확보하기 위해 얼마나 많은 비용을 지출할 수 있는지를 이해하는 데 중요한 지표

 

BTYD 

BTYD(Buy Till You Die) 모델은 고객 평생 가치를 계산하기 위해 과거 거래 데이터에 확률적 모델을 적용

BYTD 모델은 다음과 같은 질문에 답을 해준다고 한다.

  • 활성 고객은 몇 명인가
  • 지금부터 N년 후에 얼마나 많은 고객이 활동중일까
  • 어떤 고객이 이탈했나
  • 고객은 미래에 회사에 얼마나 가치가 있을까

 

BTYD 모델에서 활용하는 것

주문 테이블

  • BTYD 모델이 고객 수준의 가치를 예측하는데 사용되는 것은 주문 테이블
  • 고객들의 데이터가 많을 수록 예측이 강력해짐
  • 합리적인 예측을 위한 최소 주문 테이블 크기는 고객들의 최소 20%가 적어도 2년안에 두 번째 구매를 진행해야 함

RFM 지표

  • Recency(최신성): 고객이 구매한 지 얼마나 되었습니까?
  • Frequency(빈도): 고객이 얼마나 자주/지속적으로 구매합니까?
  • Monetary(금전적): 고객이 평균적으로 얼마를 지출합니까?

 

BYTD 모델의 변천사

  • 1959 NBD model
  • 1987 Pareto / NBD
  • 2005 BG / NBD
  • 2007 MBG / NBD
  • 2009 Pareto / NBD (Abe)
  • 2016 Pareto / GGG — latest and greatest

https://retina.ai/academy/lesson/history-of-buy-til-you-die-btyd-models/

해당 포스팅에서는 Pareto / NBD 모델에 대해 포스팅 하겠다. (Pareto / GGG 모델은 향후 포스팅 예정)

 

Pareto / NBD

  • Pareto/NBD 모델은 “Counting Your Customers: Who Are They and What Will They Do Next?”(1987) 논문에서 처음 소개
  • 모델 이름은 이탈율 계산에 이용되는 파레토분포(Pareto Distribution)와 미래 구매예측에 이용되는 음이항분포(Negative Binomial Distribution (NBD))에서 유래
  • Pareto/NBD의 목표 : 1)고객 이탈 여부와 2) 얼마나 자주 구매할 것인지를 결정할 때 고객들의 context를 캡쳐하여 RFM 분석을 구축하는 것

 

Pareto/NBD의 예시

A는 2달마다 구매했으나 최근 3달동안 구매하지 않음

B는 지난 6달동안 한번 구매했으나 최근 3달동안 구매하지 않았음

두 고객의 최신성(14일)이 동일하더라도 구매 행동의 차이에 따라 이탈 확률이 달라지는데 위 고객 중 B의 LTV를 높게 평가한다. 그 이유는 A는 2달만에 구매해야하나 하지 않았으므로 이탈 확률이 높지만 B의 경우 최근 3달간 구매하지 않았지만 과거에 6개월만에 구매한 기록이 있기에 6개월안에 돌아올 가능성이 있기 때문에 이탈 확률을 A보다 낮게 잡는다.

Pareto/NBD는  고객의 구매수명과 시간에 따른 구매와,  두가지를 모델링한다.

 

고객의 구매 수명(Pareto)

고객의 구매 수명에는 파레토 분포를 이용한다.

매개변수 알파에 따른 파레토 분포

Pareto NBD 모델의 가정 : 일반적으로 대부분의 고객은 고객이 된 후 상대적으로 빠르게 사라지지만 소수의 고객 집단은 오랫동안 남아 있는다.

따라서 특정 비즈니스의 고객 구매 행동으로 정의되는 파레토 분포에서 샘플링하여 비즈니스와 관련된 각 고객의 예상 수명을 예측한다.

 

시간에 따른 구매(NBD)

고객이 남아있는 동안, 고객의 구매 횟수는 일정한 기간 동안의 구매율을 모수로 하는 포아송 분포를 따름

포아송 분포는 “구매 횟수”에 대한 분포라 구매할 확률을 모수로 하지 않고, 정해진 시간 동안의 예상 구매 횟수를 모수로함.

해당 모델에서는 포아송 분포와 감마 분포가 결합된 음이항 분포 (Negative Binomial Distribution)를 사용

분포에 관해 잠시 알아보자면

  • 지수 분포가 사건이 1회 발생할 때까지 걸리는 시간에 대한 분포라면, 지수 분포의 합은 감마 분포로, 사건이 n번 시행될때 까지 걸리는 시간에 대한 분포.
  • 기하 분포가 어떤 사건을 1회 성공할 때까지 걸리는 시행 횟수에 대한 분포라면, 기하 분포의 합은 음이항 분포로, 사건이 m회 성공할 때까지 걸리는 시행 횟수에 대한 분포

포아송과 감마 분포의 결합은 음이항 분포로 표현 할 수 있다.

포아송 분포와 감마 분포를 결합한다는 건 위 포아송 분포의 모수인 λ가 감마 분포를 따르도록 만드는 것을 의미

 

모델 정리

  1. 파레토 분포에서 샘플링하여 고객의 예상 수명을 찾습니다.
  2. 시간별 구매 분포에서 샘플링하여 고객의 예상 거래 수를 찾습니다.
  3. 예상 거래 수에 평균 구매 금액을 곱합니다.

 

 

현재 공부중이라 미완성된 포스팅이며 얼마든지 피트백 부탁드립니다.

 

참고자료

https://cran.r-project.org/web/packages/BTYDplus/vignettes/BTYDplus-HowTo.pdf

https://towardsdatascience.com/customer-behavior-modeling-buy-til-you-die-models-6f9580e38cf4

https://assaeunji.github.io/statistics/2022-04-15-ltv/

https://medium.com/geekculture/predicting-customer-life-time-value-cltv-via-beta-geometric-negative-binominal-distribution-59be07ac30bd

 

728x90
반응형