반응형

Data Analysis & ML/Machine Learning 20

[LTV] BTYD (Buy-till-you-Die) - Pareto / NBD

LTV (Life Time Value) LTV(또는 CLV)로 부르는 ‘고객 생애 가치’는 고객이 평생동안 기업에게 어느 정도의 가치를 가져다 주는지를 정량화한 지표. LTV는 확률 기반 모형으로 특정한 시점 t에서 고객마다 어느 정도의 생애 가치를 가지는지 측정 회사가 얼마나 수익성이 있을지 또는 신규 고객을 확보하기 위해 얼마나 많은 비용을 지출할 수 있는지를 이해하는 데 중요한 지표 BTYD BTYD(Buy Till You Die) 모델은 고객 평생 가치를 계산하기 위해 과거 거래 데이터에 확률적 모델을 적용 BYTD 모델은 다음과 같은 질문에 답을 해준다고 한다. 활성 고객은 몇 명인가 지금부터 N년 후에 얼마나 많은 고객이 활동중일까 어떤 고객이 이탈했나 고객은 미래에 회사에 얼마나 가치가 있을..

[프로세스 마이닝] 프로세스 마이닝(PM4PY)

프로세스 마이닝 정보 시스템에 기록이 되는 이벤트 로그를 분석 하여 프로세스와 관련된 다양한 정보를 분석하는 기술 계산 지능(Computational Intelligence) 및 데이터 마이닝과 프로세스 모델링 및 분석의 중간에 위치 이벤트 로그에서 지식을 추출함으로써, 실제 업무 프로세스를 도출하고, 모니터링하며, 개선하는 것 자동화된 프로세스 도출, 적합도 검사, 소셜 네트워크/ 조직 마이닝, 시뮬레이션 모델의 자동 생성, 모델 확장, 모델 수정, 케이스 예측 그리고 과거 데이터 기반 추천 등을 포함 데이터 마이닝과 비즈니스 프로세스 모델링 및 분석의 중요한 연결 고리 역할 이벤트 로그 프로세스 마이닝 기법을 적용하기 위해서는 “Event log”를 추출하는 것이 필수 먼저 추적 대상(케이스)을 결정..

[Machine Learning][머신러닝] Bagging, Boosting 정리

편향-분산 상충관계(Bias-variance Trade-off) 1) 편향과 분산의 정의 편향(Bias): 점추정 예측값과 실제값의 차이 모델 학습시 여러 데이터로 학습 후 예측값의 범위가 정답과 얼마나 멀리 있는지 측정 편향(Bias(Real)): 모형화(단순화)로 미처 반영하지 못한 복잡성 => 편향이 작다면 Training 데이터 패턴(복잡성)을 최대반영 의미 => 편향이 크다면 Training 데이터 패턴(복잡성)을 최소반영 의미 분산(Variance): 구간추정 학습한 모델의 예측값이 평균으로부터 퍼진 정도(변동성/분산) 여러 모델로 학습을 반복한다면, 학습된 모델별로 예측한 값들의 차이를 측정 분산(Variance(Real)): 다른 데이터(Testing)를 사용했을때 발생할 변화 => 분산이..

[Machine Learning][머신러닝] 대출위험도 예측모델링(모델링)

대출위험도 예측모델링 라이브러리 불러오기 및 데이터셋 나누기 import pandas as pd import numpy as np np.random.seed(1234) data = pd.read_csv('data/data-v01.csv') data.shape from sklearn.linear_model import LogisticRegression from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier from sklearn.neighbors import KNeighborsClassifier from xgboost import XGBClassifier from sklearn.model_selection import ..

[Machine Learning][머신러닝] 대출위험도 예측모델링(데이터전처리)

모델링 개요 데이터 탐색 (EDA) 가지고 있는 데이터로부터 통찰력(Insight)을 얻는다. 라벨(답)의 존재 유무 지도학습/비지도학습 결정 라벨의 형태 분류/회귀 모델 결정 Base-Line 모델로 가장 간단한 머신러닝 모형 구현 아무런 설정없이 생성한 모델 EDA 결과 확인을 위한 모델 모델 선택, 튜닝의 기준이 될 모델 Base-Line 모델의 문제점을 파악하여 그것을 개선하는 방향으로 튜닝해 나간다. 문제에 대한 이해 현재 수입, 지출 등의 데이터에 대해 은행 자체의 분석을 진행하여 대출자가 미래에 돈을 갚을 수 있는지 확인 알고리즘 결과 : 일정 기간(2년) 내에 채무 불이행 여부 평가 지표 : roc_auc 점수 데이터 속성에 대한 이해 SeriousDlqin2yrs 목표 변수 최근 2년 동..

[Machine Learning][머신러닝] 군집(Clustering) / K-Means Clustering

군집 (Clustering) 비지도 학습으로 비슷한 특성을 가지는 데이터들끼리 그룹으로 묶는다. 적용 고객 분류 고객 데이터를 바탕으로 비슷한 특징의 고객들을 묶어 성향을 파악할 수 있다. 이상치 탐지 모든 군집에 묶이지 않는 데이터는 이상치일 가능성이 높다 준지도학습 레이블이 없는 데이터셋에 군집을 이용해 Label을 생성해 분류 지도학습을 할 수 있다. 또는 레이블을 좀더 세분화 할 수 있다. k-mean (K-평균) 가장 널리 사용되는 군집 알고리즘 중 하나. 데이터셋을 K의 군집으로 나눈다. K는 하이퍼파라미터로 사용자가 지정한다. 군집의 중심이 될 것 같은 임의의 지점(Centroid)을 선택해 해당 중심에 가장 가까운 포인드들을 선택하는 기법. 알고리즘 이해 특징 K-mean은 군집을 원 모양..

[Machine Learning][머신러닝] 로지스틱 회귀(Logistic Regression)

로지스틱 회귀 (LogisticRegression)선형회귀 알고리즘을 이용한 이진 분류 모델Sample이 특정 클래스에 속할 확률을 추정한다. 확률 추정선형회귀 처럼 입력 특성(Feature)에 가중치 합을 계산한 값을 로지스틱 함수를 적용해 확률을 계산한다.import matplotlib.pyplot as pltxx = np.linspace(-10, 10, 100)sig = 1 / (1 + np.exp(-xx))plt.figure(figsize=(15, 5))plt.plot(xx,xx, color='g', label='linear')plt.plot(xx, sig, color='b', linewidth=2, label="logistic")plt.plot([-10, 10], [0, 0], color='k'..

[Machine Learning][머신러닝] 회귀모델의 평가지표

회귀모델의 평가지표지도 학습(Supervised Learning)으로 예측할 Target이 연속형(continuous) 데이터(float)인 경우 회귀분석을 진행하는데 이때 모델을 평가할 때 어떤 지표를 사용하는지 알아본다.회귀의 주요 평가 지표회귀분석에 사용하는 평가지표는 예측값과 실제 값간의 차이를 사용하는데, 이를 구하는 방법이 다르다.MSE (Mean Squared Error)실제 값과 예측값의 차를 제곱해 평균 낸 것mean_squared_error()'neg_mean_squared_error'RMSE (Root Mean Squared Error)MSE는 오차의 제곱한 값이므로 실제 오차의 평균보다 큰 값이 나온다. MSE의 제곱근이 RMSE이다.scikit-learn은 함수를 지원하지 않는다...

[Machine Learning][머신러닝][앙상블][부스팅] GradientBoosting

Boosting 부스팅(Boosting)이란 단순하고 약한 학습기(Weak Learner)들를 결합해서 보다 정확하고 강력한 학습기(Strong Learner)를 만드는 방식. 정확도가 낮은 하나의 모델을 만들어 학습 시킨뒤, 그 모델의 예측 오류는 두 번째 모델이 보완한다. 이 두 모델을 합치면 처음보다는 정확한 모델이 만들어 진다. 합쳐진 모델의 예측 오류는 다음 모델에서 보완하여 계속 더하는 과정을 반복한다. 약한 학습기들은 앞 학습기가 만든 오류를 줄이는 방향으로 학습한다. GradientBoosting 처음 모델은 y를 예측 두번째 부터는 앞 모델이 만든 오류를 예측하고 그것을 앞 모델에 업데이트하면 오류를 줄일 수 있다. 그 오류를 update할 때 뺄까 더할까를 gradient descent..

[Machine Learning][머신러닝] 최적화 / 경사하강법

최적화 (Optimize) 모델이 예측한 결과와 실제 값의 차이를 줄이기 위해서 모델을 수정해야 하는 작업을 최적화라고 한다. 모델의 예측값과 실제 값의 차이를 계산하는 함수를 만들고 그 값이 최소가 되는 지점을 찾는 작업을 한다. 최적화 문제 함수 f(x) 의 값을 최소화(또는 최대화) 하는 변수 x의 값을 찾는 것 import numpy as np import matplotlib.pyplot as plt def func(x): return (x-1)**2 + 2 plt.figure(figsize=(10,10)) xx = np.linspace(-3,4, 100) # xx.shape, f1(xx).shape plt.plot(xx, func(xx)) plt.plot(1,2, 'ro', markersize=..

반응형