반응형

데이터전처리 2

[Machine Learning][머신러닝] 대출위험도 예측모델링(데이터전처리)

모델링 개요 데이터 탐색 (EDA) 가지고 있는 데이터로부터 통찰력(Insight)을 얻는다. 라벨(답)의 존재 유무 지도학습/비지도학습 결정 라벨의 형태 분류/회귀 모델 결정 Base-Line 모델로 가장 간단한 머신러닝 모형 구현 아무런 설정없이 생성한 모델 EDA 결과 확인을 위한 모델 모델 선택, 튜닝의 기준이 될 모델 Base-Line 모델의 문제점을 파악하여 그것을 개선하는 방향으로 튜닝해 나간다. 문제에 대한 이해 현재 수입, 지출 등의 데이터에 대해 은행 자체의 분석을 진행하여 대출자가 미래에 돈을 갚을 수 있는지 확인 알고리즘 결과 : 일정 기간(2년) 내에 채무 불이행 여부 평가 지표 : roc_auc 점수 데이터 속성에 대한 이해 SeriousDlqin2yrs 목표 변수 최근 2년 동..

[Machine Learning][머신러닝] 데이터 전처리(범주형/연속형)

범주형 데이터 전처리 사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다. 범주형 변수(Categorical Variable) 몇 개의 범주 중 하나에 속하는 값들로 구성된 변수. 어떤 분류에 대한 속성을 가지는 변수를 말한다. 예) 성별 - 남/녀, 혈액형 - A, B, AB, O, 성적 - A,B,C,D,F 비서열(Unordered) 변수 범주에 속한 값간에 서열(순위)가 없는 변수 성별, 혈액형 서열 (Ordered) 변수 범주에 속한 값 간에 서열(순위)가 있는 변수 성적, 직급 사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다. 범주형 변수의 경우 전처리를 통해 정수값으로 변환한다. 범주형이 아닌 단순 문자열인 경우 일반적으로..

반응형