일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- python
- 카파도키아
- 튀르키예 여행
- 파이썬
- text mining
- ADP실기
- 텍스트마이닝
- Deep Learning
- 튀르키예
- hackerrank
- 기초통계학
- 회귀분석
- Machine Learning
- 시계열분석
- 딥러닝
- 인과추론
- sparkml
- 머신러닝
- nlp
- 스택/큐
- 데이터분석
- 프로그래머스
- SparkSQL
- mysql
- spark
- pyspark
- 터키 여행
- 통계분석
- sql
- postgresql
- Today
- Total
목록Machine Learning (21)
YSY의 데이터분석 블로그
Spark ML 이란 머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리 Classification, Regression, Clustering, Collaborative Filtering, Dimensionality Reduction. https://spark.apache.org/docs/latest/ml-classification-regression.html 아직 딥러닝은 지원은 아직 미약 여기에는 RDD 기반과 데이터프레임 기반의 두 버전이 존재 spark.mllib vs. spark.ml spark.mllib가 RDD 기반이고 spark.ml은 데이터프레임 기반 spark.mllib는 RDD위에서 동작하는 이전 라이브러리로 더 이상 업데이트가 안됨 항상 spark.ml을 사용할 것! imp..
편향-분산 상충관계(Bias-variance Trade-off) 1) 편향과 분산의 정의 편향(Bias): 점추정 예측값과 실제값의 차이 모델 학습시 여러 데이터로 학습 후 예측값의 범위가 정답과 얼마나 멀리 있는지 측정 편향(Bias(Real)): 모형화(단순화)로 미처 반영하지 못한 복잡성 => 편향이 작다면 Training 데이터 패턴(복잡성)을 최대반영 의미 => 편향이 크다면 Training 데이터 패턴(복잡성)을 최소반영 의미 분산(Variance): 구간추정 학습한 모델의 예측값이 평균으로부터 퍼진 정도(변동성/분산) 여러 모델로 학습을 반복한다면, 학습된 모델별로 예측한 값들의 차이를 측정 분산(Variance(Real)): 다른 데이터(Testing)를 사용했을때 발생할 변화 => 분산이..
IMDB(Internet Movie Database) 영화리뷰 데이터 셋 https://www.imdb.com/ 다운로드: http://ai.stanford.edu/~amaas/data/sentiment/ train의 unsup 은 제거 (비지도학습용) load_files() 분류범주를 폴더로 분리한 텍스트 파일을 load한다. Bunch 타입으로 반환 from sklearn.datasets import load_files import numpy as np import pandas as pd neg: 0, pos: 1 로 분리해 준다. (폴더의 알파벳 순서대로 ) Bunch 타입으로 반환 review_train = load_files("aclImdb/train") #분류 클래스 별로 폴더를 만들고 그 폴..
대출위험도 예측모델링 라이브러리 불러오기 및 데이터셋 나누기 import pandas as pd import numpy as np np.random.seed(1234) data = pd.read_csv('data/data-v01.csv') data.shape from sklearn.linear_model import LogisticRegression from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier from sklearn.neighbors import KNeighborsClassifier from xgboost import XGBClassifier from sklearn.model_selection import ..
모델링 개요 데이터 탐색 (EDA) 가지고 있는 데이터로부터 통찰력(Insight)을 얻는다. 라벨(답)의 존재 유무 지도학습/비지도학습 결정 라벨의 형태 분류/회귀 모델 결정 Base-Line 모델로 가장 간단한 머신러닝 모형 구현 아무런 설정없이 생성한 모델 EDA 결과 확인을 위한 모델 모델 선택, 튜닝의 기준이 될 모델 Base-Line 모델의 문제점을 파악하여 그것을 개선하는 방향으로 튜닝해 나간다. 문제에 대한 이해 현재 수입, 지출 등의 데이터에 대해 은행 자체의 분석을 진행하여 대출자가 미래에 돈을 갚을 수 있는지 확인 알고리즘 결과 : 일정 기간(2년) 내에 채무 불이행 여부 평가 지표 : roc_auc 점수 데이터 속성에 대한 이해 SeriousDlqin2yrs 목표 변수 최근 2년 동..
군집 (Clustering) 비지도 학습으로 비슷한 특성을 가지는 데이터들끼리 그룹으로 묶는다. 적용 고객 분류 고객 데이터를 바탕으로 비슷한 특징의 고객들을 묶어 성향을 파악할 수 있다. 이상치 탐지 모든 군집에 묶이지 않는 데이터는 이상치일 가능성이 높다 준지도학습 레이블이 없는 데이터셋에 군집을 이용해 Label을 생성해 분류 지도학습을 할 수 있다. 또는 레이블을 좀더 세분화 할 수 있다. k-mean (K-평균) 가장 널리 사용되는 군집 알고리즘 중 하나. 데이터셋을 K의 군집으로 나눈다. K는 하이퍼파라미터로 사용자가 지정한다. 군집의 중심이 될 것 같은 임의의 지점(Centroid)을 선택해 해당 중심에 가장 가까운 포인드들을 선택하는 기법. 알고리즘 이해 특징 K-mean은 군집을 원 모양..
로지스틱 회귀 (LogisticRegression) 선형회귀 알고리즘을 이용한 이진 분류 모델 Sample이 특정 클래스에 속할 확률을 추정한다. 확률 추정 선형회귀 처럼 입력 특성(Feature)에 가중치 합을 계산한 값을 로지스틱 함수를 적용해 확률을 계산한다. import matplotlib.pyplot as plt xx = np.linspace(-10, 10, 100) sig = 1 / (1 + np.exp(-xx)) plt.figure(figsize=(15, 5)) plt.plot(xx,xx, color='g', label='linear') plt.plot(xx, sig, color='b', linewidth=2, label="logistic") plt.plot([-10, 10], [0, 0],..
회귀(Regression) 지도 학습(Supervised Learning)으로 예측할 Target이 연속형(continuous) 데이터(float)인 경우 회귀의 주요 평가 지표 예측값과 실제 값간의 차이를 구한다 MSE (Mean Squared Error) 실제 값과 예측값의 차를 제곱해 평균 낸 것 mean_squared_error() 'neg_mean_squared_error' RMSE (Root Mean Squared Error) MSE는 오차의 제곱한 값이므로 실제 오차의 평균보다 큰 값이 나온다. MSE의 제곱근이 RMSE이다. scikit-learn은 함수를 지원하지 않는다. (MSE를 구한 뒤 np.sqrt()로 제곱근을 구한다.) R^2 (R square, 결정계수) 우리가 만든 모델이 ..