일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 통계분석
- 기초통계학
- sparkml
- SparkSQL
- 인과추론
- 텍스트마이닝
- sql
- 딥러닝
- nlp
- 프로그래머스
- 데이터분석
- Machine Learning
- spark
- mysql
- 스택/큐
- 터키 여행
- 시계열분석
- Deep Learning
- hackerrank
- 튀르키예
- text mining
- python
- 회귀분석
- 머신러닝
- ADP실기
- pyspark
- 파이썬
- 튀르키예 여행
- 카파도키아
- postgresql
- Today
- Total
목록머신러닝 (26)
YSY의 데이터분석 블로그
Spark ML 이란 머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리 Classification, Regression, Clustering, Collaborative Filtering, Dimensionality Reduction. https://spark.apache.org/docs/latest/ml-classification-regression.html 아직 딥러닝은 지원은 아직 미약 여기에는 RDD 기반과 데이터프레임 기반의 두 버전이 존재 spark.mllib vs. spark.ml spark.mllib가 RDD 기반이고 spark.ml은 데이터프레임 기반 spark.mllib는 RDD위에서 동작하는 이전 라이브러리로 더 이상 업데이트가 안됨 항상 spark.ml을 사용할 것! imp..
편향-분산 상충관계(Bias-variance Trade-off) 1) 편향과 분산의 정의 편향(Bias): 점추정 예측값과 실제값의 차이 모델 학습시 여러 데이터로 학습 후 예측값의 범위가 정답과 얼마나 멀리 있는지 측정 편향(Bias(Real)): 모형화(단순화)로 미처 반영하지 못한 복잡성 => 편향이 작다면 Training 데이터 패턴(복잡성)을 최대반영 의미 => 편향이 크다면 Training 데이터 패턴(복잡성)을 최소반영 의미 분산(Variance): 구간추정 학습한 모델의 예측값이 평균으로부터 퍼진 정도(변동성/분산) 여러 모델로 학습을 반복한다면, 학습된 모델별로 예측한 값들의 차이를 측정 분산(Variance(Real)): 다른 데이터(Testing)를 사용했을때 발생할 변화 => 분산이..
탐색적 요인 분석 요인 분석 (FA)은 관찰 된 변수 집합에서 영향력있는 기본 요인 또는 잠재 변수를 검색하는 데 사용되는 탐색적 데이터 분석 방법이다. 변수 수를 줄여 데이터 해석에 도움을 준다. 모든 변수에서 최대 공분산을 추출하여 공통 점수에 넣는다. 요인 분석은 시장 조사, 광고, 심리학, 금융 및 운영 연구에 널리 사용됨. 예를 들어, 시장 조사원은 요인 분석을 사용하여 가격에 민감한 고객을 식별하고 소비자 선택에 영향을 미치는 브랜드 기능을 식별하며 유통 채널에 대한 채널 선택 기준을 이해하는 데 도움을 준다. 탐색적 요인 분석의 전제조건 등간척도, 정규분포, 관찰치가 상호독립적이며 분산이 동일해야한다. 모상관 행렬이 단위 행렬이라는 가설이 기각되어야함(KMO / Bartleet의 검정) 최초..
주성분분석 고차원의 데이터를 저차원의 데이터로 환원시키는 기법 데이터를 어떤 기준을 바탕으로 변환을 하고, 그 변환으로 인해 '주성분'이 추출된다. 따라서 추출된 주성분은 원래 가지고 있는 데이터와 다르다. 변환된 데이터이다. 따라서 변수의 의미가 중요한 경우에는 PCA를 사용하면 안 된다. 왜냐면, PCA는 데이터에 변환을 가하는 것이기 때문이다. PCA는 탐색적 분석이다. 즉, 변인을 탐색해서 변환을 통해 주성분을 결정하는 방법이다. PCA의 본질은 차원 축소이다. 차원이 축소됐다는 것은 원본 데이터가 아니라 변환(projection) 된 데이터, 즉 주성분을 이용해 분석 혹은 모델링을 진행하겠다는 것이다. import pandas as pd url = "https://archive.ics.uci.e..
IMDB(Internet Movie Database) 영화리뷰 데이터 셋 https://www.imdb.com/ 다운로드: http://ai.stanford.edu/~amaas/data/sentiment/ train의 unsup 은 제거 (비지도학습용) load_files() 분류범주를 폴더로 분리한 텍스트 파일을 load한다. Bunch 타입으로 반환 from sklearn.datasets import load_files import numpy as np import pandas as pd neg: 0, pos: 1 로 분리해 준다. (폴더의 알파벳 순서대로 ) Bunch 타입으로 반환 review_train = load_files("aclImdb/train") #분류 클래스 별로 폴더를 만들고 그 폴..
형태소 분석 형태소 일정한 의미가 있는 가장 작은 말의 단위 형태소 분석 말뭉치에서 의미있는(분석에 필요한) 형태소들만 추출하는 것 보통 단어로 부터 어근, 접두사, 접미사, 품사등 언어적 속성을 파악하여 처리한다. 형태소 분석을 위한 기법 어간추출(Stemming) 원형(기본형) 복원 (Lemmatization) 품사부착 (POS tagging - Part Of Speech) 어간추출(Stemming) 어간: 활용어에서 변하지 않는 부분 painted, paint, painting => 어간: paint 보다, 보니, 보고=>어간 보- 어간 추출 단어에서 어미를 제거하고 어간을 추출하는 작업 목적 같은 의미를 가지는 단어의 여러가지 활용이 있을 경우 다른 단어로 카운트 되는 문제점을 해결한다. flow..
NLP(Natural Language Processing) 자연어 처리란 자연어 사람이 사용하는 고유한 언어 인공언어의 반대 의미 인공언어: 특정 목적을 위해 인위적으로 만든 언어 ex) 프로그래밍 언어 자연어 처리 사람이 사용하는 자연어를 컴퓨터가 사용할 수 있도록 처리하는 과정. 자연어 처리 응용분야 번역 시스템 문서요약 감성분석 대화형 시스템(챗봇) 정보 검색 시스템 텍스트 마이닝 음성인식 텍스트 분석 수행 프로세스 텍스트 전처리 클렌징(cleansing) 특수문자, 기호 필요없는 문자 제거 대소문자 변경 stop word(분석에 필요 없는 토큰) 제거 텍스트 토큰화 분석의 최소단위로 나누는 작업 보통 단어단위나 글자단위로 나눈다. 어근 추출(Stemming/Lemmatization)을 통한 텍스트..
대출위험도 예측모델링 라이브러리 불러오기 및 데이터셋 나누기 import pandas as pd import numpy as np np.random.seed(1234) data = pd.read_csv('data/data-v01.csv') data.shape from sklearn.linear_model import LogisticRegression from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier from sklearn.neighbors import KNeighborsClassifier from xgboost import XGBClassifier from sklearn.model_selection import ..