반응형

머신러닝 25

[Machine Learning][머신러닝] 분류평가지표

모델 평가 모델의 성능을 평가한다. 평가결과에 따라 프로세스를 다시 반복한다. 분류와 회귀의 평가방법 분류 평가 지표 정확도 (Accuracy) 정밀도 (Precision) 재현률 (Recall) F1점수 (F1 Score) AUC 회귀 평가방법 MSE (Mean Squareed Error) RMSE (Root Mean Squared Error) R^2 (결정계수) sckit-learn 평가함수 sklearn.metrics 모듈을 통해 제공 분류(Classification) 평가 기준 용어 이진 분류에서 양성과 음성 양성: 예측하려는(찾으려는) 대상 음성: 예측하려는 대상이 아닌 것 예 암환자 분류 : 양성 - 암 환자, 음성 - 정상인 스팸메일 분류 : 양성 - 스팸메일, 음성 - 정상메일 금융사기 모..

[Machine Learning][머신러닝] 데이터 전처리(범주형/연속형)

범주형 데이터 전처리 사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다. 범주형 변수(Categorical Variable) 몇 개의 범주 중 하나에 속하는 값들로 구성된 변수. 어떤 분류에 대한 속성을 가지는 변수를 말한다. 예) 성별 - 남/녀, 혈액형 - A, B, AB, O, 성적 - A,B,C,D,F 비서열(Unordered) 변수 범주에 속한 값간에 서열(순위)가 없는 변수 성별, 혈액형 서열 (Ordered) 변수 범주에 속한 값 간에 서열(순위)가 있는 변수 성적, 직급 사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다. 범주형 변수의 경우 전처리를 통해 정수값으로 변환한다. 범주형이 아닌 단순 문자열인 경우 일반적으로..

[Machine Learning][머신러닝] 데이터셋 나누기와 교차검증

데이터셋 Train 데이터셋 (훈련/학습 데이터셋) 모델을 학습시킬 때 사용할 데이터셋. Validation 데이터셋 (검증 데이터셋) Train set으로 학습한 모델의 성능을 측정하기 위한 데이터셋 Test 데이터셋 (평가 데이터셋) 모델의 성능을 최종적으로 측정하기 위한 데이터셋 Test 데이터셋은 마지막에 모델의 성능을 측정하는 용도로 한번만 사용되야 한다. 학습과 평가를 반복하다 보면 모델이 검증때 사용한 데이터셋에 과적합되어 새로운 데이터에 대한 성능이 떨어진다. 그래서 데이터셋을 train 세트, validation 세터, test 세트로 나눠 train 세트와 validation 세트로 모델을 최적화 한 뒤 마지막에 test 세트로 최종 평가를 한다. Hold Out 데이터셋을 Train ..

[Machine Learning][머신러닝] IRIS 분석 (결정 트리 모델(Decision Tree))

데이터셋 확인하기 용어 레이블(Label), 타겟(Target) 결정값, 출력데이터, 종속변수 예측 대상이 되는 값. 지도학습시 학습을 위해 주어지는 정답 데이터 분류의 경우 레이블을 구성하는 고유값들을 클래스(class)라고 한다. 피쳐(Feature) 속성, 입력데이터, 독립변수 Target이 왜 그런 값을 가지게 되었는지를 설명하는 변수. Target값을 예측하기 위해 학습해야 하는 값들. scikit-learn 내장 데이터셋 가져오기 scikit-learn은 머신러닝 모델을 테스트 하기위한 데이터셋을 제공한다. 이런 데이터셋을 Toy dataset이라고 한다. 패키지 : sklearn.datasets 함수 : load_xxxx() from sklearn.datasets import load_iri..

[Machine Learning][머신러닝] 머신러닝 개요

머신러닝 개요 인공지능 (AI - Artificial Intelligence) 지능: 어떤 문제를 해결하기 위한 지적 활동 능력 인공지능 기계가 사람의 지능을 모방하게 하는 기술 규칙기반, 데이터 학습 기반 머신러닝(Machine Learning) 데이터 학습 기반의 인공 지능 분야 기계에게 어떻게 동작할지 일일이 코드로 명시하지 않고 데이터를 이용해 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 인공지능의 한분야 딥러닝 (Deep Learning) 인공신경망 알고리즘을 기반으로 하는 머신러닝의 한 분야. 대용량 데이터 학습에 뛰어난 성능을 나타낸다. 머신러닝은 역사가 70 ~ 80년 가까이 연구된 분야지만 최근 10여년 사이에 활성화 되었다. 이유 데이터의 증가 컴퓨터 하드웨어의 발전 알고리즘의 발..

반응형