반응형

Data Analysis & ML 109

[Machine Learning][머신러닝] Decision Tree(결정트리)와 RandomForest(랜덤포레스트)

이번 포스팅에서는 머신러닝 모델 중에서 가장 많이 쓰이는 모델 중 하나인 랜덤포레스트와 그 기반이 되는 결정트리에 대해 알아봅니다.Decision Tree(결정트리)Decision Tree 원리 및 용어데이터를 잘 분류할 수 있는 질문을 던져 가며 대상을 좁혀가는 '스무고개'와 비슷한 형식의 알고리즘.분기해 나가는 구조가 Tree 구조와 같기 때문에 Decision Tree 라고 한다.불순도 최대한 감소하는 방향으로 조건을 만들어 학습을 진행한다.하위노드는 yes/no 두 개로 분기 된다.머신러닝 모델들 중 몇안되는 White box 모델로 결과에 대한 해석이 가능하다.과대적합(Overfitting)이 발생하기 쉽다.앙상블기반 알고리즘인 랜덤 포레스트와 많은 부스팅(Boosting)기반 앙상블 모델들의 ..

[Machine Learning][머신러닝][지도학습] SVM(Support Vector Machine)

Support Vector Machine (SVM) 선형(Linear) SVM 딥러닝 이전에 분류에서 뛰어난 성능으로 가장 활용도가 높았던 분류모델 하나의 분류 그룹을 다른 그룹과 분리하는 최적의 경계를 찾아내는 알고리즘 중간크기의 데이터셋과 특성(Feature)이 많은 복잡한 데이터셋에서 성능이 좋은 것으로 알려져있다. 선 (1)과 (2)중 어떤 선이 최적의 분류 선일까? 목표: support vector간의 가장 넓은 margin을 가지는 초평면(결정경계)를 찾는다. 초평면 데이터가 존재하는 공간보다 1차원 낮은 부분공간 n차원의 초평면은 n-1차원 공간을 나누기 위해 초평면을 사용한다. 1차원-점, 2차원-선, 3차원-평면, 4차원이상 초평면 Support Vector: 경계를 찾아내는데 기준이 되..

[Machine Learning][머신러닝][지도학습] K-최근접 이웃(KNN)

K-최근접 이웃 (K-Nearest Neighbors, K-NN) 분류(Classification)와 회귀(Regression) 를 모두 지원한다. 예측하려는 데이터와 input 데이터들 간의 거리를 측정해 가장 가까운 K개의 데이터셋의 레이블을 참조해 분류/예측한다. 학습시 단순히 input 데이터들을 저장만 하며 예측 시점에 거리를 계산한다. 학습은 빠르지만 예측시 시간이 많이 걸린다. K-NN에서 K는 새로운 데이터포인트를 분류할때 확인할 데이터 포인트의 개수를 지정하는 하이퍼파라미터 K를 1로 하면 파란색, K를 3으로 하면 주황색 으로 분류한다. K가 너무 작으면 과적합(Overfitting)이 일어나고 K가 너무 크면 성능이 나빠진다. (Underfitting). 주요 하이퍼 파라미터 이웃 수..

[Machine Learning][머신러닝] 과적합과 해결방법(그리드서치/파이프라인)

이번 포스팅에서는 머신러닝 모델링할때 주의해야할 과적합이 무엇인지, 그리고 과적합을 해결하는 방법에 대해 알아보겠습니다.Overfitting (과대적합)일반화 (Generalization)모델이 새로운 데이터셋(테스트 데이터)에 대하여 정확히 예측하면 이것을 (훈련데이터에서 테스트데이터로) 일반화 되었다고 말한다.모델이 훈련 데이터로 평가한 결과와 테스트 데이터로 평가한 결과의 차이가 거의 없고 좋은 평가지표를 보여준다.과대적합 (Overfitting)모델이 훈련 데이터에 대한 예측성능은 너무 좋지만 일반성이 떨어져 새로운 데이터(테스트 데이터)에 대해선 성능이 좋지 않은 것을 Overfitting이라고 한다.이는 모델이 훈련 데이터 세트의 특징을 너무 맞춰서 학습 되었기 때문에 일반화 되지 않아 새로운..

[Machine Learning][머신러닝] Classification(분류) 평가지표

Classification(분류) 평가지표이번 포스팅에서는 분류모델에 대한 평가지표에 대해 알아봅니다.분류와 회귀의 평가방법분류 평가 지표정확도 (Accuracy)정밀도 (Precision)재현률 (Recall)F1점수 (F1 Score)AUC회귀 평가방법MSE (Mean Squareed Error)RMSE (Root Mean Squared Error)R^2 (결정계수)sckit-learn 평가함수sklearn.metrics 모듈을 통해 제공 분류(Classification) 평가 기준이진 분류에서의 양성과 음성 의미양성: 예측하려는(찾으려는) 대상음성: 예측하려는 대상이 아닌 것예암환자 분류 : 양성 - 암 환자, 음성 - 정상인스팸메일 분류 : 양성 - 스팸메일, 음성 - 정상메일금융사기 모델: 양성..

[Machine Learning][머신러닝] 데이터 전처리(범주형/연속형)

이번 포스팅에서는 머신러닝 모델링을 위해 범주형데이터와 연속형데이터를 처리하는 방법을 알아보겠습니다.범주형 데이터 전처리사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다.범주형 변수 (Categorical Variable)몇 개의 범주 중 하나에 속하는 값들로 구성된 변수. 어떤 분류에 대한 속성을 가지는 변수를 말한다.예) 성별 - 남/녀, 혈액형 - A, B, AB, O, 성적 - A,B,C,D,F비서열(Unordered) 변수범주에 속한 값간에 서열(순위)가 없는 변수성별, 혈액형서열 (Ordered) 변수범주에 속한 값 간에 서열(순위)가 있는 변수성적, 직급사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다.범주형 변수의 경우..

[Machine Learning][머신러닝] 데이터셋 나누기와 교차검증

데이터셋 나누기데이터셋 (Dataset)Train 데이터셋 (훈련/학습 데이터셋)모델을 학습시킬 때 사용할 데이터셋.Validation 데이터셋 (검증 데이터셋)Train set으로 학습한 모델의 성능을 측정하기 위한 데이터셋Test 데이터셋 (평가 데이터셋)모델의 성능을 최종적으로 측정하기 위한 데이터셋Test 데이터셋은 마지막에 모델의 성능을 측정하는 용도로 한번만 사용되야 한다.학습과 평가를 반복하다 보면 모델이 검증때 사용한 데이터셋에 과적합되어 새로운 데이터에 대한 성능이 떨어진다.그래서 데이터셋을 train 세트, validation 세터, test 세트로 나눠 train 세트와 validation 세트로 모델을 최적화 한 뒤 마지막에 test 세트로 최종 평가를 한다. Hold Out데이터셋..

[Machine Learning][머신러닝] IRIS 분석 (결정 트리 모델(Decision Tree))

데이터셋 확인하기 용어 레이블(Label), 타겟(Target) 결정값, 출력데이터, 종속변수 예측 대상이 되는 값. 지도학습시 학습을 위해 주어지는 정답 데이터 분류의 경우 레이블을 구성하는 고유값들을 클래스(class)라고 한다. 피쳐(Feature) 속성, 입력데이터, 독립변수 Target이 왜 그런 값을 가지게 되었는지를 설명하는 변수. Target값을 예측하기 위해 학습해야 하는 값들. scikit-learn 내장 데이터셋 가져오기 scikit-learn은 머신러닝 모델을 테스트 하기위한 데이터셋을 제공한다. 이런 데이터셋을 Toy dataset이라고 한다. 패키지 : sklearn.datasets 함수 : load_xxxx() from sklearn.datasets import load_iri..

[Machine Learning][머신러닝] 머신러닝 개요

머신러닝 개요 인공지능 (AI - Artificial Intelligence) 지능: 어떤 문제를 해결하기 위한 지적 활동 능력 인공지능 기계가 사람의 지능을 모방하게 하는 기술 규칙기반, 데이터 학습 기반 머신러닝(Machine Learning) 데이터 학습 기반의 인공 지능 분야 기계에게 어떻게 동작할지 일일이 코드로 명시하지 않고 데이터를 이용해 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 인공지능의 한분야 딥러닝 (Deep Learning) 인공신경망 알고리즘을 기반으로 하는 머신러닝의 한 분야. 대용량 데이터 학습에 뛰어난 성능을 나타낸다. 머신러닝은 역사가 70 ~ 80년 가까이 연구된 분야지만 최근 10여년 사이에 활성화 되었다. 이유 데이터의 증가 컴퓨터 하드웨어의 발전 알고리즘의 발..

반응형