반응형

파이프라인 2

[Machine Learning][머신러닝][지도학습] K-최근접 이웃(KNN)

K-최근접 이웃 (K-Nearest Neighbors, K-NN) 분류(Classification)와 회귀(Regression) 를 모두 지원한다. 예측하려는 데이터와 input 데이터들 간의 거리를 측정해 가장 가까운 K개의 데이터셋의 레이블을 참조해 분류/예측한다. 학습시 단순히 input 데이터들을 저장만 하며 예측 시점에 거리를 계산한다. 학습은 빠르지만 예측시 시간이 많이 걸린다. K-NN에서 K는 새로운 데이터포인트를 분류할때 확인할 데이터 포인트의 개수를 지정하는 하이퍼파라미터 K를 1로 하면 파란색, K를 3으로 하면 주황색 으로 분류한다. K가 너무 작으면 과적합(Overfitting)이 일어나고 K가 너무 크면 성능이 나빠진다. (Underfitting). 주요 하이퍼 파라미터 이웃 수..

[Machine Learning][머신러닝] 과적합과 해결방법(그리드서치/파이프라인)

이번 포스팅에서는 머신러닝 모델링할때 주의해야할 과적합이 무엇인지, 그리고 과적합을 해결하는 방법에 대해 알아보겠습니다.Overfitting (과대적합)일반화 (Generalization)모델이 새로운 데이터셋(테스트 데이터)에 대하여 정확히 예측하면 이것을 (훈련데이터에서 테스트데이터로) 일반화 되었다고 말한다.모델이 훈련 데이터로 평가한 결과와 테스트 데이터로 평가한 결과의 차이가 거의 없고 좋은 평가지표를 보여준다.과대적합 (Overfitting)모델이 훈련 데이터에 대한 예측성능은 너무 좋지만 일반성이 떨어져 새로운 데이터(테스트 데이터)에 대해선 성능이 좋지 않은 것을 Overfitting이라고 한다.이는 모델이 훈련 데이터 세트의 특징을 너무 맞춰서 학습 되었기 때문에 일반화 되지 않아 새로운..

반응형