반응형

지도학습 5

[Machine Learning][머신러닝] 로지스틱 회귀(Logistic Regression)

로지스틱 회귀 (LogisticRegression)선형회귀 알고리즘을 이용한 이진 분류 모델Sample이 특정 클래스에 속할 확률을 추정한다. 확률 추정선형회귀 처럼 입력 특성(Feature)에 가중치 합을 계산한 값을 로지스틱 함수를 적용해 확률을 계산한다.import matplotlib.pyplot as pltxx = np.linspace(-10, 10, 100)sig = 1 / (1 + np.exp(-xx))plt.figure(figsize=(15, 5))plt.plot(xx,xx, color='g', label='linear')plt.plot(xx, sig, color='b', linewidth=2, label="logistic")plt.plot([-10, 10], [0, 0], color='k'..

[Machine Learning][머신러닝] 회귀모델의 평가지표

회귀모델의 평가지표지도 학습(Supervised Learning)으로 예측할 Target이 연속형(continuous) 데이터(float)인 경우 회귀분석을 진행하는데 이때 모델을 평가할 때 어떤 지표를 사용하는지 알아본다.회귀의 주요 평가 지표회귀분석에 사용하는 평가지표는 예측값과 실제 값간의 차이를 사용하는데, 이를 구하는 방법이 다르다.MSE (Mean Squared Error)실제 값과 예측값의 차를 제곱해 평균 낸 것mean_squared_error()'neg_mean_squared_error'RMSE (Root Mean Squared Error)MSE는 오차의 제곱한 값이므로 실제 오차의 평균보다 큰 값이 나온다. MSE의 제곱근이 RMSE이다.scikit-learn은 함수를 지원하지 않는다...

[Machine Learning][머신러닝][지도학습] SVM(Support Vector Machine)

Support Vector Machine (SVM) 선형(Linear) SVM 딥러닝 이전에 분류에서 뛰어난 성능으로 가장 활용도가 높았던 분류모델 하나의 분류 그룹을 다른 그룹과 분리하는 최적의 경계를 찾아내는 알고리즘 중간크기의 데이터셋과 특성(Feature)이 많은 복잡한 데이터셋에서 성능이 좋은 것으로 알려져있다. 선 (1)과 (2)중 어떤 선이 최적의 분류 선일까? 목표: support vector간의 가장 넓은 margin을 가지는 초평면(결정경계)를 찾는다. 초평면 데이터가 존재하는 공간보다 1차원 낮은 부분공간 n차원의 초평면은 n-1차원 공간을 나누기 위해 초평면을 사용한다. 1차원-점, 2차원-선, 3차원-평면, 4차원이상 초평면 Support Vector: 경계를 찾아내는데 기준이 되..

[Machine Learning][머신러닝][지도학습] K-최근접 이웃(KNN)

K-최근접 이웃 (K-Nearest Neighbors, K-NN) 분류(Classification)와 회귀(Regression) 를 모두 지원한다. 예측하려는 데이터와 input 데이터들 간의 거리를 측정해 가장 가까운 K개의 데이터셋의 레이블을 참조해 분류/예측한다. 학습시 단순히 input 데이터들을 저장만 하며 예측 시점에 거리를 계산한다. 학습은 빠르지만 예측시 시간이 많이 걸린다. K-NN에서 K는 새로운 데이터포인트를 분류할때 확인할 데이터 포인트의 개수를 지정하는 하이퍼파라미터 K를 1로 하면 파란색, K를 3으로 하면 주황색 으로 분류한다. K가 너무 작으면 과적합(Overfitting)이 일어나고 K가 너무 크면 성능이 나빠진다. (Underfitting). 주요 하이퍼 파라미터 이웃 수..

[Machine Learning][머신러닝] 머신러닝 개요

머신러닝 개요 인공지능 (AI - Artificial Intelligence) 지능: 어떤 문제를 해결하기 위한 지적 활동 능력 인공지능 기계가 사람의 지능을 모방하게 하는 기술 규칙기반, 데이터 학습 기반 머신러닝(Machine Learning) 데이터 학습 기반의 인공 지능 분야 기계에게 어떻게 동작할지 일일이 코드로 명시하지 않고 데이터를 이용해 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 인공지능의 한분야 딥러닝 (Deep Learning) 인공신경망 알고리즘을 기반으로 하는 머신러닝의 한 분야. 대용량 데이터 학습에 뛰어난 성능을 나타낸다. 머신러닝은 역사가 70 ~ 80년 가까이 연구된 분야지만 최근 10여년 사이에 활성화 되었다. 이유 데이터의 증가 컴퓨터 하드웨어의 발전 알고리즘의 발..

반응형