반응형

logistic regression 2

[SparkML/Classification] 타이타닉 승객 생존 예측 분류 (Logistic Regression)

타이타닉 승객 생존 예측 다운로드 링크 : https://www.kaggle.com/c/titanic 생존 혹은 비생존을 예측하는 것이라 Binary Classification을 사용 (2개 클래스 분류기) Logistic Regression 사용 AUC (Area Under the Curve)의 값이 중요한 성능 지표가 됨 ▪ True Positive Rate과 False Positive Rate True Positive Rate: 생존한 경우를 얼마나 맞게 예측했나? 흔히 Recall이라고 부르기도함 False Positive Rate: 생존하지 못한 경우를 생존한다고 얼마나 예측했나? 총 892개의 레코드로 구성되며 11개의 피쳐와 레이블 필드(생존여부) 로 구성 2번째 필드(Survived) 바로..

[Machine Learning][머신러닝] 로지스틱 회귀(Logistic Regression)

로지스틱 회귀 (LogisticRegression) 선형회귀 알고리즘을 이용한 이진 분류 모델 Sample이 특정 클래스에 속할 확률을 추정한다. 확률 추정 선형회귀 처럼 입력 특성(Feature)에 가중치 합을 계산한 값을 로지스틱 함수를 적용해 확률을 계산한다. import matplotlib.pyplot as plt xx = np.linspace(-10, 10, 100) sig = 1 / (1 + np.exp(-xx)) plt.figure(figsize=(15, 5)) plt.plot(xx,xx, color='g', label='linear') plt.plot(xx, sig, color='b', linewidth=2, label="logistic") plt.plot([-10, 10], [0, 0],..

반응형