반응형

분류 전체보기 339

[Machine Learning][머신러닝] Classification(분류) 평가지표

Classification(분류) 평가지표이번 포스팅에서는 분류모델에 대한 평가지표에 대해 알아봅니다.분류와 회귀의 평가방법분류 평가 지표정확도 (Accuracy)정밀도 (Precision)재현률 (Recall)F1점수 (F1 Score)AUC회귀 평가방법MSE (Mean Squareed Error)RMSE (Root Mean Squared Error)R^2 (결정계수)sckit-learn 평가함수sklearn.metrics 모듈을 통해 제공 분류(Classification) 평가 기준이진 분류에서의 양성과 음성 의미양성: 예측하려는(찾으려는) 대상음성: 예측하려는 대상이 아닌 것예암환자 분류 : 양성 - 암 환자, 음성 - 정상인스팸메일 분류 : 양성 - 스팸메일, 음성 - 정상메일금융사기 모델: 양성..

[Machine Learning][머신러닝] 데이터 전처리(범주형/연속형)

이번 포스팅에서는 머신러닝 모델링을 위해 범주형데이터와 연속형데이터를 처리하는 방법을 알아보겠습니다.범주형 데이터 전처리사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다.범주형 변수 (Categorical Variable)몇 개의 범주 중 하나에 속하는 값들로 구성된 변수. 어떤 분류에 대한 속성을 가지는 변수를 말한다.예) 성별 - 남/녀, 혈액형 - A, B, AB, O, 성적 - A,B,C,D,F비서열(Unordered) 변수범주에 속한 값간에 서열(순위)가 없는 변수성별, 혈액형서열 (Ordered) 변수범주에 속한 값 간에 서열(순위)가 있는 변수성적, 직급사이킷런은 문자열 값을 입력 값으로 처리 하지 않기 때문에 숫자 형으로 변환해야 한다.범주형 변수의 경우..

[Python][파이썬][프로그래머스] 숫자 게임

문제 설명 xx 회사의 2xN명의 사원들은 N명씩 두 팀으로 나눠 숫자 게임을 하려고 합니다. 두 개의 팀을 각각 A팀과 B팀이라고 하겠습니다. 숫자 게임의 규칙은 다음과 같습니다. 먼저 모든 사원이 무작위로 자연수를 하나씩 부여받습니다. 각 사원은 딱 한 번씩 경기를 합니다. 각 경기당 A팀에서 한 사원이, B팀에서 한 사원이 나와 서로의 수를 공개합니다. 그때 숫자가 큰 쪽이 승리하게 되고, 승리한 사원이 속한 팀은 승점을 1점 얻게 됩니다. 만약 숫자가 같다면 누구도 승점을 얻지 않습니다. 전체 사원들은 우선 무작위로 자연수를 하나씩 부여받았습니다. 그다음 A팀은 빠르게 출전순서를 정했고 자신들의 출전 순서를 B팀에게 공개해버렸습니다. B팀은 그것을 보고 자신들의 최종 승점을 가장 높이는 방법으로 ..

[Machine Learning][머신러닝] 데이터셋 나누기와 교차검증

데이터셋 나누기데이터셋 (Dataset)Train 데이터셋 (훈련/학습 데이터셋)모델을 학습시킬 때 사용할 데이터셋.Validation 데이터셋 (검증 데이터셋)Train set으로 학습한 모델의 성능을 측정하기 위한 데이터셋Test 데이터셋 (평가 데이터셋)모델의 성능을 최종적으로 측정하기 위한 데이터셋Test 데이터셋은 마지막에 모델의 성능을 측정하는 용도로 한번만 사용되야 한다.학습과 평가를 반복하다 보면 모델이 검증때 사용한 데이터셋에 과적합되어 새로운 데이터에 대한 성능이 떨어진다.그래서 데이터셋을 train 세트, validation 세터, test 세트로 나눠 train 세트와 validation 세트로 모델을 최적화 한 뒤 마지막에 test 세트로 최종 평가를 한다. Hold Out데이터셋..

[Machine Learning][머신러닝] IRIS 분석 (결정 트리 모델(Decision Tree))

데이터셋 확인하기 용어 레이블(Label), 타겟(Target) 결정값, 출력데이터, 종속변수 예측 대상이 되는 값. 지도학습시 학습을 위해 주어지는 정답 데이터 분류의 경우 레이블을 구성하는 고유값들을 클래스(class)라고 한다. 피쳐(Feature) 속성, 입력데이터, 독립변수 Target이 왜 그런 값을 가지게 되었는지를 설명하는 변수. Target값을 예측하기 위해 학습해야 하는 값들. scikit-learn 내장 데이터셋 가져오기 scikit-learn은 머신러닝 모델을 테스트 하기위한 데이터셋을 제공한다. 이런 데이터셋을 Toy dataset이라고 한다. 패키지 : sklearn.datasets 함수 : load_xxxx() from sklearn.datasets import load_iri..

[Machine Learning][머신러닝] 머신러닝 개요

머신러닝 개요 인공지능 (AI - Artificial Intelligence) 지능: 어떤 문제를 해결하기 위한 지적 활동 능력 인공지능 기계가 사람의 지능을 모방하게 하는 기술 규칙기반, 데이터 학습 기반 머신러닝(Machine Learning) 데이터 학습 기반의 인공 지능 분야 기계에게 어떻게 동작할지 일일이 코드로 명시하지 않고 데이터를 이용해 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 인공지능의 한분야 딥러닝 (Deep Learning) 인공신경망 알고리즘을 기반으로 하는 머신러닝의 한 분야. 대용량 데이터 학습에 뛰어난 성능을 나타낸다. 머신러닝은 역사가 70 ~ 80년 가까이 연구된 분야지만 최근 10여년 사이에 활성화 되었다. 이유 데이터의 증가 컴퓨터 하드웨어의 발전 알고리즘의 발..

[SQLD][과목 2] 제 3 장 : SQL 최적화 기본원리

제 3장 : SQL 최적화 기본원리 제 1절 : 옵티마이저와 실행계획 옵티마이저 : 다양한 실행방법 중 최적의 방법을 결정 1) 분류 ㄱ) 규칙기반 옵티마이저 규칙1 : Single row by rowid → rowid으로 하나의 행을 엑세스 규칙4 : Single row by unique or PK → 유일 인텍스로 하나의 행을 엑세스 규칙8 : Composite index → 복합 칼럼 인덱스에 동등 연산자로 검색 규칙9 : Single column index → 단일 칼럼 인덱스에 동등연산자로 검색 규칙10 : Bounded range search on indexed columns → 인덱스가 형성되어 있는 칼럼에 양쪽범위를 한정하여 검색 규칙11 : Unvounded range search on ..

[SQLD][과목 2] 제 2 장 : SQL활용

제2장 : SQL 활용 제 2 절 : 집합연산자 종류 1) UNION ALL : 중복허용 2) UNION = UNION + DISTINCT 중복불가 3) INTERSECT : 교집합, 중복불가 4) EXCEPT(MINUS) 중복불가 SELECTPLAYER_NAME 선수명, BACK_NO 백넘버 # 아래와 칼럼 데이터 타입 일치해야함 FROM PLAYER WHERETEAM_ID = 'K02' UNION SELECT PLAYER_NAME 선수명, BACK_NO 백넘버 #위와 칼럼 데이터 타입 일치해야함 FROM PLAYER WHERETEAM_ID = 'K07' ORDERBY 1; ## ORDER BY 는 맨끝에 한번만 위아래의 칼럼 데이터 타입이 일치해야한다 ORDER BY 는 ..

[SQLD][과목 2] 제 1 장 : SQL 기본

제1장 : SQL 기본 제 1 절 : 관계형 데이터베이스 개요데이터베이스SQL제 2 절 : DDL데이터유형1) CHAR(s)a) 고정길이 : 할당변수가 s보다 작을경우 나머지는 공백으로 채움b) 비교방법 : 공백을 채워 비교 'AA' == 'AA '2) VARCHAR(s)a) 가변길이 : 할당변수 길이만큼(단,s가 최대)b) 비교방법 : 있는 그대로 'AA' != 'AA ' 2. CREATE TABLE1) 구문형식CREATE TABLE 테이블이름( 칼럼명 데이터타입 [DEFAULT] [NOT NULL] .............. CONSTRAINT 제약조건명 제약조건 );테이블이름은 숫자로 시작하면안되고, '-'는 ..

[SQLD][과목 1] 제 2 장 : 데이터모델과 성능

제 1절 : 성능데이터 모델링의 개요 1. 성능 데이터 모델링의 정의 데이터 모델 구조에 의해 성능 저하 데이터가 대용량이 됨으로 인해 불가피하게 성능 저하 인덱스 특성을 충분히 고려하지 않고 인덱스를 생성함으로 인해 성능 저하 위와같은 경우에서 성능을 향상시킨다. 2. 성능 데이터 모델링 수행시점 사전에 할수록 비용이 들지 않는다, 분석/설계 단계서 해야함 3. 성능 데이터 모델링 고려사항 1) 정규화 수행 2) 데이터베이스 용량산정 수행 3) 데이터베이스에 발생되는 트랜잭션의 유형파악 4) 용량과 트랜잭선의 유형에 따라 반정규화 수행 5) 이력모델 조정, PK/FK조정, 슈퍼타입/서브타입 조정 등을 수행 6) 성능관점에서 데이터 모델 검증 제 2절 : 정규화와 성능 정규화를 통한 성능향상 전략 데이터..

반응형