반응형

분류 전체보기 339

[Text Mining] KoNLPy (한국어 텍스트 처리 패키지)

KoNLPy(코엔엘파이)한국어 처리(텍스트 마이닝)를 위한 Python 패키지http://KoNLPy.org/ko/latest/KoNLPy 설치방법Java설치https://www.oracle.com/java/technologies/javase-downloads.htmlOS에 맞게 다운로드 한다.환경변수 설정JAVA_HOME : 설치 경로 지정Path : 설치경로\bin 경로 지정JPype1 설치파이썬에서 자바 모듈을 호출하기 위한 연동 패키지설치: !pip install JPype1 KoNLPy 설치 pip install konlpyKoNLPy 제공 말뭉치kolaw: 대한민국 헌법 말뭉치constitution.txtkobill: 대한민국 국회 의안(국회에서 심의하는 안건-법률, 예산등) 말뭉치-18098..

[Text Mining][NLP] Text Data(텍스트 데이터) 전처리 프로세스

Text Data 전처리 프로세스클렌징(cleansing)특수문자, 기호 필요없는 문자 제거대소문자 변경=>모두 소문자로 변환stop word(분석에 필요 없는 토큰) 제거텍스트 토큰화분석의 최소단위로 나누는 작업보통 단어단위나 글자단위로 나눈다.어근 추출(Stemming/Lemmatization)을 통한 텍스트 정규화 작업tokenize_text에 stemming=>Lemmatization 추가전처리 Process Python Code 예시text_sample = """Beautiful is better than ugly.Explicit is better than implicit.Simple is better than complex.Complex is better than complicated.Flat..

[Python][파이썬][프로그래머스] 여행경로(깊이/너비 우선 탐색(DFS/BFS))

programmers.co.kr/learn/courses/30/lessons/43164 코딩테스트 연습 - 여행경로 [[ICN, SFO], [ICN, ATL], [SFO, ATL], [ATL, ICN], [ATL,SFO]] [ICN, ATL, ICN, SFO, ATL, SFO] programmers.co.kr 문제 설명 주어진 항공권을 모두 이용하여 여행경로를 짜려고 합니다. 항상 ICN 공항에서 출발합니다. 항공권 정보가 담긴 2차원 배열 tickets가 매개변수로 주어질 때, 방문하는 공항 경로를 배열에 담아 return 하도록 solution 함수를 작성해주세요. 제한사항 모든 공항은 알파벳 대문자 3글자로 이루어집니다. 주어진 공항 수는 3개 이상 10,000개 이하입니다. tickets의 각 행..

[Python][파이썬][프로그래머스] 괄호변환(2020 KAKAO BLIND RECRUITMENT)

programmers.co.kr/learn/courses/30/lessons/60058 코딩테스트 연습 - 괄호 변환 카카오에 신입 개발자로 입사한 콘은 선배 개발자로부터 개발역량 강화를 위해 다른 개발자가 작성한 소스 코드를 분석하여 문제점을 발견하고 수정하라는 업무 과제를 받았습니다. 소스를 컴� programmers.co.kr 문제 설명 카카오에 신입 개발자로 입사한 콘은 선배 개발자로부터 개발역량 강화를 위해 다른 개발자가 작성한 소스 코드를 분석하여 문제점을 발견하고 수정하라는 업무 과제를 받았습니다. 소스를 컴파일하여 로그를 보니 대부분 소스 코드 내 작성된 괄호가 개수는 맞지만 짝이 맞지 않은 형태로 작성되어 오류가 나는 것을 알게 되었습니다. 수정해야 할 소스 파일이 너무 많아서 고민하던 ..

[Python][파이썬][프로그래머스] N-Queen(DFS/BFS)(백트레킹)

programmers.co.kr/learn/courses/30/lessons/12952 코딩테스트 연습 - N-Queen 가로, 세로 길이가 n인 정사각형으로된 체스판이 있습니다. 체스판 위의 n개의 퀸이 서로를 공격할 수 없도록 배치하고 싶습니다. 예를 들어서 n이 4인경우 다음과 같이 퀸을 배치하면 n개의 퀸은 programmers.co.kr 문제 설명 가로, 세로 길이가 n인 정사각형으로된 체스판이 있습니다. 체스판 위의 n개의 퀸이 서로를 공격할 수 없도록 배치하고 싶습니다. 예를 들어서 n이 4인경우 다음과 같이 퀸을 배치하면 n개의 퀸은 서로를 한번에 공격 할 수 없습니다. 체스판의 가로 세로의 세로의 길이 n이 매개변수로 주어질 때, n개의 퀸이 조건에 만족 하도록 배치할 수 있는 방법의 수..

[Python][파이썬][프로그래머스] 단어 변환(깊이/너비 우선 탐색(DFS/BFS))

programmers.co.kr/learn/courses/30/lessons/43163 코딩테스트 연습 - 단어 변환 두 개의 단어 begin, target과 단어의 집합 words가 있습니다. 아래와 같은 규칙을 이용하여 begin에서 target으로 변환하는 가장 짧은 변환 과정을 찾으려고 합니다. 1. 한 번에 한 개의 알파벳만 바꿀 수 programmers.co.kr 문제 설명 두 개의 단어 begin, target과 단어의 집합 words가 있습니다. 아래와 같은 규칙을 이용하여 begin에서 target으로 변환하는 가장 짧은 변환 과정을 찾으려고 합니다. 1. 한 번에 한 개의 알파벳만 바꿀 수 있습니다. 2. words에 있는 단어로만 변환할 수 있습니다. 예를 들어 begin이 hit, ..

[Text Mining][NLP] NLTK 패키지를 사용한 Text 분석 (형태소, 어간,품사부착,원형복원)

NLTK 패키지를 사용한 Text 분석CF) NLTK 패키지 설치 방법 및 문법 : https://ysyblog.tistory.com/87형태소 분석형태소일정한 의미가 있는 가장 작은 말의 단위형태소 분석말뭉치에서 의미있는(분석에 필요한) 형태소들만 추출하는 것보통 단어로 부터 어근, 접두사, 접미사, 품사등 언어적 속성을 파악하여 처리한다.형태소 분석을 위한 기법어간추출(Stemming)원형(기본형) 복원 (Lemmatization)품사부착 (POS tagging - Part Of Speech)어간추출(Stemming)어간: 활용어에서 변하지 않는 부분painted, paint, painting => 어간: paint보다, 보니, 보고=>어간 보-어간 추출단어에서 어미를 제거하고 어간을 추출하는 작업목..

[Text Mining][NLP] 자연어 처리를 위한 NLTK (설치 방법 및 사용 문법)

NLTKNatural Language Toolkit(NLTK로 약칭)은 인간 언어 데이터를 더 쉽게 처리하고 사용할 수 있도록 설계된 라이브러리 모음즉 NLP(Natural Language Processing) (자연어 처리)하기 위한 패키지NLTK 설치nltk 패키지 설치pip 설치conda 설치conda install -y nltkpip install nltkNLTK 추가 패키지 설치import nltknltk.download() # 설치 GUI 프로그램 실행nltk.download('패키지명')NLTK 주요기능말뭉치(corpus) 제공말뭉치: 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료를 말한다.예제용 말뭉치 데이터를 제공한다.텍스트 정규화를 위한 기능 제공토큰 생..

[Machine Learning][머신러닝] 대출위험도 예측모델링(모델링)

대출위험도 예측모델링 라이브러리 불러오기 및 데이터셋 나누기 import pandas as pd import numpy as np np.random.seed(1234) data = pd.read_csv('data/data-v01.csv') data.shape from sklearn.linear_model import LogisticRegression from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier from sklearn.neighbors import KNeighborsClassifier from xgboost import XGBClassifier from sklearn.model_selection import ..

[Machine Learning][머신러닝] 대출위험도 예측모델링(데이터전처리)

모델링 개요 데이터 탐색 (EDA) 가지고 있는 데이터로부터 통찰력(Insight)을 얻는다. 라벨(답)의 존재 유무 지도학습/비지도학습 결정 라벨의 형태 분류/회귀 모델 결정 Base-Line 모델로 가장 간단한 머신러닝 모형 구현 아무런 설정없이 생성한 모델 EDA 결과 확인을 위한 모델 모델 선택, 튜닝의 기준이 될 모델 Base-Line 모델의 문제점을 파악하여 그것을 개선하는 방향으로 튜닝해 나간다. 문제에 대한 이해 현재 수입, 지출 등의 데이터에 대해 은행 자체의 분석을 진행하여 대출자가 미래에 돈을 갚을 수 있는지 확인 알고리즘 결과 : 일정 기간(2년) 내에 채무 불이행 여부 평가 지표 : roc_auc 점수 데이터 속성에 대한 이해 SeriousDlqin2yrs 목표 변수 최근 2년 동..

반응형