반응형

DTM 2

[Text Mining][텍스트마이닝][NLP] IMDB(Internet Movie Database) Text Mining

IMDB(Internet Movie Database) 영화리뷰 데이터 셋 https://www.imdb.com/ 다운로드: http://ai.stanford.edu/~amaas/data/sentiment/ train의 unsup 은 제거 (비지도학습용) load_files() 분류범주를 폴더로 분리한 텍스트 파일을 load한다. Bunch 타입으로 반환 from sklearn.datasets import load_files import numpy as np import pandas as pd neg: 0, pos: 1 로 분리해 준다. (폴더의 알파벳 순서대로 ) Bunch 타입으로 반환 review_train = load_files("aclImdb/train") #분류 클래스 별로 폴더를 만들고 그 폴..

[Text Mining][텍스트마이닝][NLP] Feature Vectorize(DTM/TDM, CountVectorizer)

Feature vectorization 개요 텍스트를 숫자형값의 정형테이터로 변환하는 것을 Feature vectorization(피처 벡터화) 라고 한다. BOW (Bag Of Words) 많이 나온 단어가 중요한 단어 문서내에 단어 빈도수에 기반하여 Vector화 하는 모델 DTM/TDM (Document Term Matrix) 문서안에서 문서를 구성하는 단어들이 몇번 나왔는지를 표현하는 행렬 행:단어, 열: 문서 - DTM 행:문서, 열:단어 - TDM Value: 개수 TF-IDF (Term Frequency Inverse Document Frequency) CountVectorize의 문제: 문장 구조상 많이 나오는 단어들의 경우 카운트 값이 많이 나오게 되고 중요한 단어로 인식된다. (ex: ..

반응형