반응형

TDM 2

[Text Mining] Feature Vectorize (DTM/TDM, CountVectorizer)

Feature vectorization 이란텍스트를 숫자형값의 정형테이터로 변환하는 것을 Feature vectorization(피처 벡터화) 라고 한다. DTM/TDM이나 TF-IDF 형식으로 표현BOW (Bag Of Words)많이 나온 단어가 중요한 단어문서내에 단어 빈도수에 기반하여 Vector화 하는 모델DTM/TDM (Document Term Matrix)문서안에서 문서를 구성하는 단어들이 몇번 나왔는지를 표현하는 행렬행:단어, 열: 문서 - DTM행:문서, 열:단어 - TDMValue: 개수TF-IDF (Term Frequency Inverse Document Frequency)CountVectorize의 문제: 문장 구조상 많이 나오는 단어들의 경우 카운트 값이 많이 나오게 되고 중요한 단..

[Text Mining][NLP] Text Data(텍스트 데이터) 전처리 프로세스

Text Data 전처리 프로세스클렌징(cleansing)특수문자, 기호 필요없는 문자 제거대소문자 변경=>모두 소문자로 변환stop word(분석에 필요 없는 토큰) 제거텍스트 토큰화분석의 최소단위로 나누는 작업보통 단어단위나 글자단위로 나눈다.어근 추출(Stemming/Lemmatization)을 통한 텍스트 정규화 작업tokenize_text에 stemming=>Lemmatization 추가전처리 Process Python Code 예시text_sample = """Beautiful is better than ugly.Explicit is better than implicit.Simple is better than complex.Complex is better than complicated.Flat..

반응형