'TDM' 태그의 글 목록

TDM 2

[Text Mining] Feature Vectorize (DTM/TDM, CountVectorizer)

Feature vectorization 이란텍스트를 숫자형값의 정형테이터로 변환하는 것을 Feature vectorization(피처 벡터화) 라고 한다. DTM/TDM이나 TF-IDF 형식으로 표현BOW (Bag Of Words)많이 나온 단어가 중요한 단어문서내에 단어 빈도수에 기반하여 Vector화 하는 모델DTM/TDM (Document Term Matrix)문서안에서 문서를 구성하는 단어들이 몇번 나왔는지를 표현하는 행렬행:단어, 열: 문서 - DTM행:문서, 열:단어 - TDMValue: 개수TF-IDF (Term Frequency Inverse Document Frequency)CountVectorize의 문제: 문장 구조상 많이 나오는 단어들의 경우 카운트 값이 많이 나오게 되고 중요한 단..

Data Analysis & ML/Text Mining 2020.09.15

[Text Mining][NLP] Text Data(텍스트 데이터) 전처리 프로세스

Text Data 전처리 프로세스클렌징(cleansing)특수문자, 기호 필요없는 문자 제거대소문자 변경=>모두 소문자로 변환stop word(분석에 필요 없는 토큰) 제거텍스트 토큰화분석의 최소단위로 나누는 작업보통 단어단위나 글자단위로 나눈다.어근 추출(Stemming/Lemmatization)을 통한 텍스트 정규화 작업tokenize_text에 stemming=>Lemmatization 추가전처리 Process Python Code 예시text_sample = """Beautiful is better than ugly.Explicit is better than implicit.Simple is better than complex.Complex is better than complicated.Flat..

Data Analysis & ML/Text Mining 2020.09.13

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

TDM 2

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역