Feature vectorization 개요 텍스트를 숫자형값의 정형테이터로 변환하는 것을 Feature vectorization(피처 벡터화) 라고 한다. BOW (Bag Of Words) 많이 나온 단어가 중요한 단어 문서내에 단어 빈도수에 기반하여 Vector화 하는 모델 DTM/TDM (Document Term Matrix) 문서안에서 문서를 구성하는 단어들이 몇번 나왔는지를 표현하는 행렬 행:단어, 열: 문서 - DTM 행:문서, 열:단어 - TDM Value: 개수 TF-IDF (Term Frequency Inverse Document Frequency) CountVectorize의 문제: 문장 구조상 많이 나오는 단어들의 경우 카운트 값이 많이 나오게 되고 중요한 단어로 인식된다. (ex: ..