반응형

TF-IDF 2

[Text Mining] 지도학습 기반 감성 분석 (Sentiment Analysis) (IMDB 영화리뷰)

영화리뷰 데이터 셋 전처리 및 긍부정 모델링이번 포스팅은 영화리뷰 데이터셋을 사용하여 전처리하고 모델링하는 텍스트마이닝을 소개합니다. 텍스트 데이터 전처리부터 Feature vectorization과 머신러닝 모델링까지 진행합니다.텍스트 분석 수행 프로세스텍스트 전처리클렌징(cleansing)특수문자, 기호 필요없는 문자 제거대소문자 변경stop word(분석에 필요 없는 토큰) 제거텍스트 토큰화분석의 최소단위로 나누는 작업보통 단어단위나 글자단위로 나눈다.어근 추출(Stemming/Lemmatization)을 통한 텍스트 정규화 작업Feature vectorization문자열 비정형 데이터인 텍스트를 숫자타입의 정형데이터로 만드는 작업BOW와 Word2Vec머신러닝 모델 수립, 학습, 예측, 평가Nat..

[Text Mining]Feature Vectorize(TF-IDF, TfidfVectorizer)

TF-IDF (Term Frequency - Inverse Document Frequency)텍스트를 숫자형값의 정형테이터로 변환하는 Feature vectorization의 방식 중 하나개별 문서에 많이 나오는 단어가 높은 값을 가지도록 하되, 동시에 여러 문서에 자주 나오는 단어에는 페널티를 주는 방식작동 원리어떤 문서에 특정 단어가 많이 나오면 그 단어는 해당 문서를 설명하는 중요한 단어일 수 있지만, 그 단어가 다른 문서에도 많이 나온다면 언어 특성이나 주제상 많이 사용되는 단어 일 수 있다.전체 문서에 고르게 많이 나오는 단어들은 각각의 문서가 다른 문서와 다른 특징을 찾는데 도움이 안된다. 그래서 페널티를 주어 작은 값이 되도록 한다.장점각 문서의 길이가 길고 문서개수가 많은 경우 Count ..

반응형