반응형

nltk 3

[Text Mining][NLP] Text Data(텍스트 데이터) 전처리 프로세스

Text Data 전처리 프로세스클렌징(cleansing)특수문자, 기호 필요없는 문자 제거대소문자 변경=>모두 소문자로 변환stop word(분석에 필요 없는 토큰) 제거텍스트 토큰화분석의 최소단위로 나누는 작업보통 단어단위나 글자단위로 나눈다.어근 추출(Stemming/Lemmatization)을 통한 텍스트 정규화 작업tokenize_text에 stemming=>Lemmatization 추가전처리 Process Python Code 예시text_sample = """Beautiful is better than ugly.Explicit is better than implicit.Simple is better than complex.Complex is better than complicated.Flat..

[Text Mining][NLP] NLTK 패키지를 사용한 Text 분석 (형태소, 어간,품사부착,원형복원)

NLTK 패키지를 사용한 Text 분석CF) NLTK 패키지 설치 방법 및 문법 : https://ysyblog.tistory.com/87형태소 분석형태소일정한 의미가 있는 가장 작은 말의 단위형태소 분석말뭉치에서 의미있는(분석에 필요한) 형태소들만 추출하는 것보통 단어로 부터 어근, 접두사, 접미사, 품사등 언어적 속성을 파악하여 처리한다.형태소 분석을 위한 기법어간추출(Stemming)원형(기본형) 복원 (Lemmatization)품사부착 (POS tagging - Part Of Speech)어간추출(Stemming)어간: 활용어에서 변하지 않는 부분painted, paint, painting => 어간: paint보다, 보니, 보고=>어간 보-어간 추출단어에서 어미를 제거하고 어간을 추출하는 작업목..

[Text Mining][NLP] 자연어 처리를 위한 NLTK (설치 방법 및 사용 문법)

NLTKNatural Language Toolkit(NLTK로 약칭)은 인간 언어 데이터를 더 쉽게 처리하고 사용할 수 있도록 설계된 라이브러리 모음즉 NLP(Natural Language Processing) (자연어 처리)하기 위한 패키지NLTK 설치nltk 패키지 설치pip 설치conda 설치conda install -y nltkpip install nltkNLTK 추가 패키지 설치import nltknltk.download() # 설치 GUI 프로그램 실행nltk.download('패키지명')NLTK 주요기능말뭉치(corpus) 제공말뭉치: 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료를 말한다.예제용 말뭉치 데이터를 제공한다.텍스트 정규화를 위한 기능 제공토큰 생..

반응형