주피터노트북/텍스트 분석2 텍스트의 피처 벡터화 이해 대표적인 피처 벡터화 1) BOW(Back of Words) 문서가 가지는 모든단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도값을 부여해 피처값을 추출하는 모델 장점: 쉽고 빠른 구축, 여러분야에서 활용도가 높음 단점: 문맥의미(Semantic Context) 반영문제, 희소행렬문제 ex)100개의 문서가 있으면 100개의 문서를 모두 추출하고 개별단어들을 모두 feature로 만듬 즉 count를 부여하는 경우 2)BOW 피처벡터화 유형 단순 카운트 기반의 벡터화 --> 단어 피처에 값을 부여할때 각문서에서 해당단어가 나타나는 횟수 TF-IDF 벡터화 --> 언어의 특성상 문장에서 자주 사용될수밖에 없는 단어까지 높은값을 부여하는것 2) Word Embedding(Word2Vec) 주피터노트북/텍스트 분석 2021. 9. 8. 텍스트 분석의 개요 NLP(Natural Language Processing) -> 인간의 언어를 이해하고 해석하는데 더 중점을 두고 기술이 발전해옴 ->NLP 기술의 발전으로 텍스트 분석도 더욱 정교하게 발전 텍스트분석 ->텍스트 분석은 머신러닝 언어이해, 통계등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측분석작업을 주로 수행 -> 주요영역 1)텍스트 분류 -- 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법, ex)스팸분류, 지도학습으로 수행 2)감성분석 -- 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법 ex) 지도, 비지도학습 3)텍스트 요약 -- 텍스트 내에서 중요한 주제나 중심사상을 추출하는 기법을 나타냄 ex)토픽 모델링 4)텍스트 군집화와 .. 주피터노트북/텍스트 분석 2021. 9. 8. 이전 1 다음