주피터노트북3 불린인덱싱 주피터노트북 2021. 9. 18. 텍스트의 피처 벡터화 이해 대표적인 피처 벡터화 1) BOW(Back of Words) 문서가 가지는 모든단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도값을 부여해 피처값을 추출하는 모델 장점: 쉽고 빠른 구축, 여러분야에서 활용도가 높음 단점: 문맥의미(Semantic Context) 반영문제, 희소행렬문제 ex)100개의 문서가 있으면 100개의 문서를 모두 추출하고 개별단어들을 모두 feature로 만듬 즉 count를 부여하는 경우 2)BOW 피처벡터화 유형 단순 카운트 기반의 벡터화 --> 단어 피처에 값을 부여할때 각문서에서 해당단어가 나타나는 횟수 TF-IDF 벡터화 --> 언어의 특성상 문장에서 자주 사용될수밖에 없는 단어까지 높은값을 부여하는것 2) Word Embedding(Word2Vec) 주피터노트북/텍스트 분석 2021. 9. 8. 텍스트 분석의 개요 NLP(Natural Language Processing) -> 인간의 언어를 이해하고 해석하는데 더 중점을 두고 기술이 발전해옴 ->NLP 기술의 발전으로 텍스트 분석도 더욱 정교하게 발전 텍스트분석 ->텍스트 분석은 머신러닝 언어이해, 통계등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측분석작업을 주로 수행 -> 주요영역 1)텍스트 분류 -- 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법, ex)스팸분류, 지도학습으로 수행 2)감성분석 -- 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법 ex) 지도, 비지도학습 3)텍스트 요약 -- 텍스트 내에서 중요한 주제나 중심사상을 추출하는 기법을 나타냄 ex)토픽 모델링 4)텍스트 군집화와 .. 주피터노트북/텍스트 분석 2021. 9. 8. 이전 1 다음