3. 문장 분류(Sentence Classification)
감정 분류(Sentiment Analysis)
예시)
이번 아이폰의 카메라 성능은 정말 좋은 것 같아 – 긍정
이 레스토랑의 음식은 정말 실망스러웠어 – 부정
주제 분류
예시)
유승민의 자신감, 19대 대선 예비후보 등록 – 정치
손흥민 없는 슈틸리케호, 중국전 공격 조합은? – 스포츠
4. WordRepresentations(Embedding)
어떻게단어를계산할까?
사전을 만들어서 ID를 부여하자
간단하고 적용하기 쉬움
단어들과의 관계를 나타내지 못함 ( 예, 개=ID143, 고양이=ID537)
모든 단어가 다르기 때문에, 학습시키기 위해서는 굉장히 많은 데이터들이 필요
각 단어마다 Vector 값을 부여하자
단어들의 특징을 표현할 수 있도록 수치로 된 값 부여
(예, 개=[2,6,3,1,4])
5. Word2Vec
어떻게단어에Vector값을줄까?
문장에서 나오는 단어들의 위치로 학습시키자!
the quick brown fox jumped over the lazy dog
([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox)
7. CNN과WordVector를이용한문장분
류
k
n
h
n : 문장에 나오는 단어의 갯수 k : Word Vector의 차원 h : 필터 윈도우 사
이즈
ModelArchitecture
Page2 Figure1 (Yoon Kim, Convolutional Neural Networks for Sentence Classification, EMNLP 2014)
9. Staticvs.Non-static
Page5 Table3 (Yoon Kim, Convolutional Neural Networks for Sentence Classification, EMNLP 2014)
Non-static으로 학습시키니 word vector가 의미를 더 잘 이해하게 되었
군!
12. 제28회한글및한국어정보처리학술대회논문집(2016년)
한국어에적합한단어임베딩모델
및파라미터튜닝에관한연구 최상혁, 설진석, 이상구
Word2Vec 를 사용하기 위해 전처리가 필요하다
영어와는 달리 한국어는 조사와 어미가 다양해서 어근을 추출할 필요가 있다
전처리를 위해 오픈 소스인 꼬꼬마 형태소 분석기, 트위터 형태소 분석기를 사용함
나무 위키, 위키피디아 등을 활용하자
기존의 말뭉치보다 크기가 크고 현대적인 단어 용법을 사용한다
최상혁, 설진석, 이상구, 한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구, 제28회 한글 및 한국어 정보처리 학술대회 논문집(2016년)