CNN for sentence classification

Convolutional Neural Networks for
Sentence Classification
전희선

http://www.people.fas.harvard.edu/~yoonkim/
0. Abstract
(ex: 긍정/부정)(+word2vec)
pre-trained된 word vectors를 가지고 학습된 CNN을 통해 문장 분류를 한 여러 연구에 대해 보고
- 약간의 hyperparameter tuning이 들어간 간단한 CNN도 좋은 결과를 나타냄
- 총 7개 task 중 4개에서 다른 모델들 중 가장 좋은 결과를 보임

Word Embedding : 단어를 저차원의 벡터로 표현
(ex: Word2Vec, GloVe 등)
1. Introduction - Word2Vec
밀집 표현(Dense Representation) : 각 단어의 특징이 표현된 벡터 (저차원)
희소 표현(Sparse Representation) : 단어별 ID 생성 (고차원(단어 개수 만큼의 차원), one-hot encoding)
단점 : 고차원 + 단어 간 유사성을 표현할 수 X

(1) CBOW(Continuous Bag of Words) : 주변에 있는 단어로 중간 단어 예측
ex) 문장
“The fat cat sat on the mat”
window size = 2

[0, 1, 0, 0, 0, 0, 0]
[0, 0, 1, 0, 0, 0, 0]
[0, 0, 0, 0, 1, 0, 0]
[0, 0, 0, 0, 0, 1, 0]
[0, 0, 0, 1, 0, 0, 0]
output : 중심 단어
input : 주변 단어

m : window size
V : 문장의 단어 개수 (= 7)
N : hidden layer 크기 (= 5)

=
𝑧 𝑖
𝛴 𝑗ⅇ
𝑧 𝑗

- 학습되는 mechanism은 CBOW와 동일
(2) skip-gram : 중간 단어로 주변에 있는 단어 예측

1. Introduction – CNN
Filter
1 0 1
0 1 0
1 0 1

2. Model – data(word vector) 준비
Google News의 1000억 개 단어로 구성된 데이터로 pre-trained된 Word2Vec(CBOW)을 word vector로 이용
(pre-trained된 word vector에 없는 단어는 random하게 벡터 값 초기화)
n: 단어 개수
k: word vector 차원
window size가 다른
여러 filter들 적용한
conv layer 병렬적으로 생성
(filter 크기 : window size * k)
window size = 2
window size = 3

2. Model – static | non-static | multi-channel
non-static (input으로 넣은 word-vector까지 backprop)
static (conv-layer까지 backprop)
multi-
channel
static channel
non-static channel

2. Model – step1 : concatenation
𝑥𝑖 ∈ ℝ 𝑘
: 문장 𝑖번째에 있는 단어의 k차원 word vector
𝑥1
𝑥2
𝑥9
.
.
.
.
.

(⊕ : concatenate operator
h : window size)
𝑥𝑖:𝑖+ℎ−1 = 𝑥𝑖 ⊕ 𝑥𝑖+1 ⊕ … ⊕ 𝑥𝑖+ℎ−1
: 𝑖번째부터 ℎ개의 단어 concatenate
𝑥1
𝑥2
𝑥9
.
.
.
.
.
𝑥1:2
𝑥8:9
𝑥4:6
2. Model – step1 : concatenation

2. Model – step2 : conv layer 생성
𝑐𝑖 = 𝑓 𝑤 ⋅ 𝑥𝑖:𝑖+ℎ−1 + 𝑏 (𝑓 : non-linear function(tanh 등)
ℎ : window size
𝑏 : bias term)
𝑥1
𝑥2
𝑥9
.
.
.
.
.
𝑥1:2
𝑥8:9
𝑥4:6

2. Model – step3 : max-over-time pooling
𝑥1
𝑥2
𝑥9
.
.
.
.
.
𝑥1:2
𝑥8:9
𝑥4:6
𝑐 = 𝑐1, … , 𝑐 𝑛−ℎ+1
: feature map
Ƹ𝑐 = max{𝑐}
각 conv layer마다 feature map 개수가 달라짐
→ 각 conv layer마다 feature map 中 가장 큰 값만 사용
각 window size마다 생성

2. Model – step4 : softmax
𝑥1
𝑥2
𝑥9
.
.
.
.
.
𝑥1:2
𝑥8:9
𝑥4:6
softmax function 통해
최종 output 나옴
Ԧ𝑧 = Ƹ𝑐1, ⋯ , Ƹ𝑐 𝑚
m : filter 개수

2.1 Regularization
- Dropout (keep probability p=0.5)
: feature 中 반은 dropout으로 제거 → 2~4% 정확도 향상
(train에서만 사용, test에서는 dropout 하지 않음)
- Test할 때 dropout을 하지 않으므로 ෡𝑤 = 𝑝𝑤 로 rescale
Ԧ𝑦 = 𝑤 ⋅ Ԧ𝑧 + 𝑏
Ԧ𝑧 = Ƹ𝑐1, ⋯ , Ƹ𝑐 𝑚
Ԧ𝑦 = 𝑤 ⋅ ( Ԧ𝑧 ∘ Ԧ𝑟) + 𝑏
masking vector
(dropout 여부를 0, 1[Bernoulli random variable]로 나타내 주는 vector)
dropout
m : filter 개수
∘ : element-wise operation
- 𝑤 2 > 𝑠일 경우 𝑤 2 = 𝑠로 rescale

3. Datasets and Experimental Setup
의미 label 수 문장 평균 길이
dataset
크기
단어 수
pre-trained word
vector에 포함된 단어 수
test set 크기
MR
(Movie Review)
영화 리뷰 문장 2 (긍정/부정) 20 10662 18765 16448 10-fold CV 사용
SST-1
(Stanford Sentiment
Treebank-1)
MR에서 test set 제공
+ label 5개로
5 (매우 긍정/
긍정/보통/부정
/매우 부정)
18 11855 17836 16262 2210
SST-2
(Stanford Sentiment
Treebank-1)
SST-1에서 보통 제거하고
binary label로
2 (긍정/부정) 19 9613 16185 14838 1821
Subj Subjectivity dataset 2 (주관/객관) 23 10000 21323 17913 10-fold CV 사용
TREC 의문문 dataset 6 (질문 종류) 10 5952 9592 9125 500
CR
(Consumer Review)
소비자 리뷰 문장
2 (긍정/부정)
19 3775 5340 5046 10-fold CV 사용
MPQA 의견 2 (의견 극성) 3 10606 6246 6083 10-fold CV 사용

3.1 Hyperparameters and Training
SST-2의 validation set으로 grid search 통해 설정
- Activation function : ReLU
- Filter windows : h = 3, 4, 5
- Feature map : 100개
- Dropout rate : p = 0.5
- L2 constraint : s = 3
- Mini-batch size : 50
3.2 Pre-trained Word Vectors
(앞에서 언급한 내용)
Google News의 1000억 개 단어로 구성된 데이터로 pre-trained된
Word2Vec을 word vector로 이용
* Train 시 CBOW 사용 / word vector 차원: 300차원
* pre-trained된 word vector에 없는 단어는 random하게 벡터 값 초기화

3.3 Model Variations - CNN-rand : word vector가 random으로 초기화
- CNN-static : word2vec 사용 + static
- CNN-non-static : word2vec 사용 + non-static
- CNN-multichannel : word2vec 두 set(channel이라고도 부름) 사용
- 하나는 static, 다른 하나는 non-static
4 Results and Discussion
성능 BAD

4.1 Multichannel vs. Single Channel Models
→ 항상 Multichannel이 single channel model보다 성능이 더 좋은 것은 아니다!
4.2 Static vs. Non-static Representations
→ non-static은 static보다 통사적인 부분까지 고려됨

참고 사이트
https://wikidocs.net/33520 word2vec
https://www.youtube.com/watch?v=EAJoRA0KX7I&list=PLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z&index=11
CS224n – Lec11
https://www.youtube.com/watch?v=IRB2vXSet2E PR-015
https://zyint.tistory.com/575 논문요약1
https://arclab.tistory.com/149 논문요약2
https://ratsgo.github.io/natural%20language%20processing/2017/08/16/deepNLP/ NLP+Deep Learning

Usually, NLP ➔ RNN
하지만 RNN에도 문제가 있었으니...
* Why not RNN, but CNN?

RNN의 단점을 보완해줄 CNN!
* Why not RNN, but CNN?

Word2vec이 큰 차이 없었던 이유:
- word2vec이 새로운 feature를 주지만
데이터가 대용량(65만건 이상)이라 데이
터 크기만으로도 충분히 큰 역할을 해서
- 다양한 카테고리를 시험해서 같은 단어
라도 중의적인 표현으로 쓰였기 때문
* 한국어 ver

CNN for sentence classification

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a CNN for sentence classification

Semelhante a CNN for sentence classification (20)

Mais de KyeongUkJang

Mais de KyeongUkJang (20)

CNN for sentence classification