SlideShare uma empresa Scribd logo
1 de 18
EMNLP 2015 読み会 @小町研
“Morphological Analysis for Unsegmented
Languages using Recurrent Neural Network
Language Model “
Hajime Morita, Daisuke Kawahara, Sadao Kurohashi
首都大学東京 情報通信システム学域
小町研究室 M2 塘 優旗
1
Abstract
 Recurrent Neural Network Language Model
(RNNLM) を利用し、新たな形態素解析モ
デルを提案
 意味的に一般化された言語モデルとして
RNNLMを利用
 二つの日本語コーパスにおいて、提案手法
がベースラインに比べて良い結果を示した
2
Proposed Method
 RNNLM を利用することで意味的に尤もらしい単語列を考
慮して形態素解析を行う手法
 RNNME (Recurrent Neural Net-work trained jointly with
Maximum Entropy) language model (Mikolov et al., 2011;
Mikolov, 2012) をRNNLMの実装として利用
3
Recurrent Neural Network
Language Model (RNNLM)
 Auto Segmented Corpus
 生のWebコーパス1,000万文 (Kawahara and Kurohashi, 2006)を
JUMANで自動解析し作成
 JUMANにおける解析誤りが含まれる
 Training
 Auto Segmented Corpus中のPOSタグ無し,レンマ化された単語
列で学習
 学習されたモデルは,自動解析における誤りを含む
 Re-training
 人手でラベル付けされたコーパスで再学習
 機能語の単語列に関するエラーの解消のため
4
Base Model
 教師有り形態素解析モデル(単語分割,レンマ化,POS
タグ付け)を Base Model として利用
 Train data:アノテーション済み1万文のコーパス
 解析手順
1. 入力文の文字列を辞書を利用し参照
2. 単語ラティスの構築
3. ラティス中の最もスコアの高いパスを探索
5
Base Model
 辞書 - 80万単語
 レンマ,POS,活用形 の情報を含む
 JUMAN辞書
 追加辞書 – 日本語Wikipedia中の記事中の箇条書き,記事タイトル
で主に構成
 Scoring function
 Features
 単語の 基本形, POS, 活用形 のunigram, bigram (Kudo et al. 2004)
 文字種,trigram (Zhang and Clark 2008)
6
y : タグ付けされた単語列
Φ(y) : y に対しての素性べクトル
w : 重みベクトル
Base Model
 Training
 重みベクトル w の学習のために soft confidence-weighted learning
(Wang et al., 2012) を利用
 out-of-vocabulary (OOV) の取り扱い
 解析時:文字種で入力列を分割することで自動で単語を生成
 学習時:辞書中には無いが学習コーパスにある単語は OOV 単語
としてそれらの重みを学習する
 Decording
 second-order Viterbi algorithm (Thede and Harper, 1999)を利用す
ることで厳密なデコードが可能
7
RNNLM Integrated Model
 タグ付けされた系列に対してのRNNLM,ベースモデ
ルによるそれぞれのスコア(score_R, score_B)を統
合
 OOV単語に対してのスコア付け
8
C_p : OOVへの定数ペナルティ
L_p : 単語長に対してのペナルティ
length(n) : 次の単語 n の長さ
α:補間パラメータ
RNNLM Integrated Model
 Decording
 RNNLMにおける可能な単語ラティスは組み合
わせ爆発が起こるため beam search (Zhang
and Clark 2008) を利用し,ビーム幅中の可能
なcontext 候補のみ保持する
 十分なビームサイズは単語列の曖昧な候補を保
持することができると考える
 各候補は context を表現するベクトルを持ち,
二つの単語の履歴を持つ
9
Experiments - Data sets
 人手タグ付きコーパス
(RNNLMの再学習, base model の学習に利用)
 Kyoto University Text Corpus (Kawahara et al.,
2002)
 Kyoto University Web Document Leads Corpus
(Hangyo et al., 2012)
 Test : 2000, Develop : 500, Train : 45000
10
Experiments - Baselines
 JUMAN
 MeCab
 Base model のみ
 Base model + 従来の言語モデル
 3-gram 言語モデル(同じ自動単語分割コーパ
スからSRILMを使いKneser-Ney Smothing を
行い作成)
11
Experiments - Settings
 事前に設定するパラメータ
 ビーム幅:5
 C_p = 5 (Mikolov et al. 2011)のデフォルト値
 チューニングするパラメータ
 development dataにおいて、提案手法, ベースモデル,
言語モデルのパラメータをグリッドサーチし下記のよ
うに決定
12
手法 α L_p
Base + SRILM 0.3 0.5
Base + RNNLM 0.1 2.0
Base + RNNLM_retrain(提案手法) 0.3 1.5
Experiments - Evaluation
 単語分かち書き, POSタグ付けのジョイン
ト評価のF値
 ドメイン:News, Web, ALL(News + Web)
 ブートストラッピング(Zhang et al., 2004)
を用いて提案手法とその他のモデルの優位
性をテスト
13
Experiments - Results
 提案手法が全ての点で最高精度
14
Experiments - Results
 Segmentation で特に大きな改善
 レンマ化されたPOSタグ付けのされていな
い単語列をベースに学習されたRNNLMを
利用することによる
15
Experiments - Results
 単語分割の具体例
 上記のようなベースラインの解析誤りは言語モデル
を作成する際に利用される自動作成コーパスにおけ
るエラーに由来する
 RNNLMを利用し、意味的な単語の遷移が捉えること
ができれば提案手法で正しい解析が可能になる 16
手法 解析結果
JUMAN 外国 / 人参 / 政権
Base + SRILM
Base + RNNLM_retrain(提案手法) 外国人 / 参政権
Experiments - Results
 単語分割の具体例
 ベースラインのような分割は文法的には問題ないが、
意味的に解釈することは難しい
 RNNLMが意味的に尤もらしい単語列を学習するため、
提案手法ではうまくいく
17
手法 解析結果
JUMAN 健康/な/どの/点/で
Base + SRILM
Base + RNNLM_retrain(提案手法) 健康/など/の/点/で
Conclusion
 RNNLM を自動的に単語分割を行ったコーパス、人手で作
成したコーパスで学習することで形態素解析の新しいモ
デルを提案
 RNNLMによって単語系列の意味的な尤もらしさを捉える
ことでベースモデルのエラーを減少
 Future Work
 RNNLMモデル由来の素性を設計し、それらを統合された学習フ
レームワークに組み込みたい
 中国語やタイ語のような単語分割のされていない言語にも適用し
たい
18

Mais conteúdo relacionado

Mais procurados

Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理Takaaki Saeki
 
Character word lstm language models
Character word lstm language modelsCharacter word lstm language models
Character word lstm language models浩気 西山
 
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...Hayahide Yamagishi
 
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documentssakaizawa
 
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...sakaizawa
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類Peinan ZHANG
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05sekizawayuuki
 
Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09sekizawayuuki
 
Prml Reading Group 11 LDPC
Prml Reading Group 11 LDPCPrml Reading Group 11 LDPC
Prml Reading Group 11 LDPC正志 坪坂
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelKei Uchiumi
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)STAIR Lab, Chiba Institute of Technology
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@Yusuke Oda
 
Query and output generating words by querying distributed word representatio...
Query and output  generating words by querying distributed word representatio...Query and output  generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...ryoma yoshimura
 

Mais procurados (17)

Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
Signl213
Signl213 Signl213
Signl213
 
Character word lstm language models
Character word lstm language modelsCharacter word lstm language models
Character word lstm language models
 
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
 
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
 
ma112009id434
ma112009id434ma112009id434
ma112009id434
 
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
 
Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09Emnlp読み会@2015 10-09
Emnlp読み会@2015 10-09
 
Prml Reading Group 11 LDPC
Prml Reading Group 11 LDPCPrml Reading Group 11 LDPC
Prml Reading Group 11 LDPC
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
 
Query and output generating words by querying distributed word representatio...
Query and output  generating words by querying distributed word representatio...Query and output  generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...
 

Semelhante a EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands onOgushi Masaya
 
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus広樹 本間
 
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Kosuke Futamata
 
Neural Models for Information Retrieval
Neural Models for Information RetrievalNeural Models for Information Retrieval
Neural Models for Information RetrievalKeisuke Umezawa
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)Shinnosuke Takamichi
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価Yahoo!デベロッパーネットワーク
 
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...Shohei Okada
 
Essentially no barriers in neural network energy landscape
Essentially no barriers  in neural network energy landscapeEssentially no barriers  in neural network energy landscape
Essentially no barriers in neural network energy landscapeSimossyi Funabashi
 
読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26sekizawayuuki
 
Generalized data augmentation for low resource translation
Generalized data augmentation for low resource translationGeneralized data augmentation for low resource translation
Generalized data augmentation for low resource translationplatinum-vallay
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...Takanori Nakai
 
Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicHakky St
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...Deep Learning JP
 
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来Preferred Networks
 

Semelhante a EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model" (18)

A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands on
 
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
 
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
 
Neural Models for Information Retrieval
Neural Models for Information RetrievalNeural Models for Information Retrieval
Neural Models for Information Retrieval
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
 
Essentially no barriers in neural network energy landscape
Essentially no barriers  in neural network energy landscapeEssentially no barriers  in neural network energy landscape
Essentially no barriers in neural network energy landscape
 
読解支援@2015 06-26
読解支援@2015 06-26読解支援@2015 06-26
読解支援@2015 06-26
 
Generalized data augmentation for low resource translation
Generalized data augmentation for low resource translationGeneralized data augmentation for low resource translation
Generalized data augmentation for low resource translation
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
 
Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomic
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
 

EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model"

  • 1. EMNLP 2015 読み会 @小町研 “Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model “ Hajime Morita, Daisuke Kawahara, Sadao Kurohashi 首都大学東京 情報通信システム学域 小町研究室 M2 塘 優旗 1
  • 2. Abstract  Recurrent Neural Network Language Model (RNNLM) を利用し、新たな形態素解析モ デルを提案  意味的に一般化された言語モデルとして RNNLMを利用  二つの日本語コーパスにおいて、提案手法 がベースラインに比べて良い結果を示した 2
  • 3. Proposed Method  RNNLM を利用することで意味的に尤もらしい単語列を考 慮して形態素解析を行う手法  RNNME (Recurrent Neural Net-work trained jointly with Maximum Entropy) language model (Mikolov et al., 2011; Mikolov, 2012) をRNNLMの実装として利用 3
  • 4. Recurrent Neural Network Language Model (RNNLM)  Auto Segmented Corpus  生のWebコーパス1,000万文 (Kawahara and Kurohashi, 2006)を JUMANで自動解析し作成  JUMANにおける解析誤りが含まれる  Training  Auto Segmented Corpus中のPOSタグ無し,レンマ化された単語 列で学習  学習されたモデルは,自動解析における誤りを含む  Re-training  人手でラベル付けされたコーパスで再学習  機能語の単語列に関するエラーの解消のため 4
  • 5. Base Model  教師有り形態素解析モデル(単語分割,レンマ化,POS タグ付け)を Base Model として利用  Train data:アノテーション済み1万文のコーパス  解析手順 1. 入力文の文字列を辞書を利用し参照 2. 単語ラティスの構築 3. ラティス中の最もスコアの高いパスを探索 5
  • 6. Base Model  辞書 - 80万単語  レンマ,POS,活用形 の情報を含む  JUMAN辞書  追加辞書 – 日本語Wikipedia中の記事中の箇条書き,記事タイトル で主に構成  Scoring function  Features  単語の 基本形, POS, 活用形 のunigram, bigram (Kudo et al. 2004)  文字種,trigram (Zhang and Clark 2008) 6 y : タグ付けされた単語列 Φ(y) : y に対しての素性べクトル w : 重みベクトル
  • 7. Base Model  Training  重みベクトル w の学習のために soft confidence-weighted learning (Wang et al., 2012) を利用  out-of-vocabulary (OOV) の取り扱い  解析時:文字種で入力列を分割することで自動で単語を生成  学習時:辞書中には無いが学習コーパスにある単語は OOV 単語 としてそれらの重みを学習する  Decording  second-order Viterbi algorithm (Thede and Harper, 1999)を利用す ることで厳密なデコードが可能 7
  • 8. RNNLM Integrated Model  タグ付けされた系列に対してのRNNLM,ベースモデ ルによるそれぞれのスコア(score_R, score_B)を統 合  OOV単語に対してのスコア付け 8 C_p : OOVへの定数ペナルティ L_p : 単語長に対してのペナルティ length(n) : 次の単語 n の長さ α:補間パラメータ
  • 9. RNNLM Integrated Model  Decording  RNNLMにおける可能な単語ラティスは組み合 わせ爆発が起こるため beam search (Zhang and Clark 2008) を利用し,ビーム幅中の可能 なcontext 候補のみ保持する  十分なビームサイズは単語列の曖昧な候補を保 持することができると考える  各候補は context を表現するベクトルを持ち, 二つの単語の履歴を持つ 9
  • 10. Experiments - Data sets  人手タグ付きコーパス (RNNLMの再学習, base model の学習に利用)  Kyoto University Text Corpus (Kawahara et al., 2002)  Kyoto University Web Document Leads Corpus (Hangyo et al., 2012)  Test : 2000, Develop : 500, Train : 45000 10
  • 11. Experiments - Baselines  JUMAN  MeCab  Base model のみ  Base model + 従来の言語モデル  3-gram 言語モデル(同じ自動単語分割コーパ スからSRILMを使いKneser-Ney Smothing を 行い作成) 11
  • 12. Experiments - Settings  事前に設定するパラメータ  ビーム幅:5  C_p = 5 (Mikolov et al. 2011)のデフォルト値  チューニングするパラメータ  development dataにおいて、提案手法, ベースモデル, 言語モデルのパラメータをグリッドサーチし下記のよ うに決定 12 手法 α L_p Base + SRILM 0.3 0.5 Base + RNNLM 0.1 2.0 Base + RNNLM_retrain(提案手法) 0.3 1.5
  • 13. Experiments - Evaluation  単語分かち書き, POSタグ付けのジョイン ト評価のF値  ドメイン:News, Web, ALL(News + Web)  ブートストラッピング(Zhang et al., 2004) を用いて提案手法とその他のモデルの優位 性をテスト 13
  • 14. Experiments - Results  提案手法が全ての点で最高精度 14
  • 15. Experiments - Results  Segmentation で特に大きな改善  レンマ化されたPOSタグ付けのされていな い単語列をベースに学習されたRNNLMを 利用することによる 15
  • 16. Experiments - Results  単語分割の具体例  上記のようなベースラインの解析誤りは言語モデル を作成する際に利用される自動作成コーパスにおけ るエラーに由来する  RNNLMを利用し、意味的な単語の遷移が捉えること ができれば提案手法で正しい解析が可能になる 16 手法 解析結果 JUMAN 外国 / 人参 / 政権 Base + SRILM Base + RNNLM_retrain(提案手法) 外国人 / 参政権
  • 17. Experiments - Results  単語分割の具体例  ベースラインのような分割は文法的には問題ないが、 意味的に解釈することは難しい  RNNLMが意味的に尤もらしい単語列を学習するため、 提案手法ではうまくいく 17 手法 解析結果 JUMAN 健康/な/どの/点/で Base + SRILM Base + RNNLM_retrain(提案手法) 健康/など/の/点/で
  • 18. Conclusion  RNNLM を自動的に単語分割を行ったコーパス、人手で作 成したコーパスで学習することで形態素解析の新しいモ デルを提案  RNNLMによって単語系列の意味的な尤もらしさを捉える ことでベースモデルのエラーを減少  Future Work  RNNLMモデル由来の素性を設計し、それらを統合された学習フ レームワークに組み込みたい  中国語やタイ語のような単語分割のされていない言語にも適用し たい 18

Notas do Editor

  1. 07/16/96
  2. RNNME language model (Mikolov et al., 2011; Mikolov, 2012) をRNNLMの実装として利用 RNNLM の学習リソース 自動で単語分割され構築されたコーパス 人手でラベル付けされたコーパス Recurrent Neural Net-work trained jointly with Maximum Entropy model