SlideShare a Scribd company logo
1 of 18
Download to read offline
最小記述長原理に基づいた
日本語話し言葉の単語分割

                 東京大学大学院 松原勇介

               豊橋技術科学大学 秋葉友良

東京大学/Univ. of Manchester/NaCTeM 辻井潤一



               NLP2007 (2007-03-20)
本発表の概要
        N-gram言語モデル向けの
       教師なし単語分割法を提案
   本研究が対象としている単語分割の説明
   提案手法の概要
   結果:形態素解析による分割を改善すること
    に成功

                           2
背景

    目的:   言語モデル性能の向上
                             音声認識候補の
                             順位付け
生                   単語ベース
          単語分割された
コーパ                 N-gram   文書とクエリの
           コーパス
ス                   言語モデル    類似度評価


うまい単語分割ができると、
言語モデルやその応用システムの性能が向上する
                                    3
ドメインへの特化
N-gram言語モデルの性能はドメインに敏感


ドメインに特化した単語分割をする既存手法
   ドメイン向けに辞書を補充
   そのドメインの単語分割済みコーパスで教師あり学習
   そのドメインの生コーパスで言語モデルの性能指標を
    最適化する教師なし学習
                           4
なぜ教師なし学習か
   作業コストが低い

    辞書の作成、単語分割済みコーパスが不要
   形態素や人間の基準がよいとは限らない

    区切りの与え方はドメイン次第
       [よろしく][お][願い][し][ます]    ?
       [よ][ろ][し][く][お][願][い][し][ま][す]   ?
       [よろしくお願いします]       ?
                                         5
提案手法(学習)
                          仮の単語分割済み
                            コーパス
                          (最初は文字分割など)
1.   隣接して現れる2単語の対のうち、
     ある指標(コーパスの記述長)の減少幅が最大の
     組を連結する

                            改良された
2.   連結されたものを1単語とみなして、
                           単語分割済み
     同じ手続きを繰り返す             コーパス

3.   1.で減少する候補がなくなったら終了
4.   連結した単語対を連結した順に出力する
                                    6
何を最適化するか
N-gram パープレキシティ   N-gram 符号化による記述長
                  (提案)
   言語モデルの性能指        パープレキシティ+辞
    標そのもの             書の符号長
   N=1の場合のみしか
                     N=2の場合の実用的な
    実現されていない
                      計算が可能になった
   この基準のみでは、
    過学習に陥る           指標自身が過学習を防
                      いでいる       7
記述長の定義
記述長は コーパスの符号長 と 辞書の符号長 の和

コーパスの符号長
                                          #w 1 w 2 
    −    ∑       ∑       #w 1 w 2 log
                                          #w 1 
        w1 ∈辞書 w 2 ∈辞書




辞書の符号長
                      #辞書中の c
     −     ∑     ∑ log 語彙数
         w ∈辞書   c∈w
                                                        8
1ステップあたりの計算量
  素朴な方法
全単語対に対して、連結後の記述長を再計算する

    →     O(延べ単語数x語彙数2)


  我々の方法
全単語対に対して、記述長の差分を計算する
1つの単語対についての差分の計算は O(語彙数) で済む

    →     O(延べ単語数+語彙数x語彙数2)
                               9
提案手法(適用)
基本的には

   学習で出力された連結手順をそのまま再現する
           予備実験の結果
        連結手順すべてを適用すると、
  連結が起こりすぎて言語モデルの性能が悪化


         ヘルドアウトデータを用いて
         最適な連結数を決定する

                           10
動作例(初期分割:文字)




               11
動作例(10ステップ後)




               12
動作例(100ステップ後)




                13
動作例(1000ステップ後)




             14
実験
   対話音声書き起こし文(約25万字)を使用
     言語モデルの訓練      ヘルドアウト  評価
        19        :   1   :  1
   次を比較
        形態素解析(MeCab)による分割
        文字を初期分割にした提案手法
        MeCabを初期分割にした提案手法
   2-gram言語モデルの文字あたりパープレキシ
    ティで性能を評価
                                 15
結果
  文字当たりパープレキシティ   提案手法
                  (文字)




                   提案手法
                  (形態素)

形態素解析



                         連結数
                               16
結果
  文字当たりパープレキシティ          提案手法
                         (文字)
                  提案手法(形態素)は形態素解析の分割を改善した

                 ヘルドアウトにより最適値をほぼ予測できた



                          提案手法
                          (形態素)

形態素解析



                                連結数
                                            17
まとめ
     2-gramパープレキシティを近似的に最適化す
      る教師なし単語分割の手法を提案した
     文字当たりパープレキシティの観点で形態素解
      析による分割を改善した
今後の課題
     言語モデルの応用システムの性能の点でも本手
      法が有効かどうかを調べる
     3-gram、およびそれ以上への手法の拡張
                              18

More Related Content

What's hot

Reusing weights in subword aware neural language models
Reusing weights in subword aware neural language modelsReusing weights in subword aware neural language models
Reusing weights in subword aware neural language models広樹 本間
 
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...Yuki Tomo
 
Acl yomikai, 1016, 20110903
Acl yomikai, 1016,  20110903Acl yomikai, 1016,  20110903
Acl yomikai, 1016, 20110903Yo Ehara
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へHiroshi Nakagawa
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...Deep Learning JP
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Naoaki Okazaki
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word EmbeddingMakoto Takenaka
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsMakoto Takenaka
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
機械翻訳の今昔物語
機械翻訳の今昔物語機械翻訳の今昔物語
機械翻訳の今昔物語Hiroshi Nakagawa
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shiftMakoto Takenaka
 
文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...
文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...
文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...Shohei Okada
 
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方についてKow Kuroda
 
鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門Hiroyoshi Komatsu
 

What's hot (19)

Reusing weights in subword aware neural language models
Reusing weights in subword aware neural language modelsReusing weights in subword aware neural language models
Reusing weights in subword aware neural language models
 
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
 
Acl yomikai, 1016, 20110903
Acl yomikai, 1016,  20110903Acl yomikai, 1016,  20110903
Acl yomikai, 1016, 20110903
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
東北弁発表
東北弁発表東北弁発表
東北弁発表
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
nl190segment
nl190segmentnl190segment
nl190segment
 
機械翻訳の今昔物語
機械翻訳の今昔物語機械翻訳の今昔物語
機械翻訳の今昔物語
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shift
 
文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...
文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...
文献紹介:Bidirectional Inter-dependencies of Subjective Expressions and Targets a...
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について
 
鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門
 

Viewers also liked

エクストリームエンジニア2
エクストリームエンジニア2エクストリームエンジニア2
エクストリームエンジニア2T-arts
 
20150817 sss2015
20150817 sss201520150817 sss2015
20150817 sss2015S_Kojima
 
中途入社者からのご提案
中途入社者からのご提案中途入社者からのご提案
中途入社者からのご提案Reika Hayashi
 
091021 Kyoso Forum Doi
091021 Kyoso Forum Doi091021 Kyoso Forum Doi
091021 Kyoso Forum DoiKyosoYokohama
 
2013/03 GCAD Interactive Modeling of Liquid Lens Shapes
2013/03 GCAD Interactive Modeling of Liquid Lens Shapes2013/03 GCAD Interactive Modeling of Liquid Lens Shapes
2013/03 GCAD Interactive Modeling of Liquid Lens ShapesNobuyuki Nakata
 
Rocketstaff tstoreサービス支援資料
Rocketstaff tstoreサービス支援資料Rocketstaff tstoreサービス支援資料
Rocketstaff tstoreサービス支援資料YounngWook kou
 
高速な挿入と検索が可能なSkip Graphの改良
高速な挿入と検索が可能なSkip Graphの改良高速な挿入と検索が可能なSkip Graphの改良
高速な挿入と検索が可能なSkip Graphの改良Kota Abe
 
11 2 27_メンバー募集プレゼン_小室ファミリー本番用
11 2 27_メンバー募集プレゼン_小室ファミリー本番用11 2 27_メンバー募集プレゼン_小室ファミリー本番用
11 2 27_メンバー募集プレゼン_小室ファミリー本番用Shuntaro Okamoto
 
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価Tomoyuki Kajiwara
 
Moodle Moot 2014 LT資料
Moodle Moot 2014 LT資料Moodle Moot 2014 LT資料
Moodle Moot 2014 LT資料Yoshikazu Asada
 
2012/06 GCAD Animation of Water Droplets on a Hydrophobic Windshield
2012/06 GCAD Animation of Water Droplets on a Hydrophobic Windshield2012/06 GCAD Animation of Water Droplets on a Hydrophobic Windshield
2012/06 GCAD Animation of Water Droplets on a Hydrophobic WindshieldNobuyuki Nakata
 
NHN HTML5勉強会 サービス開発
NHN HTML5勉強会 サービス開発NHN HTML5勉強会 サービス開発
NHN HTML5勉強会 サービス開発nhn_hangame
 
【防衛省・自衛隊御中】SEO提案
【防衛省・自衛隊御中】SEO提案【防衛省・自衛隊御中】SEO提案
【防衛省・自衛隊御中】SEO提案Ko Abe
 
第12回
第12回第12回
第12回rbgri
 
新しい強化ミーティングの提案
新しい強化ミーティングの提案新しい強化ミーティングの提案
新しい強化ミーティングの提案岡山大学漕艇部
 
コンサルタントが明かす 仮想化提案のすべて
コンサルタントが明かす 仮想化提案のすべてコンサルタントが明かす 仮想化提案のすべて
コンサルタントが明かす 仮想化提案のすべてVirtualTech Japan Inc.
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)MKT International Inc.
 
ロジカルプレゼンテーション
ロジカルプレゼンテーションロジカルプレゼンテーション
ロジカルプレゼンテーションAya Kaino
 
第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19
第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19
第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19Hiroya Nagao
 

Viewers also liked (20)

エクストリームエンジニア2
エクストリームエンジニア2エクストリームエンジニア2
エクストリームエンジニア2
 
20150817 sss2015
20150817 sss201520150817 sss2015
20150817 sss2015
 
中途入社者からのご提案
中途入社者からのご提案中途入社者からのご提案
中途入社者からのご提案
 
091021 Kyoso Forum Doi
091021 Kyoso Forum Doi091021 Kyoso Forum Doi
091021 Kyoso Forum Doi
 
2013/03 GCAD Interactive Modeling of Liquid Lens Shapes
2013/03 GCAD Interactive Modeling of Liquid Lens Shapes2013/03 GCAD Interactive Modeling of Liquid Lens Shapes
2013/03 GCAD Interactive Modeling of Liquid Lens Shapes
 
Rocketstaff tstoreサービス支援資料
Rocketstaff tstoreサービス支援資料Rocketstaff tstoreサービス支援資料
Rocketstaff tstoreサービス支援資料
 
01_garden for_life
01_garden for_life01_garden for_life
01_garden for_life
 
高速な挿入と検索が可能なSkip Graphの改良
高速な挿入と検索が可能なSkip Graphの改良高速な挿入と検索が可能なSkip Graphの改良
高速な挿入と検索が可能なSkip Graphの改良
 
11 2 27_メンバー募集プレゼン_小室ファミリー本番用
11 2 27_メンバー募集プレゼン_小室ファミリー本番用11 2 27_メンバー募集プレゼン_小室ファミリー本番用
11 2 27_メンバー募集プレゼン_小室ファミリー本番用
 
文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価文脈の多様性に基づく名詞換言の評価
文脈の多様性に基づく名詞換言の評価
 
Moodle Moot 2014 LT資料
Moodle Moot 2014 LT資料Moodle Moot 2014 LT資料
Moodle Moot 2014 LT資料
 
2012/06 GCAD Animation of Water Droplets on a Hydrophobic Windshield
2012/06 GCAD Animation of Water Droplets on a Hydrophobic Windshield2012/06 GCAD Animation of Water Droplets on a Hydrophobic Windshield
2012/06 GCAD Animation of Water Droplets on a Hydrophobic Windshield
 
NHN HTML5勉強会 サービス開発
NHN HTML5勉強会 サービス開発NHN HTML5勉強会 サービス開発
NHN HTML5勉強会 サービス開発
 
【防衛省・自衛隊御中】SEO提案
【防衛省・自衛隊御中】SEO提案【防衛省・自衛隊御中】SEO提案
【防衛省・自衛隊御中】SEO提案
 
第12回
第12回第12回
第12回
 
新しい強化ミーティングの提案
新しい強化ミーティングの提案新しい強化ミーティングの提案
新しい強化ミーティングの提案
 
コンサルタントが明かす 仮想化提案のすべて
コンサルタントが明かす 仮想化提案のすべてコンサルタントが明かす 仮想化提案のすべて
コンサルタントが明かす 仮想化提案のすべて
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
 
ロジカルプレゼンテーション
ロジカルプレゼンテーションロジカルプレゼンテーション
ロジカルプレゼンテーション
 
第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19
第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19
第二十一回 P2PSIP勉強会 柔軟な経路表に基づくOverlayNetworkの設計と応用 2010/09/19
 

Similar to Segmenting Sponteneous Japanese using MDL principle

A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...Shin Kanouchi
 
Character word lstm language models
Character word lstm language modelsCharacter word lstm language models
Character word lstm language models浩気 西山
 
Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Masanao Ochi
 
Query and output generating words by querying distributed word representatio...
Query and output  generating words by querying distributed word representatio...Query and output  generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...ryoma yoshimura
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価Yahoo!デベロッパーネットワーク
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands onOgushi Masaya
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentationRoy Ray
 
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...Shohei Okada
 
ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)Shinnosuke Takamichi
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxNatsumi KOBAYASHI
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecShin Asakawa
 
Generalized data augmentation for low resource translation
Generalized data augmentation for low resource translationGeneralized data augmentation for low resource translation
Generalized data augmentation for low resource translationplatinum-vallay
 
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Kosuke Futamata
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッションantibayesian 俺がS式だ
 
Neural Models for Information Retrieval
Neural Models for Information RetrievalNeural Models for Information Retrieval
Neural Models for Information RetrievalKeisuke Umezawa
 

Similar to Segmenting Sponteneous Japanese using MDL principle (20)

A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
Bilingual Correspondence Recursive Autoencoders for Statistical Machine Trans...
 
Character word lstm language models
Character word lstm language modelsCharacter word lstm language models
Character word lstm language models
 
Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介Neural word embedding as implicit matrix factorization の論文紹介
Neural word embedding as implicit matrix factorization の論文紹介
 
Query and output generating words by querying distributed word representatio...
Query and output  generating words by querying distributed word representatio...Query and output  generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands on
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
 
ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
 
Generalized data augmentation for low resource translation
Generalized data augmentation for low resource translationGeneralized data augmentation for low resource translation
Generalized data augmentation for low resource translation
 
作文入門
作文入門作文入門
作文入門
 
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
Neural G2Pの最新動向 SIGMORPHON及び関連緩急の紹介
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
 
Neural Models for Information Retrieval
Neural Models for Information RetrievalNeural Models for Information Retrieval
Neural Models for Information Retrieval
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 

Recently uploaded

My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」inspirehighstaff03
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」inspirehighstaff03
 
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slidessusere0a682
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」inspirehighstaff03
 
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfMy Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfinspirehighstaff03
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」inspirehighstaff03
 
International Politics I - Lecture 1
International Politics I - Lecture 1International Politics I - Lecture 1
International Politics I - Lecture 1Toru Oga
 
My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」inspirehighstaff03
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」inspirehighstaff03
 
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイントshu1108hina1020
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfoganekyokoi
 
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」inspirehighstaff03
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」inspirehighstaff03
 
My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」inspirehighstaff03
 
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhrKARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhrRodolfFernandez1
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfoganekyokoi
 
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」inspirehighstaff03
 
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」inspirehighstaff03
 
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」inspirehighstaff03
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdfoganekyokoi
 

Recently uploaded (20)

My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」
 
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
 
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfMy Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
 
International Politics I - Lecture 1
International Politics I - Lecture 1International Politics I - Lecture 1
International Politics I - Lecture 1
 
My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
 
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
3年前期 交通基盤工学 第一回 ガイダンス 交通基盤工学の概要  パワーポイント
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
 
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
 
My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」
 
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhrKARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
KARAPATANG PANTAO.pptxhrhrhrhrhrhrhrhrhr
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
 
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
 
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
 
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdf
 

Segmenting Sponteneous Japanese using MDL principle

  • 1. 最小記述長原理に基づいた 日本語話し言葉の単語分割 東京大学大学院 松原勇介 豊橋技術科学大学 秋葉友良 東京大学/Univ. of Manchester/NaCTeM 辻井潤一 NLP2007 (2007-03-20)
  • 2. 本発表の概要 N-gram言語モデル向けの 教師なし単語分割法を提案  本研究が対象としている単語分割の説明  提案手法の概要  結果:形態素解析による分割を改善すること に成功 2
  • 3. 背景 目的: 言語モデル性能の向上 音声認識候補の 順位付け 生 単語ベース 単語分割された コーパ N-gram 文書とクエリの コーパス ス 言語モデル 類似度評価 うまい単語分割ができると、 言語モデルやその応用システムの性能が向上する 3
  • 4. ドメインへの特化 N-gram言語モデルの性能はドメインに敏感 ドメインに特化した単語分割をする既存手法  ドメイン向けに辞書を補充  そのドメインの単語分割済みコーパスで教師あり学習  そのドメインの生コーパスで言語モデルの性能指標を 最適化する教師なし学習 4
  • 5. なぜ教師なし学習か  作業コストが低い 辞書の作成、単語分割済みコーパスが不要  形態素や人間の基準がよいとは限らない 区切りの与え方はドメイン次第  [よろしく][お][願い][し][ます] ?  [よ][ろ][し][く][お][願][い][し][ま][す] ?  [よろしくお願いします] ? 5
  • 6. 提案手法(学習) 仮の単語分割済み コーパス (最初は文字分割など) 1. 隣接して現れる2単語の対のうち、 ある指標(コーパスの記述長)の減少幅が最大の 組を連結する 改良された 2. 連結されたものを1単語とみなして、 単語分割済み 同じ手続きを繰り返す コーパス 3. 1.で減少する候補がなくなったら終了 4. 連結した単語対を連結した順に出力する 6
  • 7. 何を最適化するか N-gram パープレキシティ N-gram 符号化による記述長 (提案)  言語モデルの性能指  パープレキシティ+辞 標そのもの 書の符号長  N=1の場合のみしか  N=2の場合の実用的な 実現されていない 計算が可能になった  この基準のみでは、 過学習に陥る  指標自身が過学習を防 いでいる 7
  • 8. 記述長の定義 記述長は コーパスの符号長 と 辞書の符号長 の和 コーパスの符号長 #w 1 w 2  − ∑ ∑ #w 1 w 2 log #w 1  w1 ∈辞書 w 2 ∈辞書 辞書の符号長 #辞書中の c − ∑ ∑ log 語彙数 w ∈辞書 c∈w 8
  • 9. 1ステップあたりの計算量 素朴な方法 全単語対に対して、連結後の記述長を再計算する → O(延べ単語数x語彙数2) 我々の方法 全単語対に対して、記述長の差分を計算する 1つの単語対についての差分の計算は O(語彙数) で済む → O(延べ単語数+語彙数x語彙数2) 9
  • 10. 提案手法(適用) 基本的には 学習で出力された連結手順をそのまま再現する 予備実験の結果 連結手順すべてを適用すると、 連結が起こりすぎて言語モデルの性能が悪化 ヘルドアウトデータを用いて 最適な連結数を決定する 10
  • 15. 実験  対話音声書き起こし文(約25万字)を使用 言語モデルの訓練  ヘルドアウト  評価 19 : 1 :  1  次を比較  形態素解析(MeCab)による分割  文字を初期分割にした提案手法  MeCabを初期分割にした提案手法  2-gram言語モデルの文字あたりパープレキシ ティで性能を評価 15
  • 16. 結果 文字当たりパープレキシティ 提案手法 (文字) 提案手法 (形態素) 形態素解析 連結数 16
  • 17. 結果 文字当たりパープレキシティ 提案手法  (文字) 提案手法(形態素)は形態素解析の分割を改善した  ヘルドアウトにより最適値をほぼ予測できた 提案手法 (形態素) 形態素解析 連結数 17
  • 18. まとめ  2-gramパープレキシティを近似的に最適化す る教師なし単語分割の手法を提案した  文字当たりパープレキシティの観点で形態素解 析による分割を改善した 今後の課題  言語モデルの応用システムの性能の点でも本手 法が有効かどうかを調べる  3-gram、およびそれ以上への手法の拡張 18