SlideShare uma empresa Scribd logo
1 de 38
Baixar para ler offline
大阪電気通信大学 2012 1
IT を活用した日本語分析
目で見てわかる日本の歌ことば
山 元 啓 史
東京工業大学
カリフォルニア大学サンディエゴ校
20 March 2012
大阪電気通信大学 2012 2
概要
1. 研究目的
• 歌ことばのコノテーションを調べる。
• 古今集(905 年頃、OP)と現代語訳(CT)を比
べる。
2. シソーラスの開発
3. 応用
大阪電気通信大学 2012 3
和歌: Japanese Songs
立田姫
手向くる神の / あればこそ
秋の木の葉の / 幣と散るらめ
because Princess Tatsuta
has a god to whom she offers brocades,
the leaves of trees
in autumn will scatter
as an offering.
兼覧王(?–832)
古今和歌集 298 番歌
大阪電気通信大学 2012 4
コノテーションって定義できるの?
Octopus
VS
weird
spooky ...
たこやき
(fried octopus!)
= おいしい!
‘コノテーション’ は受け手に依存する意味である。
大阪電気通信大学 2012 5
比較対象: 立田 と 吉野
Yoshino
Tatsuta
「うたまくら」 とは:
1. 地名
2. 歌にちなんだ特別な意味
→ どうちがう?!
大阪電気通信大学 2012 6
問題: 正書法がない!
ひらがな
たつた
漢字
立田
竜田
龍田
→ 上記はすべて「たつた」 (地名)
大阪電気通信大学 2012 7
問題: 処理単位のサイズが決まっていない!
処理単位のサイズは文脈の意味によってちがう。
• 単位 → 卯の花 or 卯/の/花 (中野, 1998)
• 正書法 → さびしい/さみしい/寂しい/淋しい (sad)
• 意味 → 卯の花 ∈ plant or 卯の花 ∈ food (unohana = a
deutzia or bean curd refuse)
大阪電気通信大学 2012 8
シソーラスの例: 神 (God)
BG-01-2030-01-030-A-かみ-神
↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑
(1) (2) (3) (4) (5) (6) (7) (8)
Figure 1: Structure of an item of BG database in the case of kami (god):
(1) database ID (BG = short-unit general vocabulary);
(2) part of speech ID (01 = noun);
(3) group ID (2030 = Shinto deities and Buddhas);
(4) field ID;
(5) exact ID (030 = god);
(6) era-flag (A = contemporary, C = classic);
(7) Chinese character reading;
(8) Chinese character
大阪電気通信大学 2012 9
開発: シソーラス, KH, t2c
• 和歌用語のシソーラス
• KH (形態素解析システム: tokenizer)
• t2c (分類コードつけシステム: token to code converter)
大阪電気通信大学 2012 10
材料: 八代集
• 八代集(905 年頃–1205 年)
• 国文学研究資料館編集の二十一代集データベース
• 正保本版の八代集
900
¡
古
今
集
(•905)
46
950
¡
後
撰
集
(•951)
56
1000
¡
拾
遺
集
(•1007)
79
1050
¡後
拾
遺
集
(1086)
38
1100
¡
金
葉
集
(•1124)
20
¡
詞
花
集
(•1144)
44
1150
¡
千
載
集
(1188)
17
1200
¡
新
古
今
集
(1205)
1250
大阪電気通信大学 2012 11
方法: 処理の手順
A
コーパスの開発
B
語分割
C
意味コードづけ
D
モデリング
E
モデルを使った演算操作
F
可視化
大阪電気通信大学 2012 12
開発: シソーラス, KH, t2c
• 和歌用語のシソーラス
• KH (形態素解析システム: tokenizer)
• t2c (分類コードつけシステム: token to code converter)
大阪電気通信大学 2012 13
Table 1: 形態素解析/語分割 KH / 後撰集 664 番歌
input: 000664 わすられて思ふなげきのしげるをや身をはづかしのもりといふらん
output:000664
わすら (ラ四-未:忘る:わする:忘ら:わすら)
れ (自可受-用:る:る:れ:れ)
て (接助:て:て)
思ふ (ハ四-終体:思ふ:おもふ:思ふ:おもふ)
なげき (カ四-用:嘆く:なげく:嘆き:なげき)
の (格助:の:の)
しげる (ラ四-終体:茂る:しげる:茂る:しげる)
を (*助:を:を)
や (係助:や:や)
身 (名:身:み)
を (*助:を:を)
---
はづかし (名-地名:羽束師:はづかし)
の (格助:の:の)
---
はづかし (形シク-終:恥づかし:はづかし:恥づかし:はづかし)
の (格助:の:の)
---
もり (名:森:もり)
と (格助-引用:と:と)
いふ (ハ四-終体:言ふ:いふ:言ふ:いふ)
らん (推-終体:らむ:らむ:らむ:らむ)
大阪電気通信大学 2012 14
開発: 語分割からシソーラスへ
和歌テキスト kh t2c
コードづけ
代表形の付加
単位分割
品詞タグづけ 詳細コードの付加
表記の統一
八代集
シソーラス
(A) (B)
未登録語追加
解析用古語辞書 分類語彙表(一般)
地名・人名辞書
未登録語追加
大阪電気通信大学 2012 15
(A) コーパス開発: 和歌 (OP)
KW00029801|A|兼覧王=かねみの王
KW00029801|B|たつたひめ [名-地名:立田姫]£
たむくる [カ下二-体:手向くる], かみ [名:神] の [格助-主格]£
あれ [ラ変-已:有れ] ば [接助-確定] こそ [係助-係]£
あき [名:秋] の [格助-連体], このは [名:木の葉] の [格助-連体]£
ぬさ [名:幣] と [格助-一般], ちる [ラ四-終:散る] らめ [推-已-結]/
Figure 2: 和歌データベースのフォーマット: → は行を折り返していることを意味
する。第1行目の|A|は和歌の作者を示す。第2行目の|B|は和歌の内容
と品詞を示す。
大阪電気通信大学 2012 16
(A) コーパス開発: 現代語訳 (CT)
$A|000298
$B|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £
をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。
$C|秋の歌
$D|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £
をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。
$I|あきのすえちかくなってかえりみちについたたつたひめが、どうちゅう £
のぶじをねがってたむけをするかみがあるからこそ、あきのこのはがぬさ £
となってちっているのだろう。
Figure 3: 現代語訳データベースのフォーマット
大阪電気通信大学 2012 17
(B) 語分割: Tokenisation
もとの和歌
立田姫手向ける神の有ればこそ秋の木の葉の幣と散るらめ
↓
語分割
立田姫/手向ける/神/の/[有れ]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らめ]
↓
基本形に変換する
立田姫/手向ける/神/の/[有り]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らむ]
Figure 4: 現代語訳を語分割した例
大阪電気通信大学 2012 18
(C) 語を分類するために番号に変換する
CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta
CH-29-0000-14-010-A -- 立田 -- Tatsuta Tatsuta
BG-01-2030-01-101-A -- 姫 -- hime princess
BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb)
BG-01-5730-02-010-A -- 手 -- te hand
BG-02-1700-01-040-A -- 向ける -- mukeru for
BG-01-2030-01-030-A かみ 神 kami god
BG-08-0061-07-010-A の の no SUB (particle)
BG-02-1200-01-010-C あれ 有り are be
BG-08-0064-26-010-A ば ば ba because (particle)
BG-04-1120-05-150-A -- ば -- ba because (reason)
BG-08-0065-01-010-A こそ こそ koso KP (emphasis)
Figure 5: 分類番号への変換(OP)
大阪電気通信大学 2012 19
(C) 分類番号の形式–1
BG-01-2030-01-030-A-かみ-神
↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑
(1) (2) (3) (4) (5) (6) (7) (8)
Figure 6: BG データベースの例「神」:
(1) database ID (BG = short-unit general vocabulary);
(2) part of speech ID (01 = noun);
(3) group ID (2030 = Shinto deities and Buddhas);
(4) field ID;
(5) exact ID (030 = god);
(6) era-flag (A = contemporary, C = classic);
(7) Chinese character reading;
(8) Chinese character
大阪電気通信大学 2012 20
(C) 分類番号の形式–2
BG-01-2600-01-020-A
世の中 (world)
(1) = BG-01-2610-01-040-A
世 (world)
(2)
+ BG-08-0010-01-021-A
の (of)
(3)
+ BG-01-1770-01-080-A
中 (inside)
(4)
Figure 7: BG データベースの構造の例「世の中」(world)
大阪電気通信大学 2012 21
(C) 分類番号の形式–3
CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta
CH-29-0000-14-010-A -- 立田 -- Tatsuta Tatsuta
BG-01-2030-01-101-A -- 姫 -- hime princess
BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb)
BG-01-5730-02-010-A -- 手 -- te hand
BG-02-1700-01-040-A -- 向ける -- mukeru for
BG-01-2030-01-030-A かみ 神 kami god
BG-08-0061-07-010-A の の no SUB (particle)
BG-02-1200-01-010-C あれ 有り are be
BG-08-0064-26-010-A ば ば ba because (particle)
BG-04-1120-05-150-A -- ば -- ba because (reason)
BG-08-0065-01-010-A こそ こそ koso KP (emphasis)
Figure 8: BG データベース変換の例
大阪電気通信大学 2012 22
poet write OP read expert reader
write
CT
read
novice reader
compare
10th century
Field of experience
20th century
Field of experience (expert)
20th century
Field of experience
(novice)
Figure 9: OP と CT の位置づけの整理(まとめ)
大阪電気通信大学 2012 23
+-------- # of pair
| +----- value of matching level, exact=17, field=13, group=10
| | +-- # of POS
| | |
| | | # of element of OP ----+ +- # of element of CT
| | | element of OP -+ | | +--- element of CT
| | | | | | |
1 17 11 立田姫 00 <-> 12 龍田姫 (Tatsutahime)
2 17 47 手 04 <-> 25 手 (hand)
3 17 47 向ける 05 <-> 26 向ける (toward)
4 17 2 神 06 <-> 32 神 (god)
5 10 61 の 07 <-> 33 が (SUB)
6 17 47 有り 08 <-> 34 ある (be)
7 10 64 ば 09 <-> 35 から (because)
8 17 65 こそ 11 <-> 36 こそ (EM)
9 17 2 秋 12 <-> 38 秋 (autumn)
10 17 71 の 13 <-> 39 の (CON)
11 17 2 木の葉 14 <-> 40 木の葉 (leaf of tree)
12 17 2 幣 19 <-> 45 幣 (present)
13 17 61 と 20 <-> 46 と (CRD)
14 17 47 散る 21 <-> 49 散る (fall)
15 13 74 らむ 22 <-> 54 う (CJR)
Figure 10: OP と CT のマッチング処理の例 古今集 298 番歌
大阪電気通信大学 2012 24
差分はどこに?あまりは?
CT (秋の末近くなって帰り道についた)龍田姫(が道中の無事を願って)手 向け
OP — —— — — — — — — — 立田姫 — — — — — — — 手向ける
CT (をする)神があるからこそ秋の木の葉(が)幣(となって)散っ(ているのだろ) う
OP — — 神のあれ ば こそ秋の木の葉[の]幣 と — — 散る — — — — らめ
Figure 11: 小町谷 (1982) による古今集 298 番歌のマッチング結果
大阪電気通信大学 2012 25
OP の成分
Table 2: CT から OP を引いた結果
OP (valid number of element) = 16
E (ratio of exact match) 12/16 = 0.750
F (ratio of field match) 1/16 = 0.062
G (ratio of group match) 2/16 = 0.125
T (ratio of total match) 15/16 = 0.938
U (ratio of unmatched OP) 1 - T = 0.062
大阪電気通信大学 2012 26
差分の計算
D = 1 −
OP
CT
(1)
= 1 −
16
41
(2)
= 0.61 (3)
大阪電気通信大学 2012 27
CT の成分
Table 3: CT の成分: 古今集 298 番歌の小町谷 (1982) による現代語訳: fabs(D-H)
は実験値 D から理論値 H を引いて絶対値で示したもの
CT (valid number of element) =41
W (ratio of original word use) 12/41=0.293(E/CT)
A (ratio of annotation) 1-0.293=0.707(1-W)
---breakdown of the annotation---
P1(ratio of F+G paraphrased) (0.62+0.12)/0.707=0.073(F+G)/A
P2(ratio of U paraphrased) (0.707-0.073)*0.062=0.040(A-P1)*U
D (ratio of purely added) 0.707-(0.073+0.040)=0.595A-(P1+P2)
H (theoretical value of D) 1-16/41=0.6101-OP/CT
Gap fabs(0.595-0.610)=0.015fabs(D-H)
大阪電気通信大学 2012 28
差分: CT - OP
Exact 12 (75.0%)
Field 1 (6.2%)
Group 2 (12.5%)
Unmatched 1 (6.2%)
W 12 (29.3%)
P1 3 (7.3%)
P2 1 (4.0%)
D 25 (59.5%)
OP : 16 elements CT : 41 elements(298) (298,koma)
Figure 12: OP と CT の成分と対応を示す円グラフ(Pie-charts)
大阪電気通信大学 2012 29
(E) 数理モデル
cw(t1, t2)=(1+log ctf(t1, t2))
√
idf(t1) idf(t2) (4)
idf(t) = log
N
df(t)
(5)
大阪電気通信大学 2012 30
共出現パターンを作る
ひとつのテキストに出てくる任意の2つの単語の組み合わせパターン
ゆき
snow
の
of
うち
inside
に
at
はる
spring
は
(topic)
き
come
に
(past)
けり
(perfect)
うくひす
warbler
の
of
...
すべての歌毎にこれを繰り返すとパターンの種類は 5,000 以上
大阪電気通信大学 2012 31
グラフの例「うぐいす」
鴬 (23/229,3.73): CT cw.>15;
non-dist=off; idf=on(2)
毎朝
野辺
8
鴬
17
老
笠
6
10
青柳
4
挿頭す
4
縫う
6
春
88
10
立田
10
枝
35
花
138
とまる
15
折る
22
泣く
29
鳴く
145 まだ
30
近く
6
声
62
案内
誘い出す
4
9
送る
4
4
香7
山
10
春霞
9
立つ10
梅10 56
23
隠れる
7
6
散る
52
10
触れる
10
手
10
添える
5
大阪電気通信大学 2012 32
鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16
毎朝
野辺
8
鴬
17
老
笠
6
10
青柳
4
挿頭す
4
縫う 6
春
88
10
立田
10
枝
35
花 138
とまる
15
折る
22
泣く
29
鳴く145
まだ
30
夏
横
8
時鳥
39
一声
8
五月
42
音羽
20
声
174
山
110
261
鳴き声
21
五月雨
14
聞く
69
聞える
37
去年
10
あやめ草
7
梢9
12
20
20
11
今朝
29
9
19
越える10
惜しむ
10
木高い
4
10
近く
6
62
26
条理
8
6
案内
誘い出す4
9
送る
4
別れ
7
4
香
7
20
10
春霞
9
立つ
10
夏山
11
ふりしぼる
6
梅
10
56
23
44
山時鳥
9
隠れる
7
6
10
散る
52
10
触れる
10
手
10
添える
5
羽ばたく
6
6
借りる
19
何時の間に
9
梢高い
7
7
はるか
5
大阪電気通信大学 2012 33
立田 (12/116,8.52): CT cw.>13;
non-dist=off; idf=on(2); pruned 立田
神代
紅
3
唐紅色
3
水
9
川
9
19
神無月 10
織る
9
横糸
8
流す
8
毎年
7
神奈備
17
河口
7
葉15
もみじ葉
8
流れる
28
竪糸
10
錦
10
9
10
8
20
10
9
8
渡る
9
9
7
時雨
9
夜中
白波
5
越える
5
ひとり
4
沖
9
10
神
幣
8
7
手向ける
9
手向け
5
5
供え物
ささげる2
絞り染め
4
4
8
8
20
1010
10
上流
4
紅葉
12
17
8
8
通り過ぎる
4
安全
3
湊
6
4
4
5
雨 5
43
14
御室
8
5
9
山
20
17 78 12
7
降る
8
3
6
5
9
9
木の葉5
10
9
3
10
乱れ流れる
3
断ち切れる
2
5
12
9
聞く
9
括り染める
5
4
5
祈る
4
不思議
4
「立田」
kks 994
風吹けば 沖つ白波 立田山
夜半にや君が 一人越ゆらむ
大阪電気通信大学 2012 34
「立田川」のモデル
立田/川 (12/116,8.52): CT cw.>14.5;
non-dist=off; idf=on(2); pruned 立田
神代
水 9
川
9
神無月
10
織る
9
横糸
8
神奈備
17
河口
7
流れる
28
竪糸
10錦 10
9
10
8
20
10
9
8
9
7
時雨
9
神
幣
8
手向ける
9
手向け
5
絞り染め
4
8
8
20
10
1010
8
8
山
17
7
8
紅葉 12
御室
7
流す
6
毎年
5
9
43
渡る 17
10
9
通り過ぎる
5
降る
9
聞く
9
括り染める
4不思議
4
kks 294
たつたひめ
たむくるかみの
あればこそ
あきのこのはの
ぬさとちるらめ
kks 300
かむなびの
やまをすぎゆく
あきなれば
たつたがはにぞ
ぬさはたむくる
大阪電気通信大学 2012 35
「吉野川」のモデル
  ¡ ¢ £ ¤ ¥ ¦ ¢ ¥ § ¨ ©   ¨          ¥  ! 
non-dist=off; idf=on(2); pruned
  ¡
# $ %
4
 '
4
(
8
) 0
% 1
6
2
10
3 4
8
5 6
3
7
5
8
8
9
7
@
15
22
A B C
11
D E F
9
14 G H I P
4
13
15
10
30
11
Q R
8
S T U V W
6
X Y
15
` a
21
16
b c
a
8
4
4
d
T
4
6
6
e
8
7
9
5
8
7
f g h
26
i p q r
W
3
11
18
4
kks 828
ながれては
いもせのやまの
なかにおつる
よしののかはの
よしやよのなか
kks 471
よしのがは
いはなみたかく
ゆくみづの
はやくぞひとを
おもひそめてし
大阪電気通信大学 2012 36
「吉野山」のモデル
吉野/山 (23/193,6.08): CT cw.13.5;
non-dist=off; idf=on(2); pruned 吉野,御吉野
日
近い
10
在明
月
9
照る
4
その後
ふみ分ける
4
白雪
7
入る
6
山奥
3
一日
9
里
9
隠れ所 向こう
6
世の中
6
いや
4
雪10
山46
9
22
7降り積もる8
4
降る
10
夕方
10
積もる
奈良
5
降りしきる
7
麓
5
ほしい
6
寒い 6
6
6
kks 950
みよしのの
やまのあなたに
やどもがな
よのうきときの
かくれがにせむ
「かくれが」は
世の中を厭い隠れる
ための場所
大阪電気通信大学 2012 37
おわりに
シソーラスを作って数理モデルを作ってみると
1. 表記のちがう語を処理することができた。
2. ちがう長さの単位でも処理することもできる。
3. 同じ語でもちがう意味をもつかもしれない語も処理できる。
4. 相対的なちがうを見つけることができた。
大阪電気通信大学 2012 38
質問
• 和歌の数理モデルについては
http://warbler.ryu.titech.ac.jp/∼yamagen/
をご覧ください。
• その他ご質問については:
山元啓史 Hilofumi Yamamoto までお気軽にどうぞ。
yamagen@ryu.titech.ac.jp

Mais conteúdo relacionado

Mais de Hilo Yamamoto (18)

Tokyotech20130715
Tokyotech20130715Tokyotech20130715
Tokyotech20130715
 
Workshop20110305slide01
Workshop20110305slide01Workshop20110305slide01
Workshop20110305slide01
 
Wollongong02
Wollongong02Wollongong02
Wollongong02
 
Sciencecafe02
Sciencecafe02Sciencecafe02
Sciencecafe02
 
Kokken20100303
Kokken20100303Kokken20100303
Kokken20100303
 
Goiken2007slide
Goiken2007slideGoiken2007slide
Goiken2007slide
 
Keio slide
Keio slideKeio slide
Keio slide
 
Ch2008slide01
Ch2008slide01Ch2008slide01
Ch2008slide01
 
Ch2007slide02
Ch2007slide02Ch2007slide02
Ch2007slide02
 
Ch2006slide
Ch2006slideCh2006slide
Ch2006slide
 
Asialex201103slide02
Asialex201103slide02Asialex201103slide02
Asialex201103slide02
 
Goiken2008 slide01
Goiken2008 slide01Goiken2008 slide01
Goiken2008 slide01
 
2009 jinmon0102
2009 jinmon01022009 jinmon0102
2009 jinmon0102
 
Jinmon2007slide02
Jinmon2007slide02Jinmon2007slide02
Jinmon2007slide02
 
Corpus2008ws slide01
Corpus2008ws slide01Corpus2008ws slide01
Corpus2008ws slide01
 
Database2010 01slide
Database2010 01slideDatabase2010 01slide
Database2010 01slide
 
Ch2010slide01
Ch2010slide01Ch2010slide01
Ch2010slide01
 
Ch2011slide01
Ch2011slide01Ch2011slide01
Ch2011slide01
 

Oec2012032001slide01

  • 1. 大阪電気通信大学 2012 1 IT を活用した日本語分析 目で見てわかる日本の歌ことば 山 元 啓 史 東京工業大学 カリフォルニア大学サンディエゴ校 20 March 2012
  • 2. 大阪電気通信大学 2012 2 概要 1. 研究目的 • 歌ことばのコノテーションを調べる。 • 古今集(905 年頃、OP)と現代語訳(CT)を比 べる。 2. シソーラスの開発 3. 応用
  • 3. 大阪電気通信大学 2012 3 和歌: Japanese Songs 立田姫 手向くる神の / あればこそ 秋の木の葉の / 幣と散るらめ because Princess Tatsuta has a god to whom she offers brocades, the leaves of trees in autumn will scatter as an offering. 兼覧王(?–832) 古今和歌集 298 番歌
  • 4. 大阪電気通信大学 2012 4 コノテーションって定義できるの? Octopus VS weird spooky ... たこやき (fried octopus!) = おいしい! ‘コノテーション’ は受け手に依存する意味である。
  • 5. 大阪電気通信大学 2012 5 比較対象: 立田 と 吉野 Yoshino Tatsuta 「うたまくら」 とは: 1. 地名 2. 歌にちなんだ特別な意味 → どうちがう?!
  • 6. 大阪電気通信大学 2012 6 問題: 正書法がない! ひらがな たつた 漢字 立田 竜田 龍田 → 上記はすべて「たつた」 (地名)
  • 7. 大阪電気通信大学 2012 7 問題: 処理単位のサイズが決まっていない! 処理単位のサイズは文脈の意味によってちがう。 • 単位 → 卯の花 or 卯/の/花 (中野, 1998) • 正書法 → さびしい/さみしい/寂しい/淋しい (sad) • 意味 → 卯の花 ∈ plant or 卯の花 ∈ food (unohana = a deutzia or bean curd refuse)
  • 8. 大阪電気通信大学 2012 8 シソーラスの例: 神 (God) BG-01-2030-01-030-A-かみ-神 ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ (1) (2) (3) (4) (5) (6) (7) (8) Figure 1: Structure of an item of BG database in the case of kami (god): (1) database ID (BG = short-unit general vocabulary); (2) part of speech ID (01 = noun); (3) group ID (2030 = Shinto deities and Buddhas); (4) field ID; (5) exact ID (030 = god); (6) era-flag (A = contemporary, C = classic); (7) Chinese character reading; (8) Chinese character
  • 9. 大阪電気通信大学 2012 9 開発: シソーラス, KH, t2c • 和歌用語のシソーラス • KH (形態素解析システム: tokenizer) • t2c (分類コードつけシステム: token to code converter)
  • 10. 大阪電気通信大学 2012 10 材料: 八代集 • 八代集(905 年頃–1205 年) • 国文学研究資料館編集の二十一代集データベース • 正保本版の八代集 900 ¡ 古 今 集 (•905) 46 950 ¡ 後 撰 集 (•951) 56 1000 ¡ 拾 遺 集 (•1007) 79 1050 ¡後 拾 遺 集 (1086) 38 1100 ¡ 金 葉 集 (•1124) 20 ¡ 詞 花 集 (•1144) 44 1150 ¡ 千 載 集 (1188) 17 1200 ¡ 新 古 今 集 (1205) 1250
  • 11. 大阪電気通信大学 2012 11 方法: 処理の手順 A コーパスの開発 B 語分割 C 意味コードづけ D モデリング E モデルを使った演算操作 F 可視化
  • 12. 大阪電気通信大学 2012 12 開発: シソーラス, KH, t2c • 和歌用語のシソーラス • KH (形態素解析システム: tokenizer) • t2c (分類コードつけシステム: token to code converter)
  • 13. 大阪電気通信大学 2012 13 Table 1: 形態素解析/語分割 KH / 後撰集 664 番歌 input: 000664 わすられて思ふなげきのしげるをや身をはづかしのもりといふらん output:000664 わすら (ラ四-未:忘る:わする:忘ら:わすら) れ (自可受-用:る:る:れ:れ) て (接助:て:て) 思ふ (ハ四-終体:思ふ:おもふ:思ふ:おもふ) なげき (カ四-用:嘆く:なげく:嘆き:なげき) の (格助:の:の) しげる (ラ四-終体:茂る:しげる:茂る:しげる) を (*助:を:を) や (係助:や:や) 身 (名:身:み) を (*助:を:を) --- はづかし (名-地名:羽束師:はづかし) の (格助:の:の) --- はづかし (形シク-終:恥づかし:はづかし:恥づかし:はづかし) の (格助:の:の) --- もり (名:森:もり) と (格助-引用:と:と) いふ (ハ四-終体:言ふ:いふ:言ふ:いふ) らん (推-終体:らむ:らむ:らむ:らむ)
  • 14. 大阪電気通信大学 2012 14 開発: 語分割からシソーラスへ 和歌テキスト kh t2c コードづけ 代表形の付加 単位分割 品詞タグづけ 詳細コードの付加 表記の統一 八代集 シソーラス (A) (B) 未登録語追加 解析用古語辞書 分類語彙表(一般) 地名・人名辞書 未登録語追加
  • 15. 大阪電気通信大学 2012 15 (A) コーパス開発: 和歌 (OP) KW00029801|A|兼覧王=かねみの王 KW00029801|B|たつたひめ [名-地名:立田姫]£ たむくる [カ下二-体:手向くる], かみ [名:神] の [格助-主格]£ あれ [ラ変-已:有れ] ば [接助-確定] こそ [係助-係]£ あき [名:秋] の [格助-連体], このは [名:木の葉] の [格助-連体]£ ぬさ [名:幣] と [格助-一般], ちる [ラ四-終:散る] らめ [推-已-結]/ Figure 2: 和歌データベースのフォーマット: → は行を折り返していることを意味 する。第1行目の|A|は和歌の作者を示す。第2行目の|B|は和歌の内容 と品詞を示す。
  • 16. 大阪電気通信大学 2012 16 (A) コーパス開発: 現代語訳 (CT) $A|000298 $B|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £ をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。 $C|秋の歌 $D|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £ をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。 $I|あきのすえちかくなってかえりみちについたたつたひめが、どうちゅう £ のぶじをねがってたむけをするかみがあるからこそ、あきのこのはがぬさ £ となってちっているのだろう。 Figure 3: 現代語訳データベースのフォーマット
  • 17. 大阪電気通信大学 2012 17 (B) 語分割: Tokenisation もとの和歌 立田姫手向ける神の有ればこそ秋の木の葉の幣と散るらめ ↓ 語分割 立田姫/手向ける/神/の/[有れ]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らめ] ↓ 基本形に変換する 立田姫/手向ける/神/の/[有り]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らむ] Figure 4: 現代語訳を語分割した例
  • 18. 大阪電気通信大学 2012 18 (C) 語を分類するために番号に変換する CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta CH-29-0000-14-010-A -- 立田 -- Tatsuta Tatsuta BG-01-2030-01-101-A -- 姫 -- hime princess BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb) BG-01-5730-02-010-A -- 手 -- te hand BG-02-1700-01-040-A -- 向ける -- mukeru for BG-01-2030-01-030-A かみ 神 kami god BG-08-0061-07-010-A の の no SUB (particle) BG-02-1200-01-010-C あれ 有り are be BG-08-0064-26-010-A ば ば ba because (particle) BG-04-1120-05-150-A -- ば -- ba because (reason) BG-08-0065-01-010-A こそ こそ koso KP (emphasis) Figure 5: 分類番号への変換(OP)
  • 19. 大阪電気通信大学 2012 19 (C) 分類番号の形式–1 BG-01-2030-01-030-A-かみ-神 ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ (1) (2) (3) (4) (5) (6) (7) (8) Figure 6: BG データベースの例「神」: (1) database ID (BG = short-unit general vocabulary); (2) part of speech ID (01 = noun); (3) group ID (2030 = Shinto deities and Buddhas); (4) field ID; (5) exact ID (030 = god); (6) era-flag (A = contemporary, C = classic); (7) Chinese character reading; (8) Chinese character
  • 20. 大阪電気通信大学 2012 20 (C) 分類番号の形式–2 BG-01-2600-01-020-A 世の中 (world) (1) = BG-01-2610-01-040-A 世 (world) (2) + BG-08-0010-01-021-A の (of) (3) + BG-01-1770-01-080-A 中 (inside) (4) Figure 7: BG データベースの構造の例「世の中」(world)
  • 21. 大阪電気通信大学 2012 21 (C) 分類番号の形式–3 CH-29-2130-01-010-A たつたひめ 立田姫 Tatsutahime Princess-Tatsuta CH-29-0000-14-010-A -- 立田 -- Tatsuta Tatsuta BG-01-2030-01-101-A -- 姫 -- hime princess BG-02-3770-04-080-C たむくる 手向く tamukuru present(verb) BG-01-5730-02-010-A -- 手 -- te hand BG-02-1700-01-040-A -- 向ける -- mukeru for BG-01-2030-01-030-A かみ 神 kami god BG-08-0061-07-010-A の の no SUB (particle) BG-02-1200-01-010-C あれ 有り are be BG-08-0064-26-010-A ば ば ba because (particle) BG-04-1120-05-150-A -- ば -- ba because (reason) BG-08-0065-01-010-A こそ こそ koso KP (emphasis) Figure 8: BG データベース変換の例
  • 22. 大阪電気通信大学 2012 22 poet write OP read expert reader write CT read novice reader compare 10th century Field of experience 20th century Field of experience (expert) 20th century Field of experience (novice) Figure 9: OP と CT の位置づけの整理(まとめ)
  • 23. 大阪電気通信大学 2012 23 +-------- # of pair | +----- value of matching level, exact=17, field=13, group=10 | | +-- # of POS | | | | | | # of element of OP ----+ +- # of element of CT | | | element of OP -+ | | +--- element of CT | | | | | | | 1 17 11 立田姫 00 <-> 12 龍田姫 (Tatsutahime) 2 17 47 手 04 <-> 25 手 (hand) 3 17 47 向ける 05 <-> 26 向ける (toward) 4 17 2 神 06 <-> 32 神 (god) 5 10 61 の 07 <-> 33 が (SUB) 6 17 47 有り 08 <-> 34 ある (be) 7 10 64 ば 09 <-> 35 から (because) 8 17 65 こそ 11 <-> 36 こそ (EM) 9 17 2 秋 12 <-> 38 秋 (autumn) 10 17 71 の 13 <-> 39 の (CON) 11 17 2 木の葉 14 <-> 40 木の葉 (leaf of tree) 12 17 2 幣 19 <-> 45 幣 (present) 13 17 61 と 20 <-> 46 と (CRD) 14 17 47 散る 21 <-> 49 散る (fall) 15 13 74 らむ 22 <-> 54 う (CJR) Figure 10: OP と CT のマッチング処理の例 古今集 298 番歌
  • 24. 大阪電気通信大学 2012 24 差分はどこに?あまりは? CT (秋の末近くなって帰り道についた)龍田姫(が道中の無事を願って)手 向け OP — —— — — — — — — — 立田姫 — — — — — — — 手向ける CT (をする)神があるからこそ秋の木の葉(が)幣(となって)散っ(ているのだろ) う OP — — 神のあれ ば こそ秋の木の葉[の]幣 と — — 散る — — — — らめ Figure 11: 小町谷 (1982) による古今集 298 番歌のマッチング結果
  • 25. 大阪電気通信大学 2012 25 OP の成分 Table 2: CT から OP を引いた結果 OP (valid number of element) = 16 E (ratio of exact match) 12/16 = 0.750 F (ratio of field match) 1/16 = 0.062 G (ratio of group match) 2/16 = 0.125 T (ratio of total match) 15/16 = 0.938 U (ratio of unmatched OP) 1 - T = 0.062
  • 26. 大阪電気通信大学 2012 26 差分の計算 D = 1 − OP CT (1) = 1 − 16 41 (2) = 0.61 (3)
  • 27. 大阪電気通信大学 2012 27 CT の成分 Table 3: CT の成分: 古今集 298 番歌の小町谷 (1982) による現代語訳: fabs(D-H) は実験値 D から理論値 H を引いて絶対値で示したもの CT (valid number of element) =41 W (ratio of original word use) 12/41=0.293(E/CT) A (ratio of annotation) 1-0.293=0.707(1-W) ---breakdown of the annotation--- P1(ratio of F+G paraphrased) (0.62+0.12)/0.707=0.073(F+G)/A P2(ratio of U paraphrased) (0.707-0.073)*0.062=0.040(A-P1)*U D (ratio of purely added) 0.707-(0.073+0.040)=0.595A-(P1+P2) H (theoretical value of D) 1-16/41=0.6101-OP/CT Gap fabs(0.595-0.610)=0.015fabs(D-H)
  • 28. 大阪電気通信大学 2012 28 差分: CT - OP Exact 12 (75.0%) Field 1 (6.2%) Group 2 (12.5%) Unmatched 1 (6.2%) W 12 (29.3%) P1 3 (7.3%) P2 1 (4.0%) D 25 (59.5%) OP : 16 elements CT : 41 elements(298) (298,koma) Figure 12: OP と CT の成分と対応を示す円グラフ(Pie-charts)
  • 29. 大阪電気通信大学 2012 29 (E) 数理モデル cw(t1, t2)=(1+log ctf(t1, t2)) √ idf(t1) idf(t2) (4) idf(t) = log N df(t) (5)
  • 31. 大阪電気通信大学 2012 31 グラフの例「うぐいす」 鴬 (23/229,3.73): CT cw.>15; non-dist=off; idf=on(2) 毎朝 野辺 8 鴬 17 老 笠 6 10 青柳 4 挿頭す 4 縫う 6 春 88 10 立田 10 枝 35 花 138 とまる 15 折る 22 泣く 29 鳴く 145 まだ 30 近く 6 声 62 案内 誘い出す 4 9 送る 4 4 香7 山 10 春霞 9 立つ10 梅10 56 23 隠れる 7 6 散る 52 10 触れる 10 手 10 添える 5
  • 32. 大阪電気通信大学 2012 32 鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16 毎朝 野辺 8 鴬 17 老 笠 6 10 青柳 4 挿頭す 4 縫う 6 春 88 10 立田 10 枝 35 花 138 とまる 15 折る 22 泣く 29 鳴く145 まだ 30 夏 横 8 時鳥 39 一声 8 五月 42 音羽 20 声 174 山 110 261 鳴き声 21 五月雨 14 聞く 69 聞える 37 去年 10 あやめ草 7 梢9 12 20 20 11 今朝 29 9 19 越える10 惜しむ 10 木高い 4 10 近く 6 62 26 条理 8 6 案内 誘い出す4 9 送る 4 別れ 7 4 香 7 20 10 春霞 9 立つ 10 夏山 11 ふりしぼる 6 梅 10 56 23 44 山時鳥 9 隠れる 7 6 10 散る 52 10 触れる 10 手 10 添える 5 羽ばたく 6 6 借りる 19 何時の間に 9 梢高い 7 7 はるか 5
  • 33. 大阪電気通信大学 2012 33 立田 (12/116,8.52): CT cw.>13; non-dist=off; idf=on(2); pruned 立田 神代 紅 3 唐紅色 3 水 9 川 9 19 神無月 10 織る 9 横糸 8 流す 8 毎年 7 神奈備 17 河口 7 葉15 もみじ葉 8 流れる 28 竪糸 10 錦 10 9 10 8 20 10 9 8 渡る 9 9 7 時雨 9 夜中 白波 5 越える 5 ひとり 4 沖 9 10 神 幣 8 7 手向ける 9 手向け 5 5 供え物 ささげる2 絞り染め 4 4 8 8 20 1010 10 上流 4 紅葉 12 17 8 8 通り過ぎる 4 安全 3 湊 6 4 4 5 雨 5 43 14 御室 8 5 9 山 20 17 78 12 7 降る 8 3 6 5 9 9 木の葉5 10 9 3 10 乱れ流れる 3 断ち切れる 2 5 12 9 聞く 9 括り染める 5 4 5 祈る 4 不思議 4 「立田」 kks 994 風吹けば 沖つ白波 立田山 夜半にや君が 一人越ゆらむ
  • 34. 大阪電気通信大学 2012 34 「立田川」のモデル 立田/川 (12/116,8.52): CT cw.>14.5; non-dist=off; idf=on(2); pruned 立田 神代 水 9 川 9 神無月 10 織る 9 横糸 8 神奈備 17 河口 7 流れる 28 竪糸 10錦 10 9 10 8 20 10 9 8 9 7 時雨 9 神 幣 8 手向ける 9 手向け 5 絞り染め 4 8 8 20 10 1010 8 8 山 17 7 8 紅葉 12 御室 7 流す 6 毎年 5 9 43 渡る 17 10 9 通り過ぎる 5 降る 9 聞く 9 括り染める 4不思議 4 kks 294 たつたひめ たむくるかみの あればこそ あきのこのはの ぬさとちるらめ kks 300 かむなびの やまをすぎゆく あきなれば たつたがはにぞ ぬさはたむくる
  • 35. 大阪電気通信大学 2012 35 「吉野川」のモデル   ¡ ¢ £ ¤ ¥ ¦ ¢ ¥ § ¨ © ¨ ¥ ! non-dist=off; idf=on(2); pruned   ¡ # $ % 4 ' 4 ( 8 ) 0 % 1 6 2 10 3 4 8 5 6 3 7 5 8 8 9 7 @ 15 22 A B C 11 D E F 9 14 G H I P 4 13 15 10 30 11 Q R 8 S T U V W 6 X Y 15 ` a 21 16 b c a 8 4 4 d T 4 6 6 e 8 7 9 5 8 7 f g h 26 i p q r W 3 11 18 4 kks 828 ながれては いもせのやまの なかにおつる よしののかはの よしやよのなか kks 471 よしのがは いはなみたかく ゆくみづの はやくぞひとを おもひそめてし
  • 36. 大阪電気通信大学 2012 36 「吉野山」のモデル 吉野/山 (23/193,6.08): CT cw.13.5; non-dist=off; idf=on(2); pruned 吉野,御吉野 日 近い 10 在明 月 9 照る 4 その後 ふみ分ける 4 白雪 7 入る 6 山奥 3 一日 9 里 9 隠れ所 向こう 6 世の中 6 いや 4 雪10 山46 9 22 7降り積もる8 4 降る 10 夕方 10 積もる 奈良 5 降りしきる 7 麓 5 ほしい 6 寒い 6 6 6 kks 950 みよしのの やまのあなたに やどもがな よのうきときの かくれがにせむ 「かくれが」は 世の中を厭い隠れる ための場所
  • 37. 大阪電気通信大学 2012 37 おわりに シソーラスを作って数理モデルを作ってみると 1. 表記のちがう語を処理することができた。 2. ちがう長さの単位でも処理することもできる。 3. 同じ語でもちがう意味をもつかもしれない語も処理できる。 4. 相対的なちがうを見つけることができた。
  • 38. 大阪電気通信大学 2012 38 質問 • 和歌の数理モデルについては http://warbler.ryu.titech.ac.jp/∼yamagen/ をご覧ください。 • その他ご質問については: 山元啓史 Hilofumi Yamamoto までお気軽にどうぞ。 yamagen@ryu.titech.ac.jp