Mais conteúdo relacionado
Semelhante a 2012/03/06 sympo (6)
2012/03/06 sympo
- 1. コーパスアノテーションと
心理言語学
国立国語研究所
コーパス開発センター
浅原正幸
第1回コーパス日本語学ワークショップ
2012/03/06 1
併設シンポジウム
- 2. 本シンポジウム(90分)の進め方
• 話題提供者より トーク (20分×3人=60分)
– 浅原正幸 (国語研) / 本スライド (20分)
– 小野創さん (近畿大学) (20分)
– 狩野芳伸さん(科学技術振興機構) (20分)
• 全体討議・パネルディスカッション (30分)
第1回コーパス日本語学ワークショップ
2012/03/06 2
併設シンポジウム
- 3. 言語コーパスを利用した研究
アノテーションのないコーパス利用
• 言語学
– コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、言語の
運用実態を分析する
• 言語処理
– 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現する
アノテーションがないコーパスによる研究形態には限界がある
アノテーション: コーパスに付与する各種言語情報
メタデータ
文境界・語境界・形態論情報(品詞、活用)・文節境界
固有表現、属性-属性値、評価表現、事象のモダリティ
統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格)
省略、共参照、事象の時間的順序関係、因果関係
第1回コーパス日本語学ワークショップ
2012/03/06 3
併設シンポジウム
- 4. 言語コーパスを利用した研究
アノテーションのあるコーパス利用
• 言語学
– コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、言語の
運用実態を分析する
– アノテーションを手掛かりとして、分析対象を絞り込んで調査することができる
• 言語処理
– 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現する
– 構造学習(識別モデル)などを利用して、アノテーションを再現することにより言語解析
器を実現することができる
アノテーション: コーパスに付与する各種言語情報
メタデータ
文境界・語境界・形態論情報(品詞、活用)・文節境界
固有表現、属性-属性値、評価表現、事象のモダリティ
統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格)
省略、共参照、事象の時間的順序関係、因果関係
第1回コーパス日本語学ワークショップ
2012/03/06 4
併設シンポジウム
- 5. アノテーションの誤りと揺れの存在
アノテーションの利用者の立場
• 言語学
– 言語の運用実態を分析する上での典拠となるアノテーション
正しく一貫して付与されていることを求める
• 言語処理
– 学習用訓練データや、評価用ベンチマークデータとなるアノテーション
正しく一貫して付与されていることを求める
アノテーションの生産者の立場
• 誤り: 作業マニュアルの整備、作業環境の整備、作業者を訓練すること
により、できる限り誤りが入らないようにする
• 揺れ:本質的にあいまいな言語現象について、統制した仕様を策定する
ことにより、一意にアノテーションができるようにする
第1回コーパス日本語学ワークショップ
2012/03/06 5
併設シンポジウム
- 7. コーパスとアノテーションの関係
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による Annotation
Annotation
Text
productive receptive
Writer Reader
第1回コーパス日本語学ワークショップ
2012/03/06 7
併設シンポジウム
- 8. アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による Annotation
Annotation
Text
productive receptive
Writer ① 書き手と読み手が Reader
言語規範を
共有しているとは限らない
第1回コーパス日本語学ワークショップ
2012/03/06 8
併設シンポジウム
- 9. アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による Annotation
②書き手が常に言語規
範どおりの処理を行って Annotation
いるわけでもない
Text
productive receptive
Writer ① 書き手と読み手が Reader
言語規範を
共有しているとは限らない
第1回コーパス日本語学ワークショップ
2012/03/06 9
併設シンポジウム
- 10. アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による Annotation
②書き手が常に言語規 ③読み手が常に言語規
範どおりの処理を行って Annotation 範どおりの処理を行って
いるわけでもない いるわけでもない
Text
productive receptive
① 書き手と読み手が
Writer 言語規範を Reader
共有しているとは限らない
第1回コーパス日本語学ワークショップ
2012/03/06 10
併設シンポジウム
- 11. アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による Annotation
Annotation 3
Annotation 2
②書き手が常に言語規 ③読み手が常に言語規
範どおりの処理を行って Annotation 1 範どおりの処理を行って
いるわけでもない いるわけでもない
Text
productive receptive
① 書き手と読み手が Reader Reader Reader
Writer 言語規範を
共有しているとは限らない
1 2 3
第1回コーパス日本語学ワークショップ ④ 複数の読み手が言語規範を
2012/03/06 11
併設シンポジウム 共有しているとは限らない
- 12. アノテーションの誤りや揺れをまず認める
次に何をするか
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による Annotation
アノテーションの誤りや揺れの原因:まとめ
① 書き手と読み手が言語規範を共有しているとは限らない
② 書き手が常に言語規範どおりの処理を行っているわけでもない
③ 読み手が常に言語規範どおりの処理を行っているわけでもない
④ 複数の読み手が言語規範を共有しているとは限らない
定量的に「誤りやすさ」や「揺れやすさ」を評価する
第1回コーパス日本語学ワークショップ
2012/03/06 12
併設シンポジウム
- 13. アノテーションの誤りと揺れの定量的な評価
過去に行ったこと
以下では、主に統語論情報(係り受け)レベルのアノテーションについて、
誤りと揺れの定量的な評価を試みたものを示す
1. BCCWJの係り受けアノテーション作業の作業者間の揺れの評価
BCCWJ の係り受けアノテーションは1人の作業者により並列構造をアノテーションし、
自動解析器により係り受け構造の付与したものを修正している。
評価しているものは「先行工程の誤りを検出できるか否か」
2. ゲームによる係り受けアノテーションの揺れの評価
係り受けアノテーションを shift-reduce 法に基づくアクションを人手で指定する UI を作成し、
全く係り受けアノテーションがない文を複数人にアノテーションさせる
心理言語学実験で用いられる作例を正解率や反応時間を測定する
– 中間埋め込み文に基づくガーデンパス文
• 一意の構造を持つもの (誤りを評価)
• 複数の可能な構造を持つもの (揺れを評価)
アノテーション基準を示しコーパス全体に網羅的に評価することが困難
第1回コーパス日本語学ワークショップ
2012/03/06 13
併設シンポジウム
- 14. 私が実施したいこと
心理言語学的な実験結果をコーパス全体に付与する
「BCCWJ コアデータ (約100万語)」 もしくは「均衡がとれている最
小集合 (約30万語)」 に、心理言語実験の一次情報(読解速度
など)を網羅的に付与する
⇒先行研究: Dundee Eye Tracking Corpus [Kennedy+ 2003]
• 英語、フランス語を対象
• 10人の母語話者の視線走査情報を収録
• 新聞社説 20 ファイル (5行 40 画面)
• 研究用途に一次情報が配布されている
(Kennedy 氏の web ページより)
第1回コーパス日本語学ワークショップ
2012/03/06 14
併設シンポジウム
- 15. 私が実施したいこと
心理言語学的な実験結果をコーパス全体に付与する
「BCCWJ コアデータ (約100万語)」 もしくは「均衡がとれている最
小集合 (約30万語)」 に、心理言語学的な実験結果(一次情報:
読解速度など)を網羅的に付与する
自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利用
される作例 大人 L2学習者 L1学習者
BCCWJ
教科書コーパス
第1回コーパス日本語学ワークショップ
2012/03/06 15
併設シンポジウム
- 16. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2 L1
BCCWJ
教科書コーパス
目的:
• BCCWJ コアデータのアノテーションが誤りやすい、揺れやすい部分の検出
• 読み手をプロファイルした時空間的な分析
• 言語教育に資する適切なリーダビリティ評価
• 言語政策に資する言語現象の難易度評価
• 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共有化し、
心理言語学の実験結果の信頼性をサポート
• 言語処理、特に言語解析器の訓練データやデザインに利用
• 文脈ありと文脈なしでの差分
第1回コーパス日本語学ワークショップ
2012/03/06 16
併設シンポジウム
- 17. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
誤り検出 心理言語学で利
用される作例 大人 L2 L1
ゆれ検出 BCCWJ
教科書コーパス
目的: BCCWJ コアデータのアノテーションが誤りやすい、揺れやすい部分の検出
視線走査や自己ペースリーディングなどの心理言語学的な実験結果の一次情報
を網羅的に付与し、文読解に負担がかかる文を同定する
• 文読解に時間がかかる文から順に、アノテーション誤りの有無を調査する
• 文読解の時間の分散が大きい順に、アノテーションゆれの有無を調査する
第1回コーパス日本語学ワークショップ
2012/03/06 17
併設シンポジウム
- 18. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
書き手の 用される作例 大人 L2 L1
プロファイル BCCWJ 読み手の
教科書コーパス
プロファイル
目的: 読み手をプロファイルした時空間的な分析
読み手の世代、性別、地域などをプロファイルし、BCCWJ のメタデータに記述されたプロ
ファイルと比較調査する
• 書き手と読み手の世代差、性差、地域差が、文読解にどう影響を与えるかを調査する
• プロファイル毎に共有されない言語規範を各種アノテーションをもとに明らかにする
第1回コーパス日本語学ワークショップ
2012/03/06 18
併設シンポジウム
- 19. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2 L1
共通ベンチマーク BCCWJ
言語学習者の
教科書コーパス
一次データ
目的: 言語教育に資する適切なリーダビリティ評価
BCCWJ コアデータを共通ベンチマークとし、大人、L2 言語学習者、L1 言語学習者のデー
タを収集する
• 誰にとってどのくらい読みにくいテキストなのかを定量的に評価する
• 何が読みにくいテキストたらしめているのかを各種アノテーションをもとに明らかにする
第1回コーパス日本語学ワークショップ
2012/03/06 19
併設シンポジウム
- 20. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2 L1
共通ベンチマーク BCCWJ
言語学習者の
教科書コーパス
一次データ
目的: 言語政策に資する言語現象の難易度評価
教科書コーパスを共通ベンチマークとし、大人、L1 言語学習者のデータを収集する
• 教科書コーパスの難易度(文字・語彙)の妥当性を検証する
第1回コーパス日本語学ワークショップ
2012/03/06 20
併設シンポジウム
- 21. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2 L1
作例と均衡コーパス
BCCWJ
の対比 教科書コーパス
目的: 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共有化し、心
理言語学の実験結果の信頼性をサポート
心理言語学研究者に作例を提供していただき、均衡コーパス(BCCWJ コアデータ) と混ぜ
て、再実験を行い、心理言語実験結果の信頼性をサポートする
第1回コーパス日本語学ワークショップ
2012/03/06 21
併設シンポジウム
- 22. 自己ペースリーディング
人の動作を
機械に組み込む 視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2 L1
BCCWJ
教科書コーパス
目的: 言語処理、特に言語解析器の訓練データやデザインに利用
• 人間の読解情報を直接訓練データに利用する(Ando 法に基づく半教師あり学習)
• 人間の読解情報に基づく特徴量デザインの再検討
• 人間の読解情報に基づくアルゴリズムデザインの再検討
第1回コーパス日本語学ワークショップ
2012/03/06 22
併設シンポジウム
- 23. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
文脈の有無による 用される作例 大人 L2 L1
対比
BCCWJ
教科書コーパス
目的: 文脈ありと文脈なしでの差分分析
文脈あり(文書単位提示) と文脈なし(文単位提示) の両方の実験を行い、
差分から文間の関係認識が必要な個所を同定する
• 文脈がないことにより処理が時間がかかる⇒言語処理でも文間の処理が必要
第1回コーパス日本語学ワークショップ
2012/03/06 23
併設シンポジウム
- 24. 私が実施したいこと [再掲]
心理言語学的な実験結果をコーパス全体に付与する
アノテーションの誤りや揺れの原因:まとめ
① 書き手と読み手が言語規範を共有しているとは限らない
② 書き手が常に言語規範どおりの処理を行っているわけでもない
③ 読み手が常に言語規範どおりの処理を行っているわけでもない
④ 複数の読み手が言語規範を共有しているとは限らない
自己ペースリーディング
視線走査 読み手の
心理言語実験 言語規範の
アノテーション 1次情報 モデル化
BCCWJ コアデータ
(約 100万語)
心理言語学で利用
書き手の される作例 大人 L2 L1
言語規範の
モデル化 BCCWJ
教科書コーパス
第1回コーパス日本語学ワークショップ
2012/03/06 24
併設シンポジウム
- 25. 本シンポジウム(90分)の発表構成
• 話題提供者より トーク (20分×3人=60分)
– 浅原正幸 (国語研) / 本スライド (20分)
– 小野創さん (近畿大学) (20分)
心理言語実験で利用される方法論や例文について紹介
– 狩野芳伸さん(科学技術振興機構)(20分)
コーパス言語学と心理言語学を結びつける方法論について紹介
• パネルディスカッション + 全体質疑 (30分)
第1回コーパス日本語学ワークショップ
2012/03/06 25
併設シンポジウム
- 26. パネルディスカッション
第1回コーパス日本語学ワークショップ
2012/03/06 26
併設シンポジウム