SlideShare uma empresa Scribd logo
1 de 26
コーパスアノテーションと
                心理言語学

                国立国語研究所
               コーパス開発センター
                  浅原正幸


                第1回コーパス日本語学ワークショップ
2012/03/06                           1
                     併設シンポジウム
本シンポジウム(90分)の進め方

• 話題提供者より トーク (20分×3人=60分)
      – 浅原正幸  (国語研) / 本スライド        (20分)
      – 小野創さん (近畿大学)               (20分)
      – 狩野芳伸さん(科学技術振興機構)           (20分)


• 全体討議・パネルディスカッション (30分)



              第1回コーパス日本語学ワークショップ
2012/03/06                                 2
                   併設シンポジウム
言語コーパスを利用した研究
               アノテーションのないコーパス利用
•   言語学
      – コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、言語の
        運用実態を分析する
•   言語処理
      – 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現する


             アノテーションがないコーパスによる研究形態には限界がある

アノテーション: コーパスに付与する各種言語情報
             メタデータ
             文境界・語境界・形態論情報(品詞、活用)・文節境界
             固有表現、属性-属性値、評価表現、事象のモダリティ
             統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格)
             省略、共参照、事象の時間的順序関係、因果関係


                      第1回コーパス日本語学ワークショップ
2012/03/06                                        3
                           併設シンポジウム
言語コーパスを利用した研究
               アノテーションのあるコーパス利用
•   言語学
      – コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、言語の
        運用実態を分析する
      – アノテーションを手掛かりとして、分析対象を絞り込んで調査することができる
•   言語処理
      – 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現する
      – 構造学習(識別モデル)などを利用して、アノテーションを再現することにより言語解析
        器を実現することができる

アノテーション: コーパスに付与する各種言語情報
             メタデータ
             文境界・語境界・形態論情報(品詞、活用)・文節境界
             固有表現、属性-属性値、評価表現、事象のモダリティ
             統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格)
             省略、共参照、事象の時間的順序関係、因果関係


                      第1回コーパス日本語学ワークショップ
2012/03/06                                        4
                           併設シンポジウム
アノテーションの誤りと揺れの存在


アノテーションの利用者の立場
• 言語学
      – 言語の運用実態を分析する上での典拠となるアノテーション
         正しく一貫して付与されていることを求める
• 言語処理
      – 学習用訓練データや、評価用ベンチマークデータとなるアノテーション
         正しく一貫して付与されていることを求める


 アノテーションの生産者の立場
• 誤り: 作業マニュアルの整備、作業環境の整備、作業者を訓練すること
  により、できる限り誤りが入らないようにする
• 揺れ:本質的にあいまいな言語現象について、統制した仕様を策定する
  ことにより、一意にアノテーションができるようにする

                 第1回コーパス日本語学ワークショップ
2012/03/06                                 5
                      併設シンポジウム
コーパスとアノテーションの関係


• アノテーションのないコーパス
      – 書き手(Writer) による生成過程(productive process)による Text




                                Text
             productive



             Writer

                          第1回コーパス日本語学ワークショップ
2012/03/06                                                6
                               併設シンポジウム
コーパスとアノテーションの関係


• アノテーションのないコーパス
      – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
      – 読み手(Reader) による受容過程(receptive process)による Annotation




                             Annotation
                                Text
             productive                          receptive



             Writer                              Reader

                          第1回コーパス日本語学ワークショップ
2012/03/06                                                     7
                               併設シンポジウム
アノテーションの誤りと揺れの原因を探る


• アノテーションのないコーパス
      – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
      – 読み手(Reader) による受容過程(receptive process)による Annotation




                             Annotation
                                Text
             productive                           receptive



             Writer        ① 書き手と読み手が            Reader
                              言語規範を
                          共有しているとは限らない

                          第1回コーパス日本語学ワークショップ
2012/03/06                                                     8
                               併設シンポジウム
アノテーションの誤りと揺れの原因を探る


• アノテーションのないコーパス
      – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
      – 読み手(Reader) による受容過程(receptive process)による Annotation



     ②書き手が常に言語規
     範どおりの処理を行って             Annotation
      いるわけでもない
                                Text
             productive                           receptive



             Writer        ① 書き手と読み手が            Reader
                              言語規範を
                          共有しているとは限らない

                          第1回コーパス日本語学ワークショップ
2012/03/06                                                     9
                               併設シンポジウム
アノテーションの誤りと揺れの原因を探る


• アノテーションのないコーパス
      – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
      – 読み手(Reader) による受容過程(receptive process)による Annotation



     ②書き手が常に言語規                                ③読み手が常に言語規
     範どおりの処理を行って             Annotation        範どおりの処理を行って
      いるわけでもない                                  いるわけでもない
                                Text
             productive                           receptive


                           ① 書き手と読み手が
             Writer           言語規範を              Reader
                          共有しているとは限らない

                          第1回コーパス日本語学ワークショップ
2012/03/06                                                     10
                               併設シンポジウム
アノテーションの誤りと揺れの原因を探る


• アノテーションのないコーパス
      – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
      – 読み手(Reader) による受容過程(receptive process)による Annotation

                             Annotation 3
                             Annotation 2
     ②書き手が常に言語規                                 ③読み手が常に言語規
     範どおりの処理を行って             Annotation 1       範どおりの処理を行って
      いるわけでもない                                   いるわけでもない
                                Text
             productive                             receptive


                           ① 書き手と読み手が          Reader   Reader   Reader
             Writer           言語規範を
                          共有しているとは限らない
                                                 1        2        3

                          第1回コーパス日本語学ワークショップ      ④ 複数の読み手が言語規範を
2012/03/06                                                       11
                               併設シンポジウム            共有しているとは限らない
アノテーションの誤りや揺れをまず認める
                   次に何をするか
• アノテーションのないコーパス
      – 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
      – 読み手(Reader) による受容過程(receptive process)による Annotation

アノテーションの誤りや揺れの原因:まとめ
① 書き手と読み手が言語規範を共有しているとは限らない
② 書き手が常に言語規範どおりの処理を行っているわけでもない
③ 読み手が常に言語規範どおりの処理を行っているわけでもない
④ 複数の読み手が言語規範を共有しているとは限らない




    定量的に「誤りやすさ」や「揺れやすさ」を評価する
                        第1回コーパス日本語学ワークショップ
2012/03/06                                                     12
                             併設シンポジウム
アノテーションの誤りと揺れの定量的な評価
                    過去に行ったこと
以下では、主に統語論情報(係り受け)レベルのアノテーションについて、
誤りと揺れの定量的な評価を試みたものを示す

1.     BCCWJの係り受けアノテーション作業の作業者間の揺れの評価
      BCCWJ の係り受けアノテーションは1人の作業者により並列構造をアノテーションし、
      自動解析器により係り受け構造の付与したものを修正している。
      評価しているものは「先行工程の誤りを検出できるか否か」

2.     ゲームによる係り受けアノテーションの揺れの評価
      係り受けアノテーションを shift-reduce 法に基づくアクションを人手で指定する UI を作成し、
      全く係り受けアノテーションがない文を複数人にアノテーションさせる
      心理言語学実験で用いられる作例を正解率や反応時間を測定する
      – 中間埋め込み文に基づくガーデンパス文
             •   一意の構造を持つもの (誤りを評価)
             •   複数の可能な構造を持つもの (揺れを評価)
      アノテーション基準を示しコーパス全体に網羅的に評価することが困難

                             第1回コーパス日本語学ワークショップ
2012/03/06                                               13
                                  併設シンポジウム
私が実施したいこと
 心理言語学的な実験結果をコーパス全体に付与する

「BCCWJ コアデータ (約100万語)」 もしくは「均衡がとれている最
小集合 (約30万語)」 に、心理言語実験の一次情報(読解速度
など)を網羅的に付与する

⇒先行研究: Dundee Eye Tracking Corpus [Kennedy+ 2003]
•   英語、フランス語を対象
•   10人の母語話者の視線走査情報を収録
•   新聞社説 20 ファイル (5行 40 画面)
•   研究用途に一次情報が配布されている



             (Kennedy 氏の web ページより)
                   第1回コーパス日本語学ワークショップ
2012/03/06                                          14
                        併設シンポジウム
私が実施したいこと
 心理言語学的な実験結果をコーパス全体に付与する

「BCCWJ コアデータ (約100万語)」 もしくは「均衡がとれている最
小集合 (約30万語)」 に、心理言語学的な実験結果(一次情報:
読解速度など)を網羅的に付与する
                                                  自己ペースリーディング

                                  視線走査
   アノテーション

             BCCWJ コアデータ
               (約 100万語)

                心理言語学で利用
                  される作例          大人      L2学習者   L1学習者
                   BCCWJ
                 教科書コーパス

                           第1回コーパス日本語学ワークショップ
2012/03/06                                                15
                                併設シンポジウム
自己ペースリーディング


                                       視線走査

             アノテーション

                 BCCWJ コアデータ
                   (約 100万語)


                       心理言語学で利
                        用される作例        大人      L2      L1

                         BCCWJ
                       教科書コーパス




目的:
• BCCWJ コアデータのアノテーションが誤りやすい、揺れやすい部分の検出
• 読み手をプロファイルした時空間的な分析
• 言語教育に資する適切なリーダビリティ評価
• 言語政策に資する言語現象の難易度評価
•    作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共有化し、
     心理言語学の実験結果の信頼性をサポート
•    言語処理、特に言語解析器の訓練データやデザインに利用
•    文脈ありと文脈なしでの差分
                                 第1回コーパス日本語学ワークショップ
2012/03/06                                                          16
                                      併設シンポジウム
自己ペースリーディング


                                       視線走査

             アノテーション

                 BCCWJ コアデータ
                   (約 100万語)



 誤り検出                  心理言語学で利
                        用される作例        大人      L2      L1
 ゆれ検出                    BCCWJ
                       教科書コーパス




目的: BCCWJ コアデータのアノテーションが誤りやすい、揺れやすい部分の検出

視線走査や自己ペースリーディングなどの心理言語学的な実験結果の一次情報
を網羅的に付与し、文読解に負担がかかる文を同定する

• 文読解に時間がかかる文から順に、アノテーション誤りの有無を調査する
• 文読解の時間の分散が大きい順に、アノテーションゆれの有無を調査する


                                 第1回コーパス日本語学ワークショップ
2012/03/06                                                          17
                                      併設シンポジウム
自己ペースリーディング


                                       視線走査

             アノテーション

                 BCCWJ コアデータ
                   (約 100万語)


                       心理言語学で利
 書き手の                   用される作例        大人      L2      L1

プロファイル                   BCCWJ                                 読み手の
                       教科書コーパス
                                                              プロファイル

目的: 読み手をプロファイルした時空間的な分析

読み手の世代、性別、地域などをプロファイルし、BCCWJ のメタデータに記述されたプロ
ファイルと比較調査する

• 書き手と読み手の世代差、性差、地域差が、文読解にどう影響を与えるかを調査する
• プロファイル毎に共有されない言語規範を各種アノテーションをもとに明らかにする


                                 第1回コーパス日本語学ワークショップ
2012/03/06                                                             18
                                      併設シンポジウム
自己ペースリーディング


                                        視線走査

              アノテーション

                  BCCWJ コアデータ
                    (約 100万語)


                        心理言語学で利
                         用される作例        大人      L2      L1

共通ベンチマーク                  BCCWJ
                                                              言語学習者の
                        教科書コーパス
                                                               一次データ

 目的: 言語教育に資する適切なリーダビリティ評価

 BCCWJ コアデータを共通ベンチマークとし、大人、L2 言語学習者、L1 言語学習者のデー
 タを収集する

 • 誰にとってどのくらい読みにくいテキストなのかを定量的に評価する
 • 何が読みにくいテキストたらしめているのかを各種アノテーションをもとに明らかにする


                                  第1回コーパス日本語学ワークショップ
 2012/03/06                                                          19
                                       併設シンポジウム
自己ペースリーディング


                                        視線走査

              アノテーション

                  BCCWJ コアデータ
                    (約 100万語)


                        心理言語学で利
                         用される作例        大人      L2      L1

共通ベンチマーク                  BCCWJ
                                                              言語学習者の
                        教科書コーパス
                                                               一次データ

 目的: 言語政策に資する言語現象の難易度評価

 教科書コーパスを共通ベンチマークとし、大人、L1 言語学習者のデータを収集する

 • 教科書コーパスの難易度(文字・語彙)の妥当性を検証する




                                  第1回コーパス日本語学ワークショップ
 2012/03/06                                                          20
                                       併設シンポジウム
自己ペースリーディング


                                         視線走査

               アノテーション

                   BCCWJ コアデータ
                     (約 100万語)


                         心理言語学で利
                          用される作例        大人      L2      L1
作例と均衡コーパス
                           BCCWJ
   の対比                   教科書コーパス




  目的: 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共有化し、心
  理言語学の実験結果の信頼性をサポート

  心理言語学研究者に作例を提供していただき、均衡コーパス(BCCWJ コアデータ) と混ぜ
  て、再実験を行い、心理言語実験結果の信頼性をサポートする




                                   第1回コーパス日本語学ワークショップ
  2012/03/06                                                          21
                                        併設シンポジウム
自己ペースリーディング
               人の動作を
              機械に組み込む                  視線走査

             アノテーション

                 BCCWJ コアデータ
                   (約 100万語)


                       心理言語学で利
                        用される作例        大人      L2      L1

                         BCCWJ
                       教科書コーパス




目的: 言語処理、特に言語解析器の訓練データやデザインに利用

• 人間の読解情報を直接訓練データに利用する(Ando 法に基づく半教師あり学習)
• 人間の読解情報に基づく特徴量デザインの再検討
• 人間の読解情報に基づくアルゴリズムデザインの再検討




                                 第1回コーパス日本語学ワークショップ
2012/03/06                                                          22
                                      併設シンポジウム
自己ペースリーディング


                                        視線走査

              アノテーション

                  BCCWJ コアデータ
                    (約 100万語)


                        心理言語学で利
文脈の有無による                 用される作例        大人      L2      L1
   対比
                          BCCWJ
                        教科書コーパス




 目的: 文脈ありと文脈なしでの差分分析

 文脈あり(文書単位提示) と文脈なし(文単位提示) の両方の実験を行い、
 差分から文間の関係認識が必要な個所を同定する

 • 文脈がないことにより処理が時間がかかる⇒言語処理でも文間の処理が必要



                                  第1回コーパス日本語学ワークショップ
 2012/03/06                                                          23
                                       併設シンポジウム
私が実施したいこと [再掲]
   心理言語学的な実験結果をコーパス全体に付与する
アノテーションの誤りや揺れの原因:まとめ
① 書き手と読み手が言語規範を共有しているとは限らない
② 書き手が常に言語規範どおりの処理を行っているわけでもない
③ 読み手が常に言語規範どおりの処理を行っているわけでもない
④ 複数の読み手が言語規範を共有しているとは限らない
                                                   自己ペースリーディング

                                    視線走査 読み手の
                             心理言語実験        言語規範の
     アノテーション                  1次情報          モデル化

               BCCWJ コアデータ
                 (約 100万語)

                  心理言語学で利用
   書き手の             される作例          大人        L2    L1
  言語規範の
   モデル化              BCCWJ
                   教科書コーパス

                             第1回コーパス日本語学ワークショップ
  2012/03/06                                               24
                                  併設シンポジウム
本シンポジウム(90分)の発表構成

• 話題提供者より トーク (20分×3人=60分)
      – 浅原正幸        (国語研) / 本スライド        (20分)
      – 小野創さん       (近畿大学)               (20分)
             心理言語実験で利用される方法論や例文について紹介
      – 狩野芳伸さん(科学技術振興機構)(20分)
             コーパス言語学と心理言語学を結びつける方法論について紹介




• パネルディスカッション + 全体質疑 (30分)
                    第1回コーパス日本語学ワークショップ
2012/03/06                                       25
                         併設シンポジウム
パネルディスカッション


             第1回コーパス日本語学ワークショップ
2012/03/06                        26
                  併設シンポジウム

Mais conteúdo relacionado

Semelhante a 2012/03/06 sympo

さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
Yuya Unno
 

Semelhante a 2012/03/06 sympo (6)

Nlp2018 参加報告
Nlp2018 参加報告Nlp2018 参加報告
Nlp2018 参加報告
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
2014LETシンポジウム コーパス構築計画
2014LETシンポジウム コーパス構築計画2014LETシンポジウム コーパス構築計画
2014LETシンポジウム コーパス構築計画
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
 
科学技術コミュニケーション実践入門
科学技術コミュニケーション実践入門科学技術コミュニケーション実践入門
科学技術コミュニケーション実践入門
 

2012/03/06 sympo

  • 1. コーパスアノテーションと 心理言語学 国立国語研究所 コーパス開発センター 浅原正幸 第1回コーパス日本語学ワークショップ 2012/03/06 1 併設シンポジウム
  • 2. 本シンポジウム(90分)の進め方 • 話題提供者より トーク (20分×3人=60分) – 浅原正幸 (国語研) / 本スライド (20分) – 小野創さん (近畿大学) (20分) – 狩野芳伸さん(科学技術振興機構) (20分) • 全体討議・パネルディスカッション (30分) 第1回コーパス日本語学ワークショップ 2012/03/06 2 併設シンポジウム
  • 3. 言語コーパスを利用した研究 アノテーションのないコーパス利用 • 言語学 – コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、言語の 運用実態を分析する • 言語処理 – 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現する アノテーションがないコーパスによる研究形態には限界がある アノテーション: コーパスに付与する各種言語情報 メタデータ 文境界・語境界・形態論情報(品詞、活用)・文節境界 固有表現、属性-属性値、評価表現、事象のモダリティ 統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格) 省略、共参照、事象の時間的順序関係、因果関係 第1回コーパス日本語学ワークショップ 2012/03/06 3 併設シンポジウム
  • 4. 言語コーパスを利用した研究 アノテーションのあるコーパス利用 • 言語学 – コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、言語の 運用実態を分析する – アノテーションを手掛かりとして、分析対象を絞り込んで調査することができる • 言語処理 – 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現する – 構造学習(識別モデル)などを利用して、アノテーションを再現することにより言語解析 器を実現することができる アノテーション: コーパスに付与する各種言語情報 メタデータ 文境界・語境界・形態論情報(品詞、活用)・文節境界 固有表現、属性-属性値、評価表現、事象のモダリティ 統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格) 省略、共参照、事象の時間的順序関係、因果関係 第1回コーパス日本語学ワークショップ 2012/03/06 4 併設シンポジウム
  • 5. アノテーションの誤りと揺れの存在 アノテーションの利用者の立場 • 言語学 – 言語の運用実態を分析する上での典拠となるアノテーション 正しく一貫して付与されていることを求める • 言語処理 – 学習用訓練データや、評価用ベンチマークデータとなるアノテーション 正しく一貫して付与されていることを求める アノテーションの生産者の立場 • 誤り: 作業マニュアルの整備、作業環境の整備、作業者を訓練すること により、できる限り誤りが入らないようにする • 揺れ:本質的にあいまいな言語現象について、統制した仕様を策定する ことにより、一意にアノテーションができるようにする 第1回コーパス日本語学ワークショップ 2012/03/06 5 併設シンポジウム
  • 6. コーパスとアノテーションの関係 • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text Text productive Writer 第1回コーパス日本語学ワークショップ 2012/03/06 6 併設シンポジウム
  • 7. コーパスとアノテーションの関係 • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation Annotation Text productive receptive Writer Reader 第1回コーパス日本語学ワークショップ 2012/03/06 7 併設シンポジウム
  • 8. アノテーションの誤りと揺れの原因を探る • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation Annotation Text productive receptive Writer ① 書き手と読み手が Reader 言語規範を 共有しているとは限らない 第1回コーパス日本語学ワークショップ 2012/03/06 8 併設シンポジウム
  • 9. アノテーションの誤りと揺れの原因を探る • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation ②書き手が常に言語規 範どおりの処理を行って Annotation いるわけでもない Text productive receptive Writer ① 書き手と読み手が Reader 言語規範を 共有しているとは限らない 第1回コーパス日本語学ワークショップ 2012/03/06 9 併設シンポジウム
  • 10. アノテーションの誤りと揺れの原因を探る • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation ②書き手が常に言語規 ③読み手が常に言語規 範どおりの処理を行って Annotation 範どおりの処理を行って いるわけでもない いるわけでもない Text productive receptive ① 書き手と読み手が Writer 言語規範を Reader 共有しているとは限らない 第1回コーパス日本語学ワークショップ 2012/03/06 10 併設シンポジウム
  • 11. アノテーションの誤りと揺れの原因を探る • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation Annotation 3 Annotation 2 ②書き手が常に言語規 ③読み手が常に言語規 範どおりの処理を行って Annotation 1 範どおりの処理を行って いるわけでもない いるわけでもない Text productive receptive ① 書き手と読み手が Reader Reader Reader Writer 言語規範を 共有しているとは限らない 1 2 3 第1回コーパス日本語学ワークショップ ④ 複数の読み手が言語規範を 2012/03/06 11 併設シンポジウム 共有しているとは限らない
  • 12. アノテーションの誤りや揺れをまず認める 次に何をするか • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation アノテーションの誤りや揺れの原因:まとめ ① 書き手と読み手が言語規範を共有しているとは限らない ② 書き手が常に言語規範どおりの処理を行っているわけでもない ③ 読み手が常に言語規範どおりの処理を行っているわけでもない ④ 複数の読み手が言語規範を共有しているとは限らない 定量的に「誤りやすさ」や「揺れやすさ」を評価する 第1回コーパス日本語学ワークショップ 2012/03/06 12 併設シンポジウム
  • 13. アノテーションの誤りと揺れの定量的な評価 過去に行ったこと 以下では、主に統語論情報(係り受け)レベルのアノテーションについて、 誤りと揺れの定量的な評価を試みたものを示す 1. BCCWJの係り受けアノテーション作業の作業者間の揺れの評価 BCCWJ の係り受けアノテーションは1人の作業者により並列構造をアノテーションし、 自動解析器により係り受け構造の付与したものを修正している。 評価しているものは「先行工程の誤りを検出できるか否か」 2. ゲームによる係り受けアノテーションの揺れの評価 係り受けアノテーションを shift-reduce 法に基づくアクションを人手で指定する UI を作成し、 全く係り受けアノテーションがない文を複数人にアノテーションさせる 心理言語学実験で用いられる作例を正解率や反応時間を測定する – 中間埋め込み文に基づくガーデンパス文 • 一意の構造を持つもの (誤りを評価) • 複数の可能な構造を持つもの (揺れを評価) アノテーション基準を示しコーパス全体に網羅的に評価することが困難 第1回コーパス日本語学ワークショップ 2012/03/06 13 併設シンポジウム
  • 14. 私が実施したいこと 心理言語学的な実験結果をコーパス全体に付与する 「BCCWJ コアデータ (約100万語)」 もしくは「均衡がとれている最 小集合 (約30万語)」 に、心理言語実験の一次情報(読解速度 など)を網羅的に付与する ⇒先行研究: Dundee Eye Tracking Corpus [Kennedy+ 2003] • 英語、フランス語を対象 • 10人の母語話者の視線走査情報を収録 • 新聞社説 20 ファイル (5行 40 画面) • 研究用途に一次情報が配布されている (Kennedy 氏の web ページより) 第1回コーパス日本語学ワークショップ 2012/03/06 14 併設シンポジウム
  • 15. 私が実施したいこと 心理言語学的な実験結果をコーパス全体に付与する 「BCCWJ コアデータ (約100万語)」 もしくは「均衡がとれている最 小集合 (約30万語)」 に、心理言語学的な実験結果(一次情報: 読解速度など)を網羅的に付与する 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利用 される作例 大人 L2学習者 L1学習者 BCCWJ 教科書コーパス 第1回コーパス日本語学ワークショップ 2012/03/06 15 併設シンポジウム
  • 16. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2 L1 BCCWJ 教科書コーパス 目的: • BCCWJ コアデータのアノテーションが誤りやすい、揺れやすい部分の検出 • 読み手をプロファイルした時空間的な分析 • 言語教育に資する適切なリーダビリティ評価 • 言語政策に資する言語現象の難易度評価 • 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共有化し、 心理言語学の実験結果の信頼性をサポート • 言語処理、特に言語解析器の訓練データやデザインに利用 • 文脈ありと文脈なしでの差分 第1回コーパス日本語学ワークショップ 2012/03/06 16 併設シンポジウム
  • 17. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 誤り検出 心理言語学で利 用される作例 大人 L2 L1 ゆれ検出 BCCWJ 教科書コーパス 目的: BCCWJ コアデータのアノテーションが誤りやすい、揺れやすい部分の検出 視線走査や自己ペースリーディングなどの心理言語学的な実験結果の一次情報 を網羅的に付与し、文読解に負担がかかる文を同定する • 文読解に時間がかかる文から順に、アノテーション誤りの有無を調査する • 文読解の時間の分散が大きい順に、アノテーションゆれの有無を調査する 第1回コーパス日本語学ワークショップ 2012/03/06 17 併設シンポジウム
  • 18. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 書き手の 用される作例 大人 L2 L1 プロファイル BCCWJ 読み手の 教科書コーパス プロファイル 目的: 読み手をプロファイルした時空間的な分析 読み手の世代、性別、地域などをプロファイルし、BCCWJ のメタデータに記述されたプロ ファイルと比較調査する • 書き手と読み手の世代差、性差、地域差が、文読解にどう影響を与えるかを調査する • プロファイル毎に共有されない言語規範を各種アノテーションをもとに明らかにする 第1回コーパス日本語学ワークショップ 2012/03/06 18 併設シンポジウム
  • 19. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2 L1 共通ベンチマーク BCCWJ 言語学習者の 教科書コーパス 一次データ 目的: 言語教育に資する適切なリーダビリティ評価 BCCWJ コアデータを共通ベンチマークとし、大人、L2 言語学習者、L1 言語学習者のデー タを収集する • 誰にとってどのくらい読みにくいテキストなのかを定量的に評価する • 何が読みにくいテキストたらしめているのかを各種アノテーションをもとに明らかにする 第1回コーパス日本語学ワークショップ 2012/03/06 19 併設シンポジウム
  • 20. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2 L1 共通ベンチマーク BCCWJ 言語学習者の 教科書コーパス 一次データ 目的: 言語政策に資する言語現象の難易度評価 教科書コーパスを共通ベンチマークとし、大人、L1 言語学習者のデータを収集する • 教科書コーパスの難易度(文字・語彙)の妥当性を検証する 第1回コーパス日本語学ワークショップ 2012/03/06 20 併設シンポジウム
  • 21. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2 L1 作例と均衡コーパス BCCWJ の対比 教科書コーパス 目的: 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共有化し、心 理言語学の実験結果の信頼性をサポート 心理言語学研究者に作例を提供していただき、均衡コーパス(BCCWJ コアデータ) と混ぜ て、再実験を行い、心理言語実験結果の信頼性をサポートする 第1回コーパス日本語学ワークショップ 2012/03/06 21 併設シンポジウム
  • 22. 自己ペースリーディング 人の動作を 機械に組み込む 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2 L1 BCCWJ 教科書コーパス 目的: 言語処理、特に言語解析器の訓練データやデザインに利用 • 人間の読解情報を直接訓練データに利用する(Ando 法に基づく半教師あり学習) • 人間の読解情報に基づく特徴量デザインの再検討 • 人間の読解情報に基づくアルゴリズムデザインの再検討 第1回コーパス日本語学ワークショップ 2012/03/06 22 併設シンポジウム
  • 23. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 文脈の有無による 用される作例 大人 L2 L1 対比 BCCWJ 教科書コーパス 目的: 文脈ありと文脈なしでの差分分析 文脈あり(文書単位提示) と文脈なし(文単位提示) の両方の実験を行い、 差分から文間の関係認識が必要な個所を同定する • 文脈がないことにより処理が時間がかかる⇒言語処理でも文間の処理が必要 第1回コーパス日本語学ワークショップ 2012/03/06 23 併設シンポジウム
  • 24. 私が実施したいこと [再掲] 心理言語学的な実験結果をコーパス全体に付与する アノテーションの誤りや揺れの原因:まとめ ① 書き手と読み手が言語規範を共有しているとは限らない ② 書き手が常に言語規範どおりの処理を行っているわけでもない ③ 読み手が常に言語規範どおりの処理を行っているわけでもない ④ 複数の読み手が言語規範を共有しているとは限らない 自己ペースリーディング 視線走査 読み手の 心理言語実験 言語規範の アノテーション 1次情報 モデル化 BCCWJ コアデータ (約 100万語) 心理言語学で利用 書き手の される作例 大人 L2 L1 言語規範の モデル化 BCCWJ 教科書コーパス 第1回コーパス日本語学ワークショップ 2012/03/06 24 併設シンポジウム
  • 25. 本シンポジウム(90分)の発表構成 • 話題提供者より トーク (20分×3人=60分) – 浅原正幸 (国語研) / 本スライド (20分) – 小野創さん (近畿大学) (20分) 心理言語実験で利用される方法論や例文について紹介 – 狩野芳伸さん(科学技術振興機構)(20分) コーパス言語学と心理言語学を結びつける方法論について紹介 • パネルディスカッション + 全体質疑 (30分) 第1回コーパス日本語学ワークショップ 2012/03/06 25 併設シンポジウム
  • 26. パネルディスカッション 第1回コーパス日本語学ワークショップ 2012/03/06 26 併設シンポジウム