O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
日本語スピーキングテスト
SJ-CATの開発
石塚 賢吉 (株式会社ドワンゴ)
菊地 賢一 (東邦大学)
篠崎 隆宏 (東京工業大学)
西村 竜一 (和歌山大学)
山田 武志 (筑波大学)
今井 新悟 (筑波大学)
研究の背景
• グローバル化に伴い、非母語話者の言語能力を測定するテストの需要が高まっている
• 言語能力の4つの技能「読む、聞く、書く、話す」のうち、特に「話す能力」を測定する
テストの実施には大きなコストがかかる
• 音声認識技術を用いて非...
研究の目的
• 日本語の総合的なスピーキング能力の測定を行うテストである
SJ-CAT(Speaking Japanese Computerized Adaptive Test)
の開発を行っている
• SJ-CATの特徴
• インターネットか...
SJ-CATのテストの構成
セクション1
(1a)文読み上げ問題
Q.(音声): 「例を聞いて、次の文を読んでください。」 き
「おじさんとおじいさんが来ました。」
(1b)選択肢読み上げ問題
(2人がテーブルに座って話している画像を表示)
Q...
SJ-CATのテストの構成
セクション2
(2a) 文生成問題
(箱を開ける動画を表示)
Q.(音声): 「何をしていますか?」
(2b)自由発話問題
Q.(音声): 「次の質問に、30秒ぐらいで答えてください。消費税が上がることに賛成ですか、...
SJ-CATによる受験者の能力推定の概要
• SJ-CATは、項目応答理論に基づく段階反応モデルを用いたアダプティブテストである
• SJ-CATの問題プール中の問題𝑗には、能力値𝜃の受験者に出題したとき、
𝑘点以上のスコアとなる確率を表す下記...
SJ-CATによる受験者の能力推定の概要
• SJ-CATは、項目応答理論に基づく段階反応モデルを用いたアダプティブテストである
• SJ-CATの問題プール中の問題𝑗には、能力値𝜃の受験者に出題したとき、
𝑘点以上のスコアとなる確率を表す下記...
テストの流れ
セクション開始
固定問題の出題
問題の出題
何問目?
採点
事前分布の初期値の算出
終了判定
セクション
終了?
固定問題に
答える
SJ-CATサーバ 受験者
テストを開始
セクション
番号は?
1, 2問目
3問目以降
セクシ...
テストの流れ
セクション開始
固定問題の出題
問題の出題
何問目?
採点
事前分布の初期値の算出
終了判定
セクション
終了?
固定問題に
答える
SJ-CATサーバ 受験者
テストを開始
セクション
番号は?
1, 2問目
3問目以降
セクシ...
テストの流れ
セクション開始
固定問題の出題
問題の出題
何問目?
採点
事前分布の初期値の算出
終了判定
セクション
終了?
固定問題に
答える
SJ-CATサーバ 受験者
テストを開始
セクション
番号は?
1, 2問目
3問目以降
セクシ...
テストの流れ
セクション開始
固定問題の出題
問題の出題
何問目?
採点
事前分布の初期値の算出
終了判定
セクション
終了?
固定問題に
答える
SJ-CATサーバ 受験者
テストを開始
セクション
番号は?
1, 2問目
3問目以降
セクシ...
テストの流れ
セクション開始
固定問題の出題
問題の出題
何問目?
採点
事前分布の初期値の算出
終了判定
セクション
終了?
固定問題に
答える
SJ-CATサーバ 受験者
テストを開始
セクション
番号は?
1, 2問目
3問目以降
セクシ...
テストの流れ
セクション開始
固定問題の出題
問題の出題
何問目?
採点
事前分布の初期値の算出
終了判定
セクション
終了?
固定問題に
答える
SJ-CATサーバ 受験者
テストを開始
セクション
番号は?
1, 2問目
3問目以降
セクシ...
システムの流れ
セクション開始
固定問題の出題
問題の出題
何問目?
採点
事前分布の初期値の算出
終了判定
セクション
終了?
固定問題に
答える
システム 受験者
テストを開始
セクション
番号は?
1, 2問目
3問目以降
セクション1終...
テストの流れ
セクション開始
固定問題の出題
問題の出題
何問目?
採点
事前分布の初期値の算出
終了判定
セクション
終了?
固定問題に
答える
システム 受験者
テストを開始
セクション
番号は?
1, 2問目
3問目以降
セクション1終了...
テストの流れ
セクション開始
固定問題の出題
問題の出題
何問目?
採点
事前分布の初期値の算出
終了判定
セクション
終了?
固定問題に
答える
SJ-CATサーバ 受験者
テストを開始
セクション
番号は?
1, 2問目
3問目以降
セクシ...
テストの流れ
セクション開始
固定問題の出題
問題の出題
何問目?
採点
事前分布の初期値の算出
終了判定
セクション
終了?
固定問題に
答える
SJ-CATサーバ 受験者
テストを開始
セクション
番号は?
1, 2問目
3問目以降
セクシ...
テストの流れ
セクション開始
固定問題の出題
問題の出題
何問目?
採点
事前分布の初期値の算出
終了判定
終了?
固定問題に
答える
SJ-CATサーバ 受験者
テストを開始
1, 2問目
3問目以降
セクション1終了
セクション2終了
点数...
採点機能
採点機能の基本的な流れ
前処理(VAD)
音声認識フェーズ
音声特徴量による
採点フェーズ
採点機能
採点機能の基本的な流れ
前処理(VAD)
音声認識フェーズ
音声特徴量による
採点フェーズ
• 応答音声から、CENSREC-1によるVADで音声区間以外を除去
採点機能
採点機能の基本的な流れ
前処理(VAD)
音声認識フェーズ
音声特徴量による
採点フェーズ
• アルゴリズムの異なる音声認識器であるJuliusと𝑇3に
より音声認識を行う
• 受験者が適切な回答をしているか評価し、音声特徴量
による...
採点機能
採点機能の基本的な流れ
前処理(VAD)
音声認識フェーズ
音声特徴量による
採点フェーズ
• 音声特徴量をもとに応答音声の流暢さや自然さを評価する
採点機能
採点機能の基本的な流れ
前処理(VAD)
音声認識フェーズ
音声特徴量による
採点フェーズ
問題の種類のよって違う仕組みになっている
文読み上げ・選択肢読み上げ問題
• 音声認識フェーズ
• Juliusと𝑇3では、読み上げ文をそれぞれ一つの「単語」として登録し、
孤立単語認識を行い、N-best解を出力する
• 認識結果に基づいて、受験者の回答が適切かを判定する
• 文読み...
文読み上げ問題・選択肢読み上げ問題
• 音声特徴量による採点フェーズ
• 下記8次元の特徴量からSVR(Support Vector Regression)で採点する
番号 音声特徴量
1 音素発話長差分距離
2 基本周波数パターン差分距離
3...
文読み上げ問題・選択肢読み上げ問題
• 音声特徴量による採点フェーズ
• 下記8次元の特徴量からSVR(Support Vector Regression)で採点する。
番号 音声特徴量
1 音素発話長差分距離
2 基本周波数パターン差分距離
...
• 受験者の読み上げ音声の音素ごとの長さをもとに、発話の日本語としての自然さを
評価する特徴量
• 日本語母語話者10人による読み上げ音声をサンプルとして用意する
• 日本語母語話者10名と比較し、最も小さい を音素発話長差分距離
の特徴量とし...
基本周波数パターン差分距離
0
20
40
60
80
100
120
140
160
180
基本周波数
フレーム(i)
0
20
40
60
80
100
120
140
160
基本周波数
フレーム(i)
o h a y o
a yoh ...
文読み上げ問題・選択肢読み上げ問題
• 音声特徴量による採点フェーズ
• 下記8次元の特徴量からSVRで採点する
番号 音声特徴量
1 音素発話長差分距離
2 基本周波数パターン差分距離
3 スピーキングレート𝑆1
4 スピーキングレート𝑆2
...
スピーキングレートの計算
4人家族で弟がいます 弟は小学生です
発話全体の長さ
音声区間の長さ
息継ぎ区間の長さ
録音時間
𝑆3 =
息継ぎ区間の長さ
発話全体の長さ
𝑆2 =
音素数
音声区間の長さ
𝑆1 =
音素数
発話全体の長さ
𝑆4 =...
文読み上げ問題・選択肢読み上げ問題
• 音声特徴量による採点フェーズ
• 下記8次元の特徴量からSVRで採点する。
認識された正解文の単語音響尤度を
音声区間の長さで割ったもの
番号 音声特徴量
1 音素発話長差分距離
2 基本周波数パターン差...
文生成問題
• 音声認識フェーズ
• 3つの音声認識器を使用して音声認識を行う
• (1)ディクテーション用の言語モデルを使用するJulius
• (2)ディクテーション用の言語モデルを使用する 𝑇3
• (3)キーフレーズスポッティングモデル...
文生成問題
• 音声特徴量による採点フェーズ
• 下記5次元の特徴量からSVRで採点する
番号 音声特徴量
1 Juliusによるキーフレーズ抽出の成否 (1 or 0)
2 𝑇3によるキーフレーズ抽出の成否 (1 or 0)
3 キーフレーズ...
自由発話問題
• 音声認識フェーズ
• Juliusと𝑇3で下記を融合した言語モデルを使用して音声認識を行う
• 被験者実験で収集した自由発話問題への応答音声の書き起こし文書から生成した言語モデル
• 様々なコーパスをもとに生成した汎用的な言語...
自由発話問題
• 音声特徴量による採点フェーズ
• 下記4次元の特徴量からSVRで採点する
番号 音声特徴量
1 語彙多様性
2 発話量
4 スピーキングレート𝑆1
5 スピーキングレート𝑆2
自由発話問題
• 音声特徴量による採点フェーズ
• 下記4次元の特徴量からSVRで採点する
番号 音声特徴量
1 語彙多様性
2 発話量
4 スピーキングレート𝑆1
5 スピーキングレート𝑆2
認識文に含まれる単語の
異なり語数と述べ語数をもと...
自由発話問題
• 音声特徴量による採点フェーズ
• 下記4次元の特徴量からSVRで採点する
番号 音声特徴量
1 語彙多様性
2 発話量
4 スピーキングレート𝑆1
5 スピーキングレート𝑆2
認識文に含まれる音素数を
録音時間で割ったもの
発...
被験者実験 (採点機能の検証)
• SJ-CATの各採点機能が、受験者の応答音声を適切に採点できるかどうかを
確かめるために被験者実験を行う
• 各問題について81~114名の被験者が答えた音声データを
日本語教員3~5名が0から4点で採点する...
被験者実験 (採点機能の検証)
相関係数r RMSE
文読み上げ問題 0.77 0.49
選択肢読み上げ問題 0.89 0.64
文生成問題 0.70 1.25
自由発話問題 0.91 0.63
• モデル構築のためのデータを提供した被験者とは...
被験者実験 (採点機能の検証)
相関係数r RMSE
文読み上げ問題 0.77 0.49
選択肢読み上げ問題 0.89 0.64
文生成問題 0.70 1.25
自由発話問題 0.91 0.63
• 受験者に最も長い時間発話してもらう自由発話問...
被験者実験 (採点機能の検証)
相関係数r RMSE
文読み上げ問題 0.77 0.49
選択肢読み上げ問題 0.89 0.64
文生成問題 0.70 1.25
自由発話問題 0.91 0.63
• 最も相関係数の値が低く、RMSEが大きいもの...
被験者実験 (能力推定の検証)
• 各問題について被験者が獲得した点数のパターンをもとに、項目応答理論による
能力推定で使用する各問題の識別力と困難度のパラメータ値を求める
• EasyEstGRMを利用
• 6大学の日本語学習者にSJ-CAT...
被験者実験 (能力推定の検証)
• 受験者のSJ-CATのセクションごとの結果とセクションの合計の結果と、
JSSTの結果とのピアソンの積率相関係数を示す
• 両テスト間に「ある程度の相関がある」と解釈できる
• セクション1の結果とセクション...
被験者実験 (能力推定の検証)
• 受験者のレベルの偏りが少なかったA大学の60人分の受験者の散布図、
ABC大学100人分の受験者の散布図、全6大学178人分の散布図とピアソンの積率相関係数rを示す
JSST(A大学のみ) r=0.81 JS...
被験者実験 (能力推定の検証)
• 受験者のレベルの偏りが少なかったA大学の60人分の受験者の散布図、
ABC大学100人分の受験者の散布図、全6大学178人分の散布図とピアソンの積率相関係数rを示す
JSST(A大学のみ) r=0.81 JS...
おわりに
• 日本語の総合的なスピーキング能力の測定を行うSJ-CATを開発した
• 人間が評定を行う日本語スピーキングテストの結果とSJ-CATの結果を比較する
被験者実験を行った
• 被験者実験の結果から、両テストの結果の間にある程度の相関...
Próximos SlideShares
Carregando em…5
×

日本語スピーキングテストSJ-CATの開発

1.185 visualizações

Publicada em

本論文では、日本語学習者の日本語スピーキング能力の測定をインターネット上で実施できる適応型テストシステム SJ-CAT の開発について述べる。SJ-CAT のテスト問題は、日本語教員が作成した (1)文読み上げ問題、(2) 選択肢読み上げ問題、(3) 文生成問題、(4) 自由発話問題の 4 種類の問題で構成されており、音声の特徴量(キーワード、韻律、音響尤度、スピーキングレートなど)と得点との対応関係を表現するモデルを使用して採点を行う。そして、項目応答理論に基づく段階反応モデルで受験者の総合的な日本語スピーキング能力を測定する。本論文では、訓練された人間が評定を行う日本語スピーキングテストの結果と SJ-CAT の結果を比較する被験者実験を行う。被験者実験の結果、両者にある程度の相関があり、SJ-CAT により受験者の日本語スピーキング能力を測定できることを確認した。

Publicada em: Engenharia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

日本語スピーキングテストSJ-CATの開発

  1. 1. 日本語スピーキングテスト SJ-CATの開発 石塚 賢吉 (株式会社ドワンゴ) 菊地 賢一 (東邦大学) 篠崎 隆宏 (東京工業大学) 西村 竜一 (和歌山大学) 山田 武志 (筑波大学) 今井 新悟 (筑波大学)
  2. 2. 研究の背景 • グローバル化に伴い、非母語話者の言語能力を測定するテストの需要が高まっている • 言語能力の4つの技能「読む、聞く、書く、話す」のうち、特に「話す能力」を測定する テストの実施には大きなコストがかかる • 音声認識技術を用いて非母語話者のスピーキング能力を測定するシステムに関する 研究が行われている • 日本人英語学習者の短い発話を自動採点するシステムの実現可能性 (近藤, 2015) • 英語学習者の文発声における韻律自動評定 (加藤, 2003)
  3. 3. 研究の目的 • 日本語の総合的なスピーキング能力の測定を行うテストである SJ-CAT(Speaking Japanese Computerized Adaptive Test) の開発を行っている • SJ-CATの特徴 • インターネットから受験可能な自動採点スピーキングテスト • 項目応答理論を用いたアダプティブテスト • 30秒程度の発話を扱う自由発話問題も含む 音声認識を用いた唯一の英語スピーキング能力テストであるVersantでも、 長めの自由発話を扱う問題を受験者の能力測定には利用していない
  4. 4. SJ-CATのテストの構成 セクション1 (1a)文読み上げ問題 Q.(音声): 「例を聞いて、次の文を読んでください。」 き 「おじさんとおじいさんが来ました。」 (1b)選択肢読み上げ問題 (2人がテーブルに座って話している画像を表示) Q.(音声):「2人は何をしていますか」
  5. 5. SJ-CATのテストの構成 セクション2 (2a) 文生成問題 (箱を開ける動画を表示) Q.(音声): 「何をしていますか?」 (2b)自由発話問題 Q.(音声): 「次の質問に、30秒ぐらいで答えてください。消費税が上がることに賛成ですか、 反対ですか。その理由も言ってください。」(制限時間40秒)
  6. 6. SJ-CATによる受験者の能力推定の概要 • SJ-CATは、項目応答理論に基づく段階反応モデルを用いたアダプティブテストである • SJ-CATの問題プール中の問題𝑗には、能力値𝜃の受験者に出題したとき、 𝑘点以上のスコアとなる確率を表す下記のモデルが設定されている • 能力値𝜃の受験者が問題𝑗においてスコア𝑘を獲得する確率を下記の式で表す • 受験者が実際に獲得した点数と各問題に設定されたモデルをもとに能力値分布関数 ℎ 𝑛 𝜃 を更新しながら、受験者の能力値𝜃を推定する 𝑝𝑗,𝑘 ∗ 𝜃 = 1 1 + 𝑒−1.7𝑎 𝑗 𝜃−𝑏 𝑗,𝑘 (𝑘 = 1,2,3,4) )1 (𝑘 = 0 𝑝𝑗,𝑘(𝜃) = 𝑝𝑗,𝑘 ∗ 𝜃 − 𝑝𝑗,𝑘+1 ∗ 𝜃 (𝑘 = 0,1,2,3) 𝑝𝑗,𝑘 ∗ 𝜃 (𝑘 = 4)
  7. 7. SJ-CATによる受験者の能力推定の概要 • SJ-CATは、項目応答理論に基づく段階反応モデルを用いたアダプティブテストである • SJ-CATの問題プール中の問題𝑗には、能力値𝜃の受験者に出題したとき、 𝑘点以上のスコアとなる確率を表す下記のモデルが設定されている • 能力値𝜃の受験者が問題𝑗においてスコア𝑘を獲得する確率を下記の式で表す • 受験者が実際に獲得した点数と各問題に設定されたモデルをもとに能力値分布関数 ℎ 𝑛 𝜃 を更新しながら、受験者の能力値𝜃を推定する 𝑝𝑗,𝑘 ∗ 𝜃 = 1 1 + 𝑒−1.7𝑎 𝑗 𝜃−𝑏 𝑗,𝑘 (𝑘 = 1,2,3,4) )1 (𝑘 = 0 𝑝𝑗,𝑘(𝜃) = 𝑝𝑗,𝑘 ∗ 𝜃 − 𝑝𝑗,𝑘+1 ∗ 𝜃 (𝑘 = 0,1,2,3) 𝑝𝑗,𝑘 ∗ 𝜃 (𝑘 = 4) 以降で説明する能力推定の計算は、 𝜃の値の範囲を区間[-4,4]とし、 この範囲を20の区間に分割する21の離散点での近似計算として実装されている
  8. 8. テストの流れ セクション開始 固定問題の出題 問題の出題 何問目? 採点 事前分布の初期値の算出 終了判定 セクション 終了? 固定問題に 答える SJ-CATサーバ 受験者 テストを開始 セクション 番号は? 1, 2問目 3問目以降 セクション1終了 セクション2終了 点数の提示 結果を確認 No Yes 次の セクションへ 採点 能力値分布の更新 問題に答える
  9. 9. テストの流れ セクション開始 固定問題の出題 問題の出題 何問目? 採点 事前分布の初期値の算出 終了判定 セクション 終了? 固定問題に 答える SJ-CATサーバ 受験者 テストを開始 セクション 番号は? 1, 2問目 3問目以降 セクション1終了 セクション2終了 3.6 点数の提示 結果を確認 No Yes 次の セクションへ 採点 能力値分布の更新 問題に答える • HTML5で実装されたテストクライアント • Webブラウザ上で問題の提示 • 応答音声の録音
  10. 10. テストの流れ セクション開始 固定問題の出題 問題の出題 何問目? 採点 事前分布の初期値の算出 終了判定 セクション 終了? 固定問題に 答える SJ-CATサーバ 受験者 テストを開始 セクション 番号は? 1, 2問目 3問目以降 セクション1終了 セクション2終了 点数の提示 結果を確認 No Yes 次の セクションへ 採点 能力値分布の更新 問題に答える
  11. 11. テストの流れ セクション開始 固定問題の出題 問題の出題 何問目? 採点 事前分布の初期値の算出 終了判定 セクション 終了? 固定問題に 答える SJ-CATサーバ 受験者 テストを開始 セクション 番号は? 1, 2問目 3問目以降 セクション1終了 セクション2終了 点数の提示 結果を確認 No Yes 次の セクションへ 採点 能力値分布の更新 問題に答える 0点~4点の5段階で採点
  12. 12. テストの流れ セクション開始 固定問題の出題 問題の出題 何問目? 採点 事前分布の初期値の算出 終了判定 セクション 終了? 固定問題に 答える SJ-CATサーバ 受験者 テストを開始 セクション 番号は? 1, 2問目 3問目以降 セクション1終了 セクション2終了 点数の提示 結果を確認 No Yes 次の セクションへ 採点 能力値分布の更新 問題に答える • ベイズ推定による能力値推定に 使用する事前分布の初期値を求める • 固定問題の数を𝑁 、固定問題のスコア の合計を𝑆(𝑆 = 0,1, … , 8)としたとき、 事前分布の初期値を下記の 𝜇 を中心とし、 分散を1とした正規分布としている • 以降で説明する能力値推定の計算で 使用する事前分布の初期値 となる 𝜇 = −1 (𝑆 = 0) log 𝑆 4𝑁 − 𝑆 (0 < 𝑆 < 4𝑁) 1 (𝑆 = 4𝑁) ℎ0 𝜃
  13. 13. テストの流れ セクション開始 固定問題の出題 問題の出題 何問目? 採点 事前分布の初期値の算出 終了判定 セクション 終了? 固定問題に 答える SJ-CATサーバ 受験者 テストを開始 セクション 番号は? 1, 2問目 3問目以降 セクション1終了 セクション2終了 点数の提示 結果を確認 No Yes 次の セクションへ 採点 能力値分布の更新 問題に答える
  14. 14. システムの流れ セクション開始 固定問題の出題 問題の出題 何問目? 採点 事前分布の初期値の算出 終了判定 セクション 終了? 固定問題に 答える システム 受験者 テストを開始 セクション 番号は? 1, 2問目 3問目以降 セクション1終了 セクション2終了 点数の提示 結果を確認 No Yes 次の セクションへ 採点 能力値分布の更新 問題に答える 受験者の能力値分布(事後分布)の分散の期待値 が最も小さくなるように問題プールから問題を 選択する
  15. 15. テストの流れ セクション開始 固定問題の出題 問題の出題 何問目? 採点 事前分布の初期値の算出 終了判定 セクション 終了? 固定問題に 答える システム 受験者 テストを開始 セクション 番号は? 1, 2問目 3問目以降 セクション1終了 セクション2終了 点数の提示 結果を確認 No Yes 次の セクションへ 採点 能力値分布の更新 問題に答える • 採点機能により算出された問題𝑗の スコア𝑢に基づいて能力値分布を 更新する • 𝑛 − 1問目の問題に回答した時点での、 受験者の能力値分布(事前分布)を ℎ 𝑛−1(𝜃)としたとき、 𝑛問目に回答した 受験者の能力値分布(事後分布)ℎ 𝑛 𝜃 は下記の式で計算される ℎ 𝑛 𝜃 = ℎ 𝑛−1 𝜃 𝑝𝑗,𝑢(𝜃) −∞ ∞ ℎ 𝑛−1 𝜃 𝑝𝑗,𝑢(𝜃)𝑑𝜃 • ℎ 𝑛 𝜃 の標準偏差が閾値未満になるか、 受験者が答えた問題の数𝑛が閾値を 超えるとセクション終了
  16. 16. テストの流れ セクション開始 固定問題の出題 問題の出題 何問目? 採点 事前分布の初期値の算出 終了判定 セクション 終了? 固定問題に 答える SJ-CATサーバ 受験者 テストを開始 セクション 番号は? 1, 2問目 3問目以降 セクション1終了 セクション2終了 点数の提示 結果を確認 No Yes 次の セクションへ 採点 能力値分布の更新 問題に答える
  17. 17. テストの流れ セクション開始 固定問題の出題 問題の出題 何問目? 採点 事前分布の初期値の算出 終了判定 セクション 終了? 固定問題に 答える SJ-CATサーバ 受験者 テストを開始 セクション 番号は? 1, 2問目 3問目以降 セクション1終了 セクション2終了 点数の提示 結果を確認 No Yes 次の セクションへ 採点 能力値分布の更新 問題に答える セクションごとの能力値分布の事後分布 ℎ 𝑛 𝜃 の平均値𝜇 𝑛をもとに、合計100点満点 になる点数に換算して受験者に提示する。 セクション1の点数 = (セクション1のμ 𝑛 × 15 + 50) × 0.25 セクション2の点数 = (セクション2のμ 𝑛 × 15 + 50) × 0.75
  18. 18. テストの流れ セクション開始 固定問題の出題 問題の出題 何問目? 採点 事前分布の初期値の算出 終了判定 終了? 固定問題に 答える SJ-CATサーバ 受験者 テストを開始 1, 2問目 3問目以降 セクション1終了 セクション2終了 点数の提示 結果を確認 No Yes 次の セクションへ 採点 能力値分布の更新 問題に答える セクション 終了? セクション 番号は?
  19. 19. 採点機能 採点機能の基本的な流れ 前処理(VAD) 音声認識フェーズ 音声特徴量による 採点フェーズ
  20. 20. 採点機能 採点機能の基本的な流れ 前処理(VAD) 音声認識フェーズ 音声特徴量による 採点フェーズ • 応答音声から、CENSREC-1によるVADで音声区間以外を除去
  21. 21. 採点機能 採点機能の基本的な流れ 前処理(VAD) 音声認識フェーズ 音声特徴量による 採点フェーズ • アルゴリズムの異なる音声認識器であるJuliusと𝑇3に より音声認識を行う • 受験者が適切な回答をしているか評価し、音声特徴量 による採点フェーズに 進むかどうかを決める • Juliusで音素アライメントを行い、後のフェーズで使う
  22. 22. 採点機能 採点機能の基本的な流れ 前処理(VAD) 音声認識フェーズ 音声特徴量による 採点フェーズ • 音声特徴量をもとに応答音声の流暢さや自然さを評価する
  23. 23. 採点機能 採点機能の基本的な流れ 前処理(VAD) 音声認識フェーズ 音声特徴量による 採点フェーズ 問題の種類のよって違う仕組みになっている
  24. 24. 文読み上げ・選択肢読み上げ問題 • 音声認識フェーズ • Juliusと𝑇3では、読み上げ文をそれぞれ一つの「単語」として登録し、 孤立単語認識を行い、N-best解を出力する • 認識結果に基づいて、受験者の回答が適切かを判定する • 文読み上げ問題の場合、下記のフローで判定を行う スタートJuliusの 第一候補が 正解文? 𝑇3のn-best中に正解文がある? Yes Yes No 𝑇3 の 第一候補が 正解文? Juliusのn-best中に正解文がある? No Yes Yes No No 0点 1点 1点 音声特徴量による採点フェーズ 音声特徴量による採点フェーズ
  25. 25. 文読み上げ問題・選択肢読み上げ問題 • 音声特徴量による採点フェーズ • 下記8次元の特徴量からSVR(Support Vector Regression)で採点する 番号 音声特徴量 1 音素発話長差分距離 2 基本周波数パターン差分距離 3 スピーキングレート𝑆1 4 スピーキングレート𝑆2 5 スピーキングレート𝑆3 6 スピーキングレート𝑆3 7 Juliusの単語音響尤度のフレーム平均 8 𝑇3 の単語音響尤度のフレーム平均
  26. 26. 文読み上げ問題・選択肢読み上げ問題 • 音声特徴量による採点フェーズ • 下記8次元の特徴量からSVR(Support Vector Regression)で採点する。 番号 音声特徴量 1 音素発話長差分距離 2 基本周波数パターン差分距離 3 スピーキングレート𝑆1 4 スピーキングレート𝑆2 5 スピーキングレート𝑆3 6 スピーキングレート𝑆3 7 Juliusの単語音響尤度のフレーム平均 8 𝑇3 の単語音響尤度のフレーム平均
  27. 27. • 受験者の読み上げ音声の音素ごとの長さをもとに、発話の日本語としての自然さを 評価する特徴量 • 日本語母語話者10人による読み上げ音声をサンプルとして用意する • 日本語母語話者10名と比較し、最も小さい を音素発話長差分距離 の特徴量として採用 音素発話長差分距離 o h a y o o h a y o 受験者 日本語母語話者 おーはよう おはよう 𝑑𝑙(𝑗, 𝑡) = 𝑎𝑣𝑔( 𝑙𝑗,𝑛+1 − 𝑙𝑗,𝑛 − 𝑙 𝑡,𝑛+1 − 𝑙 𝑡,𝑛 𝑗 𝑙𝑗2𝑙𝑗1 𝑙𝑗3 𝑙𝑗4 𝑙𝑗5 𝑙 𝑡2𝑙 𝑡1 𝑙 𝑡3 𝑙 𝑡4 𝑙 𝑡5 𝑡 𝑑𝑗 𝑗, 𝑡
  28. 28. 基本周波数パターン差分距離 0 20 40 60 80 100 120 140 160 180 基本周波数 フレーム(i) 0 20 40 60 80 100 120 140 160 基本周波数 フレーム(i) o h a y o a yoh o 日本語母語話者による発話 受験者による発話 • 受験者の読み上げ音声の韻律の自然さを評価する特徴量 • 日本語母語話者10人による読み上げ音声をサンプルとして用意する • フレーム単位における日本語母語話者と受験者の発話音声の 基本周波数パターンの回帰直線の傾きを比較する • フレーム𝑖(𝑖 = 1, … , 𝐼)における日本語母語話者jの音声の基本周波数を𝑓𝑗 𝑖 受験者tの音声の基本周波数を𝑓𝑡(𝑖)としたとき、基本周波数パターン差分距離 𝑑 𝑓 𝑗, 𝑡 は 𝑑 𝑓 𝑗, 𝑡 = 𝑎𝑣𝑔 𝑓𝑗 𝑖 + 1 − 𝑓𝑗 𝑖 − 𝑓𝑡 𝑖 + 1 − 𝑓𝑡 𝑖
  29. 29. 文読み上げ問題・選択肢読み上げ問題 • 音声特徴量による採点フェーズ • 下記8次元の特徴量からSVRで採点する 番号 音声特徴量 1 音素発話長差分距離 2 基本周波数パターン差分距離 3 スピーキングレート𝑆1 4 スピーキングレート𝑆2 5 スピーキングレート𝑆3 6 スピーキングレート𝑆3 7 Juliusの単語音響尤度のフレーム平均 8 𝑇3 の単語音響尤度のフレーム平均
  30. 30. スピーキングレートの計算 4人家族で弟がいます 弟は小学生です 発話全体の長さ 音声区間の長さ 息継ぎ区間の長さ 録音時間 𝑆3 = 息継ぎ区間の長さ 発話全体の長さ 𝑆2 = 音素数 音声区間の長さ 𝑆1 = 音素数 発話全体の長さ 𝑆4 = 1 音素数 𝑘 𝑛 𝑆2 − 1 音素 𝑘の長さ 2 SJ-CATでは以下4種類のスピーキングレートを使用して流暢さを評価する
  31. 31. 文読み上げ問題・選択肢読み上げ問題 • 音声特徴量による採点フェーズ • 下記8次元の特徴量からSVRで採点する。 認識された正解文の単語音響尤度を 音声区間の長さで割ったもの 番号 音声特徴量 1 音素発話長差分距離 2 基本周波数パターン差分距離 3 スピーキングレート𝑆1 4 スピーキングレート𝑆2 5 スピーキングレート𝑆3 6 スピーキングレート𝑆3 7 Juliusの単語音響尤度のフレーム平均 8 𝑇3 の単語音響尤度のフレーム平均
  32. 32. 文生成問題 • 音声認識フェーズ • 3つの音声認識器を使用して音声認識を行う • (1)ディクテーション用の言語モデルを使用するJulius • (2)ディクテーション用の言語モデルを使用する 𝑇3 • (3)キーフレーズスポッティングモデルを使用する 𝑇3 • 事前の被験者実験により収集した応答音声の書き起こし文書から、問題ごとに正解 となる文の中に高頻度で現れるフレーズを抽出し、キーフレーズのリストを作成する • キーフレーズスポッティングモデルは、文生成問題のキーフレーズのリストの両端を ガベージモデルで囲んだものとなっており、問題ごとに生成している • (1), (2), (3)のモデルのいずれかの認識結果に文生成問題のキーフレーズが含まれて いた場合は、特徴量による採点にすすむ
  33. 33. 文生成問題 • 音声特徴量による採点フェーズ • 下記5次元の特徴量からSVRで採点する 番号 音声特徴量 1 Juliusによるキーフレーズ抽出の成否 (1 or 0) 2 𝑇3によるキーフレーズ抽出の成否 (1 or 0) 3 キーフレーズスポッティングによるキーフレーズ抽出の成否(1 or 0) 4 スピーキングレート𝑆1 5 スピーキングレート𝑆2
  34. 34. 自由発話問題 • 音声認識フェーズ • Juliusと𝑇3で下記を融合した言語モデルを使用して音声認識を行う • 被験者実験で収集した自由発話問題への応答音声の書き起こし文書から生成した言語モデル • 様々なコーパスをもとに生成した汎用的な言語モデル • 文生成問題と同様に、応答音声の書き起こし文書から問題ごとに高頻度で現れる語を 抽出し、問題内容に関連するキーワードのリストを作成する • Juliusと𝑇3の認識結果のどちらかにキーワードが含まれていれば、音声特徴量による 採点フェーズに進む
  35. 35. 自由発話問題 • 音声特徴量による採点フェーズ • 下記4次元の特徴量からSVRで採点する 番号 音声特徴量 1 語彙多様性 2 発話量 4 スピーキングレート𝑆1 5 スピーキングレート𝑆2
  36. 36. 自由発話問題 • 音声特徴量による採点フェーズ • 下記4次元の特徴量からSVRで採点する 番号 音声特徴量 1 語彙多様性 2 発話量 4 スピーキングレート𝑆1 5 スピーキングレート𝑆2 認識文に含まれる単語の 異なり語数と述べ語数をもとに 計算する 語彙多様性 = 異なり語数 2 × 述べ語数
  37. 37. 自由発話問題 • 音声特徴量による採点フェーズ • 下記4次元の特徴量からSVRで採点する 番号 音声特徴量 1 語彙多様性 2 発話量 4 スピーキングレート𝑆1 5 スピーキングレート𝑆2 認識文に含まれる音素数を 録音時間で割ったもの 発話量 = 音素数 録音時間
  38. 38. 被験者実験 (採点機能の検証) • SJ-CATの各採点機能が、受験者の応答音声を適切に採点できるかどうかを 確かめるために被験者実験を行う • 各問題について81~114名の被験者が答えた音声データを 日本語教員3~5名が0から4点で採点する • 音声データから求めた特徴量と、日本語教員の採点結果の平均との 対応関係をもとにSVRのモデルを構築する 問題の種類 被験者 採点した日本語教員 文読み上げ問題 81名 3名 選択肢読み上げ問題 114名 3名 文生成問題 114名 3名 自由発話問題 81名 5名
  39. 39. 被験者実験 (採点機能の検証) 相関係数r RMSE 文読み上げ問題 0.77 0.49 選択肢読み上げ問題 0.89 0.64 文生成問題 0.70 1.25 自由発話問題 0.91 0.63 • モデル構築のためのデータを提供した被験者とは別の被験者20名分の音声データを使用し、 評価を行う。 • 各採点機能が行った採点結果と、日本語教員が行った評価の平均とのピアソンの 積率相関係数rとRMSE(Root mean square error)を示す • 問題の種類により精度に差はあるものの、構築した採点機能による 受験者の応答音声の 採点結果と日本語教員による採点結果との間に相関があることが確認できた
  40. 40. 被験者実験 (採点機能の検証) 相関係数r RMSE 文読み上げ問題 0.77 0.49 選択肢読み上げ問題 0.89 0.64 文生成問題 0.70 1.25 自由発話問題 0.91 0.63 • 受験者に最も長い時間発話してもらう自由発話問題の採点機能が、 最も相関係数の値が高くなった • 長めに発話してもらったほうが、初心者と上級者の差が明確に表れ、システムでの評価が 容易になっているものと考えられる
  41. 41. 被験者実験 (採点機能の検証) 相関係数r RMSE 文読み上げ問題 0.77 0.49 選択肢読み上げ問題 0.89 0.64 文生成問題 0.70 1.25 自由発話問題 0.91 0.63 • 最も相関係数の値が低く、RMSEが大きいものが文生成問題となった • 文法が正しいかどうかや、発話の終わり方が自然かどうかなどを評価できるようにすれば、 さらに採点の精度を上げることができる可能性がある
  42. 42. 被験者実験 (能力推定の検証) • 各問題について被験者が獲得した点数のパターンをもとに、項目応答理論による 能力推定で使用する各問題の識別力と困難度のパラメータ値を求める • EasyEstGRMを利用 • 6大学の日本語学習者にSJ-CATとJSSTを受験してもらい、その結果の比較を行う • JSSTとは • 電話で受験する日本語テスト • 「~した時のことについて話してください」というような質問に対し、45秒から60秒で回答する • 3人のテスターにより採点される • 1から10の10段階のレベルで評価される • 受験者は178人で、原則として同日に両テストを受験
  43. 43. 被験者実験 (能力推定の検証) • 受験者のSJ-CATのセクションごとの結果とセクションの合計の結果と、 JSSTの結果とのピアソンの積率相関係数を示す • 両テスト間に「ある程度の相関がある」と解釈できる • セクション1の結果とセクション2の結果を合計した結果が、 セクション単体の相関係数より高くなっている • 性質の違う問題が含まれる2つのセクションの結果が寄与し、受験者の総合的な スピーキング能力をより正しく測定することができていると考えられる JSSTの結果との相関係数r SJ-CAT(セクション1) 0.46 SJ-CAT(セクション2) 0.63 SJ-CAT(合計) 0.65
  44. 44. 被験者実験 (能力推定の検証) • 受験者のレベルの偏りが少なかったA大学の60人分の受験者の散布図、 ABC大学100人分の受験者の散布図、全6大学178人分の散布図とピアソンの積率相関係数rを示す JSST(A大学のみ) r=0.81 JSST(A,B,C大学のみ) r=0.77 JSST(全6大学) r=0.65 SJ-CAT
  45. 45. 被験者実験 (能力推定の検証) • 受験者のレベルの偏りが少なかったA大学の60人分の受験者の散布図、 ABC大学100人分の受験者の散布図、全6大学178人分の散布図とピアソンの積率相関係数rを示す JSST(A大学のみ) r=0.81 JSST(A,B,C大学のみ) r=0.77 JSST(全6大学) r=0.65 SJ-CAT 初級者の受験者を増やしてレベルの偏りを解消した状態で検証を行えば、 もっと強い相関が確認できる可能性がある
  46. 46. おわりに • 日本語の総合的なスピーキング能力の測定を行うSJ-CATを開発した • 人間が評定を行う日本語スピーキングテストの結果とSJ-CATの結果を比較する 被験者実験を行った • 被験者実験の結果から、両テストの結果の間にある程度の相関が認められ、 SJ-CATにより日本語学習者の総合的なスピーキング能力を測定できることを示した • 今後は、特に精度が低かった文生成問題の採点機能に、採点に利用する特徴量 を追加して精度が改善するか確かめる

×