Enviar pesquisa
Carregar
自称・世界一わかりやすい音声認識入門
•
34 gostaram
•
23,409 visualizações
Tom Hakamata
Seguir
自称・世界一わかりやすい音声認識入門です。
Leia menos
Leia mais
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 151
Baixar agora
Baixar para ler offline
Recomendados
音声の認識と合成
音声の認識と合成
Akinori Ito
音声認識の基礎
音声認識の基礎
Akinori Ito
音声合成の基礎
音声合成の基礎
Akinori Ito
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
Recomendados
音声の認識と合成
音声の認識と合成
Akinori Ito
音声認識の基礎
音声認識の基礎
Akinori Ito
音声合成の基礎
音声合成の基礎
Akinori Ito
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
Daichi Kitamura
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタ
Toshihisa Tanaka
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
Akinori Ito
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
相互相関関数の最大化と時間差推定
相互相関関数の最大化と時間差推定
KoueiYamaoka
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
Mais conteúdo relacionado
Mais procurados
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
Tomoki Hayashi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタ
Toshihisa Tanaka
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
Akinori Ito
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
相互相関関数の最大化と時間差推定
相互相関関数の最大化と時間差推定
KoueiYamaoka
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
NU_I_TODALAB
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
Mais procurados
(20)
複数話者WaveNetボコーダに関する調査
複数話者WaveNetボコーダに関する調査
音情報処理における特徴表現
音情報処理における特徴表現
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
ウィナーフィルタと適応フィルタ
ウィナーフィルタと適応フィルタ
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
深層学習を利用した音声強調
深層学習を利用した音声強調
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Interspeech2022 参加報告
Interspeech2022 参加報告
相互相関関数の最大化と時間差推定
相互相関関数の最大化と時間差推定
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Último
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
Último
(8)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
自称・世界一わかりやすい音声認識入門
1.
世界一わかりやすい音声認識入門 Hakamata Tomohiro 袴田 智博 Lightning
Talk Siri is not Speech Recognition 自称
2.
学生時代は 音声認識 やっていました
3.
いきなりですが 質問です。
4.
音声認識 とは 何でしょうか?
5.
音声認識システム? 初音ミク (Vocaloid)
6.
音声認識システム? FROM HAL9000
7.
音声認識システム? K.I.T.T
8.
音声認識システム? Siri
9.
全て 違います。
10.
音声認識 とは、
11.
音声認識とは 音声認識 こんにちは 音声を 文字 に変換する技術のこと
12.
答え合わせ
13.
正解は 初音ミク (Vocaloid) 音声合成 (歌声合成)
14.
正解は HAL9000 Siri K.I.T.T 音声対話 全て
15.
以前
16.
こんな記事を 見かけました。
17.
18.
!?
19.
本当に 止めてほしい。
20.
導入編終了。
21.
アウトライン 歴史 音声認識の登場と発展 仕組 音声認識のメカニズム 応用
音声認識の利用と応用
22.
歴史
23.
IBM Shoebox 1962 数字認識機 via http://www-03.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html
24.
70∼80年代までは 研究分野止まり
25.
90年代に入り 実用化され始める
26.
SANYO EXCEDIO NV-1V 1993 音声認識機能付きのカーナビ ※定価なんと 50
万円弱
27.
NINTENDO ピカチュウげんきでちゅう 1998 エンターテインメント業界に進出
28.
SEGA シーマン 1999 エンターテインメント業界に進出
29.
IBM ViaVoice 1999 初の有償・音声認識ソフトウェア発売 単語だけでなく、文章が認識できる画期的なソフトウェア。
30.
「音声入力は使えない」 イメージが浸透…
31.
2000年代は 音声業界の氷河期
32.
そして2010年代に入り 突如現れた
33.
APPLE Siri 2011 スマートフォンの音声操作
34.
NTT Docomo しゃべってコンシェル 2012 スマートフォンの音声操作
35.
GOOGLE Speech API 2013 ブラウザが音声認識をサポート
36.
音声入力が だんだん 受け入れられてきた
37.
技術的には どのような 発展があったのか?
38.
音声言語処理ロードマップ from 70年代 TIMELINE ハードウェアの性能向上 統計的機械学習の手法確立と進化 1970
1980 1990 2000 2010 ∼ 音声符号化 孤立 単語 音声認識 大語彙 連続 音声認識 超大語彙 連続 音声認識 連続 音声認識 メルケプストラム 分析 数万語彙に対応 数十∼数百万語に対応単語のみ認識 数百語彙での文章認識 リアルタイム処理 語彙数増加&認識精度の向上
39.
ただし制限あり
40.
理想は アナウンサー 原稿の読み上げ 綺麗な発音 良質な録音環境
41.
音声認識が苦手なもの
42.
複数人の同時発話 会議 ガヤ
43.
砕けた話し方 話し言葉 方言 ラップ 言い澱み
44.
雑音 騒音 機械音 風切り音
45.
なぜなのか?
46.
音声認識の 仕組みが分かれば 謎が解けます!
47.
アウトライン 歴史 音声認識の登場と発展 仕組 音声認識のメカニズム 応用
音声認識の利用と応用
48.
仕組
49.
おさらいです
50.
音声認識とは 音声認識 こんにちは 音声を 文字 に変換する技術のこと
51.
ものすごく ざっくり言うと
52.
音声認識は パターンマッチング
53.
音声認識とは こんにちは 音声認識 音声を パターンマッチング により 文字
に変換する技術のこと こんばんはこんにちはおはよう 照合
54.
つまり
55.
データベースに 存在しない単語は 認識不可能
56.
どういうことか?
57.
こうなります こんにちは 音声認識 佐藤近藤安西 照合 近藤??
58.
そのため
59.
砕けた話し方 話し言葉 方言 ラップ 言い澱み
60.
これは難しい
61.
では、どうやって パターンマッチング しているのか?
62.
音声波形で比較? こんにちは 佐藤 近藤 安西
63.
違います
64.
なぜでしょうか?
65.
複雑さ マイク、音程、スピード、話し方など、 あらゆる条件を一致させなければならない。
66.
原点に 立ち戻りましょう
67.
そもそも 音声 とは?
68.
人間の調音器官により 生成される 音波のこと
69.
調音器官?
70.
この辺一帯です
71.
調音器官 1.外唇 2.内唇 3.歯 4.歯茎 5.歯茎後部 6.硬口蓋前部 7.硬口蓋 8.軟口蓋 9.口蓋垂 10.咽頭壁 11.声門 12.喉頭蓋 13.舌根 14.後舌 15.前舌 16.舌端 17.舌尖 18.舌端裏
72.
これだけの部位を 複雑に動かして 音声は生成されます
73.
人間すごい
74.
75.
ではなくて
76.
パターンマッチングの 話です
77.
調音器官の 動きをパターン化する のでしょうか?
78.
それも違います そういうアプローチの音声合成はありますが
79.
正解は
80.
音素
81.
( ゚д゚)ポカーン 音素?
82.
音素とは 音声言語の最小単位
83.
日本語の場合 母音 アイウエオ 撥音 ン 子音
23種類
84.
日本語音素(子音) 調音位置調音位置 口唇口唇 歯,歯茎歯,歯茎
口蓋口蓋 声門 調音 方法 調音 方法 調音 方法 調音 方法 調音 方法 調音 方法 音源 有声 無声 有声 無声 有声 無声 無声 摩擦音 β z s ʒ ʃ h 破擦音 dz ts dʒ tʃ 破裂音 b p d t g k 半母音 w r j 鼻音 m n ŋ
85.
音素の単位で 音声をパターン化 (モデル化)します
86.
音素単位での 音響的特徴は 音の高さ、大きさの 影響を受けないため です!! ※ささやきは全てが無声音になるので例外
87.
ちなみに
88.
日本人の英語の発音が ジャパニーズイングリッシュ になるのは
89.
調音器官の使い方が 日本語のままだからです
90.
発音矯正 それすなわち
91.
筋トレ
92.
話を戻すと
93.
音素単位で 固有パターン
94.
単語は?
95.
単語 → 音素の並び こんにちは
k - o - N - n - i - ch - i - w - a こんばんは k - o - N - b - a - N - w - a コンバイン k - o - N - b - a - i - N
96.
共通の部分があるぞ? こんにちは k -
o - N - n - i - ch - i - w - a こんばんは k - o - N - b - a - N - w - a コンバイン k - o - N - b - a - i - N
97.
ネットワーク化 こんにちは こんばんは コンバイン k o N
b a N w a i N n i ch i aw
98.
こんにちは あとは…
99.
こんにちは あとは…
100.
こんにちは 区間と音素をマッピング k N n
ch i w ao i
101.
ネットワーク上の 解の探索問題になる こんにちは こんばんは コンバイン k o N
b a N w a i N n i ch i aw
102.
文章は?
103.
単語の並びですね
104.
ネットワーク化します は 元気 です 私 。 は 元気 です 私 。 は 元気 です 私 。 元気
105.
これを音素単位で マッチングします
106.
しかし 単語の組み合わせは 膨大な数になります
107.
語彙が10単語でも、 3語の組み合わせは 10の3乗…
108.
無謀
109.
そこで
110.
制約
111.
文法を規定 は 元気 です 貝 に
なり たい アイドル 。 私 。 。 僕 ドラえもん 。
112.
組み合わせに確率を付与 は 待つ 私 たち の ドラえもん 60% 10% 10% 10% 0% N-gram
113.
設定された制約から 単語の並びを生成し、 入力音声に音素が マッチするか?
114.
という探索問題
115.
音声認識は こんなメカニズムです。
116.
よって
117.
複数人の同時発話 会議 ガヤ
118.
砕けた話し方 話し言葉 方言 ラップ 言い澱み
119.
雑音 騒音 機械音 風切り音
120.
難しいのです。
121.
アウトライン 歴史 音声認識の登場と発展 仕組 音声認識のメカニズム 応用
音声認識の利用と応用
122.
応用
123.
音声認識 単品
124.
NHK ハイブリッド字幕放送 via http://www.nhk.or.jp/seikatsu-blog/800/112861.html
125.
Health Care in
USA アメリカの医療業界
126.
メインは 組み合わせ
127.
Vocollect 音声によるピッキングシステム
128.
SG PRO 英語音声認識を利用した英語発音練習ソフト
129.
iRemocon 音声認識を用いた家電操作用ガジェット
130.
SHARP COCOROBO 関西弁版ルンバ
131.
CINEMA PHONE 上映案内テレホンガイド
132.
他にも
133.
MMDAgent 学内情報案内端末
134.
NICT VoiceTra 音声翻訳アプリ
135.
その他 飛び道具っぽいもの
136.
KAYAC kageroi キーワード検索&表示によるアイデア出し支援
137.
PVI パーキンソン病の診断を音声認識で
138.
などなど
139.
さらに 盛り上がっていくはず!
140.
最後に
141.
音声認識とは 音声認識 こんにちは 音声を 文字 に変換する技術のこと
142.
音声認識は
143.
複数人の同時発話 会議 ガヤ
144.
砕けた話し方 話し言葉 方言 ラップ 言い澱み
145.
雑音 騒音 機械音 風切り音
146.
苦手。
147.
使えねー!!
148.
と怒る前に
149.
綺麗に発音
150.
してみてください!
Baixar agora