SlideShare uma empresa Scribd logo
1 de 37
Baixar para ler offline
さくさくテキストマイニング勉強会 #5




あなたの質問に応えてみた。
 ー疑問に対する応答ー
自己紹介
自己紹介
  早川 敦士
 電気通信大学
システム工学科三年
興味

テキストマイニング
データマイニング
統計解析
品質管理
ブログ
http://d.hatena.ne.jp/gepuro/
       自己紹介
         Twitter
         @gepuro
花火打ち上げた♪
富士山登った〜
やってみたこと
Webから拾ってきた
テキストに対して、
 やってみたこと
質問を投げかけて、
何か応えてもらう。
どうやって?
一般的?には

データから互いに関連の強
い実体(単語等)を探してき
て、特定の関係がなりたつよ
うにテキストデータから情報
を抽出する。
建造物     地名
電気通信大学西5 東京都調布市
号館
東京タワー   東京都港区
名古屋城
     EXAMPLE
         愛知県名古屋市

愛・地球博記念公 愛知県愛知郡
園
一般的?には

抽出した情報のデー
タベースに対して、特
定の質問の回答を見
つけることができる。
今回は・・・
形態素解析
   と
係り受け解析
どうやって?
   を
使いました。
   それだけ・・・
準備その1
wikipediaから、
イカ娘に関する記事
  を入手した。
CaboChaを
   利用して、
係り受け解析を行う。
係り受け解析は、一
行ずつ行いましょう。
コーパスは「。」で改
行されている必要が
   ある。
解析後のファイルを
 そのままでXML
として利用できない。
ひと手間加える必要がある。
CaboChaによって
 XMLで出力された
ファイルをパースする
http://d.hatena.ne.jp/gepuro/20111014
準備その2
質問文を考える
  準備
質問文に対しても、
CaboChaを用いて
     準備
係り受け解析を行う
疑問詞を質問文から
探しだして、これに係
    準備
るチャンクを求める。
応えを探せ
疑問詞かかるチャンクに
  含まれるトークンを
    取り出し、
   応えを探せ
イカ娘の記事に含まれる
   同じチャンクに
 係るチャンクを求める。
分かりにくいので、
 具体例を・・・
質問文
(何の)→(予定だったか?)

   イカ娘の記事
(短期集中連載という)→
  (予定だったが)
これだけでは、
応えの候補が多くなっ
 てしまう場合が
  あるので・・・
質問文から、
応えのありそうな文
 を搾り出そう
質問文
「侵略イカ娘という作品は、
初めは何の予定だったか?」

質問に含まれる名詞がある
文中に応えになりそうな文が
   あるのでは?
記事全体から、
複数の文に絞り込む
結果は?



  当初は

短期集中連載という
文を絞り込む事によって、
      取り除いた応え

●判明。
●本来は

●『週間少年チャンピオン』誌

上及び、
●公開する
課題

●応えありきで質問文を考え
てしまっている。
●質問文によっては、応えが

大量に出てしまう。
例:「何のために」 (何の)→(ために)
ご清聴、
ありがとうございました

Mais conteúdo relacionado

Mais procurados

Pynyumon#4lt
Pynyumon#4ltPynyumon#4lt
Pynyumon#4ltdrillan
 
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料tetsuro ito
 
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Shushi Namba
 
研究室内統計勉強会20160526
研究室内統計勉強会20160526研究室内統計勉強会20160526
研究室内統計勉強会20160526敬之 中島
 
RとPythonによるデータ解析入門
RとPythonによるデータ解析入門RとPythonによるデータ解析入門
RとPythonによるデータ解析入門Atsushi Hayakawa
 
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05 RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05 Masaru Tokuoka
 
rstanで情報仮説によるモデル評価してみる@Hjiyama.R
rstanで情報仮説によるモデル評価してみる@Hjiyama.Rrstanで情報仮説によるモデル評価してみる@Hjiyama.R
rstanで情報仮説によるモデル評価してみる@Hjiyama.RMasaru Tokuoka
 

Mais procurados (8)

Pynyumon#4lt
Pynyumon#4ltPynyumon#4lt
Pynyumon#4lt
 
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
 
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!
 
研究室内統計勉強会20160526
研究室内統計勉強会20160526研究室内統計勉強会20160526
研究室内統計勉強会20160526
 
RとPythonによるデータ解析入門
RとPythonによるデータ解析入門RとPythonによるデータ解析入門
RとPythonによるデータ解析入門
 
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05 RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
RでMplusがもっと便利にーmplusAutomationパッケージー #Hiroshimar05
 
rstanで情報仮説によるモデル評価してみる@Hjiyama.R
rstanで情報仮説によるモデル評価してみる@Hjiyama.Rrstanで情報仮説によるモデル評価してみる@Hjiyama.R
rstanで情報仮説によるモデル評価してみる@Hjiyama.R
 
ChatOps@研究室
ChatOps@研究室ChatOps@研究室
ChatOps@研究室
 

Destaque

曖昧な情報ニーズの具体化を目的とした情報ナビゲーション技術の研究
曖昧な情報ニーズの具体化を目的とした情報ナビゲーション技術の研究曖昧な情報ニーズの具体化を目的とした情報ナビゲーション技術の研究
曖昧な情報ニーズの具体化を目的とした情報ナビゲーション技術の研究Yoji Kiyota
 
企業情報システムにおける先進的な技術の活用
企業情報システムにおける先進的な技術の活用企業情報システムにおける先進的な技術の活用
企業情報システムにおける先進的な技術の活用Miki Yutani
 
Webエンジニアなら抑えておきたい最近のOSS事情
Webエンジニアなら抑えておきたい最近のOSS事情Webエンジニアなら抑えておきたい最近のOSS事情
Webエンジニアなら抑えておきたい最近のOSS事情Atsushi Nakatsugawa
 
人工知能技術のエンタープライズシステムへの適用
人工知能技術のエンタープライズシステムへの適用人工知能技術のエンタープライズシステムへの適用
人工知能技術のエンタープライズシステムへの適用Miki Yutani
 
ビッグデータを活用して、サービスを成長させる技術 先生:古賀 亘
ビッグデータを活用して、サービスを成長させる技術 先生:古賀 亘ビッグデータを活用して、サービスを成長させる技術 先生:古賀 亘
ビッグデータを活用して、サービスを成長させる技術 先生:古賀 亘schoowebcampus
 
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響Kyoshiro Sugiyama
 
2014春hh研最終発表(エキスパートシステム)
2014春hh研最終発表(エキスパートシステム)2014春hh研最終発表(エキスパートシステム)
2014春hh研最終発表(エキスパートシステム)pe pon
 
20151204 bmxug watson_j_v1.1
20151204 bmxug watson_j_v1.120151204 bmxug watson_j_v1.1
20151204 bmxug watson_j_v1.1inadaf
 
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~ WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~ Harada Kazuki
 
Agileツール適合化分科会(テスト自動化ツール)
Agileツール適合化分科会(テスト自動化ツール)Agileツール適合化分科会(テスト自動化ツール)
Agileツール適合化分科会(テスト自動化ツール)masanori kataoka
 
Deep learning with C++ - an introduction to tiny-dnn
Deep learning with C++  - an introduction to tiny-dnnDeep learning with C++  - an introduction to tiny-dnn
Deep learning with C++ - an introduction to tiny-dnnTaiga Nomi
 
Azureを使って手軽にブラウザテストの自動化をはじめよう
Azureを使って手軽にブラウザテストの自動化をはじめようAzureを使って手軽にブラウザテストの自動化をはじめよう
Azureを使って手軽にブラウザテストの自動化をはじめようNaoya Kojima
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門Hiroyoshi Komatsu
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた株式会社メタップスホールディングス
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Taiga Nomi
 

Destaque (19)

質疑応答
質疑応答質疑応答
質疑応答
 
Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法
Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法
Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法
 
曖昧な情報ニーズの具体化を目的とした情報ナビゲーション技術の研究
曖昧な情報ニーズの具体化を目的とした情報ナビゲーション技術の研究曖昧な情報ニーズの具体化を目的とした情報ナビゲーション技術の研究
曖昧な情報ニーズの具体化を目的とした情報ナビゲーション技術の研究
 
企業情報システムにおける先進的な技術の活用
企業情報システムにおける先進的な技術の活用企業情報システムにおける先進的な技術の活用
企業情報システムにおける先進的な技術の活用
 
Webエンジニアなら抑えておきたい最近のOSS事情
Webエンジニアなら抑えておきたい最近のOSS事情Webエンジニアなら抑えておきたい最近のOSS事情
Webエンジニアなら抑えておきたい最近のOSS事情
 
人工知能技術のエンタープライズシステムへの適用
人工知能技術のエンタープライズシステムへの適用人工知能技術のエンタープライズシステムへの適用
人工知能技術のエンタープライズシステムへの適用
 
ビッグデータを活用して、サービスを成長させる技術 先生:古賀 亘
ビッグデータを活用して、サービスを成長させる技術 先生:古賀 亘ビッグデータを活用して、サービスを成長させる技術 先生:古賀 亘
ビッグデータを活用して、サービスを成長させる技術 先生:古賀 亘
 
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
 
2014春hh研最終発表(エキスパートシステム)
2014春hh研最終発表(エキスパートシステム)2014春hh研最終発表(エキスパートシステム)
2014春hh研最終発表(エキスパートシステム)
 
20151204 bmxug watson_j_v1.1
20151204 bmxug watson_j_v1.120151204 bmxug watson_j_v1.1
20151204 bmxug watson_j_v1.1
 
質問応答システム
質問応答システム質問応答システム
質問応答システム
 
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~ WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~
WatsonQA応用編~BluemixとWatson Engagement Advisor(WEA)連携~
 
Agileツール適合化分科会(テスト自動化ツール)
Agileツール適合化分科会(テスト自動化ツール)Agileツール適合化分科会(テスト自動化ツール)
Agileツール適合化分科会(テスト自動化ツール)
 
Deep learning with C++ - an introduction to tiny-dnn
Deep learning with C++  - an introduction to tiny-dnnDeep learning with C++  - an introduction to tiny-dnn
Deep learning with C++ - an introduction to tiny-dnn
 
Azureを使って手軽にブラウザテストの自動化をはじめよう
Azureを使って手軽にブラウザテストの自動化をはじめようAzureを使って手軽にブラウザテストの自動化をはじめよう
Azureを使って手軽にブラウザテストの自動化をはじめよう
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 

Semelhante a QaA

マイニング探検会 #02
マイニング探検会 #02マイニング探検会 #02
マイニング探検会 #02Yoji Kiyota
 
Twitter炎上分析事例 2014年
Twitter炎上分析事例 2014年Twitter炎上分析事例 2014年
Twitter炎上分析事例 2014年Takeshi Sakaki
 
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析KozoChikai
 
人工知能に何ができないか? ー ゲームと人工知能の視点から -
人工知能に何ができないか? ー ゲームと人工知能の視点から -人工知能に何ができないか? ー ゲームと人工知能の視点から -
人工知能に何ができないか? ー ゲームと人工知能の視点から -Youichiro Miyake
 

Semelhante a QaA (6)

マイニング探検会 #02
マイニング探検会 #02マイニング探検会 #02
マイニング探検会 #02
 
Twitter炎上分析事例 2014年
Twitter炎上分析事例 2014年Twitter炎上分析事例 2014年
Twitter炎上分析事例 2014年
 
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
マイクロブログテキストを用いた教師なし文書間類似度評価手法の分析
 
勉強会を開こう
勉強会を開こう勉強会を開こう
勉強会を開こう
 
人工知能に何ができないか? ー ゲームと人工知能の視点から -
人工知能に何ができないか? ー ゲームと人工知能の視点から -人工知能に何ができないか? ー ゲームと人工知能の視点から -
人工知能に何ができないか? ー ゲームと人工知能の視点から -
 
GAによる広告出稿最適化
GAによる広告出稿最適化GAによる広告出稿最適化
GAによる広告出稿最適化
 

Mais de Atsushi Hayakawa

Zepp play soccerで測ってみた
Zepp play soccerで測ってみたZepp play soccerで測ってみた
Zepp play soccerで測ってみたAtsushi Hayakawa
 
dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?Atsushi Hayakawa
 
トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018Atsushi Hayakawa
 
バンクーバー旅行記
バンクーバー旅行記バンクーバー旅行記
バンクーバー旅行記Atsushi Hayakawa
 
Analyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.RAnalyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.RAtsushi Hayakawa
 
Visual Studio CodeでRを使う
Visual Studio CodeでRを使うVisual Studio CodeでRを使う
Visual Studio CodeでRを使うAtsushi Hayakawa
 
トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017Atsushi Hayakawa
 
simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65Atsushi Hayakawa
 
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstallRstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstallAtsushi Hayakawa
 
統計的学習の基礎 4.4~
統計的学習の基礎 4.4~統計的学習の基礎 4.4~
統計的学習の基礎 4.4~Atsushi Hayakawa
 
Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝Atsushi Hayakawa
 
最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情Atsushi Hayakawa
 
nginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積するnginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積するAtsushi Hayakawa
 
implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化Atsushi Hayakawa
 
イケてる分析基盤をつくる
イケてる分析基盤をつくるイケてる分析基盤をつくる
イケてる分析基盤をつくるAtsushi Hayakawa
 

Mais de Atsushi Hayakawa (20)

tidyverse.orgの翻訳
tidyverse.orgの翻訳tidyverse.orgの翻訳
tidyverse.orgの翻訳
 
Zepp play soccerで測ってみた
Zepp play soccerで測ってみたZepp play soccerで測ってみた
Zepp play soccerで測ってみた
 
dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?
 
トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018
 
バンクーバー旅行記
バンクーバー旅行記バンクーバー旅行記
バンクーバー旅行記
 
Analyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.RAnalyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.R
 
Visual Studio CodeでRを使う
Visual Studio CodeでRを使うVisual Studio CodeでRを使う
Visual Studio CodeでRを使う
 
トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017
 
simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65
 
useR!2017 in Brussels
useR!2017 in BrusselsuseR!2017 in Brussels
useR!2017 in Brussels
 
Japan.R 2016の運営
Japan.R 2016の運営Japan.R 2016の運営
Japan.R 2016の運営
 
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstallRstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
 
統計的学習の基礎 4.4~
統計的学習の基礎 4.4~統計的学習の基礎 4.4~
統計的学習の基礎 4.4~
 
Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝
 
最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情
 
gepuro task views
gepuro task viewsgepuro task views
gepuro task views
 
nginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積するnginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積する
 
implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化
 
イケてる分析基盤をつくる
イケてる分析基盤をつくるイケてる分析基盤をつくる
イケてる分析基盤をつくる
 
らずぱいラジコン
らずぱいラジコンらずぱいラジコン
らずぱいラジコン
 

QaA