SlideShare uma empresa Scribd logo
1 de 50
Baixar para ler offline
言語処理学会へ
遊びに行ったよ!
~不自然言語処理へのお誘い~
自己紹介
●   金融機関で金融工学の研究員
●   大学院でテキストマイニングを学ぶ
●   言語処理を用いてコミュニケーションの活性化を図
    りたい!
●   toilet_lunch, todesking達とすき焼きしてたら、い
    つの間にかテキストマイニング勉強会発足してた




                                          2
本発表の目的
1.学会で得た最新の情報の中で、実務に使えそうな
  内容・レベルのものを紹介
 •   新しいサービス提案の切っ掛けに
 •   実践のプロセスを学ぶ
2.不自然言語処理へのお誘い




                           3
学会へ遊びに行こう!
●   専門の学生か、GとかYとかIとか、ごく一部の企業
    に所属していないと、最新技術動向は掴めない
●   学会に行けば、最新の情報がわんさか手に入る!
●
    すごい人達と知り合いになって、仕事して貰ったり
    仕事貰ったりする!
●   自分の疑問点や手法について議論できる!
●   学会参加費はそんなに高くないよ!
●   そうは言っても中々敷居が高く感じられるので、ま
    ずはテキストマイニングマスター達のブログで
    キャッチアップしよう
                           4
必ずチェックすべき10のブログ
1. コーパスいぢり(langstat)
2. あらびき日記(a_bicky)
3. 睡眠不足?(sleepy_yoshi)
4.EchizenBlog-Zwei(echizen_tm)
5.Overlasting::Life(overlast)
6. おとうさんの解析日記(isseing333)
7. はやしのブログ(phosphor_m)
8.nokunoの日記(nokuno)
9. ぬいぐるみライフ(仮)(mickey24)
10.Mi manca qualche giovedi`(shuyo)
                                      5
発表論文目次
1.Webからの飲食店舗の評判情報抽出
2.Wikipediaのカテゴリ階層を利用したTwitterユーザのカテ
  ゴライズ
3. 大規模Web情報分析のための分析対象ページの段階的
   選択
4. マイクロブログの分析に基づくユーザの嗜好とタイミングを
   考慮した情報推薦手法の提案
5. 不自然言語処理コンテスト第一回開催報告
6. 文頭固定法による効率的な回文生成
7. 顔文字情報と分の評価表現の関連性についての一考察
                                       6
Webからの飲食店舗の評判情報抽出
                高尾美代子他

●   目的
    ●
        適当にブログ等をクロールしても評判情報を得難い
    ●   効率的な評判情報抽出の手法を提案しよう!




                                  7
既存の評判情報抽出とその問題点
●   手順
    1. 店舗名を含むテキストを取得する
    2. テキストから評価部分を抽出
    3. 抽出した評価情報から店舗の評判を得る
●   問題点
    ●
        評価部分を抽出することが難しい
    ●
        全テキスト参照すると評価と関係無いノイズが増える
    ●
        逆に抽出部分が狭すぎると、評価を得られない
●
    上手く評価部分のテキストだけ抽出したい!
                                   8
本稿の提案
●   評判情報を得やすいページとそうでないページに
    分類することで、より良い評判情報抽出が可能に
    なる
●   評判情報を得やすいページに分析対象を絞ろう
●   テキストのどの部分を参照すれば、評判情報を得
    やすいのかを調べよう




                             9
実験の手法と手順
1.共起表現抽出範囲, 素性選択をパラメタとする
2.各パラメタごとに、対象ページが評判情報を含むか
  否かを判定した分類精度を出す
 ●   Yahoo!検索APIを用い、評判情報を含む/含まないペー
     ジ100件ずつ用意
 ●   分析ツール:SVMLight
3.各パラメタの抽出結果を比較し、最適な組合わせ
  を得る


                                 10
効果的な共起表現抽出範囲
●
    なぜ評判分析で共起表現を抽出するか
    ●   評価を表す単語は店舗名の周辺に集中しているから
●   抽出範囲18パターン
    ●   店舗名の前方/後方/前後の3パターン
    ●   2~7単語の6パターン
●   結果
    ●   平均精度:後方83.3%, 前後60%, 前方57%
    ●   評価は店舗名の後方に集中する
    ●   共起語数は4~6単語が最適
    ●   3以下は評判情報を含み難く、7以上はノイズが多い     11
効果的な素性パターン
●   品詞パターン
     1. 動詞+形容詞
     2. 動詞+助動詞
     3. 形容詞+助動詞
     4. 形容詞+助詞+動詞
     5. 名詞+助詞+形容詞
     6. 名詞+助詞+動詞
     7. 形態素nグラム
     8. 単語nグラム
●
    結果は店舗によってまちまち
●   平均して7, 8の精度が比較的高い
                        12
まとめ
●   評判分析をするには、適切な評価情報を含んだ
    ページの取得が必要
●   評価は店舗名の後方4~6単語に集中する
●
    評判分析をする際、本研究を参考にして評価情報
    を取得してみよう!




                            13
Wikipediaのカテゴリ階層を利用した
   Twitterユーザのカテゴライズ
             放地宏佳他
背景
●   Twitterのカテゴリは8種類と少なすぎる
●   情報抽出する際、適切なカテゴライズは有用




                             14
提案手法
●   前提
    ●   Wikipediaのカテゴライズを使おう
    ●   適切なカテゴライズは日々のメンテナンスが必要であ
        り、高コスト。Wikipediaのカテゴライズを流用して自動
        化出来れば非常に有用である

●
    手順
    ●   ツイートから各ユーザの特徴語抽出
    ●   Wikipediaから特徴カテゴリ抽出

                                         15
特徴語とは
●   ユーザが用いる頻度高い単語≠ユーザの特徴語
●   頻度の高い単語は皆も使っているモノが多い
●   特徴語とは、比較的他と比べてそのユーザだけが
    用いる頻度高い単語




                         16
特徴語抽出
1.各ツイートの正規化(@username, RT・QT文,
  URL, ハッシュタグの除去)
2.Wikipediaの記事名と一致する語を抽出し、出現回
  数とする
3.2で得られた語をツイートに含むユーザ総数を出現
  頻度とする
4.出現回数>2, 1/出現頻度>0.5%を満たす語を特徴
  語とする


                                 17
特徴カテゴリ集合抽出
●   各特徴語の最上位カテゴリまでのパス集合を取得
●   全特徴語のパス集合から共通カテゴリを取得
●   共通カテゴリを割り当てられたユーザの総数を出
    現頻度とする
●   最上位カテゴリから共通カテゴリまでの距離をパス
    の大きさとする
●   パスの大きさ/同一共通カテゴリの数>2, 1/出現頻
    度>0.005を満たす共通カテゴリを特徴カテゴリとす
    る

                             18
パス集合
特徴語がネコとハムスターの場合の共通カテゴリ




                     19
評価実験
●   ランダムに選択した20ユーザ、各ユーザの最大発
    言数2000とする
●   特徴カテゴリがそのユーザのカテゴリとして適切か
    人手で判断
●   実験結果




                          20
結果の考察
●   「スポーツ」「コンピュータ」などは直感的なツイート
    が多くわかりやすい
●   「物理」「心理学」など専門用語が日常用語と被る
    カテゴリは判別しづらい
    ●
        「反射」「振動」を多用する人は音響の人かも?
●   reply, RT, 実況は特徴が掴みづらい




                                 21
まとめ
●   カテゴライズを行う場合、replyやRT、実況などのツ
    イートを削除する必要が有る
●   専門用語と日常用語を切り分ける手法が必要
●
    自動化が適用できるカテゴリとそうでないカテゴリ
    の選別が必要




                              22
大規模Web情報分析のための
        分析対象ページの段階的選択
                 赤峯享他
●   目的と背景
    ●
        情報分析の処理は重いため、処理をかける前に不要な
        ページを対象から外したい
    ●   Webには低品質のページが多い
    ●   通常の検索では検索結果上位の高品質なページしか
        見ないためあまり意識されないが、クローラを回すとゴ
        ミばかり集めてしまう




                                23
選択の方針:質の高いページとは
●   テキスト情報が豊富なページ
    ●
        人気のあるページ≠テキスト情報が豊富なページ
    ●   絵画・動画サイトではテキスト情報少ない
    ●   ページランクの高いページとテキストマイニングにテキ
        するページは異なる
●   多様な発信者/サイトを含むページ集合




                                    24
ページの選択
●   フィルタリングでスパム、ミラーページを対象から除
    外
●   ページランクや高品質ページに出やすい特定単語
    の出現頻度などの属性を用いた重み付きサンプリ
    ング
●   サイト単位でページの品質を考える。同一サイトの
    ページの品質は似ているため、低品質なページを
    含むサイトを丸ごと対象から除外



                           25
ページ選択に利用する属性




               26
まとめ
●   Webから収集した10億ページを、先程のフィルタリ
    ングなどにかけて1億ページまで分析対象を絞るこ
    とに成功した
●   ランダムサンプリングしたものより分析精度は高い




                            27
マイクロブログの分析に基づく
    ユーザの嗜好とタイミングを考慮した
       情報推薦手法の提案
                  向井 友宏他

●
    目的
    ●   twitterのリアルタイム性を利用し、ユーザに最適なタイ
        ミングで情報推薦を行いたい




                                        28
提案手法
●   各ユーザのRTの名詞からユーザのプロファイルを
    作成する
●   プロファイルを用いてクラスタリングを行う
    ●   Wikipediaのカテゴリ情報を利用し、類似した嗜好の
        ユーザをクラスタリングする
    ●   {サッカー|フットサル}文字列は違うが嗜好は似ている
●   最適なタイミング発見のため、バーストを用いる



                                       29
バーストとは
●   時系列における投稿数の急激な変化
●   バースト判定値Bの評価式




                       30
評価実験準備
●   2010年度日本シリーズのロッテファン524人20万
    以上のツイートを収集。11/7分を訓練に利用
●   極性評価の準備
    ●
        極性評価用の手がかり語を人手で収集
    ●   P:ポジティブ語数、N:ネガティブ語数とする
    ●   ポジティブバースト:P/(P+N) > 0.7
    ●   ネガティブバースト:N/(P+N) > 0.7



                                  31
バーストの検出
●   ヒューリスティックに以下のパラメタを利用
    ●   X=3, Y=30
    ●   閾値α=0.2
●   バースト区間
    ●   判定値Bがαを超え、再びαを下回るまでの区間




                                 32
商品とユーザとのマッチング
●   楽天商品データ1000件の各商品説明から特徴語
    を抽出
●   各商品の特徴語とユーザカテゴリをマッチング
    ●
        スポーツクラスタにはサッカー商品を薦めるなど




                                 33
まとめ
●   最適な商品を推薦するだけではなく、バーストを利
    用して、最適な推薦のタイミングまで考えよう!
●   結果は正直かなり悪かった
    ●   RT数が少なくて学習が不十分
    ●
        カテゴリに即した商品がないことも
    ●
        噺・落語クラスタに何薦めればいいの?
    ●   Wikipediaのカテゴリと楽天のカテゴリのミスマッチ




                                       34
総評・雑感
●   Wikipediaを利用してコーパス作成、カテゴライズ
    するのが流行している
●   twitter特有のソーシャル性、即時性を使おう
●   これらは各データに階層構造やタグなど、高品質
    なメタデータが人手で付与されている
●   しかし、実際の利用は困難っぽい。BOWは無理。
    ゼロ照応解析、共参照解析、談話解析等が必要
●   FOBOSやpLSAを学部生が使ってる…

                                  35
不自然言語処理とは
●   そもそも「自然言語処理」の言う自然とは?
●   「MeCabで分析できる言語=自然言語」
●   そんなもの自然言語じゃない!
●   実際の言語は誤字、脱字、略字、隠語、顔文字、
    絵文字、AA、数式・化学式、等々が溢れている!
●   従来のテキストマイニングでは、顔文字などはゴミ
    として除去していた
●
    顔文字にこそ書き手の思いが宿っているのでは?
●   顔文字等を有効活用するのが次世代マイニング
                              36
不自然言語処理コンテスト
●   baiduの「不自然言語」専門の言語処理コンテスト
●   なぜか発生するスイカ割り
●   参加してLT賞頂きました
●
    コンテスト受賞作と言語処理学会の不自然言語
    セッションで発表された論文を紹介します
●   不自然言語処理を楽しもう!




                                37
Soramegraph
●   概要
    ●   Twitter上で,「○○を××に空目した」というような,類似
        した単語を「空目」したことをつぶやくことがある.この関
        係をグラフ化して可視化するツール

●
    制作動機
    ●
        空目し易い紛らわしい単語を把握し,誤解を避けたり,
        あえて誤解を狙ったコミュニケーションを補助する.ま
        た,Tweet を可視化することにより,自分と感性の近い
        人を発見することもできる

                                      38
デモ
●   http://aaatxt-gae.appspot.com/soramegraph




                                                39
誤字ェネレータ
●
    概要
    ●   文字列を入力すると,その一部が「誤字」すなわち類似
        した文字に置き換わるウェブアプリケーション

●   制作動機
    ●
        誤字によって意味が喪失するさまを視覚化する




                                40
デモ
●   http://goji.polog.org/




                                  41
感情のこもった返答テンプレ生成君
●   概要
    ●   返信先のメッセージと自分のそっけないメッセージを入
        力とすると,そっけなくないメッセージのテンプレを生成
        してくれるツール

●   製作動機
    ●   テンションの高いメールを返すのが面倒である.




                                     42
デモ
●   http://tokuota.ddo.jp/extext/




                                    43
ケンリブッジ大学
●   概要
    ●
        入力文字列を,人間には読めるが,検索エンジンには
        認識しづらい「ケンブッリジ大学難読化」画像に変換す
        る.

●   作成動機
    ●
        検索エンジン等に拾われたくない文章をブログや掲示
        板に投稿するため.



                                    44
ケンブリッジ大学コピペ
こんちにはみさなんおんげきですか? わしたはげんきです.
このぶんょしうはいりぎすのケブンッリジだがいくの
けゅきんうのけっかにんんげはもじをにしんきするとき
そのさしいょとさいごのもさじえあいてっれば
じばんゅんはめくちちゃゃでもちんゃとよめるというけゅきんう
にもづいとてわざともじのじんばゅんをいかれえてあまりす.
どでうす? ちんゃとよゃちめうでしょ?




                            45
文頭固定法による効率的な回文生成
            鈴木啓輔他

●   回文候補生成法:折り返し固定法と文頭固定法




                            46
速度比較実験とその考察
       文節数   折り返し固定法      文頭固定法
        3      21:41        0:42
        4    198日 20:34   17日 14:10


●
    シード文節から出現する初期状態数が少ない
●   不足文字列の短い初期状態が出現しにくい
●   回文を使って面白いキャッチコピーを作ろう!



                                      47
顔文字情報と文の評価表現の
    関連性についての一考察
                村上浩司他

1.顔文字は周辺言語的要素を持つ
2.顔文字単体の極性だけではなく、文脈把握が大切
3.(^^;), (; ;)などは回答者によって快・不快バラバラ
4.極性が異なるのに同じ顔文字が使われる事も
5.クラス分類ではなく、複数の感情軸を併せ持つ
6.自身は意味を持たず、強調、緩衝材としての顔文
  字利用
   –   飲み会来るなよ~(^^)←冗談だと示している

                                48
もっと不自然言語で遊ぼう!
●   どんなとき不自然言語を使う?
    ●
        仲の良い人同士だと砕けた表現や隠語使いやすい
    ●   他の人より頻繁に不自然言語を用いて会話する相手=
        仲が良いのでは?ソーシャルネットワーク抽出出来る
    ●   不自然言語の利用度合いが親密さを表すかも
●   顔文字は非言語的な情報まで伝達出来るかも
●
    誤字・脱字から精神状態などを読み取れるかも
●   誤った語の使い方から年齢等が推定できるかも
●   やってみよう!!!
                               49
終わりに:学会での関根先生の言葉
           (楽天&ニューヨーク大学)

●   不自然言語処理こそ真の自然言語処理であり、超
    自然言語処理と改名すべき!
●   10年前の技術が今も楽天で有効活用されてる、学
    会で盛り上がったネタなんて使われない。TF-IDF
    とかまだまだ現役。いかに高度な技術使うかより、
    いかにノイズを削減するかの工夫が必要
●   すごい研究をしようとするのではなく,事業に役に
    立つ研究をしよう


                            50

Mais conteúdo relacionado

Mais procurados

OSS についてあれこれ
OSS についてあれこれOSS についてあれこれ
OSS についてあれこれTakuto Wada
 
令和最新!SwiftUI+async_awaitで自分はこう設計・実装している!.pdf
令和最新!SwiftUI+async_awaitで自分はこう設計・実装している!.pdf令和最新!SwiftUI+async_awaitで自分はこう設計・実装している!.pdf
令和最新!SwiftUI+async_awaitで自分はこう設計・実装している!.pdfYuuki Noseda
 
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈	BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈 順也 山口
 
Discord botの作成(基盤編)
Discord botの作成(基盤編)Discord botの作成(基盤編)
Discord botの作成(基盤編)Yusuke Sabi
 
企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端Yuya Unno
 
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミングYuto Takei
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会Shotaro Sano
 
視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究Yoshitaka Ushiku
 
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
機械学習デザインパターンおよび機械学習システムの品質保証の取り組みHironori Washizaki
 
パンでも分かるVariational Autoencoder
パンでも分かるVariational Autoencoderパンでも分かるVariational Autoencoder
パンでも分かるVariational Autoencoderぱんいち すみもと
 
人生で大事なことは XP白本と参考文献に教わった
人生で大事なことは XP白本と参考文献に教わった 人生で大事なことは XP白本と参考文献に教わった
人生で大事なことは XP白本と参考文献に教わった Takeshi Kakeda
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離Kitamura Laboratory
 
密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知- Core Concept Technologies
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)Shinnosuke Takamichi
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Yoshitaka Ushiku
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門Hiroyoshi Komatsu
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
Smalltalkと型について
Smalltalkと型についてSmalltalkと型について
Smalltalkと型についてMasashi Umezawa
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 

Mais procurados (20)

OSS についてあれこれ
OSS についてあれこれOSS についてあれこれ
OSS についてあれこれ
 
令和最新!SwiftUI+async_awaitで自分はこう設計・実装している!.pdf
令和最新!SwiftUI+async_awaitで自分はこう設計・実装している!.pdf令和最新!SwiftUI+async_awaitで自分はこう設計・実装している!.pdf
令和最新!SwiftUI+async_awaitで自分はこう設計・実装している!.pdf
 
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈	BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
 
Discord botの作成(基盤編)
Discord botの作成(基盤編)Discord botの作成(基盤編)
Discord botの作成(基盤編)
 
企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端
 
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
[Basic 11] 文脈自由文法 / 構文解析 / 言語解析プログラミング
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
 
視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究
 
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
 
パンでも分かるVariational Autoencoder
パンでも分かるVariational Autoencoderパンでも分かるVariational Autoencoder
パンでも分かるVariational Autoencoder
 
人生で大事なことは XP白本と参考文献に教わった
人生で大事なことは XP白本と参考文献に教わった 人生で大事なことは XP白本と参考文献に教わった
人生で大事なことは XP白本と参考文献に教わった
 
自然言語処理
自然言語処理自然言語処理
自然言語処理
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知密度比推定による時系列データの異常検知
密度比推定による時系列データの異常検知
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Smalltalkと型について
Smalltalkと型についてSmalltalkと型について
Smalltalkと型について
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 

Destaque

テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際antibayesian 俺がS式だ
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニングHiroshi Ono
 
20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)Hirosuke Asano
 
書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説Hirosuke Asano
 
Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007Christian Schieder
 
素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみたsmzkng
 
感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版saito_hirokazu
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127kan_yukiko
 
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析Shintaro Takemura
 
推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - TechcompassYoshifumi Seki
 
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニングMasahiro Yamaguchi
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニングYudai Shinbo
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』The Japan DataScientist Society
 
RではじめるTwitter解析
RではじめるTwitter解析RではじめるTwitter解析
RではじめるTwitter解析Takeshi Arabiki
 

Destaque (20)

テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
SPSSで簡単テキストマイニング
SPSSで簡単テキストマイニングSPSSで簡単テキストマイニング
SPSSで簡単テキストマイニング
 
ガチャとは心の所作
ガチャとは心の所作ガチャとは心の所作
ガチャとは心の所作
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニング
 
20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)
 
書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説
 
Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007
 
素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた
 
神の言語による自然言語処理
神の言語による自然言語処理神の言語による自然言語処理
神の言語による自然言語処理
 
感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版感情分析で株価を予測して おこづかい稼ぎ 日経版
感情分析で株価を予測して おこづかい稼ぎ 日経版
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
 
チームラボ忘年会
チームラボ忘年会チームラボ忘年会
チームラボ忘年会
 
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
 
推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass
 
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
 
全文検索入門
全文検索入門全文検索入門
全文検索入門
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
 
RではじめるTwitter解析
RではじめるTwitter解析RではじめるTwitter解析
RではじめるTwitter解析
 

Semelhante a 言語処理学会へ遊びに行ったよ

Twitter User Recommendation
Twitter User RecommendationTwitter User Recommendation
Twitter User RecommendationTakuto Kimura
 
ギズモード・ジャパンのつくり方
ギズモード・ジャパンのつくり方ギズモード・ジャパンのつくり方
ギズモード・ジャパンのつくり方Six Apart KK
 
セルフブランディングのためのブログ記事の書き方
セルフブランディングのためのブログ記事の書き方セルフブランディングのためのブログ記事の書き方
セルフブランディングのためのブログ記事の書き方Shoe-g Ueyama
 
MAごころを、君に - GA4勉強会 #6 GA4の探索を
MAごころを、君に - GA4勉強会 #6 GA4の探索をMAごころを、君に - GA4勉強会 #6 GA4の探索を
MAごころを、君に - GA4勉強会 #6 GA4の探索をWebpla LLC.
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」Shuji Morisaki
 
110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料Kohei Yoneda
 
110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料Kohei Yoneda
 
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-nishio
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Miningcyberagent
 
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)Kosetsu Tsukuda
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとはMakoto Shimizu
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27Kensuke Mitsuzawa
 
「いいコード」をみんなで書こう!
「いいコード」をみんなで書こう!「いいコード」をみんなで書こう!
「いいコード」をみんなで書こう!tq_ed
 
早めに知っておきたかったドキュメント執筆のあれこれ
早めに知っておきたかったドキュメント執筆のあれこれ早めに知っておきたかったドキュメント執筆のあれこれ
早めに知っておきたかったドキュメント執筆のあれこれm_seko
 
リレーショナルデータベースとの上手な付き合い方 long version
リレーショナルデータベースとの上手な付き合い方 long version リレーショナルデータベースとの上手な付き合い方 long version
リレーショナルデータベースとの上手な付き合い方 long version Mikiya Okuno
 
ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!Tsukasa Kato
 
プロトタイプとワークフロー Prototype and Workflow
プロトタイプとワークフロー Prototype and Workflowプロトタイプとワークフロー Prototype and Workflow
プロトタイプとワークフロー Prototype and Workflowatmarkit
 

Semelhante a 言語処理学会へ遊びに行ったよ (20)

Twitter User Recommendation
Twitter User RecommendationTwitter User Recommendation
Twitter User Recommendation
 
ギズモード・ジャパンのつくり方
ギズモード・ジャパンのつくり方ギズモード・ジャパンのつくり方
ギズモード・ジャパンのつくり方
 
セルフブランディングのためのブログ記事の書き方
セルフブランディングのためのブログ記事の書き方セルフブランディングのためのブログ記事の書き方
セルフブランディングのためのブログ記事の書き方
 
MAごころを、君に - GA4勉強会 #6 GA4の探索を
MAごころを、君に - GA4勉強会 #6 GA4の探索をMAごころを、君に - GA4勉強会 #6 GA4の探索を
MAごころを、君に - GA4勉強会 #6 GA4の探索を
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料
 
110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料110613 ブームリサーチご案内資料
110613 ブームリサーチご案内資料
 
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-
アイデアを塩漬けにしない-世界中の人に手伝ってもらう方法-
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
 
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとは
 
Webdirection
WebdirectionWebdirection
Webdirection
 
UX流Web解析
UX流Web解析UX流Web解析
UX流Web解析
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
 
最終報告会
最終報告会最終報告会
最終報告会
 
「いいコード」をみんなで書こう!
「いいコード」をみんなで書こう!「いいコード」をみんなで書こう!
「いいコード」をみんなで書こう!
 
早めに知っておきたかったドキュメント執筆のあれこれ
早めに知っておきたかったドキュメント執筆のあれこれ早めに知っておきたかったドキュメント執筆のあれこれ
早めに知っておきたかったドキュメント執筆のあれこれ
 
リレーショナルデータベースとの上手な付き合い方 long version
リレーショナルデータベースとの上手な付き合い方 long version リレーショナルデータベースとの上手な付き合い方 long version
リレーショナルデータベースとの上手な付き合い方 long version
 
ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!ニューノーマルな働き方!?Teams投稿をセンチメント分析!
ニューノーマルな働き方!?Teams投稿をセンチメント分析!
 
プロトタイプとワークフロー Prototype and Workflow
プロトタイプとワークフロー Prototype and Workflowプロトタイプとワークフロー Prototype and Workflow
プロトタイプとワークフロー Prototype and Workflow
 

言語処理学会へ遊びに行ったよ

  • 2. 自己紹介 ● 金融機関で金融工学の研究員 ● 大学院でテキストマイニングを学ぶ ● 言語処理を用いてコミュニケーションの活性化を図 りたい! ● toilet_lunch, todesking達とすき焼きしてたら、い つの間にかテキストマイニング勉強会発足してた 2
  • 3. 本発表の目的 1.学会で得た最新の情報の中で、実務に使えそうな 内容・レベルのものを紹介 • 新しいサービス提案の切っ掛けに • 実践のプロセスを学ぶ 2.不自然言語処理へのお誘い 3
  • 4. 学会へ遊びに行こう! ● 専門の学生か、GとかYとかIとか、ごく一部の企業 に所属していないと、最新技術動向は掴めない ● 学会に行けば、最新の情報がわんさか手に入る! ● すごい人達と知り合いになって、仕事して貰ったり 仕事貰ったりする! ● 自分の疑問点や手法について議論できる! ● 学会参加費はそんなに高くないよ! ● そうは言っても中々敷居が高く感じられるので、ま ずはテキストマイニングマスター達のブログで キャッチアップしよう 4
  • 5. 必ずチェックすべき10のブログ 1. コーパスいぢり(langstat) 2. あらびき日記(a_bicky) 3. 睡眠不足?(sleepy_yoshi) 4.EchizenBlog-Zwei(echizen_tm) 5.Overlasting::Life(overlast) 6. おとうさんの解析日記(isseing333) 7. はやしのブログ(phosphor_m) 8.nokunoの日記(nokuno) 9. ぬいぐるみライフ(仮)(mickey24) 10.Mi manca qualche giovedi`(shuyo) 5
  • 6. 発表論文目次 1.Webからの飲食店舗の評判情報抽出 2.Wikipediaのカテゴリ階層を利用したTwitterユーザのカテ ゴライズ 3. 大規模Web情報分析のための分析対象ページの段階的 選択 4. マイクロブログの分析に基づくユーザの嗜好とタイミングを 考慮した情報推薦手法の提案 5. 不自然言語処理コンテスト第一回開催報告 6. 文頭固定法による効率的な回文生成 7. 顔文字情報と分の評価表現の関連性についての一考察 6
  • 7. Webからの飲食店舗の評判情報抽出 高尾美代子他 ● 目的 ● 適当にブログ等をクロールしても評判情報を得難い ● 効率的な評判情報抽出の手法を提案しよう! 7
  • 8. 既存の評判情報抽出とその問題点 ● 手順 1. 店舗名を含むテキストを取得する 2. テキストから評価部分を抽出 3. 抽出した評価情報から店舗の評判を得る ● 問題点 ● 評価部分を抽出することが難しい ● 全テキスト参照すると評価と関係無いノイズが増える ● 逆に抽出部分が狭すぎると、評価を得られない ● 上手く評価部分のテキストだけ抽出したい! 8
  • 9. 本稿の提案 ● 評判情報を得やすいページとそうでないページに 分類することで、より良い評判情報抽出が可能に なる ● 評判情報を得やすいページに分析対象を絞ろう ● テキストのどの部分を参照すれば、評判情報を得 やすいのかを調べよう 9
  • 10. 実験の手法と手順 1.共起表現抽出範囲, 素性選択をパラメタとする 2.各パラメタごとに、対象ページが評判情報を含むか 否かを判定した分類精度を出す ● Yahoo!検索APIを用い、評判情報を含む/含まないペー ジ100件ずつ用意 ● 分析ツール:SVMLight 3.各パラメタの抽出結果を比較し、最適な組合わせ を得る 10
  • 11. 効果的な共起表現抽出範囲 ● なぜ評判分析で共起表現を抽出するか ● 評価を表す単語は店舗名の周辺に集中しているから ● 抽出範囲18パターン ● 店舗名の前方/後方/前後の3パターン ● 2~7単語の6パターン ● 結果 ● 平均精度:後方83.3%, 前後60%, 前方57% ● 評価は店舗名の後方に集中する ● 共起語数は4~6単語が最適 ● 3以下は評判情報を含み難く、7以上はノイズが多い 11
  • 12. 効果的な素性パターン ● 品詞パターン 1. 動詞+形容詞 2. 動詞+助動詞 3. 形容詞+助動詞 4. 形容詞+助詞+動詞 5. 名詞+助詞+形容詞 6. 名詞+助詞+動詞 7. 形態素nグラム 8. 単語nグラム ● 結果は店舗によってまちまち ● 平均して7, 8の精度が比較的高い 12
  • 13. まとめ ● 評判分析をするには、適切な評価情報を含んだ ページの取得が必要 ● 評価は店舗名の後方4~6単語に集中する ● 評判分析をする際、本研究を参考にして評価情報 を取得してみよう! 13
  • 14. Wikipediaのカテゴリ階層を利用した Twitterユーザのカテゴライズ 放地宏佳他 背景 ● Twitterのカテゴリは8種類と少なすぎる ● 情報抽出する際、適切なカテゴライズは有用 14
  • 15. 提案手法 ● 前提 ● Wikipediaのカテゴライズを使おう ● 適切なカテゴライズは日々のメンテナンスが必要であ り、高コスト。Wikipediaのカテゴライズを流用して自動 化出来れば非常に有用である ● 手順 ● ツイートから各ユーザの特徴語抽出 ● Wikipediaから特徴カテゴリ抽出 15
  • 16. 特徴語とは ● ユーザが用いる頻度高い単語≠ユーザの特徴語 ● 頻度の高い単語は皆も使っているモノが多い ● 特徴語とは、比較的他と比べてそのユーザだけが 用いる頻度高い単語 16
  • 17. 特徴語抽出 1.各ツイートの正規化(@username, RT・QT文, URL, ハッシュタグの除去) 2.Wikipediaの記事名と一致する語を抽出し、出現回 数とする 3.2で得られた語をツイートに含むユーザ総数を出現 頻度とする 4.出現回数>2, 1/出現頻度>0.5%を満たす語を特徴 語とする 17
  • 18. 特徴カテゴリ集合抽出 ● 各特徴語の最上位カテゴリまでのパス集合を取得 ● 全特徴語のパス集合から共通カテゴリを取得 ● 共通カテゴリを割り当てられたユーザの総数を出 現頻度とする ● 最上位カテゴリから共通カテゴリまでの距離をパス の大きさとする ● パスの大きさ/同一共通カテゴリの数>2, 1/出現頻 度>0.005を満たす共通カテゴリを特徴カテゴリとす る 18
  • 20. 評価実験 ● ランダムに選択した20ユーザ、各ユーザの最大発 言数2000とする ● 特徴カテゴリがそのユーザのカテゴリとして適切か 人手で判断 ● 実験結果 20
  • 21. 結果の考察 ● 「スポーツ」「コンピュータ」などは直感的なツイート が多くわかりやすい ● 「物理」「心理学」など専門用語が日常用語と被る カテゴリは判別しづらい ● 「反射」「振動」を多用する人は音響の人かも? ● reply, RT, 実況は特徴が掴みづらい 21
  • 22. まとめ ● カテゴライズを行う場合、replyやRT、実況などのツ イートを削除する必要が有る ● 専門用語と日常用語を切り分ける手法が必要 ● 自動化が適用できるカテゴリとそうでないカテゴリ の選別が必要 22
  • 23. 大規模Web情報分析のための 分析対象ページの段階的選択 赤峯享他 ● 目的と背景 ● 情報分析の処理は重いため、処理をかける前に不要な ページを対象から外したい ● Webには低品質のページが多い ● 通常の検索では検索結果上位の高品質なページしか 見ないためあまり意識されないが、クローラを回すとゴ ミばかり集めてしまう 23
  • 24. 選択の方針:質の高いページとは ● テキスト情報が豊富なページ ● 人気のあるページ≠テキスト情報が豊富なページ ● 絵画・動画サイトではテキスト情報少ない ● ページランクの高いページとテキストマイニングにテキ するページは異なる ● 多様な発信者/サイトを含むページ集合 24
  • 25. ページの選択 ● フィルタリングでスパム、ミラーページを対象から除 外 ● ページランクや高品質ページに出やすい特定単語 の出現頻度などの属性を用いた重み付きサンプリ ング ● サイト単位でページの品質を考える。同一サイトの ページの品質は似ているため、低品質なページを 含むサイトを丸ごと対象から除外 25
  • 27. まとめ ● Webから収集した10億ページを、先程のフィルタリ ングなどにかけて1億ページまで分析対象を絞るこ とに成功した ● ランダムサンプリングしたものより分析精度は高い 27
  • 28. マイクロブログの分析に基づく ユーザの嗜好とタイミングを考慮した 情報推薦手法の提案 向井 友宏他 ● 目的 ● twitterのリアルタイム性を利用し、ユーザに最適なタイ ミングで情報推薦を行いたい 28
  • 29. 提案手法 ● 各ユーザのRTの名詞からユーザのプロファイルを 作成する ● プロファイルを用いてクラスタリングを行う ● Wikipediaのカテゴリ情報を利用し、類似した嗜好の ユーザをクラスタリングする ● {サッカー|フットサル}文字列は違うが嗜好は似ている ● 最適なタイミング発見のため、バーストを用いる 29
  • 30. バーストとは ● 時系列における投稿数の急激な変化 ● バースト判定値Bの評価式 30
  • 31. 評価実験準備 ● 2010年度日本シリーズのロッテファン524人20万 以上のツイートを収集。11/7分を訓練に利用 ● 極性評価の準備 ● 極性評価用の手がかり語を人手で収集 ● P:ポジティブ語数、N:ネガティブ語数とする ● ポジティブバースト:P/(P+N) > 0.7 ● ネガティブバースト:N/(P+N) > 0.7 31
  • 32. バーストの検出 ● ヒューリスティックに以下のパラメタを利用 ● X=3, Y=30 ● 閾値α=0.2 ● バースト区間 ● 判定値Bがαを超え、再びαを下回るまでの区間 32
  • 33. 商品とユーザとのマッチング ● 楽天商品データ1000件の各商品説明から特徴語 を抽出 ● 各商品の特徴語とユーザカテゴリをマッチング ● スポーツクラスタにはサッカー商品を薦めるなど 33
  • 34. まとめ ● 最適な商品を推薦するだけではなく、バーストを利 用して、最適な推薦のタイミングまで考えよう! ● 結果は正直かなり悪かった ● RT数が少なくて学習が不十分 ● カテゴリに即した商品がないことも ● 噺・落語クラスタに何薦めればいいの? ● Wikipediaのカテゴリと楽天のカテゴリのミスマッチ 34
  • 35. 総評・雑感 ● Wikipediaを利用してコーパス作成、カテゴライズ するのが流行している ● twitter特有のソーシャル性、即時性を使おう ● これらは各データに階層構造やタグなど、高品質 なメタデータが人手で付与されている ● しかし、実際の利用は困難っぽい。BOWは無理。 ゼロ照応解析、共参照解析、談話解析等が必要 ● FOBOSやpLSAを学部生が使ってる… 35
  • 36. 不自然言語処理とは ● そもそも「自然言語処理」の言う自然とは? ● 「MeCabで分析できる言語=自然言語」 ● そんなもの自然言語じゃない! ● 実際の言語は誤字、脱字、略字、隠語、顔文字、 絵文字、AA、数式・化学式、等々が溢れている! ● 従来のテキストマイニングでは、顔文字などはゴミ として除去していた ● 顔文字にこそ書き手の思いが宿っているのでは? ● 顔文字等を有効活用するのが次世代マイニング 36
  • 37. 不自然言語処理コンテスト ● baiduの「不自然言語」専門の言語処理コンテスト ● なぜか発生するスイカ割り ● 参加してLT賞頂きました ● コンテスト受賞作と言語処理学会の不自然言語 セッションで発表された論文を紹介します ● 不自然言語処理を楽しもう! 37
  • 38. Soramegraph ● 概要 ● Twitter上で,「○○を××に空目した」というような,類似 した単語を「空目」したことをつぶやくことがある.この関 係をグラフ化して可視化するツール ● 制作動機 ● 空目し易い紛らわしい単語を把握し,誤解を避けたり, あえて誤解を狙ったコミュニケーションを補助する.ま た,Tweet を可視化することにより,自分と感性の近い 人を発見することもできる 38
  • 39. デモ ● http://aaatxt-gae.appspot.com/soramegraph 39
  • 40. 誤字ェネレータ ● 概要 ● 文字列を入力すると,その一部が「誤字」すなわち類似 した文字に置き換わるウェブアプリケーション ● 制作動機 ● 誤字によって意味が喪失するさまを視覚化する 40
  • 41. デモ ● http://goji.polog.org/ 41
  • 42. 感情のこもった返答テンプレ生成君 ● 概要 ● 返信先のメッセージと自分のそっけないメッセージを入 力とすると,そっけなくないメッセージのテンプレを生成 してくれるツール ● 製作動機 ● テンションの高いメールを返すのが面倒である. 42
  • 43. デモ ● http://tokuota.ddo.jp/extext/ 43
  • 44. ケンリブッジ大学 ● 概要 ● 入力文字列を,人間には読めるが,検索エンジンには 認識しづらい「ケンブッリジ大学難読化」画像に変換す る. ● 作成動機 ● 検索エンジン等に拾われたくない文章をブログや掲示 板に投稿するため. 44
  • 46. 文頭固定法による効率的な回文生成 鈴木啓輔他 ● 回文候補生成法:折り返し固定法と文頭固定法 46
  • 47. 速度比較実験とその考察 文節数 折り返し固定法 文頭固定法 3 21:41 0:42 4 198日 20:34 17日 14:10 ● シード文節から出現する初期状態数が少ない ● 不足文字列の短い初期状態が出現しにくい ● 回文を使って面白いキャッチコピーを作ろう! 47
  • 48. 顔文字情報と文の評価表現の 関連性についての一考察 村上浩司他 1.顔文字は周辺言語的要素を持つ 2.顔文字単体の極性だけではなく、文脈把握が大切 3.(^^;), (; ;)などは回答者によって快・不快バラバラ 4.極性が異なるのに同じ顔文字が使われる事も 5.クラス分類ではなく、複数の感情軸を併せ持つ 6.自身は意味を持たず、強調、緩衝材としての顔文 字利用 – 飲み会来るなよ~(^^)←冗談だと示している 48
  • 49. もっと不自然言語で遊ぼう! ● どんなとき不自然言語を使う? ● 仲の良い人同士だと砕けた表現や隠語使いやすい ● 他の人より頻繁に不自然言語を用いて会話する相手= 仲が良いのでは?ソーシャルネットワーク抽出出来る ● 不自然言語の利用度合いが親密さを表すかも ● 顔文字は非言語的な情報まで伝達出来るかも ● 誤字・脱字から精神状態などを読み取れるかも ● 誤った語の使い方から年齢等が推定できるかも ● やってみよう!!! 49
  • 50. 終わりに:学会での関根先生の言葉 (楽天&ニューヨーク大学) ● 不自然言語処理こそ真の自然言語処理であり、超 自然言語処理と改名すべき! ● 10年前の技術が今も楽天で有効活用されてる、学 会で盛り上がったネタなんて使われない。TF-IDF とかまだまだ現役。いかに高度な技術使うかより、 いかにノイズを削減するかの工夫が必要 ● すごい研究をしようとするのではなく,事業に役に 立つ研究をしよう 50