SlideShare uma empresa Scribd logo
1 de 44
Baixar para ler offline
テキストマイニングとNLPビジネス


                                山西健司
                         NECインターネットシステム研究所
                                  yamanisi@ccm.cl.nec.co.jp
                          http://www.labs.nec.co.jp/DTmining/


                               2003年10月15日
                     自然言語処理技術に関するシンポジウム2003

© NEC Corporation 2003                                          1
目次

             1.はじめに
             2.テキスト分類技術とCRM
             3.マーケティング知識の発見
             4.評判分析とWebマイニング
             5.トピック分析と情報監視
             6.テキストマイニング:Challenges
             7. おわりに
             8. 参考文献



© NEC Corporation 2003                2
1.はじめに

                         テキストマイニング
                         大量のテキストデータ(非構造・半構造データ)から
                         新規性のある知識または構造を発見すること

                                 ⇒情報的なSurpriseがあること


                    ●指定された条件の情報抽出、情報検索とは区別する
                    ●言語構造自体の解析(構文解析など)や文書構造
                    自体の解析(情報要約など)とは区別する



© NEC Corporation 2003                                3
テキストマイニングの位置づけ

           可視化           DB   機械学習    計算機科学        言語学


                    データマイニング             自然言語処理

                                 テキストマイニング


          情報抽出           情報検索                ビデオマイニング

           ログ解析          リンク解析               オーディオマイニング


                                         マルチメディア
               Webマイニング
               Webマイニング                   マイニング
© NEC Corporation 2003                                    4
テキストマイニングの要素技術と応用分野
                                        知識発見+工数削減

      CRM                            ナレッジ
                                     ナレッジ
    Customer
    Customer             マーケティング マネジメント     バイオ
                                             バイオ                セキュリティ
                                                                セキュリティ     モニタリング
                                                                           モニタリング
                         E-commerce
                                    マネジメント インフォマティクス
                                           インフォマティクス           Forensics Surveillance
                                                               Forensics Surveillance
   Relationship
   Relationship          E-commerce E-ラーニング
   Management
   Management                       E-ラーニング


  メール分類                  アンケート分析   ナレッジ構造化    バイオDBからの       有害情報フィルタ   情報監視
  FAQ自動作成                傾向分析      カリキュラム分析    知識発見            Spamフィルタ




                                    テキストマイニング

  テキスト              テキスト           相関     共起        対応           代表文       Novelty
   分類              クラスタリング        分析     分析        分析           分析       Detection

  教師あり学習 教師なし学習 単語想起                     単語共起     ポジショニング    スコアリング    異常検出

© NEC Corporation 2003                                                                5
テキストマイニングの環境動向
          市場動向
          CRM:2007年にて5000億市場、年率6.2%成長(IDCジャパン)
          ナレッジマネジメント、Forensics分野で新たなニーズが浮上

           技術動向
          IP化、ユビキタス環境がベース⇒リアルタイム、コンテキスト解析
          CRM/SCM/KMの統合化
                   国内CRM市場                                              国内CRMパッケージ市場
                    (IDCジャパン予測)                                             (矢野経済研究所 2003.4.23)
                                                                        •2004年以降、毎年130%近い伸張
              50
                                                                        •2005年には220億円規模
              45
                                                                                   CRMソリューションパッケージ市場
              40
       百億円                                                             25,000                                        22000
              35                                                 系列1
                                                                       20,000                               17000
              30                                                       15,000    12600             12940
                                                                                          10270
                                                                       10,000
              25
                   2002   2003   2004       2005   2006   2007          5,000
                                        年                                  0
                                                                                2001年    2002年    2003年    2004年    2005年

© NEC Corporation 2003                                                                                                       6
2.テキスト分類とCRM
     分類された記事                                                     1st Step
                                                                 (文書、カテゴリ)形式の事例
                                                                   の集合から文書をカテゴリに
       カテゴリ              trade         politics      sports        分類する規則を学習する

                                                                  2nd Step
                                 テキストマイニング                         規則に基づいて新しい文書を
                                   エンジン                            分類する


                                                                            新しい記事

                               条件                      カテゴリ
      ルール         (tariff & trade)                  trade (87.1%)
                  (deficit & export & import)       trade (74.9%)
                  (japanese & car)                  trade (71.5%)
                                                                        分類部
                  (textile& trade)                 trade (64.2%)
                  (Korea & surplus)                 trade (60.0%)
                     otherwise                    not-trade (92.8%)
                                                                         trade?
© NEC Corporation 2003                                                              7
テキスト分類のコールセンタ応用
                                          データマイニングサーバ
                                               顧客セグメンテーション
                                               リコメンドサービス
                                          テキストマイニングサーバ
                                              メール自動分類・応答
                                              FAQ自動作成
                                              アンケート分析

            顧客DB               オペレータ

 顧客情報・購買履歴
                                                応答時間の短縮
 問い合わせ、苦情                問い合わせ(テキスト) 回答、情報配信
                                                  CS向上化
  アンケート回答文
                                                キャンペーン管理
                                                  商品推薦
                                                  個客管理
                         電話、FAX, email, Web

© NEC Corporation 2003                                       8
テキスト分類の研究動向
   ● ルールベースの方法
                     …高いReadability, modifiability, 知識の融合
                      やや低いEffectiveness
       C4.5, Ripper[Cohen and Singer98]
       Bayesian Net[Dumais et.al.98], decision rules[Apte et.al.94]
   ●非ルールベースの方法
       …低いReadability, 高いEffectiveness
         Naïve Bayes[Kar and White 78], cosine法[Rocchio71]
         SVM[Joachim98]

                   課題:ルールベースのreadabilityを保持しながら
                      高い分類精度を実現する手法の確立

© NEC Corporation 2003                                                9
ルールベースのテキスト分類
                                      [Li and Yamansihi 99、02]

    ●カテゴリ=分類対象(ex. tradeであるか否か)を指定

    ●属性(=調べる単語)を指定。 テキストを属性が
     現れたか(1)現れないか(0)の二値ベクトルで表現

    ●テキストとカテゴリの対応関係を分類ルールとして学習

            分類ルールの表現……確率的決定リスト
               if A =1 & B=0 then Text = trade (確率0.8)
               else if D=1 then Text = not trade (確率0.9)
               ..…..…………..
               else Text = not trade (確率0.75)
© NEC Corporation 2003                                           10
ルール学習アルゴリズムDL-ESC
                                    テキストデータ      [Li and Yamanishi 99、02]


                                    形態素解析
                                                       前処理
                                     属性選択

                                   情報量基準ESC
                ESC:
 Extended Stochastic Complexity    によるルール追加         ローカルな最適化
          [Yamanishi98]              (Growing)

                                   情報量基準ESC
                                  によるルール刈り込み       グローバルな最適化
                                     (Pruning)

                                     ルール表示
© NEC Corporation 2003                                                      11
ESCに基づくルール選択
      単語空間
                                 •                 •
                                      •                 •
                             •                 •
                         •            •                 •
                                 ••    •   •       ••    •
     trade                   •                 •
 •   not trade
                             ESC=15        ESC=22
                                           (簡単すぎるルール)

                                 •         ESC値

                                      •
                             •
                                      •
                         •       ••    •
                             •
                                                    最適点
                                           分類誤り最小            ルールの複雑さ
       ESC=20                (複雑すぎるルール)
© NEC Corporation 2003                                                 12
非ルールベースのテキスト分類
       テキストd のベクトル表現
                           d = (w1 , w2 ,   , wn )

              Tf-idf       wi = log(1 + テキスト d における単語 i の頻度 )
                                    ´
                                   × log(全テキスト数 /単語 iを含むテキスト数)


                                                          d・ e
                         dとe の類似度 = cos(dとe のなす角) =
                                                        | d || e |


                   ・コサイン法
                   ・k-NN
                   ・ニューラルネットワーク
                   ・SVM
                                                     等など 多数
© NEC Corporation 2003                                               13
SVM(Support Vector Machine)
                         [Vapnik95],[Joachims98]
                                                    Support Vector

       …..trade
       …..not trade                                wx+h=1

                                                   wx+h=0


                                                   wx+h=-1

           Margin




                ●Margin が最大となる超平面でカテゴリを分離
                ●構造的リスク最小化の保証=未知データの予測誤差小
                ●次元の呪い(次元の指数の計算時間)から逃れられる

© NEC Corporation 2003                                               14
テキスト分類エンジンの性能比較
                  1.0                                                Reuters-21578データ
                                       DL-ESC
                                                 Break-even Point          Apte Split
                                                                           訓練データ: 9603
                                       Bayes                               評価データ: 3299
         適合率
                                Rocchio



                    0
                         0                                          1.0     再現率
            再現率 = 正しく分類できたテキスト数 / 正しく分類すべきテキスト数
            適合率 = 正しく分類できたテキスト数 / 分類できたテキスト数
             Rule-Based      Break-even Point   Non-rule Based Break-even Point
              DL-ESC             82.0%             SVM             84.1%
              DL-SC              78.3%             Bayes           77.3%
              BayesNet           80.0%              BIM            74.7%
              C4.5               79.4%             Rocchio         62.5%
                                                 [Li and Yamanishi 2002]
© NEC Corporation 2003                                                                   15
3.マーケティング知識の発見
                   ブランド        満足度 年代 ・・・・      イメージの自由記述
                  A社   セダンA        1   20    高級車の中で最高。
                  B社   セダンB        2   30    スタイルが良い。               テキストDB
                  C社   外車C         1   40    お金持ち、値段が高い。
                  D社   外車D         3   20    ファミリーの中でもスポーティな感じ。   (例:車のアンケート
                  E社
                  F社
                       ワゴン車E
                       ワゴン車F
                                   1
                                   2
                                       40
                                       30
                                             速い。硬い。
                                             重そう。強そう。
                                                                     データ)
                  A社   セダンA        1   50    普通車。よく見かける。



                                 自由記述アンケート分析ツール(CodeName)
                                 ※TopicScopeとして製品化
                                  http://www.sw.nec.co.jp/soft/TopicScope


                 A 車の特徴は
                 A 車の特徴は                        心地良い
                                                心地良い                  対応分析
特徴分析                                            車A
                                                車A                    (複数の対象物とそ
(対象物に固有な表   ••   “乗り心地がよい”
                 “乗り心地がよい”                                            の特徴語の相互関
                                                             高級感
                                                             高級感
現を抽出、単純な頻   ••   “運転しにくい”
                 “運転しにくい”                           車C                係をポジショニング)
度分析とは異なる)                                           車C
                                                車B
                                                車B    走り重視
                                                      走り重視
                                                 庶民的
                                                  庶民的

            目的・用途                             効果
            ■マーケティングリサーチ                      ■分析工数の劇的削減
            ■CS調査
© NEC Corporation 2003                        ■知識発見                                16
テキストマイニングの機能

                          特徴語分析
                         ・・・・カテゴリ特有に現れる単語/フレーズを抽出
                          共起語分析
                         ・・・・特徴語と共起する単語/フレーズを抽出
                         典型文解析
                         ・・・・カテゴリを代表するテキストを順にリストアップ
                         対応分析
                         ・・・・複数のカテゴリ間の相対位置をマッピング



© NEC Corporation 2003                                17
特徴語分析
                         [Li and Yamanishi 98, 01]
                          D: 1010000110        10個のテキスト
                          1: A商品 0: その他        データ

                                       含む
                                安心な         E 10011
                                  含まない
                              D-E 01000
     情報量規準
     I(E)+ I(D-E)→ 小 ⇒ “安心な” はカテゴリ“A商品”の特徴語
     I(x)=mH(m1/m)+(1/2)log (mπ/2) m:データ数、 m1 :1の出現数
             ….確率的コンプレキシティ(SC)~ データ圧縮の規準
     I(x)=min{m1 ,m‐ m1 }+ λ(m log m)1/2
            ….拡張型確率的コンプレキシティ(ESC)~予測誤差最小の規準

                   “安心な” の情報利得: ΔI=I(D)ー(I(E)+I(F))
© NEC Corporation 2003                                    18
特徴語分析の例
                         ESCに基づく特徴語抽出結果↓
 「PDA製品A」に関する
 肯定意見における特徴語




                                     対象物に特有の印象を表す
                                     対象物に特有の印象を表す
                                      言葉のみが抽出できる
                                      言葉のみが抽出できる


                                  [参考]単純頻度による特徴語抽出結果↓

   特徴語は「拡張型確率的コンプレキシティ」に基づく
   情報利得を計算することで求めている
   この尺度は,全意見セットと比べて,着目意見セット(この
   例では「PDA製品A」の肯定意見)に偏って出現する単語
   について値が大きくなる
                                     いろいろな対象物に共通する
                                     いろいろな対象物に共通する
                                      言葉も抽出されてしまう
                                      言葉も抽出されてしまう
© NEC Corporation 2003                               19
共起語分析
                             D: 1010000110
                             1: “キーボード”を含む     10個のテキスト
                             0: “キーボード”を含まない   データ

                                      含む
                                   小さい      E 10011
                                    含まない
                                D-E 01000
     情報量規準
     I(E)+ I(D-E)→ 小 ⇒ “キーボード” と “小さい” の共起性大

                         例   単語       共起単語
                             キーボード    打ちやすい
                             キーボード    小さい
                             キーボード    入力
© NEC Corporation 2003                                    20
典型文分析
             [Morinaga,Yamanishi,Tateishi,Fukushima 02]

  テキスト s=w1,…,wN                    (wi: 単語またはフレーズ)

                              p(c)Πi=1N p(wi |c)      カテゴリCにおける
             Score(s)=
                                                      テキストsの典型文スコア
                             Σ c p(c)Πi=1N p(wi |c)


                            Nc +β
             p(c)=                              Nc :カテゴリCに属するテキスト数
                         Σ c Nc+|C|β

                             mw +β
           p(wi |c) =                          mw :カテゴリCに属するテキスト
                          Σ w mw+|W|β                 の中に含まれる単語wの数
© NEC Corporation 2003                                               21
対応分析
                         各商品名と関連の強い特徴語を2次元マップ上に配置




                           PDA製品B
                           PDA製品B




                                        PDA製品C
                                        PDA製品C

                           PDA製品A
                           PDA製品A




© NEC Corporation 2003                              22
4.評判分析とWebマイニング
                Web マイニングの分類               [Kosala and Blockeel 2000]



                           Web Contents                 情報抽出
                             Mining                       +
                                 評判分析
                                                      テキストマイニング
                                競合サイト比較
                               時系列モニタリング


          Web Structure                     Web Usage
             Mining                          Mining
                 リンク解析                      アクセスパタン分析
             Hub-Authority抽出                 ナビゲーション
             Webコミュニティ発見                    リコメンデーション

© NEC Corporation 2003                                                  23
評判分析
                         Web上の意見の収集から分析までを自動化

          評判検索…. Webからの評判検索・意見抽出
          [立石、石黒、福島 01]
                                 +
          テキストマイニング (SurveyAnalyzer)
          …. 特徴単語抽出によるテキスト分類
           [Li and Yamanishi 01]



       評判分析....評判の原因を分析
       [Morinaga, Yamanishi, Tateishi, Fukushima 02]
            ~            マーケティング⇒工数激減・知識発見
© NEC Corporation 2003                                 24
掲示板,レビューサイト,            意見収集対象:        分析対象:
 個人サイト,日記サイト等            携帯端末A・B・C   携帯端末Aの肯定意見


       インターネット
       インターネット                         ②テキスト
                           ①評判検索
                                       マイニング
       携帯端末Aに関する意見:
       携帯端末Aのキーボードは打ちやすい             ○肯定   携帯端末Aの
       携帯端末Aは乾電池で長時間駆動が魅力            ○肯定   肯定意見の特徴語:
                         ・・・・・・
                                           電子メール
       携帯端末Bに関する意見:                        キーボード
       携帯端末Bのデザインが最高                 ○肯定   長時間
                                           ・・・・・・
       携帯端末Bなんて大嫌い                   ×否定
                         ・・・・・・


       携帯端末Cに関する意見:
       携帯端末Cは安い                      ○肯定
       携帯端末Cは重いので嫌い                  ×否定
                         ・・・・・・

© NEC Corporation 2003                              25
評判検索:結果出力
      商品入力画面
                                                 商品名: PDA製品A
                              PDA製品A
                                                 ジャンル: コンピュータ
                     PDA製品A
                                                       検索結果画面

   適正値                        評価                      抽出した意見
                               PDA製品 A
                                            PDA製品 A




                              PDA製品A



                                   PDA製品A
© NEC Corporation 2003                                          26
評判検索:ラベル化
       商品分野ごとの評価表現の辞書を作成
            商品カテゴリ       評価表現リスト
            共通           好き、良い、良くない、勧め、最高、満足だ・・
            書籍           面白、名作、読みにく、分かりやす、違和感
            コンピュータ       速い、壊れやす、うるさ、不安定、信頼で・・

       構文的特徴を考慮して意見らしさを判定
            ID    適正値判定ルール(正規表               ルールの意味
             1    _商品名_.*(は|が|も).*_評価表現_     格助詞が存在
             2    _商品名_.*(。|.|?|!).*_評価表現_   別の文に存在
             3    _評価表現_.{0,12}_商品名_         接近して存在
             4    _評価表現_.*(?|?)             文末が疑問符

© NEC Corporation 2003                                27
評判検索からテキストマイニングへ
                          ラベル
                                                 テキスト
        商品名              肯定/否定 適性値              評判・意見
          PDA             肯定 0.75 **は使いやすくて素晴らしい***
  正       製品A
  例       ・・・・・           ・・・・ ・・・・   ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

          PDA             否定 0.82      **は重くて持ち運びに困る***
  負       製品A
  例       ・・・・・           ・・・・ ・・・・   ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・


  特定のラベルの組み合わせ(カテゴリ)を識別する特徴的表現を
   マイニング!
© NEC Corporation 2003                                                28
評判分析例
            特徴語
          「キーボード」            携帯端末A
           「長時間」           に関する肯定意見
            ・・・・・・


                        インターネット上の
                       ホームページから集めた
                         意見を比較分析
           携帯端末B                        携帯端末C
         に関する肯定意見                     に関する肯定意見

                       「CD-ROM」       「常時接続」
          特徴語 「ハードディスク」           特徴語
                                       ・・・・・・
© NEC Corporation 2003   ・・・・・・                  29
評判分析の応用
             企業における                         一般ユーザ向けの
            マーケットリサーチ                        アドバイス提供
   新商品開発                 当社の現商品について
                         当社の現商品について
                                           この商品とあの商
                                           この商品とあの商
   ・商品改良                 ユーザはどんな不満をも
                         ユーザはどんな不満をも
                                           品ではどちらが評
                                           品ではどちらが評   商品購入
                           っているのだろう
                           っているのだろう
                                            判が良いかな
                                            判が良いかな     支援
     競合          当社の競合商品の
                 当社の競合商品の
     調査          評判はどうだろう
                  評判はどうだろう                   欧州に旅行に行く
                                             欧州に旅行に行く
                                             のにどこが評判
                                              のにどこが評判
                                              が良いだろう
                                               が良いだろう
         今度の新CMは好評だ
         今度の新CMは好評だ
         ろうか,あの俳優の好
         ろうか,あの俳優の好                                   旅行計画
          感度はどうだろう
          感度はどうだろう                                    ・行動支援
                                           今度訪問するあ
                                           今度訪問するあ
                                掲示板で悪評が
                                掲示板で悪評が
   広告・キャンペーン等の                             の会社はどんな
                                           の会社はどんな
                                立っていないか
                                立っていないか
      効果把握                                 評判なのだろう
                                           評判なのだろう
                               誹謗中傷・悪評対策   会社・個人の
                                            信用調査
© NEC Corporation 2003                                        30
5.トピック分析と情報監視

                            テキストストリームからのトピックの抽出

                         TDT: Topic Detection and Tracking
                               ~DARPAの研究プログラムの一つ。年1回のCompetition

          A Topic is…..
                    a seminal event or activity, along with all
                    directly related events and activities
         A Story is…..
                  a topically cohesive segment of news that includes two or more
                  DECLARATIVE independent clauses about a single event


              ●異なるテキストのストリームからのトピック分析
              ●同一テキスト内でのトピック分析
© NEC Corporation 2003                                                             31
トピック分析の5大問題
  ●トピック:  特定のイベント。 (例: 首相訪朝、不審船引き上げ、、、等)
  ●ストーリー: 単一のトピックについて述べている文章。 (例:新聞の記事一つ)

■Story Segmentation: 長いテキストをストーリーごとに分割する
       Segmentation
■Link Detection:
      Detection            二つのストーリーが同じトピックかどうかを判定する
■Topic Detection: ストーリー集合を、トピックに関してクラスタリングする
■Topic Tracking:           指定されるストーリーと同じトピックのものをトラッキングする
■First Story Detection (FSD): 新しいストーリーの出現を検出する


      カスタマーサポートセンタへのメール                   Topic Tracking
                     キーボード バッテリーもち   予算上計画、、   電池が壊れる、、     HDDに異常が   HDDの故障
                     不良、、 が悪い、                                        はその後…、

                             ユーザー指定
                                                                         時間
                                                            FSD
© NEC Corporation 2003                                                         32
Topic Tracking の現行技術
       基本アルゴリズム:
       •テキストを単語の集合とみなしベクトルで表現
                             d = (w1 , w2 ,   , wn )
                  Tf-idf     wi = log(1 + テキスト d における単語 i の頻度 )
                    ´
                   × log(全テキスト数 /単語 iを含むテキスト数)
       •テキスト間の類似度をベクトルの角度(コサイン)で定義
                                                             d・ e
                           dとe の類似度 = cos(dとe のなす角) =
                                                           | d || e |

       •ユーザー指定テキストとの類似度が閾値以上の新テキストが来たらアラーム


                         アラーム不発
                                          アラーム発
       原点0                                             ユーザー指定テキスト(基準ベクトル)
                                          アラーム発
                         アラーム不発



© NEC Corporation 2003                                                      33
FSD の現行技術
        基本アルゴリズム:
        •Topic Tracking と同様の文書ベクトル表現に対して、
        過去のどのテキストとも類似度が閾値以下であるテキストにアラームを出す
                           アラーム発
                                                 アラーム不発領域
                原点0
                                                      過去のテキスト類

                                         アラーム発
       改良アルゴリズム:
       •初出トピックのその後の出現回数が閾値を越えたらアラーム→情報潮流発見

    パソコン噂話の複数のサイト
                 Sは色がいいYは結構は速      、、は思ったほ ソフトのバンド     結構売れてる FがHDDの交
                 ね、、、、 い、、、、       ど遅くない、、、、ルが、、       らしいぞ、、、、換を、、、、
                       窓口の対応が                    また壊れた!F
                       最低な、、、Tの液晶ドット    ドット落ちが気  のHDD、、、、
                                        にな、、、、            FのHDDは変
                             落ちが、、、、      紫色というの
                                          は、、、、           なのでは、、、、
                                                  ↑初出
                                                                        時間
© NEC Corporation 2003                                                       34
トピック分析のレベル
                        TDT evaluation 2001の結果
                 Topic Tracking                                           FSD




                         J.Fiscus: Overview of the TDT 2001 Evaluation and Results

   ・Breakeven-pointにて95%超の精度                            ・Breakeven-pointは約70%の精度にと
   ・データは主にニュース原稿。~比較的簡単                                 どまる (FSDは五大問題中最難問)
   な課題(似たトピックが少ないテキスト集合)

© NEC Corporation 2003                                                               35
テキスト内でのトピック分析
  ●トピック: 話項目…単語クラス(クラスタ)で表現する
     例: trade: export, import, tariff, trader, GATT, protectionist
                                                  テキスト

                                         0.5        0.3         0.2
                   トピック1                          トピック2                      トピック3

                         単語分布                    単語分布                 0.7 単語分布
            0.5
                                                 0.5 0.5
                     0.2    0.2                                            0.2
                                  0.1                                            0.1

         Trade    export import tariff         Japan Japanese         US NY Washington

                    クラスター1                       クラスター2                  クラスター3

  K:        トピックの集合
  P(k):    K上の確率分布
  P(w|k) : トピック(クラスター)k 内の単語の確率分布

  確率的トピックモデル [Li and Yamanishi 00,03]
  ….Finite Mixtureを用いた単語分布の表現

© NEC Corporation 2003
                                  P(w) =Σk∈K P(w|k) P(k)
                                                                                         36
テキストセグメンテーション

 STMの
変化度合い




                          10     20        30   40
                                 文番号


             文XにおけるSTMの変化度合い
             =Xの前の文章のSTMPLとXの後の文章PRのSTM
               の統計的距離
             D(x)= Σω |PL(ω)ー PR (ω)|
                         D(x)が極大になる文xで分割
© NEC Corporation 2003                               37
テキストセグメンテーションの例
           ASIAN EXPORTERS FEAR DAMAGE FROM U.S.-JAPAN RIFT (25-MAR-1987)

           block 0 -------- trade-export-tariff-import(0.12) Japan-Japanese(0.07) US(0.06)
                                                                                                                トピックの
           1 They told Reuter correspondents in Asian capitals a U.S. move against Japan might boost …
           2 But some exporters said that while the conflict would hurt them in the long-run, in the …
                                                                                                               確率分布同定
           3 The U.S. has said it will impose 300 mln dlrs of tariffs on imports of Japanese electronics ...
           4 Unofficial Japanese estimates put the impact of the tariffs at 10 billion dlrs and spokesmen …
           5 quot;We wouldn't be able to do business,quot; said a spokesman for leading Japanese electronics …
           6 quot;If the tariffs remain in place for any length of time beyond a few months it will mean the …


           block 1 -------- trade-export-tariff-import(0.17) US(0.09) Taiwan(0.05)
           7 In Taiwan, businessmen and officials are also worried.                                          文書自動
           8 quot;We are aware of the seriousness of the U.S. threat against Japan because it serves as a …
           9 Taiwan had a trade surplus of 15.6 billion dlrs last year, 95 pct of it with the U.S.            分割
           10 The surplus helped swell Taiwan's foreign exchange reserves to 53 billion dlrs, among the …
           11 quot;We must quickly open our markets, remove trade barriers and cut import tariffs to allow …
           12 A senior official of South Korea's trade promotion association said the trade dispute between …
           13 Last year South Korea had a trade surplus of 7.1 billion dlrs with the U.S., up from 4.9 …
           14 In Malaysia, trade officers and businessmen said tough curbs against Japan might allow ...
            block 2 -------- Hong-Kong(0.16) trade-export-tariff-import(0.10) US(0.04)
            15 In Hong Kong, where newspapers have alleged Japan has been selling below-cost semiconductors, …
            16 quot;That is a very short-term view,quot; said Lawrence Mills, director-general of the Federation of …
            17 quot;If the whole purpose is to prevent imports, one day it will be extended to other sources…
            18 The U.S. last year was Hong Kong's biggest export market, accounting for over 30 pct of ...

          block 3 -------- trade-export-tariff-import(0.14) Button(0.08) Japan-Japanese(0.07)
          19 The Australian government is awaiting the outcome of trade talks between the U.S. and Japan …
          20 quot;This kind of deterioration in trade relations between two countries which are major trading …
          21 He said Australia's concerns centered on coal and beef, Australia's two largest exports to …
          22 Meanwhile U.S.-Japanese diplomatic manoeuvres to solve the trade stand-off continue.
© NEC Corporation 2003                                                                                                  38
6.テキストマイニング:Challanges
          ●文脈マイニング (単語/句から文脈へ)
          ●オンライントピック分析 (初出表現、Novelty Detection)

        NLP
                     文脈
                                      テキストマイニング



                     単語                            マイニング
                             静的             動的

           ●Multi-Mediaとの融合 ⇒ Multi-Media マイニング
           ●リンク解析、ログ解析との融合

© NEC Corporation 2003
                         ⇒ Webマイニング、 Relational マイニング
                                                           39
文脈マイニング
                            文脈解析+マイニング
      文章 拝啓、昨日A商事を訪問して、…            部長に見易い見積書を提出した。
                 その後、…商談がまとまった。以上
                                    部長→提出した
                         係り受け解析     見易い→見積書
   浅い                               見積書→提出した

                                       提出した

                         構文木解析      部長      見積書

                                            見やすい

   深い                                挨拶
                         文書構造解析
                                    Tree1   Tree2

© NEC Corporation 2003                       End      40
7.おわりに

       成熟したテキスト分類、これからのトピック分析
       テキストマイニング応用分野が急拡大(CRM,マー
       ケティング市場、Forensics, etc.)
       テキストマイニング技術は今後、文脈とダイナミクス
       を取り入れて発展するだろう
       Webマイニング、Relationalマイニング、
       マルチメディアマイニングの中で技術融合の可能性



© NEC Corporation 2003             41
8.参考文献
  【全般】
1.金、村上、永田、大津、山西:「データとテキストのマイニング」 岩波書店「統計科学のフロンティア」シリーズ10、 2003.
2.山西健司:情報論的学習理論の現状と展望、情報処理、 vol.42, No.1, pp:9--15, 2001.
3.山西健司:データ・テキストマイニングの最新動向-外れ値検出と評判分析を例に-、応用数理, vol.12, No.4,p.7-22,2002..

【情報理論、学習の基礎】
1.J.Rissanen: Fisher information and stochastic complexity, IEEE Trans.on Information Theory, 42(1), pp:40-47 (1996).
2. K.Yamanishi: ``A Decision-theoretic Extension of Stochastic Complexity and Its Applications to Learning,'' IEEE
   Trans. on Information Theory, vol.44, 4, p.1424-1439, 1998.
3.麻生、津田、村田:「パターン認識と学習の統計学」岩波書店「統計科学のフロンティア」シリーズ6、2003
4.韓、小林:「情報と符号化の数理」岩波講座応用数学 対象11
5. 山西、韓: MDL入門: 情報理論の立場から、人工知能学会誌, p.427-434, vol 7(3), May 1992.
       6. 山西健司: 拡張型確率的コンプレキシティと情報論的学習理論, 応用数理、vol.8, No.3, p.14-29, 1998.
7. 山西健司: 統計的モデル選択と機械学習, 計測と制御、vol.38, p.420-426, 1999.

【テキストマイニング一般】
1.R.Feldman: Mining unstructured data, Tutorial notes for ACM SIGKDD 1999 International
   Conference on Knowledge Discovery and Data Mining (KDD1999)
   (http://www.acm.org/pubs/citations/proceedings/ai/312179/p182-feldman/)
2.M.A.Hearst: Untangling text data mining, in Proc.of the 37th Annual Meeting of the
   Association for Computational Linguistics(ACL99) (1999).
   (http://www.sims.berkley.edu/~hearst/papers/acl99/acl99-tdm.html)
3. SIGKDD: http://www.acm.org/sigkdd/
4.人工知能学会誌 Vol.16, No.2 (2001年3月) 特集「テキストマイニング                            」
© NEC Corporation 2003                                                                                                  42
【テキスト分類関連】
1. C.Apte, F.Damerau, S.M.Weiss: Towards language independent automated learning of text categorization models
   in Proc. of Annual ACM SIGIR Conference on Research and Development on Information Retrieval(SIGIR94),
  pp.24-30,1994.
2. W.Cohen and Y.Singer: Context-sensitve learning methods for text classification, in Proc.of SIGIR96, pp:307-315 (1996).
3. S.Dumais, J.Platt, D.Heckerman, and M.Shami: Inductive learning algorithm and representation for
   Text categorization, in Proc.of the 7th Int’l Conf. on Information and Knowledge Management(CIKM98), pp:148-155 (1998
4.T.Joachims: Text categorization with support vector machines: Learning with many irrelevant features,
  in Proc. ECML’98 (1998).
5.G.Kar and L.J.White: A distance measure for automatic document classification by sequential analysis,
   Information Processing and Management, 14, pp:57-69 (1978).
6.H.Li and K.Yamanishi: Text classification using ESC-based stochastic decision lists,
   in Proc. of 8th International Conference on Information and Knowledge Management (CIKM’00), pp: 122-130, (2000).
7..H.Li and K.Yamanishi: ``Text classification using ESC-based decision lists,''
    Information Processing and Management, .Vol. 38/3, pp 343-361, 2002.
8. Reuters21578 Text Categorization Collection: http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html
9. J.Rocchio: Relevance feedback information retrieval, in Gerard Salton Editor, The Smart Retrieval System
    -Experiments in Automatic Document Processing, pp:313-323, Prentice-Hall (1971).
10.R.E.Schapire,Y.Singer,andA.Sighal: Boosting and rocchio applied to text filtering, in Proc. of SIGIR98, pp:215-223,1998.
10.佐藤、池田、中田、長田:CRM分野へ向けた日本語処理機能のミドルウェア化
     言語処理学会第9回年次大会発表論文集 pp.109-112,2003年3月
11.永田、平田: テキスト分類-学習理論の「見本市」-、情報処理、vol.42(1), pp:32-37 (2001).
12.李: テキスト分類、計測と制御, Vol.38,pp:456-460 (1999).
【マーケティング知識の発見】
1. .H.Li and K.Yamanishi: quot;Mining from Open Answers in Quessionare Data ,quot;
     Proc. of the 7th ACM Int’l. Conf. on Knowledge Discovery and Data Mining(KDD2001), ACM Press, pp:443-449, 20
2. TopicScope: http://www.sw.nec.co.jp/soft/TopicScope
3. 森永、山西:``テキストマイニングによる自由記述アンケート分析‘’ 計測と制御、第41巻第5号、pp:354-357,2002.
4.Yamanishi: and H.Li: ``Mining Open Answers in Quessionare Data,'' IEEE Intelligent Systems、pp:58-63、Sept/Oct, 2002.
© NEC Corporation 2003                                                                                           43
【評判分析とWebマイニング】
1.G.W.Flake, S.Lawrence, and C.L.Giles: Efficient identification of web communities,
 in Proc. of the 6th ACM Int’l Conf. on Knowledge Discovery and Date Mining(KDD2000), pp:150-160, ACM Press, 2000.
2.R.Kosala and H.Blockeel: Web mining research: A survey. ACM SIGKDD Explorations, vol.2, No.1,pp:1-15,2000.
3.B.Liu,Y.Ma,and P.S.Yu: Discovering unexpected information from competitors’ web sites.
 in Proc. of the 7th ACM Int’l Conf. on Knowledge Discovery and Date Mining(KDD2001), pp:144-153, ACM Press, 2001 .
4.S.Morinaga, K.Yamanishi, K.Tateishi, and T.Fukushima: quot;Mining Product Reputations on the Web,quot;
 in Proc. of the 8th ACM Int’l. Conf. on Knowledge Discovery and Data Mining (KDD2002),pp:341-349ACM Press, 2002.
5.立石、石黒、福島:インターネットからの評判検索. 情報処理学会研究報告, NL153-14, pp:105-112,2003.
6.山西健司:Webマイニングと情報論的学習理論、 2002年情報学シンポジウム講演論文集、pp:9-16,2002.


  【トピック分析関連研究】
  1.The 2001 topic detection and tracking (tdt2001) task definition and evaluation plan.
    http://www.nist.gov/speech/tests/tdt/tdt2001/evalplan.htm 2001
  2.D.Beeferman, A.Berger, and J.Lafferty: Statistical models for text segmentation,
    Machine Learning, 34, pp:177—210, 1999.
  3.L.Baker, and A.McCallum: Distributional clustering of words for text classification.
   in Proc. of ACM-SIGIR98, 1998.
  4.M. Hearst: Texttiling: Segmenting text into multi-paragraph subtopic passages,
   Computational Linguistics, 23(1),pp:33—64, 1997.
  5.G.Salton and C.S.Yang: On the specification of term values in automatic indexing.
   Journal of Documentation, 29(4),pp:351—372, 1973.
  6.H.Li and K.Yamanishi: Topic analysis using a finite mixture model,
    in Proc. of ACL Workshop on Very Large Corpus, pp:35-44、2000.
  7.H.Li and K.Yamanishi: Topic analysis using a finite mixture model,
   Information Processing and Management,. Vol.39/4, pp 521-541, 2003.



© NEC Corporation 2003                                                                                         44

Mais conteúdo relacionado

Mais procurados

Effective E Mail In Arabic By Gamal Arafa
Effective E Mail In Arabic By Gamal ArafaEffective E Mail In Arabic By Gamal Arafa
Effective E Mail In Arabic By Gamal ArafaGamal Arafa
 
Soilmechanics1
Soilmechanics1Soilmechanics1
Soilmechanics1guest680a4
 
Sc2009autumn 次世代Daoフレームワーク Doma
Sc2009autumn 次世代Daoフレームワーク DomaSc2009autumn 次世代Daoフレームワーク Doma
Sc2009autumn 次世代Daoフレームワーク DomaToshihiro Nakamura
 
QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討handbook
 
دليل المعلم لتنمية مهارات التفكير
دليل المعلم لتنمية مهارات التفكيردليل المعلم لتنمية مهارات التفكير
دليل المعلم لتنمية مهارات التفكيرguest2466eb
 
Oracle Unconference 松下 4/22
Oracle Unconference 松下 4/22Oracle Unconference 松下 4/22
Oracle Unconference 松下 4/22matsushita
 
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」devsumi2009
 
Arabic E Book 25 Success Stories[1]
Arabic E Book   25 Success Stories[1]Arabic E Book   25 Success Stories[1]
Arabic E Book 25 Success Stories[1]anas0666
 
7secret
7secret7secret
7secretpaown
 
د.نادية باعشن - ملتقى سيدات الأعمال الثالث
د.نادية باعشن - ملتقى سيدات الأعمال الثالثد.نادية باعشن - ملتقى سيدات الأعمال الثالث
د.نادية باعشن - ملتقى سيدات الأعمال الثالثRiyadhBWF
 
توافق نامه خريد و فروش اينترنتي سهام
توافق نامه خريد و فروش اينترنتي سهامتوافق نامه خريد و فروش اينترنتي سهام
توافق نامه خريد و فروش اينترنتي سهامahmad soodavar
 
IE-008 Ie的機會與挑戰 以Ic晶圓製造業為例
IE-008 Ie的機會與挑戰  以Ic晶圓製造業為例IE-008 Ie的機會與挑戰  以Ic晶圓製造業為例
IE-008 Ie的機會與挑戰 以Ic晶圓製造業為例handbook
 
Windows 7兼容性系列课程(1):Windows 7兼容性概述
Windows 7兼容性系列课程(1):Windows 7兼容性概述Windows 7兼容性系列课程(1):Windows 7兼容性概述
Windows 7兼容性系列课程(1):Windows 7兼容性概述Chui-Wen Chiu
 
د. ماجدة الجارودي - ملتقى سيدات الأعمال الثقافي الثالث
د. ماجدة الجارودي - ملتقى سيدات الأعمال الثقافي الثالثد. ماجدة الجارودي - ملتقى سيدات الأعمال الثقافي الثالث
د. ماجدة الجارودي - ملتقى سيدات الأعمال الثقافي الثالثRiyadhBWF
 
Table 13
Table 13Table 13
Table 13HITEMY
 

Mais procurados (20)

Effective E Mail In Arabic By Gamal Arafa
Effective E Mail In Arabic By Gamal ArafaEffective E Mail In Arabic By Gamal Arafa
Effective E Mail In Arabic By Gamal Arafa
 
Soilmechanics1
Soilmechanics1Soilmechanics1
Soilmechanics1
 
Sc2009autumn 次世代Daoフレームワーク Doma
Sc2009autumn 次世代Daoフレームワーク DomaSc2009autumn 次世代Daoフレームワーク Doma
Sc2009autumn 次世代Daoフレームワーク Doma
 
QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討
 
دليل المعلم لتنمية مهارات التفكير
دليل المعلم لتنمية مهارات التفكيردليل المعلم لتنمية مهارات التفكير
دليل المعلم لتنمية مهارات التفكير
 
Oracle Unconference 松下 4/22
Oracle Unconference 松下 4/22Oracle Unconference 松下 4/22
Oracle Unconference 松下 4/22
 
Practices of an Agile Team
Practices of an Agile TeamPractices of an Agile Team
Practices of an Agile Team
 
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
 
Arabic E Book 25 Success Stories[1]
Arabic E Book   25 Success Stories[1]Arabic E Book   25 Success Stories[1]
Arabic E Book 25 Success Stories[1]
 
7secret
7secret7secret
7secret
 
د.نادية باعشن - ملتقى سيدات الأعمال الثالث
د.نادية باعشن - ملتقى سيدات الأعمال الثالثد.نادية باعشن - ملتقى سيدات الأعمال الثالث
د.نادية باعشن - ملتقى سيدات الأعمال الثالث
 
توافق نامه خريد و فروش اينترنتي سهام
توافق نامه خريد و فروش اينترنتي سهامتوافق نامه خريد و فروش اينترنتي سهام
توافق نامه خريد و فروش اينترنتي سهام
 
IE-008 Ie的機會與挑戰 以Ic晶圓製造業為例
IE-008 Ie的機會與挑戰  以Ic晶圓製造業為例IE-008 Ie的機會與挑戰  以Ic晶圓製造業為例
IE-008 Ie的機會與挑戰 以Ic晶圓製造業為例
 
Booklist
BooklistBooklist
Booklist
 
Windows 7兼容性系列课程(1):Windows 7兼容性概述
Windows 7兼容性系列课程(1):Windows 7兼容性概述Windows 7兼容性系列课程(1):Windows 7兼容性概述
Windows 7兼容性系列课程(1):Windows 7兼容性概述
 
Sexix
SexixSexix
Sexix
 
0217
02170217
0217
 
ccnp route 642 902
ccnp route 642 902ccnp route 642 902
ccnp route 642 902
 
د. ماجدة الجارودي - ملتقى سيدات الأعمال الثقافي الثالث
د. ماجدة الجارودي - ملتقى سيدات الأعمال الثقافي الثالثد. ماجدة الجارودي - ملتقى سيدات الأعمال الثقافي الثالث
د. ماجدة الجارودي - ملتقى سيدات الأعمال الثقافي الثالث
 
Table 13
Table 13Table 13
Table 13
 

Semelhante a テキストマイニングとNLPビジネス

Webken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User ExperienceWebken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User ExperienceNobuya Sato
 
QM-076-六標準差管理方法的解題邏輯與策略
QM-076-六標準差管理方法的解題邏輯與策略QM-076-六標準差管理方法的解題邏輯與策略
QM-076-六標準差管理方法的解題邏輯與策略handbook
 
【12-D-6】 Silverlight によるハイグレードなLOB/BI実現のためのコンポーネント活用法
【12-D-6】 Silverlight によるハイグレードなLOB/BI実現のためのコンポーネント活用法【12-D-6】 Silverlight によるハイグレードなLOB/BI実現のためのコンポーネント活用法
【12-D-6】 Silverlight によるハイグレードなLOB/BI実現のためのコンポーネント活用法devsumi2009
 
20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会Yusuke Ando
 
文献紹介:Semantic-based information retrieval in support of concept design.
文献紹介:Semantic-based information retrieval in support of concept design.文献紹介:Semantic-based information retrieval in support of concept design.
文献紹介:Semantic-based information retrieval in support of concept design.Shin Sano
 
【13 C 2】デベロッパーに贈る!M-V-VMパターンで造るWPFアプリケーション
【13 C 2】デベロッパーに贈る!M-V-VMパターンで造るWPFアプリケーション【13 C 2】デベロッパーに贈る!M-V-VMパターンで造るWPFアプリケーション
【13 C 2】デベロッパーに贈る!M-V-VMパターンで造るWPFアプリケーションYuya Yamaki
 
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信Yusuke Kawasaki
 
Where20 2009report
Where20 2009reportWhere20 2009report
Where20 2009reportToru Mori
 
ボストンの澄んだ空の下で考えたこと(LT編)
ボストンの澄んだ空の下で考えたこと(LT編)ボストンの澄んだ空の下で考えたこと(LT編)
ボストンの澄んだ空の下で考えたこと(LT編)Takeshi Kakeda
 
マッシュアップ×エンタープライズ開発 (XDev 2008)
マッシュアップ×エンタープライズ開発 (XDev 2008)マッシュアップ×エンタープライズ開発 (XDev 2008)
マッシュアップ×エンタープライズ開発 (XDev 2008)Yusuke Kawasaki
 
Kintone 導入サービス キャンペーン_20140903-1
Kintone 導入サービス キャンペーン_20140903-1Kintone 導入サービス キャンペーン_20140903-1
Kintone 導入サービス キャンペーン_20140903-1denet_tech_tokyo
 
Search Engines Chapter 1 Summary
Search Engines Chapter 1 SummarySearch Engines Chapter 1 Summary
Search Engines Chapter 1 Summarysleepy_yoshi
 
20090522 Candycane
20090522 Candycane20090522 Candycane
20090522 CandycaneYusuke Ando
 
20090418 イケテルRails勉強会 第2部Air編 解説
20090418 イケテルRails勉強会 第2部Air編 解説20090418 イケテルRails勉強会 第2部Air編 解説
20090418 イケテルRails勉強会 第2部Air編 解説mochiko AsTech
 
AI&medical imaging in japan 2018
AI&medical imaging in japan 2018AI&medical imaging in japan 2018
AI&medical imaging in japan 2018yoshihiro todoroki
 
AI&medical imaging in japan 2019
AI&medical imaging in japan 2019AI&medical imaging in japan 2019
AI&medical imaging in japan 2019yoshihiro todoroki
 

Semelhante a テキストマイニングとNLPビジネス (20)

Webken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User ExperienceWebken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User Experience
 
Green IT
Green ITGreen IT
Green IT
 
4
44
4
 
QM-076-六標準差管理方法的解題邏輯與策略
QM-076-六標準差管理方法的解題邏輯與策略QM-076-六標準差管理方法的解題邏輯與策略
QM-076-六標準差管理方法的解題邏輯與策略
 
【12-D-6】 Silverlight によるハイグレードなLOB/BI実現のためのコンポーネント活用法
【12-D-6】 Silverlight によるハイグレードなLOB/BI実現のためのコンポーネント活用法【12-D-6】 Silverlight によるハイグレードなLOB/BI実現のためのコンポーネント活用法
【12-D-6】 Silverlight によるハイグレードなLOB/BI実現のためのコンポーネント活用法
 
20210119 OCIJP#14 オラクル大橋資料
20210119 OCIJP#14 オラクル大橋資料20210119 OCIJP#14 オラクル大橋資料
20210119 OCIJP#14 オラクル大橋資料
 
sigfpai73-kaji
sigfpai73-kajisigfpai73-kaji
sigfpai73-kaji
 
20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会
 
文献紹介:Semantic-based information retrieval in support of concept design.
文献紹介:Semantic-based information retrieval in support of concept design.文献紹介:Semantic-based information retrieval in support of concept design.
文献紹介:Semantic-based information retrieval in support of concept design.
 
【13 C 2】デベロッパーに贈る!M-V-VMパターンで造るWPFアプリケーション
【13 C 2】デベロッパーに贈る!M-V-VMパターンで造るWPFアプリケーション【13 C 2】デベロッパーに贈る!M-V-VMパターンで造るWPFアプリケーション
【13 C 2】デベロッパーに贈る!M-V-VMパターンで造るWPFアプリケーション
 
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信
 
Where20 2009report
Where20 2009reportWhere20 2009report
Where20 2009report
 
ボストンの澄んだ空の下で考えたこと(LT編)
ボストンの澄んだ空の下で考えたこと(LT編)ボストンの澄んだ空の下で考えたこと(LT編)
ボストンの澄んだ空の下で考えたこと(LT編)
 
マッシュアップ×エンタープライズ開発 (XDev 2008)
マッシュアップ×エンタープライズ開発 (XDev 2008)マッシュアップ×エンタープライズ開発 (XDev 2008)
マッシュアップ×エンタープライズ開発 (XDev 2008)
 
Kintone 導入サービス キャンペーン_20140903-1
Kintone 導入サービス キャンペーン_20140903-1Kintone 導入サービス キャンペーン_20140903-1
Kintone 導入サービス キャンペーン_20140903-1
 
Search Engines Chapter 1 Summary
Search Engines Chapter 1 SummarySearch Engines Chapter 1 Summary
Search Engines Chapter 1 Summary
 
20090522 Candycane
20090522 Candycane20090522 Candycane
20090522 Candycane
 
20090418 イケテルRails勉強会 第2部Air編 解説
20090418 イケテルRails勉強会 第2部Air編 解説20090418 イケテルRails勉強会 第2部Air編 解説
20090418 イケテルRails勉強会 第2部Air編 解説
 
AI&medical imaging in japan 2018
AI&medical imaging in japan 2018AI&medical imaging in japan 2018
AI&medical imaging in japan 2018
 
AI&medical imaging in japan 2019
AI&medical imaging in japan 2019AI&medical imaging in japan 2019
AI&medical imaging in japan 2019
 

Mais de Hiroshi Ono

Voltdb - wikipedia
Voltdb - wikipediaVoltdb - wikipedia
Voltdb - wikipediaHiroshi Ono
 
Gamecenter概説
Gamecenter概説Gamecenter概説
Gamecenter概説Hiroshi Ono
 
EventDrivenArchitecture
EventDrivenArchitectureEventDrivenArchitecture
EventDrivenArchitectureHiroshi Ono
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdfHiroshi Ono
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdfHiroshi Ono
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfHiroshi Ono
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfHiroshi Ono
 
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfpragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfHiroshi Ono
 
downey08semaphores.pdf
downey08semaphores.pdfdowney08semaphores.pdf
downey08semaphores.pdfHiroshi Ono
 
BOF1-Scala02.pdf
BOF1-Scala02.pdfBOF1-Scala02.pdf
BOF1-Scala02.pdfHiroshi Ono
 
TwitterOct2008.pdf
TwitterOct2008.pdfTwitterOct2008.pdf
TwitterOct2008.pdfHiroshi Ono
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfHiroshi Ono
 
SACSIS2009_TCP.pdf
SACSIS2009_TCP.pdfSACSIS2009_TCP.pdf
SACSIS2009_TCP.pdfHiroshi Ono
 
scalaliftoff2009.pdf
scalaliftoff2009.pdfscalaliftoff2009.pdf
scalaliftoff2009.pdfHiroshi Ono
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfHiroshi Ono
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdfHiroshi Ono
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdfHiroshi Ono
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfHiroshi Ono
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfHiroshi Ono
 

Mais de Hiroshi Ono (20)

Voltdb - wikipedia
Voltdb - wikipediaVoltdb - wikipedia
Voltdb - wikipedia
 
Gamecenter概説
Gamecenter概説Gamecenter概説
Gamecenter概説
 
EventDrivenArchitecture
EventDrivenArchitectureEventDrivenArchitecture
EventDrivenArchitecture
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdf
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdf
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdf
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdf
 
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdfpragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
pragmaticrealworldscalajfokus2009-1233251076441384-2.pdf
 
downey08semaphores.pdf
downey08semaphores.pdfdowney08semaphores.pdf
downey08semaphores.pdf
 
BOF1-Scala02.pdf
BOF1-Scala02.pdfBOF1-Scala02.pdf
BOF1-Scala02.pdf
 
TwitterOct2008.pdf
TwitterOct2008.pdfTwitterOct2008.pdf
TwitterOct2008.pdf
 
camel-scala.pdf
camel-scala.pdfcamel-scala.pdf
camel-scala.pdf
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
 
SACSIS2009_TCP.pdf
SACSIS2009_TCP.pdfSACSIS2009_TCP.pdf
SACSIS2009_TCP.pdf
 
scalaliftoff2009.pdf
scalaliftoff2009.pdfscalaliftoff2009.pdf
scalaliftoff2009.pdf
 
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdfstateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
stateyouredoingitwrongjavaone2009-090617031310-phpapp02.pdf
 
program_draft3.pdf
program_draft3.pdfprogram_draft3.pdf
program_draft3.pdf
 
nodalities_issue7.pdf
nodalities_issue7.pdfnodalities_issue7.pdf
nodalities_issue7.pdf
 
genpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdfgenpaxospublic-090703114743-phpapp01.pdf
genpaxospublic-090703114743-phpapp01.pdf
 
kademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdfkademlia-1227143905867010-8.pdf
kademlia-1227143905867010-8.pdf
 

Último

Pharma Works Profile of Karan Communications
Pharma Works Profile of Karan CommunicationsPharma Works Profile of Karan Communications
Pharma Works Profile of Karan Communicationskarancommunications
 
0183760ssssssssssssssssssssssssssss00101011 (27).pdf
0183760ssssssssssssssssssssssssssss00101011 (27).pdf0183760ssssssssssssssssssssssssssss00101011 (27).pdf
0183760ssssssssssssssssssssssssssss00101011 (27).pdfRenandantas16
 
Tech Startup Growth Hacking 101 - Basics on Growth Marketing
Tech Startup Growth Hacking 101  - Basics on Growth MarketingTech Startup Growth Hacking 101  - Basics on Growth Marketing
Tech Startup Growth Hacking 101 - Basics on Growth MarketingShawn Pang
 
Value Proposition canvas- Customer needs and pains
Value Proposition canvas- Customer needs and painsValue Proposition canvas- Customer needs and pains
Value Proposition canvas- Customer needs and painsP&CO
 
7.pdf This presentation captures many uses and the significance of the number...
7.pdf This presentation captures many uses and the significance of the number...7.pdf This presentation captures many uses and the significance of the number...
7.pdf This presentation captures many uses and the significance of the number...Paul Menig
 
MONA 98765-12871 CALL GIRLS IN LUDHIANA LUDHIANA CALL GIRL
MONA 98765-12871 CALL GIRLS IN LUDHIANA LUDHIANA CALL GIRLMONA 98765-12871 CALL GIRLS IN LUDHIANA LUDHIANA CALL GIRL
MONA 98765-12871 CALL GIRLS IN LUDHIANA LUDHIANA CALL GIRLSeo
 
Event mailer assignment progress report .pdf
Event mailer assignment progress report .pdfEvent mailer assignment progress report .pdf
Event mailer assignment progress report .pdftbatkhuu1
 
Creating Low-Code Loan Applications using the Trisotech Mortgage Feature Set
Creating Low-Code Loan Applications using the Trisotech Mortgage Feature SetCreating Low-Code Loan Applications using the Trisotech Mortgage Feature Set
Creating Low-Code Loan Applications using the Trisotech Mortgage Feature SetDenis Gagné
 
KYC-Verified Accounts: Helping Companies Handle Challenging Regulatory Enviro...
KYC-Verified Accounts: Helping Companies Handle Challenging Regulatory Enviro...KYC-Verified Accounts: Helping Companies Handle Challenging Regulatory Enviro...
KYC-Verified Accounts: Helping Companies Handle Challenging Regulatory Enviro...Any kyc Account
 
Best Basmati Rice Manufacturers in India
Best Basmati Rice Manufacturers in IndiaBest Basmati Rice Manufacturers in India
Best Basmati Rice Manufacturers in IndiaShree Krishna Exports
 
A DAY IN THE LIFE OF A SALESMAN / WOMAN
A DAY IN THE LIFE OF A  SALESMAN / WOMANA DAY IN THE LIFE OF A  SALESMAN / WOMAN
A DAY IN THE LIFE OF A SALESMAN / WOMANIlamathiKannappan
 
Progress Report - Oracle Database Analyst Summit
Progress  Report - Oracle Database Analyst SummitProgress  Report - Oracle Database Analyst Summit
Progress Report - Oracle Database Analyst SummitHolger Mueller
 
The Coffee Bean & Tea Leaf(CBTL), Business strategy case study
The Coffee Bean & Tea Leaf(CBTL), Business strategy case studyThe Coffee Bean & Tea Leaf(CBTL), Business strategy case study
The Coffee Bean & Tea Leaf(CBTL), Business strategy case studyEthan lee
 
Insurers' journeys to build a mastery in the IoT usage
Insurers' journeys to build a mastery in the IoT usageInsurers' journeys to build a mastery in the IoT usage
Insurers' journeys to build a mastery in the IoT usageMatteo Carbone
 
VIP Call Girl Jamshedpur Aashi 8250192130 Independent Escort Service Jamshedpur
VIP Call Girl Jamshedpur Aashi 8250192130 Independent Escort Service JamshedpurVIP Call Girl Jamshedpur Aashi 8250192130 Independent Escort Service Jamshedpur
VIP Call Girl Jamshedpur Aashi 8250192130 Independent Escort Service JamshedpurSuhani Kapoor
 
Grateful 7 speech thanking everyone that has helped.pdf
Grateful 7 speech thanking everyone that has helped.pdfGrateful 7 speech thanking everyone that has helped.pdf
Grateful 7 speech thanking everyone that has helped.pdfPaul Menig
 
Lucknow 💋 Escorts in Lucknow - 450+ Call Girl Cash Payment 8923113531 Neha Th...
Lucknow 💋 Escorts in Lucknow - 450+ Call Girl Cash Payment 8923113531 Neha Th...Lucknow 💋 Escorts in Lucknow - 450+ Call Girl Cash Payment 8923113531 Neha Th...
Lucknow 💋 Escorts in Lucknow - 450+ Call Girl Cash Payment 8923113531 Neha Th...anilsa9823
 
Cash Payment 9602870969 Escort Service in Udaipur Call Girls
Cash Payment 9602870969 Escort Service in Udaipur Call GirlsCash Payment 9602870969 Escort Service in Udaipur Call Girls
Cash Payment 9602870969 Escort Service in Udaipur Call GirlsApsara Of India
 
Enhancing and Restoring Safety & Quality Cultures - Dave Litwiller - May 2024...
Enhancing and Restoring Safety & Quality Cultures - Dave Litwiller - May 2024...Enhancing and Restoring Safety & Quality Cultures - Dave Litwiller - May 2024...
Enhancing and Restoring Safety & Quality Cultures - Dave Litwiller - May 2024...Dave Litwiller
 

Último (20)

Pharma Works Profile of Karan Communications
Pharma Works Profile of Karan CommunicationsPharma Works Profile of Karan Communications
Pharma Works Profile of Karan Communications
 
0183760ssssssssssssssssssssssssssss00101011 (27).pdf
0183760ssssssssssssssssssssssssssss00101011 (27).pdf0183760ssssssssssssssssssssssssssss00101011 (27).pdf
0183760ssssssssssssssssssssssssssss00101011 (27).pdf
 
Nepali Escort Girl Kakori \ 9548273370 Indian Call Girls Service Lucknow ₹,9517
Nepali Escort Girl Kakori \ 9548273370 Indian Call Girls Service Lucknow ₹,9517Nepali Escort Girl Kakori \ 9548273370 Indian Call Girls Service Lucknow ₹,9517
Nepali Escort Girl Kakori \ 9548273370 Indian Call Girls Service Lucknow ₹,9517
 
Tech Startup Growth Hacking 101 - Basics on Growth Marketing
Tech Startup Growth Hacking 101  - Basics on Growth MarketingTech Startup Growth Hacking 101  - Basics on Growth Marketing
Tech Startup Growth Hacking 101 - Basics on Growth Marketing
 
Value Proposition canvas- Customer needs and pains
Value Proposition canvas- Customer needs and painsValue Proposition canvas- Customer needs and pains
Value Proposition canvas- Customer needs and pains
 
7.pdf This presentation captures many uses and the significance of the number...
7.pdf This presentation captures many uses and the significance of the number...7.pdf This presentation captures many uses and the significance of the number...
7.pdf This presentation captures many uses and the significance of the number...
 
MONA 98765-12871 CALL GIRLS IN LUDHIANA LUDHIANA CALL GIRL
MONA 98765-12871 CALL GIRLS IN LUDHIANA LUDHIANA CALL GIRLMONA 98765-12871 CALL GIRLS IN LUDHIANA LUDHIANA CALL GIRL
MONA 98765-12871 CALL GIRLS IN LUDHIANA LUDHIANA CALL GIRL
 
Event mailer assignment progress report .pdf
Event mailer assignment progress report .pdfEvent mailer assignment progress report .pdf
Event mailer assignment progress report .pdf
 
Creating Low-Code Loan Applications using the Trisotech Mortgage Feature Set
Creating Low-Code Loan Applications using the Trisotech Mortgage Feature SetCreating Low-Code Loan Applications using the Trisotech Mortgage Feature Set
Creating Low-Code Loan Applications using the Trisotech Mortgage Feature Set
 
KYC-Verified Accounts: Helping Companies Handle Challenging Regulatory Enviro...
KYC-Verified Accounts: Helping Companies Handle Challenging Regulatory Enviro...KYC-Verified Accounts: Helping Companies Handle Challenging Regulatory Enviro...
KYC-Verified Accounts: Helping Companies Handle Challenging Regulatory Enviro...
 
Best Basmati Rice Manufacturers in India
Best Basmati Rice Manufacturers in IndiaBest Basmati Rice Manufacturers in India
Best Basmati Rice Manufacturers in India
 
A DAY IN THE LIFE OF A SALESMAN / WOMAN
A DAY IN THE LIFE OF A  SALESMAN / WOMANA DAY IN THE LIFE OF A  SALESMAN / WOMAN
A DAY IN THE LIFE OF A SALESMAN / WOMAN
 
Progress Report - Oracle Database Analyst Summit
Progress  Report - Oracle Database Analyst SummitProgress  Report - Oracle Database Analyst Summit
Progress Report - Oracle Database Analyst Summit
 
The Coffee Bean & Tea Leaf(CBTL), Business strategy case study
The Coffee Bean & Tea Leaf(CBTL), Business strategy case studyThe Coffee Bean & Tea Leaf(CBTL), Business strategy case study
The Coffee Bean & Tea Leaf(CBTL), Business strategy case study
 
Insurers' journeys to build a mastery in the IoT usage
Insurers' journeys to build a mastery in the IoT usageInsurers' journeys to build a mastery in the IoT usage
Insurers' journeys to build a mastery in the IoT usage
 
VIP Call Girl Jamshedpur Aashi 8250192130 Independent Escort Service Jamshedpur
VIP Call Girl Jamshedpur Aashi 8250192130 Independent Escort Service JamshedpurVIP Call Girl Jamshedpur Aashi 8250192130 Independent Escort Service Jamshedpur
VIP Call Girl Jamshedpur Aashi 8250192130 Independent Escort Service Jamshedpur
 
Grateful 7 speech thanking everyone that has helped.pdf
Grateful 7 speech thanking everyone that has helped.pdfGrateful 7 speech thanking everyone that has helped.pdf
Grateful 7 speech thanking everyone that has helped.pdf
 
Lucknow 💋 Escorts in Lucknow - 450+ Call Girl Cash Payment 8923113531 Neha Th...
Lucknow 💋 Escorts in Lucknow - 450+ Call Girl Cash Payment 8923113531 Neha Th...Lucknow 💋 Escorts in Lucknow - 450+ Call Girl Cash Payment 8923113531 Neha Th...
Lucknow 💋 Escorts in Lucknow - 450+ Call Girl Cash Payment 8923113531 Neha Th...
 
Cash Payment 9602870969 Escort Service in Udaipur Call Girls
Cash Payment 9602870969 Escort Service in Udaipur Call GirlsCash Payment 9602870969 Escort Service in Udaipur Call Girls
Cash Payment 9602870969 Escort Service in Udaipur Call Girls
 
Enhancing and Restoring Safety & Quality Cultures - Dave Litwiller - May 2024...
Enhancing and Restoring Safety & Quality Cultures - Dave Litwiller - May 2024...Enhancing and Restoring Safety & Quality Cultures - Dave Litwiller - May 2024...
Enhancing and Restoring Safety & Quality Cultures - Dave Litwiller - May 2024...
 

テキストマイニングとNLPビジネス

  • 1. テキストマイニングとNLPビジネス 山西健司 NECインターネットシステム研究所 yamanisi@ccm.cl.nec.co.jp http://www.labs.nec.co.jp/DTmining/ 2003年10月15日 自然言語処理技術に関するシンポジウム2003 © NEC Corporation 2003 1
  • 2. 目次 1.はじめに 2.テキスト分類技術とCRM 3.マーケティング知識の発見 4.評判分析とWebマイニング 5.トピック分析と情報監視 6.テキストマイニング:Challenges 7. おわりに 8. 参考文献 © NEC Corporation 2003 2
  • 3. 1.はじめに テキストマイニング 大量のテキストデータ(非構造・半構造データ)から 新規性のある知識または構造を発見すること ⇒情報的なSurpriseがあること ●指定された条件の情報抽出、情報検索とは区別する ●言語構造自体の解析(構文解析など)や文書構造 自体の解析(情報要約など)とは区別する © NEC Corporation 2003 3
  • 4. テキストマイニングの位置づけ 可視化 DB 機械学習 計算機科学 言語学 データマイニング 自然言語処理 テキストマイニング 情報抽出 情報検索 ビデオマイニング ログ解析 リンク解析 オーディオマイニング マルチメディア Webマイニング Webマイニング マイニング © NEC Corporation 2003 4
  • 5. テキストマイニングの要素技術と応用分野 知識発見+工数削減 CRM ナレッジ ナレッジ Customer Customer マーケティング マネジメント バイオ バイオ セキュリティ セキュリティ モニタリング モニタリング E-commerce マネジメント インフォマティクス インフォマティクス Forensics Surveillance Forensics Surveillance Relationship Relationship E-commerce E-ラーニング Management Management E-ラーニング メール分類 アンケート分析 ナレッジ構造化 バイオDBからの 有害情報フィルタ 情報監視 FAQ自動作成 傾向分析 カリキュラム分析 知識発見 Spamフィルタ テキストマイニング テキスト テキスト 相関 共起 対応 代表文 Novelty 分類 クラスタリング 分析 分析 分析 分析 Detection 教師あり学習 教師なし学習 単語想起 単語共起 ポジショニング スコアリング 異常検出 © NEC Corporation 2003 5
  • 6. テキストマイニングの環境動向 市場動向 CRM:2007年にて5000億市場、年率6.2%成長(IDCジャパン) ナレッジマネジメント、Forensics分野で新たなニーズが浮上 技術動向 IP化、ユビキタス環境がベース⇒リアルタイム、コンテキスト解析 CRM/SCM/KMの統合化 国内CRM市場 国内CRMパッケージ市場 (IDCジャパン予測) (矢野経済研究所 2003.4.23) •2004年以降、毎年130%近い伸張 50 •2005年には220億円規模 45 CRMソリューションパッケージ市場 40 百億円 25,000 22000 35 系列1 20,000 17000 30 15,000 12600 12940 10270 10,000 25 2002 2003 2004 2005 2006 2007 5,000 年 0 2001年 2002年 2003年 2004年 2005年 © NEC Corporation 2003 6
  • 7. 2.テキスト分類とCRM 分類された記事 1st Step (文書、カテゴリ)形式の事例 の集合から文書をカテゴリに カテゴリ trade politics sports 分類する規則を学習する 2nd Step テキストマイニング 規則に基づいて新しい文書を エンジン 分類する 新しい記事 条件 カテゴリ ルール (tariff & trade) trade (87.1%) (deficit & export & import) trade (74.9%) (japanese & car) trade (71.5%) 分類部 (textile& trade) trade (64.2%) (Korea & surplus) trade (60.0%) otherwise not-trade (92.8%) trade? © NEC Corporation 2003 7
  • 8. テキスト分類のコールセンタ応用 データマイニングサーバ 顧客セグメンテーション リコメンドサービス テキストマイニングサーバ メール自動分類・応答 FAQ自動作成 アンケート分析 顧客DB オペレータ 顧客情報・購買履歴 応答時間の短縮 問い合わせ、苦情 問い合わせ(テキスト) 回答、情報配信 CS向上化 アンケート回答文 キャンペーン管理 商品推薦 個客管理 電話、FAX, email, Web © NEC Corporation 2003 8
  • 9. テキスト分類の研究動向 ● ルールベースの方法 …高いReadability, modifiability, 知識の融合 やや低いEffectiveness C4.5, Ripper[Cohen and Singer98] Bayesian Net[Dumais et.al.98], decision rules[Apte et.al.94] ●非ルールベースの方法 …低いReadability, 高いEffectiveness Naïve Bayes[Kar and White 78], cosine法[Rocchio71] SVM[Joachim98] 課題:ルールベースのreadabilityを保持しながら 高い分類精度を実現する手法の確立 © NEC Corporation 2003 9
  • 10. ルールベースのテキスト分類 [Li and Yamansihi 99、02] ●カテゴリ=分類対象(ex. tradeであるか否か)を指定 ●属性(=調べる単語)を指定。 テキストを属性が 現れたか(1)現れないか(0)の二値ベクトルで表現 ●テキストとカテゴリの対応関係を分類ルールとして学習 分類ルールの表現……確率的決定リスト if A =1 & B=0 then Text = trade (確率0.8) else if D=1 then Text = not trade (確率0.9) ..…..………….. else Text = not trade (確率0.75) © NEC Corporation 2003 10
  • 11. ルール学習アルゴリズムDL-ESC テキストデータ [Li and Yamanishi 99、02] 形態素解析 前処理 属性選択 情報量基準ESC ESC: Extended Stochastic Complexity によるルール追加 ローカルな最適化 [Yamanishi98] (Growing) 情報量基準ESC によるルール刈り込み グローバルな最適化 (Pruning) ルール表示 © NEC Corporation 2003 11
  • 12. ESCに基づくルール選択 単語空間 • • • • • • • • • •• • • •• • trade • • • not trade ESC=15 ESC=22 (簡単すぎるルール) • ESC値 • • • • •• • • 最適点 分類誤り最小 ルールの複雑さ ESC=20 (複雑すぎるルール) © NEC Corporation 2003 12
  • 13. 非ルールベースのテキスト分類 テキストd のベクトル表現 d = (w1 , w2 , , wn ) Tf-idf wi = log(1 + テキスト d における単語 i の頻度 ) ´ × log(全テキスト数 /単語 iを含むテキスト数) d・ e dとe の類似度 = cos(dとe のなす角) = | d || e | ・コサイン法 ・k-NN ・ニューラルネットワーク ・SVM 等など 多数 © NEC Corporation 2003 13
  • 14. SVM(Support Vector Machine) [Vapnik95],[Joachims98] Support Vector …..trade …..not trade wx+h=1 wx+h=0 wx+h=-1 Margin ●Margin が最大となる超平面でカテゴリを分離 ●構造的リスク最小化の保証=未知データの予測誤差小 ●次元の呪い(次元の指数の計算時間)から逃れられる © NEC Corporation 2003 14
  • 15. テキスト分類エンジンの性能比較 1.0 Reuters-21578データ DL-ESC Break-even Point Apte Split 訓練データ: 9603 Bayes 評価データ: 3299 適合率 Rocchio 0 0 1.0 再現率 再現率 = 正しく分類できたテキスト数 / 正しく分類すべきテキスト数 適合率 = 正しく分類できたテキスト数 / 分類できたテキスト数 Rule-Based Break-even Point Non-rule Based Break-even Point DL-ESC 82.0% SVM 84.1% DL-SC 78.3% Bayes 77.3% BayesNet 80.0% BIM 74.7% C4.5 79.4% Rocchio 62.5% [Li and Yamanishi 2002] © NEC Corporation 2003 15
  • 16. 3.マーケティング知識の発見 ブランド 満足度 年代 ・・・・ イメージの自由記述 A社 セダンA 1 20 高級車の中で最高。 B社 セダンB 2 30 スタイルが良い。 テキストDB C社 外車C 1 40 お金持ち、値段が高い。 D社 外車D 3 20 ファミリーの中でもスポーティな感じ。 (例:車のアンケート E社 F社 ワゴン車E ワゴン車F 1 2 40 30 速い。硬い。 重そう。強そう。 データ) A社 セダンA 1 50 普通車。よく見かける。 自由記述アンケート分析ツール(CodeName) ※TopicScopeとして製品化 http://www.sw.nec.co.jp/soft/TopicScope A 車の特徴は A 車の特徴は 心地良い 心地良い 対応分析 特徴分析 車A 車A (複数の対象物とそ (対象物に固有な表 •• “乗り心地がよい” “乗り心地がよい” の特徴語の相互関 高級感 高級感 現を抽出、単純な頻 •• “運転しにくい” “運転しにくい” 車C 係をポジショニング) 度分析とは異なる) 車C 車B 車B 走り重視 走り重視 庶民的 庶民的 目的・用途 効果 ■マーケティングリサーチ ■分析工数の劇的削減 ■CS調査 © NEC Corporation 2003 ■知識発見 16
  • 17. テキストマイニングの機能 特徴語分析 ・・・・カテゴリ特有に現れる単語/フレーズを抽出 共起語分析 ・・・・特徴語と共起する単語/フレーズを抽出 典型文解析 ・・・・カテゴリを代表するテキストを順にリストアップ 対応分析 ・・・・複数のカテゴリ間の相対位置をマッピング © NEC Corporation 2003 17
  • 18. 特徴語分析 [Li and Yamanishi 98, 01] D: 1010000110 10個のテキスト 1: A商品 0: その他 データ 含む 安心な E 10011 含まない D-E 01000 情報量規準 I(E)+ I(D-E)→ 小 ⇒ “安心な” はカテゴリ“A商品”の特徴語 I(x)=mH(m1/m)+(1/2)log (mπ/2) m:データ数、 m1 :1の出現数 ….確率的コンプレキシティ(SC)~ データ圧縮の規準 I(x)=min{m1 ,m‐ m1 }+ λ(m log m)1/2 ….拡張型確率的コンプレキシティ(ESC)~予測誤差最小の規準 “安心な” の情報利得: ΔI=I(D)ー(I(E)+I(F)) © NEC Corporation 2003 18
  • 19. 特徴語分析の例 ESCに基づく特徴語抽出結果↓ 「PDA製品A」に関する 肯定意見における特徴語 対象物に特有の印象を表す 対象物に特有の印象を表す 言葉のみが抽出できる 言葉のみが抽出できる [参考]単純頻度による特徴語抽出結果↓ 特徴語は「拡張型確率的コンプレキシティ」に基づく 情報利得を計算することで求めている この尺度は,全意見セットと比べて,着目意見セット(この 例では「PDA製品A」の肯定意見)に偏って出現する単語 について値が大きくなる いろいろな対象物に共通する いろいろな対象物に共通する 言葉も抽出されてしまう 言葉も抽出されてしまう © NEC Corporation 2003 19
  • 20. 共起語分析 D: 1010000110 1: “キーボード”を含む 10個のテキスト 0: “キーボード”を含まない データ 含む 小さい E 10011 含まない D-E 01000 情報量規準 I(E)+ I(D-E)→ 小 ⇒ “キーボード” と “小さい” の共起性大 例 単語 共起単語 キーボード 打ちやすい キーボード 小さい キーボード 入力 © NEC Corporation 2003 20
  • 21. 典型文分析 [Morinaga,Yamanishi,Tateishi,Fukushima 02] テキスト s=w1,…,wN (wi: 単語またはフレーズ) p(c)Πi=1N p(wi |c) カテゴリCにおける Score(s)= テキストsの典型文スコア Σ c p(c)Πi=1N p(wi |c) Nc +β p(c)= Nc :カテゴリCに属するテキスト数 Σ c Nc+|C|β mw +β p(wi |c) = mw :カテゴリCに属するテキスト Σ w mw+|W|β の中に含まれる単語wの数 © NEC Corporation 2003 21
  • 22. 対応分析 各商品名と関連の強い特徴語を2次元マップ上に配置 PDA製品B PDA製品B PDA製品C PDA製品C PDA製品A PDA製品A © NEC Corporation 2003 22
  • 23. 4.評判分析とWebマイニング Web マイニングの分類 [Kosala and Blockeel 2000] Web Contents 情報抽出 Mining + 評判分析 テキストマイニング 競合サイト比較 時系列モニタリング Web Structure Web Usage Mining Mining リンク解析 アクセスパタン分析 Hub-Authority抽出 ナビゲーション Webコミュニティ発見 リコメンデーション © NEC Corporation 2003 23
  • 24. 評判分析 Web上の意見の収集から分析までを自動化 評判検索…. Webからの評判検索・意見抽出 [立石、石黒、福島 01] + テキストマイニング (SurveyAnalyzer) …. 特徴単語抽出によるテキスト分類 [Li and Yamanishi 01] 評判分析....評判の原因を分析 [Morinaga, Yamanishi, Tateishi, Fukushima 02] ~ マーケティング⇒工数激減・知識発見 © NEC Corporation 2003 24
  • 25. 掲示板,レビューサイト, 意見収集対象: 分析対象: 個人サイト,日記サイト等 携帯端末A・B・C 携帯端末Aの肯定意見 インターネット インターネット ②テキスト ①評判検索 マイニング 携帯端末Aに関する意見: 携帯端末Aのキーボードは打ちやすい ○肯定 携帯端末Aの 携帯端末Aは乾電池で長時間駆動が魅力 ○肯定 肯定意見の特徴語: ・・・・・・ 電子メール 携帯端末Bに関する意見: キーボード 携帯端末Bのデザインが最高 ○肯定 長時間 ・・・・・・ 携帯端末Bなんて大嫌い ×否定 ・・・・・・ 携帯端末Cに関する意見: 携帯端末Cは安い ○肯定 携帯端末Cは重いので嫌い ×否定 ・・・・・・ © NEC Corporation 2003 25
  • 26. 評判検索:結果出力 商品入力画面 商品名: PDA製品A PDA製品A ジャンル: コンピュータ PDA製品A 検索結果画面 適正値 評価 抽出した意見 PDA製品 A PDA製品 A PDA製品A PDA製品A © NEC Corporation 2003 26
  • 27. 評判検索:ラベル化 商品分野ごとの評価表現の辞書を作成 商品カテゴリ 評価表現リスト 共通 好き、良い、良くない、勧め、最高、満足だ・・ 書籍 面白、名作、読みにく、分かりやす、違和感 コンピュータ 速い、壊れやす、うるさ、不安定、信頼で・・ 構文的特徴を考慮して意見らしさを判定 ID 適正値判定ルール(正規表 ルールの意味 1 _商品名_.*(は|が|も).*_評価表現_ 格助詞が存在 2 _商品名_.*(。|.|?|!).*_評価表現_ 別の文に存在 3 _評価表現_.{0,12}_商品名_ 接近して存在 4 _評価表現_.*(?|?) 文末が疑問符 © NEC Corporation 2003 27
  • 28. 評判検索からテキストマイニングへ ラベル テキスト 商品名 肯定/否定 適性値 評判・意見 PDA 肯定 0.75 **は使いやすくて素晴らしい*** 正 製品A 例 ・・・・・ ・・・・ ・・・・ ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ PDA 否定 0.82 **は重くて持ち運びに困る*** 負 製品A 例 ・・・・・ ・・・・ ・・・・ ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 特定のラベルの組み合わせ(カテゴリ)を識別する特徴的表現を マイニング! © NEC Corporation 2003 28
  • 29. 評判分析例 特徴語 「キーボード」 携帯端末A 「長時間」 に関する肯定意見 ・・・・・・ インターネット上の ホームページから集めた 意見を比較分析 携帯端末B 携帯端末C に関する肯定意見 に関する肯定意見 「CD-ROM」 「常時接続」 特徴語 「ハードディスク」 特徴語 ・・・・・・ © NEC Corporation 2003 ・・・・・・ 29
  • 30. 評判分析の応用 企業における 一般ユーザ向けの マーケットリサーチ アドバイス提供 新商品開発 当社の現商品について 当社の現商品について この商品とあの商 この商品とあの商 ・商品改良 ユーザはどんな不満をも ユーザはどんな不満をも 品ではどちらが評 品ではどちらが評 商品購入 っているのだろう っているのだろう 判が良いかな 判が良いかな 支援 競合 当社の競合商品の 当社の競合商品の 調査 評判はどうだろう 評判はどうだろう 欧州に旅行に行く 欧州に旅行に行く のにどこが評判 のにどこが評判 が良いだろう が良いだろう 今度の新CMは好評だ 今度の新CMは好評だ ろうか,あの俳優の好 ろうか,あの俳優の好 旅行計画 感度はどうだろう 感度はどうだろう ・行動支援 今度訪問するあ 今度訪問するあ 掲示板で悪評が 掲示板で悪評が 広告・キャンペーン等の の会社はどんな の会社はどんな 立っていないか 立っていないか 効果把握 評判なのだろう 評判なのだろう 誹謗中傷・悪評対策 会社・個人の 信用調査 © NEC Corporation 2003 30
  • 31. 5.トピック分析と情報監視 テキストストリームからのトピックの抽出 TDT: Topic Detection and Tracking ~DARPAの研究プログラムの一つ。年1回のCompetition A Topic is….. a seminal event or activity, along with all directly related events and activities A Story is….. a topically cohesive segment of news that includes two or more DECLARATIVE independent clauses about a single event ●異なるテキストのストリームからのトピック分析 ●同一テキスト内でのトピック分析 © NEC Corporation 2003 31
  • 32. トピック分析の5大問題 ●トピック: 特定のイベント。 (例: 首相訪朝、不審船引き上げ、、、等) ●ストーリー: 単一のトピックについて述べている文章。 (例:新聞の記事一つ) ■Story Segmentation: 長いテキストをストーリーごとに分割する Segmentation ■Link Detection: Detection 二つのストーリーが同じトピックかどうかを判定する ■Topic Detection: ストーリー集合を、トピックに関してクラスタリングする ■Topic Tracking: 指定されるストーリーと同じトピックのものをトラッキングする ■First Story Detection (FSD): 新しいストーリーの出現を検出する カスタマーサポートセンタへのメール Topic Tracking キーボード バッテリーもち 予算上計画、、 電池が壊れる、、 HDDに異常が HDDの故障 不良、、 が悪い、 はその後…、 ユーザー指定 時間 FSD © NEC Corporation 2003 32
  • 33. Topic Tracking の現行技術 基本アルゴリズム: •テキストを単語の集合とみなしベクトルで表現 d = (w1 , w2 , , wn ) Tf-idf wi = log(1 + テキスト d における単語 i の頻度 ) ´ × log(全テキスト数 /単語 iを含むテキスト数) •テキスト間の類似度をベクトルの角度(コサイン)で定義 d・ e dとe の類似度 = cos(dとe のなす角) = | d || e | •ユーザー指定テキストとの類似度が閾値以上の新テキストが来たらアラーム アラーム不発 アラーム発 原点0 ユーザー指定テキスト(基準ベクトル) アラーム発 アラーム不発 © NEC Corporation 2003 33
  • 34. FSD の現行技術 基本アルゴリズム: •Topic Tracking と同様の文書ベクトル表現に対して、 過去のどのテキストとも類似度が閾値以下であるテキストにアラームを出す アラーム発 アラーム不発領域 原点0 過去のテキスト類 アラーム発 改良アルゴリズム: •初出トピックのその後の出現回数が閾値を越えたらアラーム→情報潮流発見 パソコン噂話の複数のサイト Sは色がいいYは結構は速 、、は思ったほ ソフトのバンド 結構売れてる FがHDDの交 ね、、、、 い、、、、 ど遅くない、、、、ルが、、 らしいぞ、、、、換を、、、、 窓口の対応が また壊れた!F 最低な、、、Tの液晶ドット ドット落ちが気 のHDD、、、、 にな、、、、 FのHDDは変 落ちが、、、、 紫色というの は、、、、 なのでは、、、、 ↑初出 時間 © NEC Corporation 2003 34
  • 35. トピック分析のレベル TDT evaluation 2001の結果 Topic Tracking FSD J.Fiscus: Overview of the TDT 2001 Evaluation and Results ・Breakeven-pointにて95%超の精度 ・Breakeven-pointは約70%の精度にと ・データは主にニュース原稿。~比較的簡単 どまる (FSDは五大問題中最難問) な課題(似たトピックが少ないテキスト集合) © NEC Corporation 2003 35
  • 36. テキスト内でのトピック分析 ●トピック: 話項目…単語クラス(クラスタ)で表現する 例: trade: export, import, tariff, trader, GATT, protectionist テキスト 0.5 0.3 0.2 トピック1 トピック2 トピック3 単語分布 単語分布 0.7 単語分布 0.5 0.5 0.5 0.2 0.2 0.2 0.1 0.1 Trade export import tariff Japan Japanese US NY Washington クラスター1 クラスター2 クラスター3 K: トピックの集合 P(k): K上の確率分布 P(w|k) : トピック(クラスター)k 内の単語の確率分布 確率的トピックモデル [Li and Yamanishi 00,03] ….Finite Mixtureを用いた単語分布の表現 © NEC Corporation 2003 P(w) =Σk∈K P(w|k) P(k) 36
  • 37. テキストセグメンテーション STMの 変化度合い 10 20 30 40 文番号 文XにおけるSTMの変化度合い =Xの前の文章のSTMPLとXの後の文章PRのSTM の統計的距離 D(x)= Σω |PL(ω)ー PR (ω)| D(x)が極大になる文xで分割 © NEC Corporation 2003 37
  • 38. テキストセグメンテーションの例 ASIAN EXPORTERS FEAR DAMAGE FROM U.S.-JAPAN RIFT (25-MAR-1987) block 0 -------- trade-export-tariff-import(0.12) Japan-Japanese(0.07) US(0.06) トピックの 1 They told Reuter correspondents in Asian capitals a U.S. move against Japan might boost … 2 But some exporters said that while the conflict would hurt them in the long-run, in the … 確率分布同定 3 The U.S. has said it will impose 300 mln dlrs of tariffs on imports of Japanese electronics ... 4 Unofficial Japanese estimates put the impact of the tariffs at 10 billion dlrs and spokesmen … 5 quot;We wouldn't be able to do business,quot; said a spokesman for leading Japanese electronics … 6 quot;If the tariffs remain in place for any length of time beyond a few months it will mean the … block 1 -------- trade-export-tariff-import(0.17) US(0.09) Taiwan(0.05) 7 In Taiwan, businessmen and officials are also worried. 文書自動 8 quot;We are aware of the seriousness of the U.S. threat against Japan because it serves as a … 9 Taiwan had a trade surplus of 15.6 billion dlrs last year, 95 pct of it with the U.S. 分割 10 The surplus helped swell Taiwan's foreign exchange reserves to 53 billion dlrs, among the … 11 quot;We must quickly open our markets, remove trade barriers and cut import tariffs to allow … 12 A senior official of South Korea's trade promotion association said the trade dispute between … 13 Last year South Korea had a trade surplus of 7.1 billion dlrs with the U.S., up from 4.9 … 14 In Malaysia, trade officers and businessmen said tough curbs against Japan might allow ... block 2 -------- Hong-Kong(0.16) trade-export-tariff-import(0.10) US(0.04) 15 In Hong Kong, where newspapers have alleged Japan has been selling below-cost semiconductors, … 16 quot;That is a very short-term view,quot; said Lawrence Mills, director-general of the Federation of … 17 quot;If the whole purpose is to prevent imports, one day it will be extended to other sources… 18 The U.S. last year was Hong Kong's biggest export market, accounting for over 30 pct of ... block 3 -------- trade-export-tariff-import(0.14) Button(0.08) Japan-Japanese(0.07) 19 The Australian government is awaiting the outcome of trade talks between the U.S. and Japan … 20 quot;This kind of deterioration in trade relations between two countries which are major trading … 21 He said Australia's concerns centered on coal and beef, Australia's two largest exports to … 22 Meanwhile U.S.-Japanese diplomatic manoeuvres to solve the trade stand-off continue. © NEC Corporation 2003 38
  • 39. 6.テキストマイニング:Challanges ●文脈マイニング (単語/句から文脈へ) ●オンライントピック分析 (初出表現、Novelty Detection) NLP 文脈 テキストマイニング 単語 マイニング 静的 動的 ●Multi-Mediaとの融合 ⇒ Multi-Media マイニング ●リンク解析、ログ解析との融合 © NEC Corporation 2003 ⇒ Webマイニング、 Relational マイニング 39
  • 40. 文脈マイニング 文脈解析+マイニング 文章 拝啓、昨日A商事を訪問して、… 部長に見易い見積書を提出した。 その後、…商談がまとまった。以上 部長→提出した 係り受け解析 見易い→見積書 浅い 見積書→提出した 提出した 構文木解析 部長 見積書 見やすい 深い 挨拶 文書構造解析 Tree1 Tree2 © NEC Corporation 2003 End 40
  • 41. 7.おわりに 成熟したテキスト分類、これからのトピック分析 テキストマイニング応用分野が急拡大(CRM,マー ケティング市場、Forensics, etc.) テキストマイニング技術は今後、文脈とダイナミクス を取り入れて発展するだろう Webマイニング、Relationalマイニング、 マルチメディアマイニングの中で技術融合の可能性 © NEC Corporation 2003 41
  • 42. 8.参考文献 【全般】 1.金、村上、永田、大津、山西:「データとテキストのマイニング」 岩波書店「統計科学のフロンティア」シリーズ10、 2003. 2.山西健司:情報論的学習理論の現状と展望、情報処理、 vol.42, No.1, pp:9--15, 2001. 3.山西健司:データ・テキストマイニングの最新動向-外れ値検出と評判分析を例に-、応用数理, vol.12, No.4,p.7-22,2002.. 【情報理論、学習の基礎】 1.J.Rissanen: Fisher information and stochastic complexity, IEEE Trans.on Information Theory, 42(1), pp:40-47 (1996). 2. K.Yamanishi: ``A Decision-theoretic Extension of Stochastic Complexity and Its Applications to Learning,'' IEEE Trans. on Information Theory, vol.44, 4, p.1424-1439, 1998. 3.麻生、津田、村田:「パターン認識と学習の統計学」岩波書店「統計科学のフロンティア」シリーズ6、2003 4.韓、小林:「情報と符号化の数理」岩波講座応用数学 対象11 5. 山西、韓: MDL入門: 情報理論の立場から、人工知能学会誌, p.427-434, vol 7(3), May 1992. 6. 山西健司: 拡張型確率的コンプレキシティと情報論的学習理論, 応用数理、vol.8, No.3, p.14-29, 1998. 7. 山西健司: 統計的モデル選択と機械学習, 計測と制御、vol.38, p.420-426, 1999. 【テキストマイニング一般】 1.R.Feldman: Mining unstructured data, Tutorial notes for ACM SIGKDD 1999 International Conference on Knowledge Discovery and Data Mining (KDD1999) (http://www.acm.org/pubs/citations/proceedings/ai/312179/p182-feldman/) 2.M.A.Hearst: Untangling text data mining, in Proc.of the 37th Annual Meeting of the Association for Computational Linguistics(ACL99) (1999). (http://www.sims.berkley.edu/~hearst/papers/acl99/acl99-tdm.html) 3. SIGKDD: http://www.acm.org/sigkdd/ 4.人工知能学会誌 Vol.16, No.2 (2001年3月) 特集「テキストマイニング 」 © NEC Corporation 2003 42
  • 43. 【テキスト分類関連】 1. C.Apte, F.Damerau, S.M.Weiss: Towards language independent automated learning of text categorization models in Proc. of Annual ACM SIGIR Conference on Research and Development on Information Retrieval(SIGIR94), pp.24-30,1994. 2. W.Cohen and Y.Singer: Context-sensitve learning methods for text classification, in Proc.of SIGIR96, pp:307-315 (1996). 3. S.Dumais, J.Platt, D.Heckerman, and M.Shami: Inductive learning algorithm and representation for Text categorization, in Proc.of the 7th Int’l Conf. on Information and Knowledge Management(CIKM98), pp:148-155 (1998 4.T.Joachims: Text categorization with support vector machines: Learning with many irrelevant features, in Proc. ECML’98 (1998). 5.G.Kar and L.J.White: A distance measure for automatic document classification by sequential analysis, Information Processing and Management, 14, pp:57-69 (1978). 6.H.Li and K.Yamanishi: Text classification using ESC-based stochastic decision lists, in Proc. of 8th International Conference on Information and Knowledge Management (CIKM’00), pp: 122-130, (2000). 7..H.Li and K.Yamanishi: ``Text classification using ESC-based decision lists,'' Information Processing and Management, .Vol. 38/3, pp 343-361, 2002. 8. Reuters21578 Text Categorization Collection: http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html 9. J.Rocchio: Relevance feedback information retrieval, in Gerard Salton Editor, The Smart Retrieval System -Experiments in Automatic Document Processing, pp:313-323, Prentice-Hall (1971). 10.R.E.Schapire,Y.Singer,andA.Sighal: Boosting and rocchio applied to text filtering, in Proc. of SIGIR98, pp:215-223,1998. 10.佐藤、池田、中田、長田:CRM分野へ向けた日本語処理機能のミドルウェア化 言語処理学会第9回年次大会発表論文集 pp.109-112,2003年3月 11.永田、平田: テキスト分類-学習理論の「見本市」-、情報処理、vol.42(1), pp:32-37 (2001). 12.李: テキスト分類、計測と制御, Vol.38,pp:456-460 (1999). 【マーケティング知識の発見】 1. .H.Li and K.Yamanishi: quot;Mining from Open Answers in Quessionare Data ,quot; Proc. of the 7th ACM Int’l. Conf. on Knowledge Discovery and Data Mining(KDD2001), ACM Press, pp:443-449, 20 2. TopicScope: http://www.sw.nec.co.jp/soft/TopicScope 3. 森永、山西:``テキストマイニングによる自由記述アンケート分析‘’ 計測と制御、第41巻第5号、pp:354-357,2002. 4.Yamanishi: and H.Li: ``Mining Open Answers in Quessionare Data,'' IEEE Intelligent Systems、pp:58-63、Sept/Oct, 2002. © NEC Corporation 2003 43
  • 44. 【評判分析とWebマイニング】 1.G.W.Flake, S.Lawrence, and C.L.Giles: Efficient identification of web communities, in Proc. of the 6th ACM Int’l Conf. on Knowledge Discovery and Date Mining(KDD2000), pp:150-160, ACM Press, 2000. 2.R.Kosala and H.Blockeel: Web mining research: A survey. ACM SIGKDD Explorations, vol.2, No.1,pp:1-15,2000. 3.B.Liu,Y.Ma,and P.S.Yu: Discovering unexpected information from competitors’ web sites. in Proc. of the 7th ACM Int’l Conf. on Knowledge Discovery and Date Mining(KDD2001), pp:144-153, ACM Press, 2001 . 4.S.Morinaga, K.Yamanishi, K.Tateishi, and T.Fukushima: quot;Mining Product Reputations on the Web,quot; in Proc. of the 8th ACM Int’l. Conf. on Knowledge Discovery and Data Mining (KDD2002),pp:341-349ACM Press, 2002. 5.立石、石黒、福島:インターネットからの評判検索. 情報処理学会研究報告, NL153-14, pp:105-112,2003. 6.山西健司:Webマイニングと情報論的学習理論、 2002年情報学シンポジウム講演論文集、pp:9-16,2002. 【トピック分析関連研究】 1.The 2001 topic detection and tracking (tdt2001) task definition and evaluation plan. http://www.nist.gov/speech/tests/tdt/tdt2001/evalplan.htm 2001 2.D.Beeferman, A.Berger, and J.Lafferty: Statistical models for text segmentation, Machine Learning, 34, pp:177—210, 1999. 3.L.Baker, and A.McCallum: Distributional clustering of words for text classification. in Proc. of ACM-SIGIR98, 1998. 4.M. Hearst: Texttiling: Segmenting text into multi-paragraph subtopic passages, Computational Linguistics, 23(1),pp:33—64, 1997. 5.G.Salton and C.S.Yang: On the specification of term values in automatic indexing. Journal of Documentation, 29(4),pp:351—372, 1973. 6.H.Li and K.Yamanishi: Topic analysis using a finite mixture model, in Proc. of ACL Workshop on Very Large Corpus, pp:35-44、2000. 7.H.Li and K.Yamanishi: Topic analysis using a finite mixture model, Information Processing and Management,. Vol.39/4, pp 521-541, 2003. © NEC Corporation 2003 44