SlideShare uma empresa Scribd logo
1 de 52
Baixar para ler offline
iAnalysis合同会社
最高解析責任者 倉橋一成

                    1
   私が『Statistics』を読んで内容を話してます
   これまで第1回~第5回まで開催
    ◦   第1章:制御された実験
    ◦   第2章:観察研究
    ◦   第3章:ヒストグラム
    ◦   第4章:平均と標準偏差
    ◦   第5章:正規近似
    ◦   第6章:測定誤差
    ◦   第7章:直線プロット
    ◦   第8, 9章:相関
    ◦   第10, 11, 12章:回帰
    ◦   第13, 14章:確率
    ◦   第15章:二項式
         ここまで進んでます




                                 2
   2011年東京大学博士号取得
    ◦ 修士まで:医療系の統計学が中心
       疫学、臨床試験
    ◦ 博士から:データマイニング分野の研究
       統計的学習、機械学習
   2011年iAnalysis設立メンバー
    ◦ 分析ノウハウをビジネスへ
    ◦ ミッション:日々溜まっていくデータをどうやったら有効活用できるか?
   Twitter: @isseing333




   blog: 「おとうさんの解析日記」 http://d.hatena.ne.jp/isseing333/


                                                           3
   設立:2011年3月24日
   Web:http://ianalysis.jp/




   場所:東京都港区南青山2-2-15 ウィン青山 1403
   取引先業種
    ◦   製薬会社
    ◦   医療系支援・コンサルティング会社
    ◦   広告代理店
    ◦   人材サービス会社
    ◦   ソーシャルゲーム会社
    ◦   商社
    ◦   統計解析会社
   医療分野から始まり、様々な業種へコンサルティングを行なっています


                                       4
統計学のこぼれ話と
 データマイニング



            5
◦ iAnalysis Facebookページより:http://www.facebook.com/ianalysis




                                                              6
◦ iAnalysis Facebookページより:http://www.facebook.com/ianalysis



   経験的に得られた
データを分析し法則性を見出す
                                                              7
   ある事象を数値化した集合
    ◦ 身長が165cm
    ◦ 体重が60kg
   分析をするためには基本的に表(テーブル)の形にしなければならない
                 ID    年齢    身長    体重

                 1     20    165   60

                 2     43    178   73

                 3     36    163   57

                 ...   ...   ...   ...


    ◦ データベースのテーブルやエクセルのシートのイメージ




                                         8
列     項目、変数

               ID    年齢    身長     体重

               1     20    165    60

         行     2     43    178    73

               3     36    163    57
    (1つの)データ
          観測   ...   ...   ...    ...
     特徴ベクトル


   「行」が1つ分のデータ、「列」が1つの項目



                                         9
10
   SASジャパンとクロス・マーケティングによる調査
    ◦ ビジネスパーソン1,000人へのアンケート
    ◦ http://www.sas.com/offices/asiapacific/japan/news/press/201112/14.html




    ◦ イメージ:顧客ニーズ、市場調査、数字をベースにした業務など
       ちょっと曖昧、、、
                                                                               11
   ネットフリックス




    ◦ 1997〜
    ◦ DVDのオンラインレンタル
   既に全国展開していた「ブロックバスター」を破綻に追いやるほど成長
    ◦ http://www.afpbb.com/article/economy/2759296/6233470


                                                             12
   ビジネスモデル:オンラインでDVDで注文し郵便で届きポストで返す
    ◦ 1999年の売上:500万ドル
    ◦ 2006年の売上:10億ドル
   7年で売上200倍!
   成功した理由は、、、




                                       13
   ビジネスモデル:オンラインでDVDで注文し郵便で届きポストで返す
    ◦ 1999年の売上:500万ドル
    ◦ 2006年の売上:10億ドル
   7年で売上200倍!
   成功した理由は、、、



    数学、統計、データマイニング




                                       14
   顧客の好みを分析して映画をレコメンド(推奨)する
    ◦ アマゾンの推奨が有名


   商品のクラスタリング
   顧客のクラスタリング
   レビューの分析
   在庫状況
    ◦ 普段借りられないが好みの合映画を推奨する


   自社:数学者、エンジニア、統計家などで開発
   社外:コンテストを利用して優秀な力を借りている
    ◦ シネマッチの性能を最も改善できたチームに100万ドル
    ◦ 優秀な人材を雇う人件費に比べたら100万ドルは微々たるもの




                                      15
   ビジネスモデル:月額固定で借り放題、期間制限・延滞料なし、配送無料

   普段は借りず、たまにしか借りない顧客が利益率が高く、最重要!!

   このような顧客に優先してDVDを届けたい

   頻繁に借りる会員が「不公平だ」と感じてしまう(→訴訟へ発展)

   「利益の最適化」と「公平な配送」のバランスを計算する

   このアルゴリズムのお陰で、利益を上げつつ不満も解消できた




                                        16
   過去に借りられた「似ている映画」と同じくらいレンタルされるだろう

   「ファヴェーラの丘」という映画
   主役はリオデジャネイロのスラム出身ミュージシャン

   リオのスラム街を描いた「シティ・オブ・ゴッド」は100万回
   インドのスラム街を描いた「売春窟に生まれついて」は50万回
   両方借りられた回数は25万回

   なので「ファヴェーラの丘」も25万回は借りられるだろうと推測できる




                                        17
   チーフ・プロダクト・オフィサーの言葉

   商品管理からエンジニアリングに至るあらゆる部署で分析のできる人間を
    雇い、定量分析を行なっている
   消費者の行動パターンについて、同時にいくつかの実験を行う
   例えば“ネットフリックス試写室”を実験中
   ネット上に4種類の試写室を用意して、会員2万人に試してもらった
   比較対照のために、試写室に誘導しないグループも設けた
   最後まで見る人は何人居るか、作品をお気に入り登録する人は何人居る
    か、最終的に借りるか、借りた後の評価はどうだったか
   すべてデータにしてチェックする




                                        18
   野球:アスレチックス、レッドソックス(映画:マネーボール)
   娯楽:アマゾン、ネットフリックス
   小売:ウォルマート
   Web:グーグル、ヤフー
   ソーシャルゲーム:DeNA、グリー
   金融:キャピタル・ワン




                                    19
   野球:アスレチックス、レッドソックス(映画:マネーボール)
   娯楽:アマゾン、ネットフリックス
   小売:ウォルマート
   Web:グーグル、ヤフー
   ソーシャルゲーム:DeNA、グリー
   金融:キャピタル・ワン




    分析すると業績が上がる!?


                                    20
今日からできるデータ解析




               21
データマイニング
              Phase I
           データの収集・加工
            DBの作成・接続
              ログの収集
             システム開発
            サーベイ、調査                  Phase IV
                                     効果検証
     Phase II                        デザイン
                        Phase III     A/Bテスト
   データの可視化             モデル作成
     ヒストグラム                         ランダム化試験
                        予測モデル         実験計画
      散布図
                        機械学習
    時系列プロット
                       クラスタリング
   円グラフ、棒グラフ
                        因果推論
     地域プロット




                                                22
   データを「解析できる形」にする
    ◦ データが全くない場合は作る
    ◦ データが様々なデータベース(DB)に保存されている場合は統合する
      DBに保存されていてもフォーマットが違う
      管理している部署が違う
      アクセス制限がある
   “汚い”データを綺麗にクレンジングする必要がある
    ◦ 欠測値の検討
      そのまま残す、除去する、補完する
      補完:平均値、多重補完(proc MI)
    ◦ 外れ値の検討
      間違った値→除去、欠測
      間違ってないが解析には大きすぎる→ウィンザライゼーション




                                         23
       数値の羅列であるデータを目に見える形にする
        ◦   ヒストグラム
        ◦   箱ひげ図
        ◦   棒グラフ                            第 1 四半期
        ◦   円グラフ                            第 2 四半期
        ◦   時系列プロット                         第 3 四半期
        ◦   散布図                             第 4 四半期


    6
    5                 6
    4                 5
    3                 4
                      3
    2
                      2
    1
                      1
    0                 0
                          時点1   時点2   時点3     時点4
                                                      24
25
   データに様々な「モデル」を当てはめて、情報を探索する
    ◦ 変数同士の関連をチェックする
    ◦ ある変数に影響を与えている変数は何か?
      マーケティング:購買、課金、リピートに影響する変数は何か?
      医療:疾病発症、生存時間、再発、予後に影響する変数は何か?
   予測したい変数:結果変数
   予測に使われる変数:説明変数
    ◦ 呼び方がたくさんある
      結果変数→応答変数、従属変数
      説明変数→予測変数、独立変数
    ◦ 「統計学を勉強するときに知っておきたい10ポイント」
      http://d.hatena.ne.jp/isseing333/20110710/1310283922
   モデルの例:「購買したかどうか」という結果変数を、「性別・年齢・居住地
    域・収入」などの説明変数で予測する
    ◦ ロジスティック回帰、判別分析、SVM、ニューラルネットワーク




                                                              26
   既にあるデータを分析するだけでは「介入効果」は測定不可
    ◦ 広告の購買効果
    ◦ 薬剤の治療効果
   ランダム化試験を行う
    ◦ 対象者をランダムにいくつかの群に分けて、異なる介入を行う
    ◦ 介入後の結果を比較する
   例
    ◦ 広告A vs. 広告B
    ◦ 薬剤A vs. 薬剤B
   サンプルサイズ設計を行い、介入を行うべき人数を計算する
    ◦ ランダム化試験を行えば、介入人数は数百人で十分な場合が多い
    ◦ 大がかりな試験をすることなく、介入効果の有無を見積もることが可能




                                         27
28
データマイニングと分析
“Data Mining and Statistics for Decision Making.”
             『意思決定のためのデータマイニングと統計学』
             Stphane Tuffry



Data mining is a tool for extracting the
     jewel of truth from the data.
データマイニングとはデータから真実という
  宝を抽出するためのツールである
                                                                 30
知識
データマイニング定番のプロセス                                                          (Knowledge)
                                                             パターン
                                            変換データ            (Pattern)
                                        (Transformed Data)
                          前処理データ
                       (Preprocessed Data)
              データマート
データベース (Data Mining Mart)
(Source Data)
                             Cleaning
                               Data
DB        DB    Data


     DB




                                                                                  31
32
   厳密にはニュアンスが異なるが、どれも「データ分析」を指している

   ニュアンス

   データマイニング
    ◦ ビッグデータと関連して話されることが多い
    ◦ 砂漠のようなデータから金を見つける

   機械学習
    ◦ 中身はブラックボックスだが予測精度が良い

   統計的学習
    ◦ 計算方法の可読性・解釈を重視




                                      33
   様々なところに記録されているデータを統合する
    ◦ 社内の部署連携
    ◦ データベースエンジニア、インフラエンジニア
   大規模データを扱う必要
    ◦   数100GB~数10TB
    ◦   Facebookは1日に約100TBのデータが発生
    ◦   Googleは約200億(?)のサイトから検索を行っている(約400TB?)
    ◦   Amazonは数千万アイテムの中からリコメンド(推奨)している
   「分散処理」によって高速に処理を行う
    ◦ Hadoop(ハドゥープ)
         Googleの基盤技術であるMapReduceをJavaでオープンソース実装した分散処理のフ
          レームワーク




                                                           34
   Hadoop
    ◦ 分散処理のためのJavaライブラリ
   「Hadoop分散処理、6時間から5分に高速化 - Yahoo! Japan」
    ◦ http://journal.mycom.co.jp/news/2009/03/04/030/index.html
   MapReduceという概念
    ◦ Map:データを分散して処理
    ◦ Reduce:処理を統合

                                http://itpro.nikkeibp.co.jp/article/COLUMN/20110112/355999/




                                                                                        35
   論文:Map-Reduce for Machine Learning on Multicore
    ◦ http://www.cs.stanford.edu/people/ang//papers/nips06-
      mapreducemulticore.pdf
   MapReduceできる統計手法
    ◦   局所重み付き線形回帰(Locally Weighted Linear Regression)
    ◦   ナイーブベイズ(Naive Bayes)
    ◦   判別分析(Gaussian Discriminative Analysis)
    ◦   K-means法
    ◦   ロジスティック回帰(Logistic Regression)
    ◦   ニューラルネットワーク(Neural Network)
    ◦   主成分分析(Principal Components Analysis)
    ◦   独立成分分析(Independent Component Analysis)
    ◦   EMアルゴリズム(Expectation Maximization)
    ◦   サポートベクターマシン(Support Vector Machine)
   これらを組み込んでいるのがMahout
   リアルタイム性を重視したJubatus


                                                              36
   教師付き学習
    ◦ “予測的”データマイニング
    ◦ 過去のデータを使って将来の値を予測する
     1. 回帰モデル
     2. カテゴリ予測
     3. 機械学習
   非教師付き学習
    ◦ “記述的”データマイニング
    ◦ データのパターンを発見する
     A. アソシエーションルール
     B. クラスタリング
     C. テキストマイニング




                            37
教師付き学習
   一般化線形モデル
    ◦ 線形回帰:Y = a + bx1 + cx2 + …
    ◦ ロジスティック回帰:logit(P) = a + bx1 + cx2 + …
    ◦ ポアソン回帰:log(Y) = a + bx1 + cx2 + …
   正則化回帰
    ◦ リッジ回帰、LASSO、LARS
       パラメータ推定にペナルティを付けて過適合を防ぐ
   時系列モデル
    ◦ ARIMA
   非線形回帰
    ◦ スプライン、一般化加法モデル
    ◦ 多変量加法回帰スプライン(multiple adaptive regression splines; MARS)
   生存時間解析
    ◦ カップラン・マイヤー曲線、Cox比例ハザードモデル




                                                                 38
教師付き学習
   判別分析
   ロジスティック回帰




   決定木
    ◦ 再帰的分割アルゴリズム(Recursive Partitioning Algorithms)

                              収入>○○
                        Yes             No

                 職歴>3年                   高負債



          購入する          購入しない      購入しない          購入する

                                                              39
教師付き学習
   サポートベクターマシン(Support Vector Machine; SVM)



                    カーネルトリック




   ニューラルネットワーク(Neural Network; NN)

           input
                     ニューロン            output
             x1      β1
             x2      β2
                                        Y
             …
                           β0
             xn      βn
                                                    40
   線形予測・判別




   非線形予測・判別




               41
   複雑な結果(非線形)になるので解釈が難しい
   データの特徴を単純化(モデル化)できない
   複雑なモデルから解釈可能なルールを抽出する方法もある
    ◦ 決定木を駆使してルールを抽出する




                                 42
   「学習」させ過ぎると「過適合」が起こる
   クロスバリデーション(交差検証)を行う必要がある
    ◦ K-fold Cross-Validation(K=10、K=2、K=nの場合が多い)



                                 …


                                 …
K回
                                 …

                                 …

                             Validation Data(検証データ)

                             Training Data(学習データ、訓練データ)

                                                          43
エラー



       検証データ
               ここで学習を止める(early stopping)



                           過適合!!


      学習データ

                                     学習

                                           44
非教師付き学習
   バスケット分析
    ◦ 一緒に購入しやすいアイテムのパターンを抽出する


     ・support(X→Y) = number of (X U Y) / total number
     ・confidence(X→Y) = support(X U Y) / support(X)
       対象者                           アイテム
          1                     Item6, Item2, Item4
          2                        Item1, Item3
          3                        Item3, Item6
          4                     Item1, Item2, Item3
          5              Item1, Item2, Item6, Item3, Item4
          6                     Item2, Item6, Item4
          7                     Item2, Item4, Item6
      Item6 → Item4, Item2       support = 4/7, confidence = 4/5
      Item6, Item2 → Item4       support = 4/7, confidence = 4/4

                                                                         45
非教師付き学習
   K-means
    ◦ ↓このサイトが非常に分かりやすい
    ◦ http://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise
   自己組織化マップ(Self-Organization Map; SOM)
    ◦ ニューロンを使ったクラスタリング
   ネットワーク分析
    ◦ データのネットワーク図を描いて特徴を探る




                                                                      46
http://d.hatena.ne.jp/isseing333/20110224/1298512568
            A                               B




                         C


AとCの関連は強い
AとBの関連は弱い




                                                                  47
   ハイテク企業の管理職21人の社会ネットワーク
    ◦ 『ネットワーク分析 (Rで学ぶデータサイエンス 8) 』




    「アドバイスを求める」         「友人である」                   「報告をする」




                  http://d.hatena.ne.jp/yokkuns/20110223/1298416018


                                                                      48
非教師付き学習
   「文章」データから情報を抽出する
    ◦ Twitter、Facebook
    ◦ 小説
   ワードクラウド
    ◦ 形態素解析+単語が利用されている頻度の可視化




                                     49
全文章(約35万文字)を分析




このままではちょっと分からない
→パラメータを変えたりして「マイニング」

                   50
   利点
   Rは完全無料の統計ソフト
   データサイズは1Gくらいまで分析できる(もちろんPC性能に依ります)
   充実したライブラリ(全て無料)



   欠点
   保証がない→コミュニティ(使ってる人同士)でカバー
   ビッグデータは扱えない→これからの発展に期待、Rhadoopとか
   計算結果が本当に合っているのか→ベースとなる機能はほぼ大丈夫
    ◦ ミスが起こりやすいのはライブラリよりデータ加工やプログラムの方
   プログラミングが必要→言語の中では取得しやすい




                                         51
ぜひデータ分析を活用して
業務アップに役立てて下さい!

Mais conteúdo relacionado

Mais procurados

Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Shota Kubo
 
[DSO]勉強会_データサイエンス講義_Chapter9
[DSO]勉強会_データサイエンス講義_Chapter9[DSO]勉強会_データサイエンス講義_Chapter9
[DSO]勉強会_データサイエンス講義_Chapter9
tatsuyasakaeeda
 

Mais procurados (11)

データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
 
分析せよ!と言われて困っているあなたへの処方箋
分析せよ!と言われて困っているあなたへの処方箋分析せよ!と言われて困っているあなたへの処方箋
分析せよ!と言われて困っているあなたへの処方箋
 
データサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティストデータサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティスト
 
07232012需要予測モデル0.3 5
07232012需要予測モデル0.3 507232012需要予測モデル0.3 5
07232012需要予測モデル0.3 5
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
 
[DSO]勉強会_データサイエンス講義_Chapter6
[DSO]勉強会_データサイエンス講義_Chapter6[DSO]勉強会_データサイエンス講義_Chapter6
[DSO]勉強会_データサイエンス講義_Chapter6
 
110624 spssユーザー会lt(up)
110624 spssユーザー会lt(up)110624 spssユーザー会lt(up)
110624 spssユーザー会lt(up)
 
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
 
[DSO]勉強会_データサイエンス講義_Chapter9
[DSO]勉強会_データサイエンス講義_Chapter9[DSO]勉強会_データサイエンス講義_Chapter9
[DSO]勉強会_データサイエンス講義_Chapter9
 
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?
 
データサイエンス講義 第4章 スパムフィルタ、単純ベイズ、データラングリング
データサイエンス講義 第4章  スパムフィルタ、単純ベイズ、データラングリングデータサイエンス講義 第4章  スパムフィルタ、単純ベイズ、データラングリング
データサイエンス講義 第4章 スパムフィルタ、単純ベイズ、データラングリング
 

Destaque

統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
Hiroko Onari
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
Issei Kurahashi
 
データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるために
Issei Kurahashi
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
Ohsawa Goodfellow
 
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
Michimasa Haga
 
R言語で統計分類基本
R言語で統計分類基本R言語で統計分類基本
R言語で統計分類基本
Paweł Rusin
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
 

Destaque (20)

統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
統計学と複雑ネットワークのちょっと深いい話 - おしゃれStatistics @銀座
 
金融業界でよく使う統計学
金融業界でよく使う統計学金融業界でよく使う統計学
金融業界でよく使う統計学
 
統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333統計的因果推論 勉強用 isseing333
統計的因果推論 勉強用 isseing333
 
データサイエンティストになるために
データサイエンティストになるためにデータサイエンティストになるために
データサイエンティストになるために
 
Rでウォーリを探してみた
Rでウォーリを探してみたRでウォーリを探してみた
Rでウォーリを探してみた
 
Regression2
Regression2Regression2
Regression2
 
Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #HadoopLarge Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
 
An introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manuAn introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manu
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
MLaPP輪講 Chapter 1
MLaPP輪講 Chapter 1MLaPP輪講 Chapter 1
MLaPP輪講 Chapter 1
 
機械学習
機械学習機械学習
機械学習
 
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
 
Step by Stepで学ぶ自然言語処理における深層学習の勘所
Step by Stepで学ぶ自然言語処理における深層学習の勘所Step by Stepで学ぶ自然言語処理における深層学習の勘所
Step by Stepで学ぶ自然言語処理における深層学習の勘所
 
R言語で統計分類基本
R言語で統計分類基本R言語で統計分類基本
R言語で統計分類基本
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
 
基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料基礎からのベイズ統計学 2章 勉強会資料
基礎からのベイズ統計学 2章 勉強会資料
 
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
 
ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方
 
オンラインTVサービスの分析事例
オンラインTVサービスの分析事例オンラインTVサービスの分析事例
オンラインTVサービスの分析事例
 

Semelhante a おしゃスタat銀座

【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
webcampusschoo
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
 
ビックデータ戦略
ビックデータ戦略ビックデータ戦略
ビックデータ戦略
Kengo Nagahashi
 
ビッグデータとは
ビッグデータとはビッグデータとは
ビッグデータとは
Takafumi Nakanishi
 

Semelhante a おしゃスタat銀座 (20)

【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
【schoo WEB-campus】#49業務改善のためのデータサイエンス 先生:倉橋一成
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
ビックデータ戦略
ビックデータ戦略ビックデータ戦略
ビックデータ戦略
 
ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦ビッグデータ時代にむけて/濱田 正彦
ビッグデータ時代にむけて/濱田 正彦
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
 
Big data harvardbusiessreview20121112
Big data harvardbusiessreview20121112Big data harvardbusiessreview20121112
Big data harvardbusiessreview20121112
 
ビッグデータとは
ビッグデータとはビッグデータとは
ビッグデータとは
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
 
データ分析で Excel を活用しよう
データ分析で Excel を活用しようデータ分析で Excel を活用しよう
データ分析で Excel を活用しよう
 
【schoo WEB-campus】データ分析、その前にやっておくべきこと 先生:田畑直
【schoo WEB-campus】データ分析、その前にやっておくべきこと 先生:田畑直【schoo WEB-campus】データ分析、その前にやっておくべきこと 先生:田畑直
【schoo WEB-campus】データ分析、その前にやっておくべきこと 先生:田畑直
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポート
 
jubatus pressrelease
jubatus pressreleasejubatus pressrelease
jubatus pressrelease
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
 
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
 
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
 
サービス紹介|myアンケート
サービス紹介|myアンケートサービス紹介|myアンケート
サービス紹介|myアンケート
 

Mais de Issei Kurahashi

Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回
Issei Kurahashi
 
コホート研究 isseing333
コホート研究 isseing333コホート研究 isseing333
コホート研究 isseing333
Issei Kurahashi
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
Issei Kurahashi
 
遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333
Issei Kurahashi
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333
Issei Kurahashi
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
Issei Kurahashi
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
Issei Kurahashi
 

Mais de Issei Kurahashi (13)

Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回Tokyo webmining統計学部 第2回
Tokyo webmining統計学部 第2回
 
iAnalysis NY視察
iAnalysis NY視察 iAnalysis NY視察
iAnalysis NY視察
 
おしゃスタV
おしゃスタVおしゃスタV
おしゃスタV
 
平方和の分解
平方和の分解平方和の分解
平方和の分解
 
コホート研究 isseing333
コホート研究 isseing333コホート研究 isseing333
コホート研究 isseing333
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333遺伝疫学研究デザイン isseing333
遺伝疫学研究デザイン isseing333
 
生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333生物統計特論6資料 2006 abc法(bootstrap) isseing333
生物統計特論6資料 2006 abc法(bootstrap) isseing333
 
生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333生物統計特論3資料 2006 ギブス MCMC isseing333
生物統計特論3資料 2006 ギブス MCMC isseing333
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
 
統計概論 isseing333
統計概論 isseing333統計概論 isseing333
統計概論 isseing333
 
分布 isseing333
分布 isseing333分布 isseing333
分布 isseing333
 
データ解析
データ解析データ解析
データ解析
 

おしゃスタat銀座

  • 2. 私が『Statistics』を読んで内容を話してます  これまで第1回~第5回まで開催 ◦ 第1章:制御された実験 ◦ 第2章:観察研究 ◦ 第3章:ヒストグラム ◦ 第4章:平均と標準偏差 ◦ 第5章:正規近似 ◦ 第6章:測定誤差 ◦ 第7章:直線プロット ◦ 第8, 9章:相関 ◦ 第10, 11, 12章:回帰 ◦ 第13, 14章:確率 ◦ 第15章:二項式  ここまで進んでます 2
  • 3. 2011年東京大学博士号取得 ◦ 修士まで:医療系の統計学が中心  疫学、臨床試験 ◦ 博士から:データマイニング分野の研究  統計的学習、機械学習  2011年iAnalysis設立メンバー ◦ 分析ノウハウをビジネスへ ◦ ミッション:日々溜まっていくデータをどうやったら有効活用できるか?  Twitter: @isseing333  blog: 「おとうさんの解析日記」 http://d.hatena.ne.jp/isseing333/ 3
  • 4. 設立:2011年3月24日  Web:http://ianalysis.jp/  場所:東京都港区南青山2-2-15 ウィン青山 1403  取引先業種 ◦ 製薬会社 ◦ 医療系支援・コンサルティング会社 ◦ 広告代理店 ◦ 人材サービス会社 ◦ ソーシャルゲーム会社 ◦ 商社 ◦ 統計解析会社  医療分野から始まり、様々な業種へコンサルティングを行なっています 4
  • 7. ◦ iAnalysis Facebookページより:http://www.facebook.com/ianalysis 経験的に得られた データを分析し法則性を見出す 7
  • 8. ある事象を数値化した集合 ◦ 身長が165cm ◦ 体重が60kg  分析をするためには基本的に表(テーブル)の形にしなければならない ID 年齢 身長 体重 1 20 165 60 2 43 178 73 3 36 163 57 ... ... ... ... ◦ データベースのテーブルやエクセルのシートのイメージ 8
  • 9. 項目、変数 ID 年齢 身長 体重 1 20 165 60 行 2 43 178 73 3 36 163 57 (1つの)データ 観測 ... ... ... ... 特徴ベクトル  「行」が1つ分のデータ、「列」が1つの項目 9
  • 10. 10
  • 11. SASジャパンとクロス・マーケティングによる調査 ◦ ビジネスパーソン1,000人へのアンケート ◦ http://www.sas.com/offices/asiapacific/japan/news/press/201112/14.html ◦ イメージ:顧客ニーズ、市場調査、数字をベースにした業務など  ちょっと曖昧、、、 11
  • 12. ネットフリックス ◦ 1997〜 ◦ DVDのオンラインレンタル  既に全国展開していた「ブロックバスター」を破綻に追いやるほど成長 ◦ http://www.afpbb.com/article/economy/2759296/6233470 12
  • 13. ビジネスモデル:オンラインでDVDで注文し郵便で届きポストで返す ◦ 1999年の売上:500万ドル ◦ 2006年の売上:10億ドル  7年で売上200倍!  成功した理由は、、、 13
  • 14. ビジネスモデル:オンラインでDVDで注文し郵便で届きポストで返す ◦ 1999年の売上:500万ドル ◦ 2006年の売上:10億ドル  7年で売上200倍!  成功した理由は、、、 数学、統計、データマイニング 14
  • 15. 顧客の好みを分析して映画をレコメンド(推奨)する ◦ アマゾンの推奨が有名  商品のクラスタリング  顧客のクラスタリング  レビューの分析  在庫状況 ◦ 普段借りられないが好みの合映画を推奨する  自社:数学者、エンジニア、統計家などで開発  社外:コンテストを利用して優秀な力を借りている ◦ シネマッチの性能を最も改善できたチームに100万ドル ◦ 優秀な人材を雇う人件費に比べたら100万ドルは微々たるもの 15
  • 16. ビジネスモデル:月額固定で借り放題、期間制限・延滞料なし、配送無料  普段は借りず、たまにしか借りない顧客が利益率が高く、最重要!!  このような顧客に優先してDVDを届けたい  頻繁に借りる会員が「不公平だ」と感じてしまう(→訴訟へ発展)  「利益の最適化」と「公平な配送」のバランスを計算する  このアルゴリズムのお陰で、利益を上げつつ不満も解消できた 16
  • 17. 過去に借りられた「似ている映画」と同じくらいレンタルされるだろう  「ファヴェーラの丘」という映画  主役はリオデジャネイロのスラム出身ミュージシャン  リオのスラム街を描いた「シティ・オブ・ゴッド」は100万回  インドのスラム街を描いた「売春窟に生まれついて」は50万回  両方借りられた回数は25万回  なので「ファヴェーラの丘」も25万回は借りられるだろうと推測できる 17
  • 18. チーフ・プロダクト・オフィサーの言葉  商品管理からエンジニアリングに至るあらゆる部署で分析のできる人間を 雇い、定量分析を行なっている  消費者の行動パターンについて、同時にいくつかの実験を行う  例えば“ネットフリックス試写室”を実験中  ネット上に4種類の試写室を用意して、会員2万人に試してもらった  比較対照のために、試写室に誘導しないグループも設けた  最後まで見る人は何人居るか、作品をお気に入り登録する人は何人居る か、最終的に借りるか、借りた後の評価はどうだったか  すべてデータにしてチェックする 18
  • 19. 野球:アスレチックス、レッドソックス(映画:マネーボール)  娯楽:アマゾン、ネットフリックス  小売:ウォルマート  Web:グーグル、ヤフー  ソーシャルゲーム:DeNA、グリー  金融:キャピタル・ワン 19
  • 20. 野球:アスレチックス、レッドソックス(映画:マネーボール)  娯楽:アマゾン、ネットフリックス  小売:ウォルマート  Web:グーグル、ヤフー  ソーシャルゲーム:DeNA、グリー  金融:キャピタル・ワン 分析すると業績が上がる!? 20
  • 22. データマイニング Phase I データの収集・加工 DBの作成・接続 ログの収集 システム開発 サーベイ、調査 Phase IV 効果検証 Phase II デザイン Phase III A/Bテスト データの可視化 モデル作成 ヒストグラム ランダム化試験 予測モデル 実験計画 散布図 機械学習 時系列プロット クラスタリング 円グラフ、棒グラフ 因果推論 地域プロット 22
  • 23. データを「解析できる形」にする ◦ データが全くない場合は作る ◦ データが様々なデータベース(DB)に保存されている場合は統合する  DBに保存されていてもフォーマットが違う  管理している部署が違う  アクセス制限がある  “汚い”データを綺麗にクレンジングする必要がある ◦ 欠測値の検討  そのまま残す、除去する、補完する  補完:平均値、多重補完(proc MI) ◦ 外れ値の検討  間違った値→除去、欠測  間違ってないが解析には大きすぎる→ウィンザライゼーション 23
  • 24. 数値の羅列であるデータを目に見える形にする ◦ ヒストグラム ◦ 箱ひげ図 ◦ 棒グラフ 第 1 四半期 ◦ 円グラフ 第 2 四半期 ◦ 時系列プロット 第 3 四半期 ◦ 散布図 第 4 四半期 6 5 6 4 5 3 4 3 2 2 1 1 0 0 時点1 時点2 時点3 時点4 24
  • 25. 25
  • 26. データに様々な「モデル」を当てはめて、情報を探索する ◦ 変数同士の関連をチェックする ◦ ある変数に影響を与えている変数は何か?  マーケティング:購買、課金、リピートに影響する変数は何か?  医療:疾病発症、生存時間、再発、予後に影響する変数は何か?  予測したい変数:結果変数  予測に使われる変数:説明変数 ◦ 呼び方がたくさんある  結果変数→応答変数、従属変数  説明変数→予測変数、独立変数 ◦ 「統計学を勉強するときに知っておきたい10ポイント」  http://d.hatena.ne.jp/isseing333/20110710/1310283922  モデルの例:「購買したかどうか」という結果変数を、「性別・年齢・居住地 域・収入」などの説明変数で予測する ◦ ロジスティック回帰、判別分析、SVM、ニューラルネットワーク 26
  • 27. 既にあるデータを分析するだけでは「介入効果」は測定不可 ◦ 広告の購買効果 ◦ 薬剤の治療効果  ランダム化試験を行う ◦ 対象者をランダムにいくつかの群に分けて、異なる介入を行う ◦ 介入後の結果を比較する  例 ◦ 広告A vs. 広告B ◦ 薬剤A vs. 薬剤B  サンプルサイズ設計を行い、介入を行うべき人数を計算する ◦ ランダム化試験を行えば、介入人数は数百人で十分な場合が多い ◦ 大がかりな試験をすることなく、介入効果の有無を見積もることが可能 27
  • 28. 28
  • 30. “Data Mining and Statistics for Decision Making.” 『意思決定のためのデータマイニングと統計学』 Stphane Tuffry Data mining is a tool for extracting the jewel of truth from the data. データマイニングとはデータから真実という 宝を抽出するためのツールである 30
  • 31. 知識 データマイニング定番のプロセス (Knowledge) パターン 変換データ (Pattern) (Transformed Data) 前処理データ (Preprocessed Data) データマート データベース (Data Mining Mart) (Source Data) Cleaning Data DB DB Data DB 31
  • 32. 32
  • 33. 厳密にはニュアンスが異なるが、どれも「データ分析」を指している  ニュアンス  データマイニング ◦ ビッグデータと関連して話されることが多い ◦ 砂漠のようなデータから金を見つける  機械学習 ◦ 中身はブラックボックスだが予測精度が良い  統計的学習 ◦ 計算方法の可読性・解釈を重視 33
  • 34. 様々なところに記録されているデータを統合する ◦ 社内の部署連携 ◦ データベースエンジニア、インフラエンジニア  大規模データを扱う必要 ◦ 数100GB~数10TB ◦ Facebookは1日に約100TBのデータが発生 ◦ Googleは約200億(?)のサイトから検索を行っている(約400TB?) ◦ Amazonは数千万アイテムの中からリコメンド(推奨)している  「分散処理」によって高速に処理を行う ◦ Hadoop(ハドゥープ)  Googleの基盤技術であるMapReduceをJavaでオープンソース実装した分散処理のフ レームワーク 34
  • 35. Hadoop ◦ 分散処理のためのJavaライブラリ  「Hadoop分散処理、6時間から5分に高速化 - Yahoo! Japan」 ◦ http://journal.mycom.co.jp/news/2009/03/04/030/index.html  MapReduceという概念 ◦ Map:データを分散して処理 ◦ Reduce:処理を統合 http://itpro.nikkeibp.co.jp/article/COLUMN/20110112/355999/ 35
  • 36. 論文:Map-Reduce for Machine Learning on Multicore ◦ http://www.cs.stanford.edu/people/ang//papers/nips06- mapreducemulticore.pdf  MapReduceできる統計手法 ◦ 局所重み付き線形回帰(Locally Weighted Linear Regression) ◦ ナイーブベイズ(Naive Bayes) ◦ 判別分析(Gaussian Discriminative Analysis) ◦ K-means法 ◦ ロジスティック回帰(Logistic Regression) ◦ ニューラルネットワーク(Neural Network) ◦ 主成分分析(Principal Components Analysis) ◦ 独立成分分析(Independent Component Analysis) ◦ EMアルゴリズム(Expectation Maximization) ◦ サポートベクターマシン(Support Vector Machine)  これらを組み込んでいるのがMahout  リアルタイム性を重視したJubatus 36
  • 37. 教師付き学習 ◦ “予測的”データマイニング ◦ 過去のデータを使って将来の値を予測する 1. 回帰モデル 2. カテゴリ予測 3. 機械学習  非教師付き学習 ◦ “記述的”データマイニング ◦ データのパターンを発見する A. アソシエーションルール B. クラスタリング C. テキストマイニング 37
  • 38. 教師付き学習  一般化線形モデル ◦ 線形回帰:Y = a + bx1 + cx2 + … ◦ ロジスティック回帰:logit(P) = a + bx1 + cx2 + … ◦ ポアソン回帰:log(Y) = a + bx1 + cx2 + …  正則化回帰 ◦ リッジ回帰、LASSO、LARS  パラメータ推定にペナルティを付けて過適合を防ぐ  時系列モデル ◦ ARIMA  非線形回帰 ◦ スプライン、一般化加法モデル ◦ 多変量加法回帰スプライン(multiple adaptive regression splines; MARS)  生存時間解析 ◦ カップラン・マイヤー曲線、Cox比例ハザードモデル 38
  • 39. 教師付き学習  判別分析  ロジスティック回帰  決定木 ◦ 再帰的分割アルゴリズム(Recursive Partitioning Algorithms) 収入>○○ Yes No 職歴>3年 高負債 購入する 購入しない 購入しない 購入する 39
  • 40. 教師付き学習  サポートベクターマシン(Support Vector Machine; SVM) カーネルトリック  ニューラルネットワーク(Neural Network; NN) input ニューロン output x1 β1 x2 β2 Y … β0 xn βn 40
  • 41. 線形予測・判別  非線形予測・判別 41
  • 42. 複雑な結果(非線形)になるので解釈が難しい  データの特徴を単純化(モデル化)できない  複雑なモデルから解釈可能なルールを抽出する方法もある ◦ 決定木を駆使してルールを抽出する 42
  • 43. 「学習」させ過ぎると「過適合」が起こる  クロスバリデーション(交差検証)を行う必要がある ◦ K-fold Cross-Validation(K=10、K=2、K=nの場合が多い) … … K回 … … Validation Data(検証データ) Training Data(学習データ、訓練データ) 43
  • 44. エラー 検証データ ここで学習を止める(early stopping) 過適合!! 学習データ 学習 44
  • 45. 非教師付き学習  バスケット分析 ◦ 一緒に購入しやすいアイテムのパターンを抽出する ・support(X→Y) = number of (X U Y) / total number ・confidence(X→Y) = support(X U Y) / support(X) 対象者 アイテム 1 Item6, Item2, Item4 2 Item1, Item3 3 Item3, Item6 4 Item1, Item2, Item3 5 Item1, Item2, Item6, Item3, Item4 6 Item2, Item6, Item4 7 Item2, Item4, Item6 Item6 → Item4, Item2 support = 4/7, confidence = 4/5 Item6, Item2 → Item4 support = 4/7, confidence = 4/4 45
  • 46. 非教師付き学習  K-means ◦ ↓このサイトが非常に分かりやすい ◦ http://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise  自己組織化マップ(Self-Organization Map; SOM) ◦ ニューロンを使ったクラスタリング  ネットワーク分析 ◦ データのネットワーク図を描いて特徴を探る 46
  • 47. http://d.hatena.ne.jp/isseing333/20110224/1298512568 A B C AとCの関連は強い AとBの関連は弱い 47
  • 48. ハイテク企業の管理職21人の社会ネットワーク ◦ 『ネットワーク分析 (Rで学ぶデータサイエンス 8) 』 「アドバイスを求める」 「友人である」 「報告をする」 http://d.hatena.ne.jp/yokkuns/20110223/1298416018 48
  • 49. 非教師付き学習  「文章」データから情報を抽出する ◦ Twitter、Facebook ◦ 小説  ワードクラウド ◦ 形態素解析+単語が利用されている頻度の可視化 49
  • 51. 利点  Rは完全無料の統計ソフト  データサイズは1Gくらいまで分析できる(もちろんPC性能に依ります)  充実したライブラリ(全て無料)  欠点  保証がない→コミュニティ(使ってる人同士)でカバー  ビッグデータは扱えない→これからの発展に期待、Rhadoopとか  計算結果が本当に合っているのか→ベースとなる機能はほぼ大丈夫 ◦ ミスが起こりやすいのはライブラリよりデータ加工やプログラムの方  プログラミングが必要→言語の中では取得しやすい 51