SlideShare uma empresa Scribd logo
1 de 28
Baixar para ler offline
レコメンデーション活用編
 --- 開発者より ---

   Karubi Namuru
    May 16, 2010
自己紹介

●   Karubi Namuru
      –   詳しくは名刺交換で
●   Ph.D. in CS, RD Engineer
●
    Twitter : @karubi
●
    facebook : http://facebook.com/karubi
●
    出身:広島,居住:東京 , Seongnam
学生時代の話

      ●
          在学中の研究
          ●
              統計的手法による日常行動分析
              –   実世界:ライフログ
              –   ウェブ:閲覧, clicks

200                      200
180                      180
160                      160
140                      140

120                      120

100                      100

80                       80

60                       60

40                       40

20                       20

 0                         0
現在使っている知識

●
    膨大な情報の処理
    ●
        疎な分散処理
●
    時系列情報を参照する情報推薦
    ●
        コンテクスト抽出
    ●
        状況変化型の情報推薦
        –   いつも一緒ではない,時間は刻々と進む
今日の基本スタンス

●
    開発者としての LT
    ●
        統計処理など大規模計算をインターネットの
        サービスでつかう
        –   計算開始から終了まで3日かかるとかだめ!
        –   インフラコストが馬鹿にならない!
        –   運用,とにかく止めちゃだめ!
    ●
        もちろんビジネス
        –   できれば金儲けしたいよ
お話をする応用について (1)

●
    おさらい
    ●
        大きく分類して3つの方法論がある
        –   コンテンツベースフィルタリング
        –   ルールベースフィルタリング
        –   協調フィルタリング
お話をする応用について (2)

●
    画像を利用する推薦サービス
    ●
        画像特徴量を利用する
    ●
        疎結合な分散処理
        –   当時流行のクラウドコンピューティング, Amazon EC2
        –   分散処理, Apache Hadoop
    ●
        知財化
    ●
        Amazon WebServices エバンジェリストに紹介
        –   ApacheCon US 2008, Nov.
お話をする応用について (3)

●
    広告配信サービス
    ●
        コンテンツ連動広告
        –   現在サービス中のため,話せるレベルで ...
    ●
        大規模なログ処理の例,機械学習
        –   Apache Hadoop
        –   Apache Mahout (たぶん世界最初の商用で利用
    ●
        閲覧者の需要をどのようにして見つけるのか?
軽めにおさらい

●
    レコメンドのアプローチ
    ●
        コンテンツベース
    ●
        ルールベース
    ●
        協調フィルタリング
    ●
        Hamadakoichi さんが詳解している!(はず
        –   おさらい程度でー
コンテンツベースフィルタリング

●
    内容に合わせた見合うアイテムを見つける方法
    ●
        Content-based filtering
    ●
        好きな監督・俳優・ジャンルなどを決める
    ●
        その組み合わせに即して,アイテムを決める
        –   映画「プリティ・ウーマン」を選択すると
            ●
                ラブロマンス
            ●
                ジュリア・ロバーツ
            → 「ノッティングヒル」を推薦
            ●
                ラブロマンス
            ●
                ジュリア・ロバーツ
ルールベースフィルタリング

●
    エキスパートシステム
    ●
        AI の研究分野
    ●
        専門家の知識をルールのようにプロセスにする
        –   映画「プリティ・ウーマン」を選択すると
            ●
                「元となった映画がある場合は併せて推薦する」ルール
            → 「マイ・フェア・レディ」を推薦
協調フィルタリング

●
    似た人が与えた評価を利用して,アイテムの評
    価を予測する
    ●
        多くの利用者の嗜好情報を蓄積すること
    ●
        ある人と嗜好の類似する他の人の情報
    ●
        クチコミの原理と例えられる
        –   趣味の似た人からの意見を参考にする
考え方

●
    ユーザ A がアイテム X を好む
●
    アイテム X を好む別のユーザ B が好むアイテム
    Y が存在する
●
    ユーザ A もアイテム Y を好むのではないか
    ●
        実装で利用するのはユーザ同士の類似度
        –   たとえば,同じアイテムにつけた評価の相関係数
対象する情報

●
    明示的な情報源
    ●
        ユーザの評価がついているもの
        –   レビュー
    ●
        明示的に選択したもの
        –   評価ポイント
●
    暗示的な情報源
    ●
        システムの操作履歴
        –   ブラウザの閲覧履歴
明示的な情報の具体例

●
    評価の内容
    ●
        例えば映画の場合
        –   この映画は面白かった,つまらなかった
        –   ◯◯ 点
        –   評価を与えた映画の組み合わせ
            ●
                レビューリスト
画像を利用する推薦サービス

●
    概要
    ●
        画像を特徴量にする(色,形など)
    ●
        それぞれの特徴量に対して閲覧者が評価を与えてい
        るとする
    ●
        閲覧者の嗜好を協調フィルタリング
画像を利用した動機

●
    協調フィルタリングでは対応しづらい世界もあ
    る
    ●
        データが集まるまでマトモに機能しない
         → プロダクトライフサイクルの短い商材に向かない
●
    コンテンツベースフィルタリング
    ●
        なにの情報を対象にするのか
    ●
        収集もしなければならない
    ●
        できるだけ汎化したい
どのような情報を利用するのか

●
    色
    ●
        色空間系
●
    質感
    ●
        素材感
●
    形
    ●
        境界
    ●
        モデルと背景の問題
どのような開発をするのか

●
    計算量が多い
    ●
        画像を特徴化
    ●
        協調フィルタリング
    ●
        更新頻度が早い
        –   商品の入れ替えが早い(こまめな商品追加
        –   在庫も薄い(洋服の場合
●
    止めてはならない
具体的な対策

●
    Apache Hadoop
    ●
        分散して計算
    ●
        Map Reduce できるようにデータ構造に注意する
●
    Amazon EC2
    ●
        インスタンスを API で増やせる
        –   危機の予感がしたときに作ればいい
    ●
        従量課金
        –   止めれば料金が掛からないのでベンチャーでも安心
適用結果




                    現地で




ApacheCon のために Amazon WebServices のエヴァンジェリストに紹介した動画
http://www.youtube.com/watch?v=SkI_2bznyk0
広告配信サービス

●
    概要
    ●
        コンテンツ連動広告
        –   ウェブページの内容に沿った広告
広告に推薦は有効に働くか

●
    クリック保証型広告の場合
    ●
        成果が「広告のクリック」
    ●
        閲覧者のニーズ通りの広告が出れば利得が最大
        –   最もクリックされるために配信会社は儲かる
        –   広告主のサイトに商材に興味のある閲覧者が集まるため
            に,広告主のビジネスも成功して儲かる
●
    インプレッション保証型広告
    ●
        成果が「広告の閲覧」
    ●
        今回は対象外
どのような情報を利用するのか

●
    ウェブページの情報
    ●
        特徴語?
●
    閲覧者の情報
    ●
        過去の履歴?
●
    などなど色々な情報があります

        ※ 実サービスでは複数の情報をきちんと調理することが一番良いと思います.
どのような開発をするのか (1)

●
    膨大な配信量
    ●
        たとえば一般的な新聞社
        –   配信規模:約 2 億 PV / month
        –   閲覧者:約 2000 万 UU / month
    ●
        広告配信の場合
        –   配信規模も閲覧者も新聞社より多い
どのような開発をするのか (2)

●
    配信速度
●
    止めてはいけない
    ●
        金が絡みますので
●
    計算量を気にしなくてはならない
    ●
        配信ログ
ログの調理の具体例

●
    Apache Hadoop
    ●
        前と同様
●
    Apache Mahout
    ●
        高度な機械学習
まとめ

●
    インターネットでサービスするのは大変
●
    技術屋に求められるスキル
    ●
        計算ロジックの説明を求められる
    ●
        配信量が増えるサービスの場合は,突然増えても問
        題ないように考えておく
    ●
        運用の手間は少ない方がいい
●
    質問あればこちらまで
        gogokarubi@gmail.com まで

Mais conteúdo relacionado

Mais procurados

楽天ad4U 行動スキミング広告
楽天ad4U  行動スキミング広告楽天ad4U  行動スキミング広告
楽天ad4U 行動スキミング広告rakuten
 
フルスクラッチで書いたアドサーバの開発運用史
フルスクラッチで書いたアドサーバの開発運用史フルスクラッチで書いたアドサーバの開発運用史
フルスクラッチで書いたアドサーバの開発運用史Innami Satoshi
 
食べログデータから見る東新宿と西早稲田のランチ事情
食べログデータから見る東新宿と西早稲田のランチ事情食べログデータから見る東新宿と西早稲田のランチ事情
食べログデータから見る東新宿と西早稲田のランチ事情Jun Ishitsuka
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
Prophet入門【R編】Facebookの時系列予測ツール
Prophet入門【R編】Facebookの時系列予測ツールProphet入門【R編】Facebookの時系列予測ツール
Prophet入門【R編】Facebookの時系列予測ツールhoxo_m
 
[データマイニング+WEB勉強会][R勉強会] 創設の思い・目的・進行方針
[データマイニング+WEB勉強会][R勉強会] 創設の思い・目的・進行方針[データマイニング+WEB勉強会][R勉強会] 創設の思い・目的・進行方針
[データマイニング+WEB勉強会][R勉強会] 創設の思い・目的・進行方針Koichi Hamada
 
EC-CUBEとAWSの美味しい関係?
EC-CUBEとAWSの美味しい関係?EC-CUBEとAWSの美味しい関係?
EC-CUBEとAWSの美味しい関係?義隆 川路
 

Mais procurados (7)

楽天ad4U 行動スキミング広告
楽天ad4U  行動スキミング広告楽天ad4U  行動スキミング広告
楽天ad4U 行動スキミング広告
 
フルスクラッチで書いたアドサーバの開発運用史
フルスクラッチで書いたアドサーバの開発運用史フルスクラッチで書いたアドサーバの開発運用史
フルスクラッチで書いたアドサーバの開発運用史
 
食べログデータから見る東新宿と西早稲田のランチ事情
食べログデータから見る東新宿と西早稲田のランチ事情食べログデータから見る東新宿と西早稲田のランチ事情
食べログデータから見る東新宿と西早稲田のランチ事情
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
Prophet入門【R編】Facebookの時系列予測ツール
Prophet入門【R編】Facebookの時系列予測ツールProphet入門【R編】Facebookの時系列予測ツール
Prophet入門【R編】Facebookの時系列予測ツール
 
[データマイニング+WEB勉強会][R勉強会] 創設の思い・目的・進行方針
[データマイニング+WEB勉強会][R勉強会] 創設の思い・目的・進行方針[データマイニング+WEB勉強会][R勉強会] 創設の思い・目的・進行方針
[データマイニング+WEB勉強会][R勉強会] 創設の思い・目的・進行方針
 
EC-CUBEとAWSの美味しい関係?
EC-CUBEとAWSの美味しい関係?EC-CUBEとAWSの美味しい関係?
EC-CUBEとAWSの美味しい関係?
 

Destaque

集合知プログラミング 第6章 ドキュメントとフィルタリング~draft
集合知プログラミング 第6章 ドキュメントとフィルタリング~draft集合知プログラミング 第6章 ドキュメントとフィルタリング~draft
集合知プログラミング 第6章 ドキュメントとフィルタリング~draftKenji Koshikawa
 
HTML5時代の技術の恩恵を受けるには
HTML5時代の技術の恩恵を受けるにはHTML5時代の技術の恩恵を受けるには
HTML5時代の技術の恩恵を受けるにはSho Ito
 
Photoshopで学ぶ、一生使える色調補正 先生:藤本 圭先生
Photoshopで学ぶ、一生使える色調補正 先生:藤本 圭先生Photoshopで学ぶ、一生使える色調補正 先生:藤本 圭先生
Photoshopで学ぶ、一生使える色調補正 先生:藤本 圭先生schoowebcampus
 
WebフォントとSVGフォント
WebフォントとSVGフォントWebフォントとSVGフォント
WebフォントとSVGフォントJun Fujisawa
 
CSSにもオブジェクト指向を - OOCSSことはじめ
CSSにもオブジェクト指向を - OOCSSことはじめCSSにもオブジェクト指向を - OOCSSことはじめ
CSSにもオブジェクト指向を - OOCSSことはじめNisei Kimura
 
テスト環境から本番環境へ、URLが異なる環境にWordPressを移行する方法
テスト環境から本番環境へ、URLが異なる環境にWordPressを移行する方法テスト環境から本番環境へ、URLが異なる環境にWordPressを移行する方法
テスト環境から本番環境へ、URLが異なる環境にWordPressを移行する方法Ryujiro Yamamoto
 
ディレクターからみたMovable Type + PowerCMSの優位性
ディレクターからみたMovable Type + PowerCMSの優位性ディレクターからみたMovable Type + PowerCMSの優位性
ディレクターからみたMovable Type + PowerCMSの優位性Renji Yoneda
 
シロクマ本に学ぶエクスペリエンスのための手技法 by 篠原 稔和 - presentation from IA CAMP 2015
シロクマ本に学ぶエクスペリエンスのための手技法 by 篠原 稔和 - presentation from IA CAMP 2015シロクマ本に学ぶエクスペリエンスのための手技法 by 篠原 稔和 - presentation from IA CAMP 2015
シロクマ本に学ぶエクスペリエンスのための手技法 by 篠原 稔和 - presentation from IA CAMP 2015Sociomedia
 
Webアクセシビリティの標準規格「JIS X 8341-3:2010」準拠のための試験方法(最新版)
Webアクセシビリティの標準規格「JIS X 8341-3:2010」準拠のための試験方法(最新版)Webアクセシビリティの標準規格「JIS X 8341-3:2010」準拠のための試験方法(最新版)
Webアクセシビリティの標準規格「JIS X 8341-3:2010」準拠のための試験方法(最新版)Web Accessibility Infrastructure Committee (WAIC)
 
Chromeでjavascriptデバッグ!まず半歩♪
Chromeでjavascriptデバッグ!まず半歩♪Chromeでjavascriptデバッグ!まず半歩♪
Chromeでjavascriptデバッグ!まず半歩♪Yuji Nojima
 
Photoshopで効率よくデザインしよう!
Photoshopで効率よくデザインしよう!Photoshopで効率よくデザインしよう!
Photoshopで効率よくデザインしよう!Marie Suenaga
 
-入門- enchant.js でゲームを作ろう
-入門- enchant.js でゲームを作ろう-入門- enchant.js でゲームを作ろう
-入門- enchant.js でゲームを作ろうnico0927
 
.htaccessによるリダイレクト徹底解説
.htaccessによるリダイレクト徹底解説.htaccessによるリダイレクト徹底解説
.htaccessによるリダイレクト徹底解説Cherry Pie Web
 
悩まないコーディングをしよう! OOCSS,SMACSSを用いた、読みやすくてメンテナブルなCSS設計(Sass対応)
悩まないコーディングをしよう! OOCSS,SMACSSを用いた、読みやすくてメンテナブルなCSS設計(Sass対応)悩まないコーディングをしよう! OOCSS,SMACSSを用いた、読みやすくてメンテナブルなCSS設計(Sass対応)
悩まないコーディングをしよう! OOCSS,SMACSSを用いた、読みやすくてメンテナブルなCSS設計(Sass対応)Horiguchi Seito
 
ウェブデザインの本質と、構成要素
ウェブデザインの本質と、構成要素ウェブデザインの本質と、構成要素
ウェブデザインの本質と、構成要素vanillate cocoa
 
今必要なCSSアーキテクチャ
今必要なCSSアーキテクチャ今必要なCSSアーキテクチャ
今必要なCSSアーキテクチャMayu Kimura
 
コーディングが上達するコツ
コーディングが上達するコツコーディングが上達するコツ
コーディングが上達するコツevol-ni
 
Webアプリケーション負荷試験実践入門
Webアプリケーション負荷試験実践入門Webアプリケーション負荷試験実践入門
Webアプリケーション負荷試験実践入門樽八 仲川
 
WordPressプラグイン作成入門
WordPressプラグイン作成入門WordPressプラグイン作成入門
WordPressプラグイン作成入門Yuji Nojima
 
ノンプログラマーのためのjQuery入門
ノンプログラマーのためのjQuery入門ノンプログラマーのためのjQuery入門
ノンプログラマーのためのjQuery入門Hayato Mizuno
 

Destaque (20)

集合知プログラミング 第6章 ドキュメントとフィルタリング~draft
集合知プログラミング 第6章 ドキュメントとフィルタリング~draft集合知プログラミング 第6章 ドキュメントとフィルタリング~draft
集合知プログラミング 第6章 ドキュメントとフィルタリング~draft
 
HTML5時代の技術の恩恵を受けるには
HTML5時代の技術の恩恵を受けるにはHTML5時代の技術の恩恵を受けるには
HTML5時代の技術の恩恵を受けるには
 
Photoshopで学ぶ、一生使える色調補正 先生:藤本 圭先生
Photoshopで学ぶ、一生使える色調補正 先生:藤本 圭先生Photoshopで学ぶ、一生使える色調補正 先生:藤本 圭先生
Photoshopで学ぶ、一生使える色調補正 先生:藤本 圭先生
 
WebフォントとSVGフォント
WebフォントとSVGフォントWebフォントとSVGフォント
WebフォントとSVGフォント
 
CSSにもオブジェクト指向を - OOCSSことはじめ
CSSにもオブジェクト指向を - OOCSSことはじめCSSにもオブジェクト指向を - OOCSSことはじめ
CSSにもオブジェクト指向を - OOCSSことはじめ
 
テスト環境から本番環境へ、URLが異なる環境にWordPressを移行する方法
テスト環境から本番環境へ、URLが異なる環境にWordPressを移行する方法テスト環境から本番環境へ、URLが異なる環境にWordPressを移行する方法
テスト環境から本番環境へ、URLが異なる環境にWordPressを移行する方法
 
ディレクターからみたMovable Type + PowerCMSの優位性
ディレクターからみたMovable Type + PowerCMSの優位性ディレクターからみたMovable Type + PowerCMSの優位性
ディレクターからみたMovable Type + PowerCMSの優位性
 
シロクマ本に学ぶエクスペリエンスのための手技法 by 篠原 稔和 - presentation from IA CAMP 2015
シロクマ本に学ぶエクスペリエンスのための手技法 by 篠原 稔和 - presentation from IA CAMP 2015シロクマ本に学ぶエクスペリエンスのための手技法 by 篠原 稔和 - presentation from IA CAMP 2015
シロクマ本に学ぶエクスペリエンスのための手技法 by 篠原 稔和 - presentation from IA CAMP 2015
 
Webアクセシビリティの標準規格「JIS X 8341-3:2010」準拠のための試験方法(最新版)
Webアクセシビリティの標準規格「JIS X 8341-3:2010」準拠のための試験方法(最新版)Webアクセシビリティの標準規格「JIS X 8341-3:2010」準拠のための試験方法(最新版)
Webアクセシビリティの標準規格「JIS X 8341-3:2010」準拠のための試験方法(最新版)
 
Chromeでjavascriptデバッグ!まず半歩♪
Chromeでjavascriptデバッグ!まず半歩♪Chromeでjavascriptデバッグ!まず半歩♪
Chromeでjavascriptデバッグ!まず半歩♪
 
Photoshopで効率よくデザインしよう!
Photoshopで効率よくデザインしよう!Photoshopで効率よくデザインしよう!
Photoshopで効率よくデザインしよう!
 
-入門- enchant.js でゲームを作ろう
-入門- enchant.js でゲームを作ろう-入門- enchant.js でゲームを作ろう
-入門- enchant.js でゲームを作ろう
 
.htaccessによるリダイレクト徹底解説
.htaccessによるリダイレクト徹底解説.htaccessによるリダイレクト徹底解説
.htaccessによるリダイレクト徹底解説
 
悩まないコーディングをしよう! OOCSS,SMACSSを用いた、読みやすくてメンテナブルなCSS設計(Sass対応)
悩まないコーディングをしよう! OOCSS,SMACSSを用いた、読みやすくてメンテナブルなCSS設計(Sass対応)悩まないコーディングをしよう! OOCSS,SMACSSを用いた、読みやすくてメンテナブルなCSS設計(Sass対応)
悩まないコーディングをしよう! OOCSS,SMACSSを用いた、読みやすくてメンテナブルなCSS設計(Sass対応)
 
ウェブデザインの本質と、構成要素
ウェブデザインの本質と、構成要素ウェブデザインの本質と、構成要素
ウェブデザインの本質と、構成要素
 
今必要なCSSアーキテクチャ
今必要なCSSアーキテクチャ今必要なCSSアーキテクチャ
今必要なCSSアーキテクチャ
 
コーディングが上達するコツ
コーディングが上達するコツコーディングが上達するコツ
コーディングが上達するコツ
 
Webアプリケーション負荷試験実践入門
Webアプリケーション負荷試験実践入門Webアプリケーション負荷試験実践入門
Webアプリケーション負荷試験実践入門
 
WordPressプラグイン作成入門
WordPressプラグイン作成入門WordPressプラグイン作成入門
WordPressプラグイン作成入門
 
ノンプログラマーのためのjQuery入門
ノンプログラマーのためのjQuery入門ノンプログラマーのためのjQuery入門
ノンプログラマーのためのjQuery入門
 

Semelhante a レコメンデーション(協調フィルタリング)の基礎

協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with MahoutKatsuhiro Takata
 
広告ログの解析システム
広告ログの解析システム広告ログの解析システム
広告ログの解析システムKatsuhiro Takata
 
20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向dstn
 
ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方Chiaki Hatanaka
 
情報爆発シンポジウム infoplosion
情報爆発シンポジウム infoplosion情報爆発シンポジウム infoplosion
情報爆発シンポジウム infoplosionRakuten Group, Inc.
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Miningcyberagent
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Shigeru Kishikawa
 
コンテンツマーケティングにおける”16の基本的手法”とは?
コンテンツマーケティングにおける”16の基本的手法”とは? コンテンツマーケティングにおける”16の基本的手法”とは?
コンテンツマーケティングにおける”16の基本的手法”とは? 陽平 中山
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展Recruit Technologies
 
統合キャンペーン管理プラットフォーム概要
統合キャンペーン管理プラットフォーム概要統合キャンペーン管理プラットフォーム概要
統合キャンペーン管理プラットフォーム概要Go Sugihara
 
【Medix】解析サービスのご案内資料
【Medix】解析サービスのご案内資料【Medix】解析サービスのご案内資料
【Medix】解析サービスのご案内資料Shinichiro Oho
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析CROSSHACK, Inc.
 
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことCookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことMinero Aoki
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 
0から始めるhp集客の真髄シリーズ<その2>
0から始めるhp集客の真髄シリーズ<その2>0から始めるhp集客の真髄シリーズ<その2>
0から始めるhp集客の真髄シリーズ<その2>Tatematsu Digital Solution KK
 
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...Boss4434
 

Semelhante a レコメンデーション(協調フィルタリング)の基礎 (20)

協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with Mahout
 
広告ログの解析システム
広告ログの解析システム広告ログの解析システム
広告ログの解析システム
 
20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向
 
ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方
 
20120126 mnlgy 1
20120126 mnlgy 120120126 mnlgy 1
20120126 mnlgy 1
 
jubatus pressrelease
jubatus pressreleasejubatus pressrelease
jubatus pressrelease
 
情報爆発シンポジウム infoplosion
情報爆発シンポジウム infoplosion情報爆発シンポジウム infoplosion
情報爆発シンポジウム infoplosion
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
 
Digital strategy in Japanese
Digital strategy in JapaneseDigital strategy in Japanese
Digital strategy in Japanese
 
Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]Jmrx講演資料0723(配布用)[1]
Jmrx講演資料0723(配布用)[1]
 
World ia day
World ia dayWorld ia day
World ia day
 
コンテンツマーケティングにおける”16の基本的手法”とは?
コンテンツマーケティングにおける”16の基本的手法”とは? コンテンツマーケティングにおける”16の基本的手法”とは?
コンテンツマーケティングにおける”16の基本的手法”とは?
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
統合キャンペーン管理プラットフォーム概要
統合キャンペーン管理プラットフォーム概要統合キャンペーン管理プラットフォーム概要
統合キャンペーン管理プラットフォーム概要
 
【Medix】解析サービスのご案内資料
【Medix】解析サービスのご案内資料【Medix】解析サービスのご案内資料
【Medix】解析サービスのご案内資料
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
 
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことCookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
0から始めるhp集客の真髄シリーズ<その2>
0から始めるhp集客の真髄シリーズ<その2>0から始めるhp集客の真髄シリーズ<その2>
0から始めるhp集客の真髄シリーズ<その2>
 
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...
 

Último

Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 

Último (7)

Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 

レコメンデーション(協調フィルタリング)の基礎

  • 2. 自己紹介 ● Karubi Namuru – 詳しくは名刺交換で ● Ph.D. in CS, RD Engineer ● Twitter : @karubi ● facebook : http://facebook.com/karubi ● 出身:広島,居住:東京 , Seongnam
  • 3. 学生時代の話 ● 在学中の研究 ● 統計的手法による日常行動分析 – 実世界:ライフログ – ウェブ:閲覧, clicks 200 200 180 180 160 160 140 140 120 120 100 100 80 80 60 60 40 40 20 20 0 0
  • 4. 現在使っている知識 ● 膨大な情報の処理 ● 疎な分散処理 ● 時系列情報を参照する情報推薦 ● コンテクスト抽出 ● 状況変化型の情報推薦 – いつも一緒ではない,時間は刻々と進む
  • 5. 今日の基本スタンス ● 開発者としての LT ● 統計処理など大規模計算をインターネットの サービスでつかう – 計算開始から終了まで3日かかるとかだめ! – インフラコストが馬鹿にならない! – 運用,とにかく止めちゃだめ! ● もちろんビジネス – できれば金儲けしたいよ
  • 6. お話をする応用について (1) ● おさらい ● 大きく分類して3つの方法論がある – コンテンツベースフィルタリング – ルールベースフィルタリング – 協調フィルタリング
  • 7. お話をする応用について (2) ● 画像を利用する推薦サービス ● 画像特徴量を利用する ● 疎結合な分散処理 – 当時流行のクラウドコンピューティング, Amazon EC2 – 分散処理, Apache Hadoop ● 知財化 ● Amazon WebServices エバンジェリストに紹介 – ApacheCon US 2008, Nov.
  • 8. お話をする応用について (3) ● 広告配信サービス ● コンテンツ連動広告 – 現在サービス中のため,話せるレベルで ... ● 大規模なログ処理の例,機械学習 – Apache Hadoop – Apache Mahout (たぶん世界最初の商用で利用 ● 閲覧者の需要をどのようにして見つけるのか?
  • 9. 軽めにおさらい ● レコメンドのアプローチ ● コンテンツベース ● ルールベース ● 協調フィルタリング ● Hamadakoichi さんが詳解している!(はず – おさらい程度でー
  • 10. コンテンツベースフィルタリング ● 内容に合わせた見合うアイテムを見つける方法 ● Content-based filtering ● 好きな監督・俳優・ジャンルなどを決める ● その組み合わせに即して,アイテムを決める – 映画「プリティ・ウーマン」を選択すると ● ラブロマンス ● ジュリア・ロバーツ → 「ノッティングヒル」を推薦 ● ラブロマンス ● ジュリア・ロバーツ
  • 11. ルールベースフィルタリング ● エキスパートシステム ● AI の研究分野 ● 専門家の知識をルールのようにプロセスにする – 映画「プリティ・ウーマン」を選択すると ● 「元となった映画がある場合は併せて推薦する」ルール → 「マイ・フェア・レディ」を推薦
  • 12. 協調フィルタリング ● 似た人が与えた評価を利用して,アイテムの評 価を予測する ● 多くの利用者の嗜好情報を蓄積すること ● ある人と嗜好の類似する他の人の情報 ● クチコミの原理と例えられる – 趣味の似た人からの意見を参考にする
  • 13. 考え方 ● ユーザ A がアイテム X を好む ● アイテム X を好む別のユーザ B が好むアイテム Y が存在する ● ユーザ A もアイテム Y を好むのではないか ● 実装で利用するのはユーザ同士の類似度 – たとえば,同じアイテムにつけた評価の相関係数
  • 14. 対象する情報 ● 明示的な情報源 ● ユーザの評価がついているもの – レビュー ● 明示的に選択したもの – 評価ポイント ● 暗示的な情報源 ● システムの操作履歴 – ブラウザの閲覧履歴
  • 15. 明示的な情報の具体例 ● 評価の内容 ● 例えば映画の場合 – この映画は面白かった,つまらなかった – ◯◯ 点 – 評価を与えた映画の組み合わせ ● レビューリスト
  • 16. 画像を利用する推薦サービス ● 概要 ● 画像を特徴量にする(色,形など) ● それぞれの特徴量に対して閲覧者が評価を与えてい るとする ● 閲覧者の嗜好を協調フィルタリング
  • 17. 画像を利用した動機 ● 協調フィルタリングでは対応しづらい世界もあ る ● データが集まるまでマトモに機能しない → プロダクトライフサイクルの短い商材に向かない ● コンテンツベースフィルタリング ● なにの情報を対象にするのか ● 収集もしなければならない ● できるだけ汎化したい
  • 18. どのような情報を利用するのか ● 色 ● 色空間系 ● 質感 ● 素材感 ● 形 ● 境界 ● モデルと背景の問題
  • 19. どのような開発をするのか ● 計算量が多い ● 画像を特徴化 ● 協調フィルタリング ● 更新頻度が早い – 商品の入れ替えが早い(こまめな商品追加 – 在庫も薄い(洋服の場合 ● 止めてはならない
  • 20. 具体的な対策 ● Apache Hadoop ● 分散して計算 ● Map Reduce できるようにデータ構造に注意する ● Amazon EC2 ● インスタンスを API で増やせる – 危機の予感がしたときに作ればいい ● 従量課金 – 止めれば料金が掛からないのでベンチャーでも安心
  • 21. 適用結果 現地で ApacheCon のために Amazon WebServices のエヴァンジェリストに紹介した動画 http://www.youtube.com/watch?v=SkI_2bznyk0
  • 22. 広告配信サービス ● 概要 ● コンテンツ連動広告 – ウェブページの内容に沿った広告
  • 23. 広告に推薦は有効に働くか ● クリック保証型広告の場合 ● 成果が「広告のクリック」 ● 閲覧者のニーズ通りの広告が出れば利得が最大 – 最もクリックされるために配信会社は儲かる – 広告主のサイトに商材に興味のある閲覧者が集まるため に,広告主のビジネスも成功して儲かる ● インプレッション保証型広告 ● 成果が「広告の閲覧」 ● 今回は対象外
  • 24. どのような情報を利用するのか ● ウェブページの情報 ● 特徴語? ● 閲覧者の情報 ● 過去の履歴? ● などなど色々な情報があります ※ 実サービスでは複数の情報をきちんと調理することが一番良いと思います.
  • 25. どのような開発をするのか (1) ● 膨大な配信量 ● たとえば一般的な新聞社 – 配信規模:約 2 億 PV / month – 閲覧者:約 2000 万 UU / month ● 広告配信の場合 – 配信規模も閲覧者も新聞社より多い
  • 26. どのような開発をするのか (2) ● 配信速度 ● 止めてはいけない ● 金が絡みますので ● 計算量を気にしなくてはならない ● 配信ログ
  • 27. ログの調理の具体例 ● Apache Hadoop ● 前と同様 ● Apache Mahout ● 高度な機械学習
  • 28. まとめ ● インターネットでサービスするのは大変 ● 技術屋に求められるスキル ● 計算ロジックの説明を求められる ● 配信量が増えるサービスの場合は,突然増えても問 題ないように考えておく ● 運用の手間は少ない方がいい ● 質問あればこちらまで gogokarubi@gmail.com まで