O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

ヤフオク!における機械学習 ~深層学習、分散表現~ #devsumi

6.623 visualizações

Publicada em

Developers Summit 2016 Yahoo! JAPAN Tech Conference
http://event.shoeisha.jp/devsumi/20160218/tokusetsu

【18-A-6】16:20~17:05【第1部】
Yahoo! JAPANを支えるデータテクノロジー ~機械学習、クラウド分散システム処理モデル~
『ヤフオク!における機械学習 ~深層学習、分散表現~』
ヤフオク!カンパニーヤフオク!開発本部 サイエンス部 サイエンス
山下 勝司

Publicada em: Tecnologia
  • Seja o primeiro a comentar

ヤフオク!における機械学習 ~深層学習、分散表現~ #devsumi

  1. 1. 2016/2/18 ヤフオク!における機械学習 ~深層学習、分散表現~ 山下 勝司(やまかつ) ヤフオク!カンパニー ヤフオク!開発本部 サイエンス部サイエンス
  2. 2. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 自己紹介 本名: 山下 勝司 通称: やまかつ 2015年1月中途入社 ヤフオク!カンパニー所属 ヤフオク!の機械学習周りを担当
  3. 3. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ヤフオク!について ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ
  4. 4. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ヤフオク!について サービス開始:1999年 ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ
  5. 5. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ヤフオク!について サービス開始:1999年 日本最大級の インターネットオークションサイト ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ
  6. 6. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ヤフオク!について サービス開始:1999年 日本最大級の インターネットオークションサイト 出品数:常時約3900万個※1 ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ
  7. 7. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ヤフオク!について サービス開始:1999年 日本最大級の インターネットオークションサイト 出品数:常時約3900万個※1 1秒あたり273個※2 ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ
  8. 8. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ヤフオク!について サービス開始:1999年 日本最大級の インターネットオークションサイト 出品数:常時約3900万個※1 1秒あたり273個※2 ユーザ数(PC):約1117万人※3 ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ
  9. 9. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ヤフオク!について サービス開始:1999年 日本最大級の インターネットオークションサイト 出品数:常時約3900万個※1 1秒あたり273個※2 ユーザ数(PC):約1117万人※3 ユーザ数(SP):約1671万人※3 ※1: 2015年6月実績 ※2: 2015年6月22日実績 ※3: Nielsen NetView(家庭および職場からのPCによるアクセス。アプリは除く)Nielsen Mobile NetView(Android+iOS / アプリいずれも含む) 2015/04「訪問者数」データ、「オークション」サブカテゴリ
  10. 10. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 アジェンダ • ヤフオク!における深層学習を利用した 画像処理のご紹介 • ヤフオク!における分散表現を利用した 検索ランキングのご紹介
  11. 11. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 アジェンダ • ヤフオク!における深層学習を利用した 画像処理のご紹介 • ヤフオク!における分散表現を利用した 検索ランキングのご紹介
  12. 12. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 解決したい課題
  13. 13. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 解決したい課題 MacBook Air
  14. 14. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 解決したい課題
  15. 15. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 解決したい課題
  16. 16. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 解決したい課題 カテゴリ違い
  17. 17. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違い 入札ユーザ 「折角、カテゴリを絞って検索したのに、 関係ない商品が…」
  18. 18. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違い 入札ユーザ 「折角、カテゴリを絞って検索したのに、 関係ない商品が…」 ユーザビリティの低下
  19. 19. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違い 入札ユーザ 「折角、カテゴリを絞って検索したのに、 関係ない商品が…」 カテゴリ違いを検知!
  20. 20. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 人による検知
  21. 21. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 人による検知 ・高い精度
  22. 22. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 人による検知 ・高い精度 しかし限界も
  23. 23. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 人による検知 ・高い精度 しかし限界も ・量
  24. 24. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 人による検知 ・高い精度 しかし限界も ・量 ・スピード
  25. 25. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 人による検知 ・高い精度 しかし限界も ・量 ・スピード 機械学習の利用
  26. 26. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 機械学習にも限界が
  27. 27. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 機械学習にも限界が ・未知のパターン
  28. 28. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 機械学習にも限界が ・未知のパターン ・100%の精度は難しい
  29. 29. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 機械学習にも限界が ・未知のパターン ・100%の精度は難しい など
  30. 30. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 機械学習にも限界が ・未知のパターン ・100%の精度は難しい など 機械学習は銀の弾丸ではない
  31. 31. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 人と機械学習のハイブリッド
  32. 32. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 人と機械学習のハイブリッド ・人:判断
  33. 33. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 人と機械学習のハイブリッド ・人:判断 ・機械学習:人が判断する順序を決定
  34. 34. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知 人と機械学習のハイブリッド ・人:判断 ・機械学習:人が判断する順序を決定 メリットの両立 ・人:高い精度 ・機械学習:量とスピード
  35. 35. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル
  36. 36. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 商品タイトルベース
  37. 37. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品
  38. 38. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air 用カバー」 「MacBook Air カバー」
  39. 39. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air 用カバー」 → ✕ 「MacBook Air カバー」 → ✕
  40. 40. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air 用カバー」 → ✕ 「MacBook Air カバー」 → ✕ 「MacBook Air + カバー」
  41. 41. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air 用カバー」 → ✕ 「MacBook Air カバー」 → ✕ 「MacBook Air + カバー」 → ◯
  42. 42. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air 用カバー」 → ✕ 「MacBook Air カバー」 → ✕ 「MacBook Air + カバー」 → ◯ 「MacBook Air おまけ付 カバー」
  43. 43. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air 用カバー」 → ✕ 「MacBook Air カバー」 → ✕ 「MacBook Air + カバー」 → ◯ 「MacBook Air おまけ付 カバー」 → ?
  44. 44. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 商品タイトルベース ex. MacBook Air カテゴリへの出品 「MacBook Air 用カバー」 → ✕ 「MacBook Air カバー」 → ✕ 「MacBook Air + カバー」 → ◯ 「MacBook Air おまけ付 カバー」 → ? 一定の精度はあるものの、限界も
  45. 45. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 単語に加え、画像も利用
  46. 46. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 単語に加え、画像も利用 例:MacBook Air カテゴリ
  47. 47. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 単語に加え、画像も利用 例:MacBook Air カテゴリ ◯ ✕ ✕
  48. 48. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 画像に写っている物体を認識
  49. 49. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 カテゴリ違いの検知モデル 画像に写っている物体を認識 深層学習(Deep Learning)を利用
  50. 50. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 深層学習の代表的手法 CNN(Convolutional Neural Network) RNN(Recurrent Neural Network) RNN(Recursive Neural Network) DBN(Deep Belief Network) DBM(Deep Boltzmann Network) DAE(Deep Autoencorder) at el.
  51. 51. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 深層学習の代表的手法 CNN(Convolutional Neural Network) RNN(Recurrent Neural Network) RNN(Recursive Neural Network) DBN(Deep Belief Network) DBM(Deep Boltzmann Network) DAE(Deep Autoencorder) at el.
  52. 52. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 CNNによる物体認識 画像に写っている物体を識別 Going deeper with convolutions (http://arxiv.org/pdf/1409.4842v1.pdf)より引用
  53. 53. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 CNNによる物体認識 画像に写っている物体を識別 シベリアンハスキー エスキーモドッグ Going deeper with convolutions (http://arxiv.org/pdf/1409.4842v1.pdf)より引用
  54. 54. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 学習 学習データ ヤフオク!の過去の出品画像 約2万件 環境 ・Caffe v1.0rc2 ・CUDA 7.5 ・GPUサーバ(オンプレ)
  55. 55. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 識別 ノートPCである確率を出力
  56. 56. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 識別 ノートPCである確率を出力 80.1% 0.1% 0.9%
  57. 57. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 目視チェックの順序(イメージ) 80.1% 0.1% 0.9%
  58. 58. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 目視チェックの順序(イメージ) 80.1% 0.1% 0.9% ③ ②① ※実際には商品タイトル等の他の特徴を考慮
  59. 59. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 今後
  60. 60. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 今後 学習データを高精度、大量、継続的に 増加させる仕組み
  61. 61. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 今後 学習データを高精度、大量、継続的に 増加させる仕組み ラベル付け:高コスト
  62. 62. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 今後 学習データを高精度、大量、継続的に 増加させる仕組み ラベル付け:高コスト 精度の向上 新しいパターンへの対応
  63. 63. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 アジェンダ • ヤフオク!における深層学習を利用した 画像処理のご紹介 • ヤフオク!における分散表現を利用した 検索ランキングのご紹介
  64. 64. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ヤフオク! サイト内検索
  65. 65. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ヤフオク! サイト内検索
  66. 66. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ヤフオク! サイト内検索 機械学習によるランキング
  67. 67. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 検索ランキング CTRやCVR等を最大化するモデル CTR:商品詳細画面へ流入する確率 CVR:その後に入札する確率
  68. 68. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 検索ランキング 多くの特徴を利用
  69. 69. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 検索ランキング 多くの特徴を利用 重要な特徴の1つが単語
  70. 70. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 検索ランキング 多くの特徴を利用 重要な特徴の1つが単語 特にタイトル中の単語
  71. 71. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 検索ランキング 多くの特徴を利用 重要な特徴の1つが単語 特にタイトル中の単語 「MacBook Air」 「MacBook Air カバー」
  72. 72. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の利用 単語を特徴に利用した場合の課題
  73. 73. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の利用 単語を特徴に利用した場合の課題 表記ゆれ、同義語
  74. 74. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の利用 単語を特徴に利用した場合の課題 表記ゆれ、同義語 一般的な対応 ・正規化 小文字大文字、半角全角、記号等 ・同義語辞書
  75. 75. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の利用 同義語辞書の整備:人手
  76. 76. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の利用 同義語辞書の整備:人手 ・コスト
  77. 77. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の利用 同義語辞書の整備:人手 ・コスト ヤフオク!の商品ドメイン:多 ・服、本、スマホから自動車、家まで
  78. 78. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の利用 同義語辞書の整備:人手 ・コスト ヤフオク!の商品ドメイン:多 ・服、本、スマホから自動車、家まで コストやばい
  79. 79. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の利用 同義語辞書の整備:人手 ・コスト ヤフオク!の商品ドメイン:多 ・服、本、スマホから自動車、家まで 計算で求めたい
  80. 80. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の利用 同義語辞書の整備:人手 ・コスト ヤフオク!の商品ドメイン:多 ・服、本、スマホから自動車、家まで 分散表現を利用
  81. 81. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 分散表現 局所表現 分散表現
  82. 82. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 分散表現 局所表現 サッカー: (1,0,0,0 … 0,0,0,0) フットボール: (0,0,0,0 … 0,1,0,0) 分散表現
  83. 83. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 分散表現 局所表現 サッカー: (1,0,0,0 … 0,0,0,0) フットボール: (0,0,0,0 … 0,1,0,0) ベクトルは単純なエンコード 分散表現
  84. 84. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 分散表現 局所表現 サッカー: (1,0,0,0 … 0,0,0,0) フットボール: (0,0,0,0 … 0,1,0,0) ベクトルは単純なエンコード 分散表現 サッカー: (0.13, -0.32, … 0.1, 0.07) フットボール: (0.11, -0.27, … 0.13, 0.07)
  85. 85. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 分散表現 局所表現 サッカー: (1,0,0,0 … 0,0,0,0) フットボール: (0,0,0,0 … 0,1,0,0) ベクトルは単純なエンコード 分散表現 サッカー: (0.13, -0.32, … 0.1, 0.07) フットボール: (0.11, -0.27, … 0.13, 0.07) 意味が近い表現:近いベクトル
  86. 86. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の分散表現 意味が近い単語:ベクトルが近い単語
  87. 87. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の分散表現 意味が近い単語:ベクトルが近い単語 クラスタリング
  88. 88. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の分散表現 意味が近い単語:ベクトルが近い単語 クラスタリング 意味が近い単語群:同一クラスタ
  89. 89. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の分散表現 意味が近い単語:ベクトルが近い単語 クラスタリング 意味が近い単語群:同一クラスタ 検索ランキングのモデルの特徴
  90. 90. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の分散表現 意味が近い単語:ベクトルが近い単語 クラスタリング 意味が近い単語群:同一クラスタ 検索ランキングのモデルの特徴 ・単語
  91. 91. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 単語の分散表現 意味が近い単語:ベクトルが近い単語 クラスタリング 意味が近い単語群:同一クラスタ 検索ランキングのモデルの特徴 ・単語 ・クラスタID
  92. 92. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 分散表現の学習 学習コーパス ・商品タイトル ・商品数:約5000万件(重複除外) ・単語数:約3億8000万 ・Vocabulary:約40万 モデル: skip-gram (+negative sampling)
  93. 93. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 クラスタリング モデル:k-means(k-means++) 距離:コサイン類似度
  94. 94. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 生成されたクラスタの例 クラスタ例1: ザク, ドム, グフ, ゲルググ, ズゴック, …
  95. 95. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 生成されたクラスタの例 クラスタ例1: ザク, ドム, グフ, ゲルググ, ズゴック, … クラスタ例2: アイパッド, iPad, iPadmini, Air, …
  96. 96. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 生成されたクラスタの例 クラスタ例1: ザク, ドム, グフ, ゲルググ, ズゴック, … クラスタ例2: アイパッド, iPad, iPadmini, Air, …
  97. 97. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 商品タイトルの置き換え クラスタ例1:ザク, ドム, グフ, ゲルググ, …
  98. 98. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 商品タイトルの置き換え クラスタ例1:ザク, ドム, グフ, ゲルググ, … 中古 HY2M 1/12 ザク MS-06J ZAKUII ↓ 中古 HY2M 1/12 cid_1 MS-06J ZAKUII
  99. 99. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 商品タイトルの置き換え クラスタ例1:ザク, ドム, グフ, ゲルググ, … 中古 HY2M 1/12 ザク MS-06J ZAKUII ↓ 中古 HY2M 1/12 cid_1 MS-06J ZAKUII ガンプラ MG1/100 MS-09 ドム ↓ ガンプラ MG1/100 MS-09 cid_1
  100. 100. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 今後 skip-gram以降の分散表現のモデルを 利用
  101. 101. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 今後 skip-gram以降の分散表現のモデルを 利用 重複タイトルの判断精度
  102. 102. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 今後 skip-gram以降の分散表現のモデルを 利用 重複タイトルの判断精度 クラスタリング精度 ex. ディリクレ過程混合正規分布
  103. 103. Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ご静聴有難うございました

×