Mais conteúdo relacionado
Semelhante a ShangriLa Anime APIを利用してアニメ関連のビッグデータ解析を最速で行う (20)
Mais de Junichi Noda (14)
ShangriLa Anime APIを利用してアニメ関連のビッグデータ解析を最速で行う
- 29. UserName Tweet
tanaka おそ松さん面白い
mika ガンダム面白い
tanaka おそ松最高
daken ガンダム面白い
mika ラブライブ見る
UserID Product Rate
1 1 2
2 2 1
2 3 1
3 2 1
• 協調フィルタリングに読み込ませるため右表のフォーマットに
BigQueryで加工する。(AmazonMLもAzureMLなどもこの形式)
• SparkMLlibがUserIDがIntでないといけないという制限があるため
TwitterIDは内部的にシーケンスな番号を付ける。
データの加工
- 35. 80万Twitterユーザー x 43 (2015年冬期アニメ作品数)
3440万レコードが推薦データとしてMySQLに格納
されている
MLlibで処理した結果
UserID ProductID Rate
354796 242 1.8322849817902473
354796 243 -2.5666437672644378
354796 244 0.385125554296764
354796 245 0.9550722901486512
- 48. デモ+プロダクト リンク集
製品名 サブカテゴリ URL
Twitterフォロワーラ
ンキング
https://twitter.com/anime_follower/
つぶやきビッグデー
タ
2015年秋期アニメ http://tv-anime.xyz/
2016年冬期アニメ http://akiba-net.com/5/
ラブライブ http://lovelive-net.com/5/
東京テレビ局 http://telev.net/5/
アニメ推薦エンジン http://tv-anime.biz/
声優フォロワーラン
キング
http://data.akiba-net.com/
Pixiv投稿数ランキン
グ
TOP http://pix.akiba-net.com/