12. 株式会社サイバーエージェント
12
ブログのアクセスログの加工方法(概説)
2. 芸能人×芸能人の行列にユーザー毎の共起アクセスを足しこむ
user1 a o s …
・atsuko-maeda / oshima-y
a 0 +1 +1
・sashihara-rino / atsuko-maeda
o +1 0 +1
・oshima-y / sashihara-rino
s +1 +1 0
…
13. 株式会社サイバーエージェント
13
ブログのアクセスログの加工方法(概説)
2. 芸能人×芸能人の行列にユーザー毎の共起アクセスを足しこむ
user1 a o s …
・atsuko-maeda / oshima-y
a 0 +1 +1
・sashihara-rino / atsuko-maeda
o +1 0 +1
・oshima-y / sashihara-rino
s +1 +1 0
…
14. 株式会社サイバーエージェント
14
ブログのアクセスログの加工方法(概説)
2. 芸能人×芸能人の行列にユーザー毎の共起アクセスを足しこむ
user1 a o s …
・atsuko-maeda / oshima-y
a 0 +1 +1
・sashihara-rino / atsuko-maeda
o +1 0 +1
・oshima-y / sashihara-rino
s +1 +1 0
…
15. 株式会社サイバーエージェント
15
ブログのアクセスログの加工方法(概説)
2. 芸能人×芸能人の行列にユーザー毎の共起アクセスを足しこむ
user1 a o s …
・atsuko-maeda / oshima-y
a 0 +1 +1
・sashihara-rino / atsuko-maeda
o +1 0 +1
・oshima-y / sashihara-rino
s +1 +1 0
…
16. 株式会社サイバーエージェント
16
ブログのアクセスログの加工方法(概説)
3. 行列の各行(列)を、各行の最大値で正規化
a o s a o s
a 0 100 60 a 0 1 0.6
o 100 0 20 o 1 0 0.2
s 60 20 0 s 1 0.33 0
( * 上図は 3×3 行列の場合の結果。実際は 104× 104 行列程度 )
17. 株式会社サイバーエージェント
17
ブログのアクセスログの加工方法(概説)
4. 必要であれば、機械学習に必要なデータ形式に合わせて加工
a o s
a 0 1 1
a o s o 1 0 0
2値化
a 0 1 0.6 (閾値) s 1 0 0
o 1 0 0.2
a o s
s 1 0.33 0 離散多値化
(step関数) a 0 5 3
o 5 0 2
s 5 2 0