O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

小町のレス数が予測できるか試してみた

10.066 visualizações

Publicada em

小町のレス数が予測できるか試してみた

Publicada em: Engenharia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

小町のレス数が予測できるか試してみた

  1. 1. 発言小町のレス数は予測できるか 試してみた Team 朝寝坊
  2. 2. レス数? ● 発言に対する返信の数
  3. 3. これができると? ● レスがもらいやすい文章かどうかをチェックできるサービ ス – (炎上回避の側面も?) ● ● 盛り上がる文章の特徴認の確認 – 単語? – 文体?
  4. 4. どうやって? ● 対象:発言小町の全データ (all.json) – 特徴量候補 ● タイトル ● 発言者名 ● 本文 ● アイコン ● ● 分析 – JubatusのRegressionを利用 ● サーバー建てるのを面倒だったのでembeddedを利用
  5. 5. 結果1 ● 未加工で投入→今ひとつ 予 測 正解
  6. 6. 試行錯誤の始まり ● 追加した特徴量 – 品詞によるフィルタ(MeCabを使用) – 品詞の出現頻度 – 係り受け情報  (CaboCha:https://taku910.github.io/cabocha/ を使用) – ● 収束してない?10回繰り返し学習
  7. 7. 結果2 ● 結果1とあまり変わらず 予 測 正解
  8. 8. 他考えたこと ● その時のテーマみたいなものがあるか? – →直近(2016/9・10)の最レスポンス数トピックを見るとそうでもない ● 「新築の家に2人の子供がいる友達が子連れで来ます」 ● ● 近傍探索を用いて、レスがつきやすいテーマがあるかの調査 – →そもそも近傍のトピックとテーマに関連性が見えなかった ● (↑のトピックスの近傍トピック) ● 【PR】あなたのイチオシ紅葉スポット、オススメの楽しみ方を教えてくださ い! (レス24件) ● 結婚前提なのに忙しいと会って貰えません。 (レス223件) ● 女一人旅の楽しみ方を教えてください (レス56件) ● 文系博士の民間就職と研究の継続 (レス59件) ● ペットの葬儀とお悔やみのメッセージ (レス15件) ● 発表者寝坊のためここまで!
  9. 9. 現状の結論 ● 現時点でレス数を決定づける要素は文中に見つけられませ んでした ● ● 仮説1:結局どれだけ露出されるか次第で決まる – Twitter等でURLの言及量を特徴量として使う ● 仮説2:文としては問題がないが全体的な構成で決まる – 文の関連情報(文と文の関連性)
  10. 10. おまけ ● 投票数も同様にやってみました(画像は「びっくり」のも の)

×