SlideShare uma empresa Scribd logo
1 de 21
Threading Machine
Generated Email
Nir Ailon, Zohar S. Karnin,
Edo Liberty, Yoelle Maarek
SEXI/WSDM2013 読み会
id: y_benjo
目次
• 10秒まとめ
• 目的
• 手法
• 実験
• まとめ
10秒まとめ
• 機械的なメールを自動的にスレッド化
• Amazonなら商品注文から受取番号入力までひとま
とまりに
• 精度90%,再現率70%
目的
• 機械が吐くメールをスレッドでまとめたい
• スレッド: メールをまとめる形式
• 既存技術: 人とのメールならReやらFwdやらに則って機
械的に処理可能
• サーバから自動的に送られてくるだけのメールもま
とめたい
どんなシチュエーションか?
• 例1: パスワード再発行
• 「パスワード再発行のURLはここだから踏んでくれ」
• 「パスワード再発行完了したんで」
• 例2: ECでの注文
• EC: 「注文受け付けたんで」
• EC: 「商品送ったんで」
• USPS: 「商品の追跡番号はxxxなんで」
• EC: 「買ってくれてありがとう,評価してくれ頼む」
何が問題か
• 例1
• 普通のメーラーはスレッドにまとめてくれない
• Reとかでつながってないから
• 例2
• 例2は例1よりもっと厄介
• 例1と違って,例2のメールはタイトルは全然似ていない
• しかも送り主が途中で変わってる
• けれどもこれらをまとめたい
手法
1. メールのテンプレートを抜きだす
2. 因果グラフ(causal graph)を作る
3. 最終的には判別問題に落とす
4. 実際どうやってスレッド化していくのか
1. テンプレートを抜く
• 共通部分と固有の部分に分ける
• 例: e: Your package number 2049862-56 is on
its way
• テンプレート τ(e) = Your package number * is on
its way
• 可変部 var(e) = 2049862-56
• 「ここは色々関連研究あるから参考にしてくれ」と
しか書いてない
2. 因果グラフ(causal graph)を作る
• 基本方針
• ユーザ別にメールのテンプレートを受信時間で昇順ソー
ト
• テンプレートAを受け取ったあと,δ秒以内にテンプ
レートBを受け取っているかを数え上げ
• それを使ってテンプレートをエッジとして持つ因果グラ
hうを作る
τがτcausの後に
登場した回数
因果グラフのweight
Fig2: causal graph
• 図は本文参照
• 因果の例が出ている
• 同じドメインから「注文受け付けたわ」→「送ったわ」
メールとか
• 「パスワードリセットしたわ」→「注文したわ」って
メールもある
• これはECユーザはパスワードを忘れやすいため,注文前にパス
ワードをリセットする人が多い事を示している
3. 判別問題に落とす
• 二つのメール e_i, e_j に関係があるかどうかを判別
問題で解く
特徴量
• Time Difference Features
• Variable Match Features
• Periodicity Features
Time Difference Features
• 2つのメールの時間差と,そのメールのテンプレート
の時間差における平均/分散の差
• ここで,同テンプレート内で上位/下位10%を削除
• 理由: 一週間に2度パスワードを変更したユーザは1度目
の変更完了メールと二度目の変更確認メールがカウント
されるため
e_i, e_j が
持つ
テンプレート
Variable Match Features
• テンプレートじゃなくてvarsにも着目
• 重要な例: 注文 #number を受け付けたわ と 注文
#number を発送したわ
• 重要でない例: #city1 から #city2 のチケット取った
わ と #city1 から #city3 のフライト中止になった
• 二つのメールに含まれるvarsをマッチさせる
• メールの送信元ドメインとvarsの類似度も考慮する
• racingbuy.com の注文受付メールと racing buy で
の支払いについて メールの類似性は高い
Periodicity Features
• 定期通知メールが重なると関係があるように見えて
しまう
• 毎月の支払い通知メール,日毎のメーリングリスト
• テンプレートごとに届いた間隔(にlogを取ったもの)
の平均と標準偏差を feature に追加
4. 実際どうやってスレッド化していくのか
• すごく大雑把に書く
• 新しいメールeとこれまで届いたメール{e_1, ..., e_j}
• F(e, e_1), ..., F(e, e_j)を計算し,もっともスコアが
高いものに繋げていく
• Fは[0, 1]のスコアを吐く学習器
• スレッドが途中で分岐するけど問題なし
実験
• 人手で正解作り
• 「このメールに一番近いメールを選んでください」
• 「無ければ無し」で良い
• 学習器はAlternating decision tree
• 結果は大体良い感じ
まとめ
• 機械的なメールを自動的にスレッド化
• Amazonなら商品注文から受取番号入力までひとま
とまりに
• 精度90%,再現率70%
感想
• 「あー確かにあれば楽だ」という感じがする
• 途中添字が異常になっていて混乱した
• 実際の例とか見たかったけどさすがに載せらないの
だろうか
色々出た突っ込み
• テンプレート抜く部分が一番難しいのでは?
• 精度比較,テンプレートだけのものが欲しい
• 同ドメインのメールをまとめるだけの精度はどれぐ
らいか?
• 例えば注文が入り乱れる場合だと同ドメインを全てまと
めるとよくないけど,実際はどれぐらいあるのか?
• 提案手法で異なるドメインのメールはうまくまとめられ
たのか?

Mais conteúdo relacionado

Destaque

Personalized next-song recommendation in online karaokes(Recsys 2013)
Personalized next-song recommendation in online karaokes(Recsys 2013)Personalized next-song recommendation in online karaokes(Recsys 2013)
Personalized next-song recommendation in online karaokes(Recsys 2013)ybenjo
 
patent analysis(LDA) and spotfire
patent analysis(LDA) and spotfirepatent analysis(LDA) and spotfire
patent analysis(LDA) and spotfireybenjo
 
Topic Model Survey (wsdm2012)
Topic Model Survey (wsdm2012)Topic Model Survey (wsdm2012)
Topic Model Survey (wsdm2012)ybenjo
 
AJACS HONGO8 (mining in DBCLS)
AJACS HONGO8 (mining in DBCLS)AJACS HONGO8 (mining in DBCLS)
AJACS HONGO8 (mining in DBCLS)ybenjo
 
Predicting Cancel Users in Offline Events
Predicting Cancel Users in Offline EventsPredicting Cancel Users in Offline Events
Predicting Cancel Users in Offline Eventsybenjo
 
首都圏における帰宅困難者のモデリング 最終報告
首都圏における帰宅困難者のモデリング 最終報告首都圏における帰宅困難者のモデリング 最終報告
首都圏における帰宅困難者のモデリング 最終報告ybenjo
 
Link prediction
Link predictionLink prediction
Link predictionybenjo
 
Modeling intransitivity in matchup and comparison data (WSDM 2016)
Modeling intransitivity in matchup and comparison data (WSDM 2016)Modeling intransitivity in matchup and comparison data (WSDM 2016)
Modeling intransitivity in matchup and comparison data (WSDM 2016)ybenjo
 
anohana
anohanaanohana
anohanaybenjo
 
Query Suggestion @ tokyotextmining#2
Query Suggestion @ tokyotextmining#2Query Suggestion @ tokyotextmining#2
Query Suggestion @ tokyotextmining#2ybenjo
 

Destaque (10)

Personalized next-song recommendation in online karaokes(Recsys 2013)
Personalized next-song recommendation in online karaokes(Recsys 2013)Personalized next-song recommendation in online karaokes(Recsys 2013)
Personalized next-song recommendation in online karaokes(Recsys 2013)
 
patent analysis(LDA) and spotfire
patent analysis(LDA) and spotfirepatent analysis(LDA) and spotfire
patent analysis(LDA) and spotfire
 
Topic Model Survey (wsdm2012)
Topic Model Survey (wsdm2012)Topic Model Survey (wsdm2012)
Topic Model Survey (wsdm2012)
 
AJACS HONGO8 (mining in DBCLS)
AJACS HONGO8 (mining in DBCLS)AJACS HONGO8 (mining in DBCLS)
AJACS HONGO8 (mining in DBCLS)
 
Predicting Cancel Users in Offline Events
Predicting Cancel Users in Offline EventsPredicting Cancel Users in Offline Events
Predicting Cancel Users in Offline Events
 
首都圏における帰宅困難者のモデリング 最終報告
首都圏における帰宅困難者のモデリング 最終報告首都圏における帰宅困難者のモデリング 最終報告
首都圏における帰宅困難者のモデリング 最終報告
 
Link prediction
Link predictionLink prediction
Link prediction
 
Modeling intransitivity in matchup and comparison data (WSDM 2016)
Modeling intransitivity in matchup and comparison data (WSDM 2016)Modeling intransitivity in matchup and comparison data (WSDM 2016)
Modeling intransitivity in matchup and comparison data (WSDM 2016)
 
anohana
anohanaanohana
anohana
 
Query Suggestion @ tokyotextmining#2
Query Suggestion @ tokyotextmining#2Query Suggestion @ tokyotextmining#2
Query Suggestion @ tokyotextmining#2
 

Último

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Último (8)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

Threading Machine Generated Email (WSDM 2013)