SlideShare uma empresa Scribd logo
1 de 15
NLP4Lを使ったランキング学習
第19回Lucene/Solr勉強会
山本高志@シーマーク
自己紹介
山本 高志(やまもと たかし)
・株式会社シーマークの代表(http://www.seamark.co.jp)
・昔から情報検索の周辺でいろいろと
・NLP4L(Natural Language Processing for Lucene)コミッタ
・「Apache Solr入門 ~オープンソース全文検索エンジン」
(技術評論社)
NLP4Lとは
 Apache Lucene のための自然言語処理ツール
• NLP(自然言語処理)
• 機械学習
• ランキング学習(Learning To Rank)
 検索エクスペリエンスを向上させることが主な目的
• ユーザが見つけたいと思っている文書をより早く容易に見つけられるようにする
 Luceneベースの検索エンジンが対象
• Apache Solr
• Elasticsearch
概要
テキスト
コーパス
Webページ
社内文章
クエリログ
行動ログ
…
サポートツール
辞書プロセッサー
- 自然言語処理
機械学習プロセッサー
- ランキング学習
生成物
Dictionary
- 固有表現
- キーフレーズ
- 類義語
- …
機械学習モデル
- 文書分類モデル
- ランキング学習モデル
検索エンジン
- Lucene
- Solr
- Elasticsearch
配置ツール/評価ツール
標準提供の辞書ソリューション
• 固有表現抽出
固有表現(人名、場所、組織、金額、日付、時間など)を抽出
• 文書分類
テキスト文書を分類
• キーフレーズ抽出
特徴語等のキーフレーズを抽出
• 頭文字略語抽出
Acronym(頭文字略語)を抽出
• クエリログ取込み(TBD)
実際にユーザが入力した検索キーワードを取り出す
標準提供のランキング学習モデル
 PRank
• Pointwiseの手法
• PRank(Perceptron Ranking)アルゴリズムを利用したモデル
 RankingSVM
• Pairwiseの手法
• SVM(support vector machine)を用いたモデル
• Pointwiseデータから疑似的にpairwiseデータに変換して処理を行う
(今後もっと増やしていきます)
NLP4Lでは特定のモデル理論や実装に依存せず利用可能
Solr / Elasticsearch
ランキング学習のフロー
アノテーション
クリックモデル
(TBD)
クエリログ
行動ログ
アノテーショ
ン用クエリ
一覧
Feature抽出
トレーニング
モデル生成
モデル配置
Feature抽出
モジュール
ReRank
モジュール
検
索
Feature取得
(モデル評価)
教師データ生成(アノテーション)
 あるクエリに対してどの文章がどれくらい関連するかを表すデータ
<人手でAnnotation付けを行う>
- 確実性が高いが、やはり人手で実施するためコストがかかる
<クリックログを分析して作成>
- ノイズを低減させるための方策が別途必要である
Feature抽出
 Luceneをベースにすることで容易に様々なFeature値が取得できる
• ドキュメント長( ≒ ワード数)
• TF
• IDF
• BM25(TBD)
• 一致したクエリワード数(TBD)
• …
 Feature抽出モジュール(Solr用)は既に提供済み
Elasticsearch用モジュールはもう少しお時間を、、、
トレーニング・モデル生成
 同梱されたモデル理論
• PRank
• RankingSVM
 モデル理論に合わせてFeaure値を選択可能
• どのFeature値を利用するかで検索精度が変わってくる
• 試行錯誤しながらモデルを確認していく業務
リランキング
 ランキング学習のモデルをSolrから使うには、Solrのリランキングのしくみ
をそのまま利用するだけなので簡単。
reRankQuery 実行するリランキング (必須)
reRankDocs リランキングを実行する上位文書数 200
reRankWeight リランキングの重み 20
q=クエリ&rq={!rerank reRankQuery=$rqq}&rqq={!prank}クエリ
デモ
https://github.com/NLP4L
モデル評価
 今後提供していきます
 トレーニング・モデル生成 モデル配置 モデル評価
 LTRで標準的評価指標
• DCG (DIscount Comulative Gain)
• NDCG (Normalized Discount Comulative Gain)
• MAP (Mean Average Precision)
Bloomberg 版 LTR との比較
• Bloomberg 版 LTR(SOLR-8542)はFeature表現にSolrのクエリ式が使える。
• NLP4L-LTR は LTR 論文などで一般的なFeatureが使える。SOLR-8542 は使
えない。
• NLP4L-LTR は LTR で必要なモジュールを一気通貫で提供。SOLR-8542 は
Feature抽出とモデルの利用のみ提供。
• SOLR-8542 は Solr の機能に depend している。NLP4L-LTR は Solr に
depend している部分は少ないので、ES 実装提供が容易。
• SOLR-8542 はリランキングを自前で書いている。NLP4L-LTR は
Lucene/Solr のリランクフレームワークを使用しているので非常にコンパク
最後に
一緒にNLP4Lを作り上げてくれる仲間、絶賛募集中!
実サービスとして適用してみたいサービスプロバイダーさんも募集しています!
株式会社シーマーク でもエンジニア募集しています

Mais conteúdo relacionado

Destaque

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 

Destaque (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

第19回 Lucene/Solr勉強会資料 「NLP4Lを使ったランキング学習」