1. Indexing Pipeline (de)
Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger
Sunday, June 17, 2012 1
2. Über Searchperience
Kurzer Überblick
Eine eigenständige Suchfunktion für
Webseiten und Online-Shops
Basierend auf hochleistungsfähiger Open
Source Apache Solr Technologie
SaaS Cloud Service
Und weil es ein Erlebnis für die Benutzer
und nicht nur eine Suche ist, nennen wir
es Searchperience!
Sunday, June 17, 2012 2
3. Searchperience Komponenten
Structured Unstructured Rich
Data Data Data
Searchperience Index
CMS +Searcher
Indexer SOLR Cloud
Query Processing
Pipeline Facetted Search
Fuzzy Search
Result Processing Livesuggest
Search Widgets
Search
Analytics
Sunday, June 17, 2012 3
4. What is an Indexing Pipeline?
„Garbage In, Garbage Out“ - Also müssen
Structured Unstructured Rich wir das meiste aus den Daten „rausholen“
Data Data Data Die abhängigen Einzelschritte in einer
Indexierungspipeline bereiten ein
Dokument für den Suchindex vor:
Pipeline
Dokumentenfelder mit extrahierten
und ermittelten Inhalten
Dokumentenwichtigkeit (Boost)
ausgehende Relationen (Links)
Intelligente und manuelle Anreicherung
Filterung, Statistiken, skalierbare
Ausführung...
Sunday, June 17, 2012 4
6. An Indexer Example Pipeline
Conditional Subpipes:
„Check Document mimetype and source ..etc“
is product page? is job page? is not „text/*“ mimetype?
XHTML Extracter XHTML Extracter Tika Extracter
„Extract content and product data“ „Extract Joboffer data“ „Extract rich content“
Enrich by Feed Get rating from Detect language
„add price from SAP feed“ qype
Add Boost +40
Image Analysis Thesaurus Pagerank Evaluation
Searchperience Enrichments
Expansion ...
Sunday, June 17, 2012 6
7. Indexer Pipeline Steps
Different Extracters
XML Extracter
XHTML Extracter
Tika Extracter
Custom Extracter
Sunday, June 17, 2012 7
8. Indexer Pipeline Steps
Language Detection
Spracherkennung an Hand
Text
langdetect“ Open Source mit
entsprechenden Lerndaten
Sunday, June 17, 2012 8
9. Indexer Pipeline Steps
Thesaurus Expansion
Suche nach „Drahtesel“ findet
auch „Fahrräder“
Verschiedene Thesauri können
nach Spracherkennung oder
Dokumententyp eingesetzt
werden um gezielt Inhalte mit
ihren Synonymen zu erweitern
Sunday, June 17, 2012 9
10. Indexer Pipeline Steps
Interesting Terms
Nutzt TFIDF werte für
das Dokument in Bezug
auf den aktuellen Index
Beispielsweise genutzt
für Keyword Boosting
bama und Personalisierung
Barack O
n
Nav igatio
Euro krise
Sunday, June 17, 2012 10
11. Indexer Pipeline Steps
NLP & Semantic Extraction
Open NLP
Open Calais
a
ack Obam
ar
on: B
Pers erlin
B
City: 9.11.2001
:
Time
Named Entity Recognition
Anreicherung mit Daten aus
dem sematic Web
(Wikipedia...)
Sunday, June 17, 2012 11
12. Indexer Pipeline Steps
Learn from User Behaviour / Search Analytics Processing
s
ng de n
wertu halte
Aus r ver
e
Nutz flusst
beein menten
Doku ords und
Keyw menten-
Doku igkeit
wicht
Sunday, June 17, 2012 12
13. ManuellePipeline Steps
Indexer Auslese und
Anreicherung... Behaviour / Search Analytics Processing
Learn from User
Sunday, June 17, 2012 13
14. Indexer Pipeline Steps
Anreicherungspflege für Suchadministratoren
e
siert
gelba t
Re or
Keyw cherung
i
Anre oosting-
und B ulation
p
Sunday, June 17, 2012 mani 14
15. Indexer Pipeline Steps
Kontrolle auf Dokumentenebene
e
ment
Doku ten,
Boos inent r
Prom ellen ode
darst en
r
sper
Sunday, June 17, 2012 15
16. SOLR is not an Indexing Pipeline
Gute Auffindbarkeit braucht flexible Kontrolle
Es gibt einfache Konzepte
(UpdateChain / LangDetect /
ExtractingRequestHandler)
Keine richtigen abhängigen
Auswertungen / Unflexibel
Kein Framework für eigene
Pipeline-Steps
Keine testgeriebene Pipeline
Konfiguration möglich
Skalierung und Verteilung der
Indexierung
Sunday, June 17, 2012 16
17. SOLR is not an Indexing Pipeline
Pipeline Projects
Der Searchperience Indexer hat
eine eigenentwickelte Crawling
und Indexierungs- Architektur,
und stellt ein Kernbestandteil der
Lösung dar.
Andere Lösungen
Open Pipe
UIMA
https://docs.google.com/
spreadsheet/ccc?
key=0ApsMZSogVbD9dERlRlAyZXp
ES0JJNjVJaFlLQVN5UXc#gid=0
Sunday, June 17, 2012 17