SlideShare uma empresa Scribd logo
1 de 18
Baixar para ler offline
Indexing Pipeline (de)


                        Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger
Sunday, June 17, 2012                                                           1
Über Searchperience
          Kurzer Überblick
                                   Eine eigenständige Suchfunktion für
                                    Webseiten und Online-Shops
                                   Basierend auf hochleistungsfähiger Open
                                    Source Apache Solr Technologie
                                   SaaS Cloud Service
                                    Und weil es ein Erlebnis für die Benutzer
                                    und nicht nur eine Suche ist, nennen wir
                                    es Searchperience!




Sunday, June 17, 2012                                                           2
Searchperience Komponenten


     Structured         Unstructured   Rich
     Data               Data           Data



          Searchperience                  Index
                                                      CMS +Searcher
             Indexer                    SOLR Cloud
                                                       Query Processing
             Pipeline                                                      Facetted Search
                                                                           Fuzzy Search
                                                       Result Processing   Livesuggest
                                                                           Search Widgets


                                           Search
                                          Analytics

Sunday, June 17, 2012                                                                3
What is an Indexing Pipeline?

                                                 „Garbage In, Garbage Out“ - Also müssen
     Structured         Unstructured   Rich       wir das meiste aus den Daten „rausholen“
     Data               Data           Data      Die abhängigen Einzelschritte in einer
                                                  Indexierungspipeline bereiten ein
                                                  Dokument für den Suchindex vor:
                    Pipeline
                                                   Dokumentenfelder mit extrahierten
                                                      und ermittelten Inhalten
                                                   Dokumentenwichtigkeit (Boost)
                                                   ausgehende Relationen (Links)
                                                 Intelligente und manuelle Anreicherung
                                                 Filterung, Statistiken, skalierbare
                                                  Ausführung...



Sunday, June 17, 2012                                                                        4
Indexer Architecture
                Indexer „Database“              Indexer Processes

                   Crawler Queue
                                        Crawler


                    Documents +
                     Relations         Indexer
     API




                        LinkQueue
                                     PageRank Calc


                        Enrichment

                                          ...
Sunday, June 17, 2012                                               5
An Indexer Example Pipeline

                                                Conditional Subpipes:
                                       „Check   Document mimetype and source ..etc“


    is product page?                        is job page?                                 is not „text/*“ mimetype?

          XHTML Extracter                          XHTML Extracter               Tika Extracter
       „Extract content and product data“            „Extract Joboffer data“      „Extract rich content“




            Enrich by Feed                           Get rating from             Detect language
           „add price from SAP feed“                      qype


            Add Boost +40



           Image Analysis                                  Thesaurus                          Pagerank Evaluation
                                                                                          Searchperience Enrichments
                                                           Expansion                                  ...

Sunday, June 17, 2012                                                                                                  6
Indexer Pipeline Steps
          Different Extracters
                                      XML Extracter
                                      XHTML Extracter
                                      Tika Extracter
                                      Custom Extracter




Sunday, June 17, 2012                                     7
Indexer Pipeline Steps
          Language Detection
                                      Spracherkennung an Hand
                                       Text
                                      langdetect“ Open Source mit
                                       entsprechenden Lerndaten




Sunday, June 17, 2012                                                8
Indexer Pipeline Steps
          Thesaurus Expansion
                                      Suche nach „Drahtesel“ findet
                                       auch „Fahrräder“
                                      Verschiedene Thesauri können
                                       nach Spracherkennung oder
                                       Dokumententyp eingesetzt
                                       werden um gezielt Inhalte mit
                                       ihren Synonymen zu erweitern




Sunday, June 17, 2012                                                  9
Indexer Pipeline Steps
          Interesting Terms
                                                      Nutzt TFIDF werte für
                                                       das Dokument in Bezug
                                                       auf den aktuellen Index
                                                      Beispielsweise genutzt
                                                       für Keyword Boosting
                                           bama        und Personalisierung
                                   Barack O
                                               n
                                    Nav igatio

                                     Euro krise

Sunday, June 17, 2012                                                            10
Indexer Pipeline Steps
          NLP & Semantic Extraction
                                           Open NLP
                                           Open Calais


                                                a
                                        ack Obam
                                        ar
                                  on: B
                              Pers erlin
                                   B
                              City: 9.11.2001
                                    :
                               Time

                                           Named Entity Recognition
                                           Anreicherung mit Daten aus
                                            dem sematic Web
                                            (Wikipedia...)
Sunday, June 17, 2012                                                    11
Indexer Pipeline Steps
          Learn from User Behaviour / Search Analytics Processing




                                                           s
                                                      ng de n
                                                wertu halte
                                             Aus r ver
                                                 e
                                             Nutz flusst
                                              beein menten
                                              Doku ords und
                                               Keyw menten-
                                               Doku igkeit
                                                wicht
Sunday, June 17, 2012                                               12
ManuellePipeline Steps
    Indexer Auslese und
  Anreicherung... Behaviour / Search Analytics Processing
    Learn from User




Sunday, June 17, 2012                                       13
Indexer Pipeline Steps
          Anreicherungspflege für Suchadministratoren




                                                               e
                                                          siert
                                                    gelba t
                                                  Re or
                                                  Keyw cherung
                                                       i
                                                   Anre oosting-
                                                   und B ulation
                                                         p
Sunday, June 17, 2012                               mani           14
Indexer Pipeline Steps
          Kontrolle auf Dokumentenebene




                                                    e
                                               ment
                                          Doku ten,
                                          Boos inent     r
                                           Prom ellen ode
                                           darst en
                                                 r
                                            sper
Sunday, June 17, 2012                                        15
SOLR is not an Indexing Pipeline
          Gute Auffindbarkeit braucht flexible Kontrolle

                                         Es gibt einfache Konzepte
                                          (UpdateChain / LangDetect /
                                          ExtractingRequestHandler)


                                         Keine richtigen abhängigen
                                          Auswertungen / Unflexibel
                                         Kein Framework für eigene
                                          Pipeline-Steps
                                         Keine testgeriebene Pipeline
                                          Konfiguration möglich
                                         Skalierung und Verteilung der
                                          Indexierung


Sunday, June 17, 2012                                                     16
SOLR is not an Indexing Pipeline
          Pipeline Projects

                                         Der Searchperience Indexer hat
                                          eine eigenentwickelte Crawling
                                          und Indexierungs- Architektur,
                                          und stellt ein Kernbestandteil der
                                          Lösung dar.
                                         Andere Lösungen

                                                Open Pipe
                                                UIMA
                                                https://docs.google.com/
                                                 spreadsheet/ccc?
                                                 key=0ApsMZSogVbD9dERlRlAyZXp
                                                 ES0JJNjVJaFlLQVN5UXc#gid=0



Sunday, June 17, 2012                                                           17
Vielen Dank!
          Fragen?




Sunday, June 17, 2012    18

Mais conteúdo relacionado

Destaque

Comentario exegético y explicativo de la Biblia Tomo I: El Antiguo Testamento
Comentario exegético y explicativo de la Biblia Tomo I: El Antiguo TestamentoComentario exegético y explicativo de la Biblia Tomo I: El Antiguo Testamento
Comentario exegético y explicativo de la Biblia Tomo I: El Antiguo TestamentoJose Arturo Gonzalez Ferrer
 
Who Is Who Im Lea Universum030310
Who Is Who Im Lea Universum030310Who Is Who Im Lea Universum030310
Who Is Who Im Lea Universum030310leaprojekt
 
Big Data als Instrument der Politik - Social Media Week Hamburg 2013
Big Data als Instrument der Politik - Social Media Week Hamburg 2013Big Data als Instrument der Politik - Social Media Week Hamburg 2013
Big Data als Instrument der Politik - Social Media Week Hamburg 2013Lars Brücher
 
Col llombarda. Ilona Meleshko-Mariya Kharuk. 3B
Col llombarda. Ilona Meleshko-Mariya Kharuk. 3BCol llombarda. Ilona Meleshko-Mariya Kharuk. 3B
Col llombarda. Ilona Meleshko-Mariya Kharuk. 3Bunalumne
 
Arnold Schwarzenegger - wie alles begann
Arnold Schwarzenegger - wie alles begannArnold Schwarzenegger - wie alles begann
Arnold Schwarzenegger - wie alles begannAuVi - eBooks & Photos
 
Material laboratorio 4eso
Material laboratorio 4esoMaterial laboratorio 4eso
Material laboratorio 4esopfisicaquimica
 
Financiamiento
FinanciamientoFinanciamiento
Financiamientolisn90
 

Destaque (19)

Comentario exegético y explicativo de la Biblia Tomo I: El Antiguo Testamento
Comentario exegético y explicativo de la Biblia Tomo I: El Antiguo TestamentoComentario exegético y explicativo de la Biblia Tomo I: El Antiguo Testamento
Comentario exegético y explicativo de la Biblia Tomo I: El Antiguo Testamento
 
The nouns
The nounsThe nouns
The nouns
 
Heller Designstudio Konami
Heller Designstudio KonamiHeller Designstudio Konami
Heller Designstudio Konami
 
Sanidad interior /francisco de la peña cantillo
Sanidad interior /francisco de la peña cantilloSanidad interior /francisco de la peña cantillo
Sanidad interior /francisco de la peña cantillo
 
Who Is Who Im Lea Universum030310
Who Is Who Im Lea Universum030310Who Is Who Im Lea Universum030310
Who Is Who Im Lea Universum030310
 
Big Data als Instrument der Politik - Social Media Week Hamburg 2013
Big Data als Instrument der Politik - Social Media Week Hamburg 2013Big Data als Instrument der Politik - Social Media Week Hamburg 2013
Big Data als Instrument der Politik - Social Media Week Hamburg 2013
 
Presentacion de sensibilizacion proyecta afecto al art. 218
Presentacion de sensibilizacion proyecta afecto al art. 218Presentacion de sensibilizacion proyecta afecto al art. 218
Presentacion de sensibilizacion proyecta afecto al art. 218
 
B9542037
B9542037B9542037
B9542037
 
Col llombarda. Ilona Meleshko-Mariya Kharuk. 3B
Col llombarda. Ilona Meleshko-Mariya Kharuk. 3BCol llombarda. Ilona Meleshko-Mariya Kharuk. 3B
Col llombarda. Ilona Meleshko-Mariya Kharuk. 3B
 
Arnold Schwarzenegger - wie alles begann
Arnold Schwarzenegger - wie alles begannArnold Schwarzenegger - wie alles begann
Arnold Schwarzenegger - wie alles begann
 
Psicologia
PsicologiaPsicologia
Psicologia
 
Material laboratorio 4eso
Material laboratorio 4esoMaterial laboratorio 4eso
Material laboratorio 4eso
 
Isped111
Isped111Isped111
Isped111
 
Superrealismo
SuperrealismoSuperrealismo
Superrealismo
 
Catástrofe en japón
Catástrofe en japónCatástrofe en japón
Catástrofe en japón
 
Piloto
PilotoPiloto
Piloto
 
Financiamiento
FinanciamientoFinanciamiento
Financiamiento
 
El verdadero secreto
El verdadero secretoEl verdadero secreto
El verdadero secreto
 
Francisco de la peña cantillo
Francisco de la peña cantilloFrancisco de la peña cantillo
Francisco de la peña cantillo
 

Semelhante a Searchperience Indexierungspipeline

Searchperience Indexierungspipeline
Searchperience IndexierungspipelineSearchperience Indexierungspipeline
Searchperience IndexierungspipelineAOE
 
Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)Praxistage
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Harald Erb
 
Bdk fachforum (gpec) big data und intelligente datenanalyse
Bdk fachforum (gpec)   big data und intelligente datenanalyseBdk fachforum (gpec)   big data und intelligente datenanalyse
Bdk fachforum (gpec) big data und intelligente datenanalyseAI4BD GmbH
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...Thorsten Firzlaff
 
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swcOGD-DACHLI Konferenzreihe
 
Collaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carteCollaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carteDavid Schneider
 
Das LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei AnwendungsfälleDas LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei AnwendungsfälleHermann Stern
 
Semantic services für Liferay
Semantic services für LiferaySemantic services für Liferay
Semantic services für Liferaymoresophy
 
Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007Christian Schieder
 
DevDay_Christian Mauth.pdf
DevDay_Christian Mauth.pdfDevDay_Christian Mauth.pdf
DevDay_Christian Mauth.pdfCarolinaMatthies
 
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten DatenBI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten DatenBARC GmbH
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11scuy
 
Resource Discovery: Herausforderung und Chance für die Sacherschließung
Resource Discovery:  Herausforderung und Chance für die SacherschließungResource Discovery:  Herausforderung und Chance für die Sacherschließung
Resource Discovery: Herausforderung und Chance für die SacherschließungMagnus Pfeffer
 
Interoperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche VerwaltungInteroperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche VerwaltungJohann Höchtl
 
2012-06-26 SharePoint Konferent Wien - Mobile SharePoint Solutions
2012-06-26 SharePoint Konferent Wien - Mobile SharePoint Solutions2012-06-26 SharePoint Konferent Wien - Mobile SharePoint Solutions
2012-06-26 SharePoint Konferent Wien - Mobile SharePoint SolutionsThorsten Firzlaff
 
Open Government Vorgehensmodell 2.0
Open Government Vorgehensmodell 2.0Open Government Vorgehensmodell 2.0
Open Government Vorgehensmodell 2.0Brigitte Lutz
 
KDZ & Stadt Wien, Open Government Vorgehensmodell
KDZ & Stadt Wien, Open Government VorgehensmodellKDZ & Stadt Wien, Open Government Vorgehensmodell
KDZ & Stadt Wien, Open Government VorgehensmodellOGD-DACHLI Konferenzreihe
 
Kollaborative Projekte mit Watson Explorer
Kollaborative Projekte mit Watson ExplorerKollaborative Projekte mit Watson Explorer
Kollaborative Projekte mit Watson ExplorerParadigma Consulting
 

Semelhante a Searchperience Indexierungspipeline (20)

Searchperience Indexierungspipeline
Searchperience IndexierungspipelineSearchperience Indexierungspipeline
Searchperience Indexierungspipeline
 
Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)Marc Kroll (SERgroup Holding International GmbH)
Marc Kroll (SERgroup Holding International GmbH)
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
 
Bdk fachforum (gpec) big data und intelligente datenanalyse
Bdk fachforum (gpec)   big data und intelligente datenanalyseBdk fachforum (gpec)   big data und intelligente datenanalyse
Bdk fachforum (gpec) big data und intelligente datenanalyse
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
2012-06-25 SharePoint Konferenz Wien - Bessere Kundenbindung durch Social Med...
 
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
 
Collaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carteCollaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carte
 
Das LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei AnwendungsfälleDas LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei Anwendungsfälle
 
Semantic services für Liferay
Semantic services für LiferaySemantic services für Liferay
Semantic services für Liferay
 
Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007
 
DevDay_Christian Mauth.pdf
DevDay_Christian Mauth.pdfDevDay_Christian Mauth.pdf
DevDay_Christian Mauth.pdf
 
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten DatenBI und ECM - Verbindung von strukturierten und unstrukturierten Daten
BI und ECM - Verbindung von strukturierten und unstrukturierten Daten
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11
 
Resource Discovery: Herausforderung und Chance für die Sacherschließung
Resource Discovery:  Herausforderung und Chance für die SacherschließungResource Discovery:  Herausforderung und Chance für die Sacherschließung
Resource Discovery: Herausforderung und Chance für die Sacherschließung
 
Interoperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche VerwaltungInteroperable IT-Infrastruktur für die öffentliche Verwaltung
Interoperable IT-Infrastruktur für die öffentliche Verwaltung
 
2012-06-26 SharePoint Konferent Wien - Mobile SharePoint Solutions
2012-06-26 SharePoint Konferent Wien - Mobile SharePoint Solutions2012-06-26 SharePoint Konferent Wien - Mobile SharePoint Solutions
2012-06-26 SharePoint Konferent Wien - Mobile SharePoint Solutions
 
Open Government Vorgehensmodell 2.0
Open Government Vorgehensmodell 2.0Open Government Vorgehensmodell 2.0
Open Government Vorgehensmodell 2.0
 
KDZ & Stadt Wien, Open Government Vorgehensmodell
KDZ & Stadt Wien, Open Government VorgehensmodellKDZ & Stadt Wien, Open Government Vorgehensmodell
KDZ & Stadt Wien, Open Government Vorgehensmodell
 
Kollaborative Projekte mit Watson Explorer
Kollaborative Projekte mit Watson ExplorerKollaborative Projekte mit Watson Explorer
Kollaborative Projekte mit Watson Explorer
 

Mais de AOE

Multithreaded XML Import (San Francisco Magento Meetup)
Multithreaded XML Import (San Francisco Magento Meetup)Multithreaded XML Import (San Francisco Magento Meetup)
Multithreaded XML Import (San Francisco Magento Meetup)AOE
 
rock-solid TYPO3 development with continuous integration and deployment
rock-solid TYPO3 development with continuous integration and deploymentrock-solid TYPO3 development with continuous integration and deployment
rock-solid TYPO3 development with continuous integration and deploymentAOE
 
Agile Management - Best Practice Day der Deutschen Bahn am 17.10.2013
Agile Management - Best Practice Day der Deutschen Bahn am 17.10.2013Agile Management - Best Practice Day der Deutschen Bahn am 17.10.2013
Agile Management - Best Practice Day der Deutschen Bahn am 17.10.2013AOE
 
Continuous Quality Assurance using Selenium WebDriver
Continuous Quality Assurance using Selenium WebDriverContinuous Quality Assurance using Selenium WebDriver
Continuous Quality Assurance using Selenium WebDriverAOE
 
Magento Imagine 2013: Fabrizio Branca - Learning To Fly: How Angry Birds Reac...
Magento Imagine 2013: Fabrizio Branca - Learning To Fly: How Angry Birds Reac...Magento Imagine 2013: Fabrizio Branca - Learning To Fly: How Angry Birds Reac...
Magento Imagine 2013: Fabrizio Branca - Learning To Fly: How Angry Birds Reac...AOE
 
SONY on TYPO3 - Rapid Global CMS Deployment
SONY on TYPO3 - Rapid Global CMS DeploymentSONY on TYPO3 - Rapid Global CMS Deployment
SONY on TYPO3 - Rapid Global CMS DeploymentAOE
 
The typo3.org Relaunch Project
The typo3.org Relaunch ProjectThe typo3.org Relaunch Project
The typo3.org Relaunch ProjectAOE
 
Cloud Deployment und (Auto)Scaling am Beispiel von Angrybird
Cloud Deployment und (Auto)Scaling  am Beispiel von AngrybirdCloud Deployment und (Auto)Scaling  am Beispiel von Angrybird
Cloud Deployment und (Auto)Scaling am Beispiel von AngrybirdAOE
 
High Performance Multi-Server Magento in der Cloud
High Performance Multi-Server Magento in der CloudHigh Performance Multi-Server Magento in der Cloud
High Performance Multi-Server Magento in der CloudAOE
 
Selenium 2 for PHP(Unit)
Selenium 2 for PHP(Unit)Selenium 2 for PHP(Unit)
Selenium 2 for PHP(Unit)AOE
 
Angrybirds Magento Cloud Deployment
Angrybirds Magento Cloud DeploymentAngrybirds Magento Cloud Deployment
Angrybirds Magento Cloud DeploymentAOE
 
T3DD12 Caching with Varnish
T3DD12 Caching with VarnishT3DD12 Caching with Varnish
T3DD12 Caching with VarnishAOE
 
T3DD12 community extension
T3DD12  community extensionT3DD12  community extension
T3DD12 community extensionAOE
 
Performance measurement and tuning
Performance measurement and tuningPerformance measurement and tuning
Performance measurement and tuningAOE
 
Domain Driven Design
Domain Driven DesignDomain Driven Design
Domain Driven DesignAOE
 
Debugging, Monitoring and Profiling in TYPO3
Debugging, Monitoring and Profiling in TYPO3Debugging, Monitoring and Profiling in TYPO3
Debugging, Monitoring and Profiling in TYPO3AOE
 
Panasonic search
Panasonic searchPanasonic search
Panasonic searchAOE
 
Performance durch Caching
Performance durch CachingPerformance durch Caching
Performance durch CachingAOE
 
Performance durch Caching
Performance durch CachingPerformance durch Caching
Performance durch CachingAOE
 
Open Source CMS TYPO3 at Cisco WebEx
Open Source CMS TYPO3 at Cisco WebExOpen Source CMS TYPO3 at Cisco WebEx
Open Source CMS TYPO3 at Cisco WebExAOE
 

Mais de AOE (20)

Multithreaded XML Import (San Francisco Magento Meetup)
Multithreaded XML Import (San Francisco Magento Meetup)Multithreaded XML Import (San Francisco Magento Meetup)
Multithreaded XML Import (San Francisco Magento Meetup)
 
rock-solid TYPO3 development with continuous integration and deployment
rock-solid TYPO3 development with continuous integration and deploymentrock-solid TYPO3 development with continuous integration and deployment
rock-solid TYPO3 development with continuous integration and deployment
 
Agile Management - Best Practice Day der Deutschen Bahn am 17.10.2013
Agile Management - Best Practice Day der Deutschen Bahn am 17.10.2013Agile Management - Best Practice Day der Deutschen Bahn am 17.10.2013
Agile Management - Best Practice Day der Deutschen Bahn am 17.10.2013
 
Continuous Quality Assurance using Selenium WebDriver
Continuous Quality Assurance using Selenium WebDriverContinuous Quality Assurance using Selenium WebDriver
Continuous Quality Assurance using Selenium WebDriver
 
Magento Imagine 2013: Fabrizio Branca - Learning To Fly: How Angry Birds Reac...
Magento Imagine 2013: Fabrizio Branca - Learning To Fly: How Angry Birds Reac...Magento Imagine 2013: Fabrizio Branca - Learning To Fly: How Angry Birds Reac...
Magento Imagine 2013: Fabrizio Branca - Learning To Fly: How Angry Birds Reac...
 
SONY on TYPO3 - Rapid Global CMS Deployment
SONY on TYPO3 - Rapid Global CMS DeploymentSONY on TYPO3 - Rapid Global CMS Deployment
SONY on TYPO3 - Rapid Global CMS Deployment
 
The typo3.org Relaunch Project
The typo3.org Relaunch ProjectThe typo3.org Relaunch Project
The typo3.org Relaunch Project
 
Cloud Deployment und (Auto)Scaling am Beispiel von Angrybird
Cloud Deployment und (Auto)Scaling  am Beispiel von AngrybirdCloud Deployment und (Auto)Scaling  am Beispiel von Angrybird
Cloud Deployment und (Auto)Scaling am Beispiel von Angrybird
 
High Performance Multi-Server Magento in der Cloud
High Performance Multi-Server Magento in der CloudHigh Performance Multi-Server Magento in der Cloud
High Performance Multi-Server Magento in der Cloud
 
Selenium 2 for PHP(Unit)
Selenium 2 for PHP(Unit)Selenium 2 for PHP(Unit)
Selenium 2 for PHP(Unit)
 
Angrybirds Magento Cloud Deployment
Angrybirds Magento Cloud DeploymentAngrybirds Magento Cloud Deployment
Angrybirds Magento Cloud Deployment
 
T3DD12 Caching with Varnish
T3DD12 Caching with VarnishT3DD12 Caching with Varnish
T3DD12 Caching with Varnish
 
T3DD12 community extension
T3DD12  community extensionT3DD12  community extension
T3DD12 community extension
 
Performance measurement and tuning
Performance measurement and tuningPerformance measurement and tuning
Performance measurement and tuning
 
Domain Driven Design
Domain Driven DesignDomain Driven Design
Domain Driven Design
 
Debugging, Monitoring and Profiling in TYPO3
Debugging, Monitoring and Profiling in TYPO3Debugging, Monitoring and Profiling in TYPO3
Debugging, Monitoring and Profiling in TYPO3
 
Panasonic search
Panasonic searchPanasonic search
Panasonic search
 
Performance durch Caching
Performance durch CachingPerformance durch Caching
Performance durch Caching
 
Performance durch Caching
Performance durch CachingPerformance durch Caching
Performance durch Caching
 
Open Source CMS TYPO3 at Cisco WebEx
Open Source CMS TYPO3 at Cisco WebExOpen Source CMS TYPO3 at Cisco WebEx
Open Source CMS TYPO3 at Cisco WebEx
 

Searchperience Indexierungspipeline

  • 1. Indexing Pipeline (de) Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger Sunday, June 17, 2012 1
  • 2. Über Searchperience Kurzer Überblick  Eine eigenständige Suchfunktion für Webseiten und Online-Shops  Basierend auf hochleistungsfähiger Open Source Apache Solr Technologie  SaaS Cloud Service Und weil es ein Erlebnis für die Benutzer und nicht nur eine Suche ist, nennen wir es Searchperience! Sunday, June 17, 2012 2
  • 3. Searchperience Komponenten Structured Unstructured Rich Data Data Data Searchperience Index CMS +Searcher Indexer SOLR Cloud Query Processing Pipeline Facetted Search Fuzzy Search Result Processing Livesuggest Search Widgets Search Analytics Sunday, June 17, 2012 3
  • 4. What is an Indexing Pipeline?  „Garbage In, Garbage Out“ - Also müssen Structured Unstructured Rich wir das meiste aus den Daten „rausholen“ Data Data Data  Die abhängigen Einzelschritte in einer Indexierungspipeline bereiten ein Dokument für den Suchindex vor: Pipeline  Dokumentenfelder mit extrahierten und ermittelten Inhalten  Dokumentenwichtigkeit (Boost)  ausgehende Relationen (Links)  Intelligente und manuelle Anreicherung  Filterung, Statistiken, skalierbare Ausführung... Sunday, June 17, 2012 4
  • 5. Indexer Architecture Indexer „Database“ Indexer Processes Crawler Queue Crawler Documents + Relations Indexer API LinkQueue PageRank Calc Enrichment ... Sunday, June 17, 2012 5
  • 6. An Indexer Example Pipeline Conditional Subpipes: „Check Document mimetype and source ..etc“ is product page? is job page? is not „text/*“ mimetype? XHTML Extracter XHTML Extracter Tika Extracter „Extract content and product data“ „Extract Joboffer data“ „Extract rich content“ Enrich by Feed Get rating from Detect language „add price from SAP feed“ qype Add Boost +40 Image Analysis Thesaurus Pagerank Evaluation Searchperience Enrichments Expansion ... Sunday, June 17, 2012 6
  • 7. Indexer Pipeline Steps Different Extracters  XML Extracter  XHTML Extracter  Tika Extracter  Custom Extracter Sunday, June 17, 2012 7
  • 8. Indexer Pipeline Steps Language Detection  Spracherkennung an Hand Text  langdetect“ Open Source mit entsprechenden Lerndaten Sunday, June 17, 2012 8
  • 9. Indexer Pipeline Steps Thesaurus Expansion  Suche nach „Drahtesel“ findet auch „Fahrräder“  Verschiedene Thesauri können nach Spracherkennung oder Dokumententyp eingesetzt werden um gezielt Inhalte mit ihren Synonymen zu erweitern Sunday, June 17, 2012 9
  • 10. Indexer Pipeline Steps Interesting Terms  Nutzt TFIDF werte für das Dokument in Bezug auf den aktuellen Index  Beispielsweise genutzt für Keyword Boosting bama und Personalisierung Barack O n Nav igatio Euro krise Sunday, June 17, 2012 10
  • 11. Indexer Pipeline Steps NLP & Semantic Extraction  Open NLP  Open Calais a ack Obam ar on: B Pers erlin B City: 9.11.2001 : Time  Named Entity Recognition  Anreicherung mit Daten aus dem sematic Web (Wikipedia...) Sunday, June 17, 2012 11
  • 12. Indexer Pipeline Steps Learn from User Behaviour / Search Analytics Processing s ng de n wertu halte Aus r ver e Nutz flusst beein menten Doku ords und Keyw menten- Doku igkeit wicht Sunday, June 17, 2012 12
  • 13. ManuellePipeline Steps Indexer Auslese und Anreicherung... Behaviour / Search Analytics Processing Learn from User Sunday, June 17, 2012 13
  • 14. Indexer Pipeline Steps Anreicherungspflege für Suchadministratoren e siert gelba t Re or Keyw cherung i Anre oosting- und B ulation p Sunday, June 17, 2012 mani 14
  • 15. Indexer Pipeline Steps Kontrolle auf Dokumentenebene e ment Doku ten, Boos inent r Prom ellen ode darst en r sper Sunday, June 17, 2012 15
  • 16. SOLR is not an Indexing Pipeline Gute Auffindbarkeit braucht flexible Kontrolle  Es gibt einfache Konzepte (UpdateChain / LangDetect / ExtractingRequestHandler)  Keine richtigen abhängigen Auswertungen / Unflexibel  Kein Framework für eigene Pipeline-Steps  Keine testgeriebene Pipeline Konfiguration möglich  Skalierung und Verteilung der Indexierung Sunday, June 17, 2012 16
  • 17. SOLR is not an Indexing Pipeline Pipeline Projects  Der Searchperience Indexer hat eine eigenentwickelte Crawling und Indexierungs- Architektur, und stellt ein Kernbestandteil der Lösung dar.  Andere Lösungen  Open Pipe  UIMA  https://docs.google.com/ spreadsheet/ccc? key=0ApsMZSogVbD9dERlRlAyZXp ES0JJNjVJaFlLQVN5UXc#gid=0 Sunday, June 17, 2012 17
  • 18. Vielen Dank! Fragen? Sunday, June 17, 2012 18