SlideShare uma empresa Scribd logo
1 de 20
Solr in Action
ElasticSearch in Action
@LucianPrecup
@Breizhcamp
2012-06-14
Objectif
• Patterns d’architecture
• Outils pour démarrer et exploiter au mieux les
technologies
• Solr
– Léger accent sur l’indexation
• ElasticSearch
– Léger accent sur la recherche
• Démos
Historique - avant
BDidx
Appli
Répertoire
file file file
< >
< >
< >
www
Browse
Filter
Sort
Get
Historique - après
BDidx
Appli
Répertoire
file file file
< >
< >
< >
www
Index
Search
Filter
Sort
Get
Technologies
• Google Search Appliance
• MS FAST Search
• Apache Solr
• Elastic Search
• …
Fonctionnalités
• Indexation
– Données non-structurées (fichiers)
– Données semi-structurées (email)
– Analyse du texte
• Recherche
– Fulltext, multicritère, suggestion
– Facettes, filtres, tris
Autres utilisations
• Base de données
• BI
Intégration Solr
• Clustering : répartiteur de charge et redondance des SA
• Indexation en masse : dizaine de millions de documents
• Fonctions avancées d’analyse du texte
Démo Solr – alimenter l’index
• Importer une BD
• Join
• Entités et référencement avec ${parent.ID}
• GROUP_CONCAT
• Indexer des fichiers binaires (Word, Excel, PDF)
Types de champs dans l’index
• stored / not_stored
• analyzed / not_analyzed
• Champs de recherche
• Champs de tri
• Champs pour l’affichage
• Champs pour les facettes
• Champs mixtes
Démo Solr – auto-complétion
Analyzers / Tokenizers / Token filters
Document entrée 
Indexation Recherche
Id Nom
1 Céline
Ascii folding  Celine
Lowercase  celine
EdgeNGram  ce cel celi celin celine
Clé Id document
ce 1
cel 1
celi 1
celin 1
celine 1
Index
 Terme recherché
Nom
Céli
Celi  Ascii folding
celi  Lowercase
Solr – zoom sur les outils
• Luke
• Explain
• Solr Admin (stats, query form, analysis)
• Solr browse search UI
ElasticSearch - spécificités
• Clustering
• Schéma auto
• « Rivers » et indexation en temps réel
Intégration – ElasticSearch
• Clustering : p2p
• Indexation au fil de l’eau
ElasticSearch - clustering
ElasticSearch – zoom sur les outils
• curl
• ESHead
• "explain" : 1
Démo – Pertinence
• Comment est calculé le score
• Comment influencer le score
Démo - recherche
• Analyse à la recherche, requêtes composés
• Highlighting
• Fuzzy
• Facettes
• Filtres
Use case métier
• E-commerce
– Beaucoup de critères de pertinence à
implémenter
• Ressources humaines
– Recherche de personnes
– Recherche full-texte (catalogues formation, CVs,
compétences)
• Assurances
– Modèle métier personne-contrat-sinistre

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Finist JUG - Elasticsearch
Finist JUG - ElasticsearchFinist JUG - Elasticsearch
Finist JUG - Elasticsearch
 
Hands on lab Elasticsearch
Hands on lab ElasticsearchHands on lab Elasticsearch
Hands on lab Elasticsearch
 
Nantes JUG - Elasticsearch
Nantes JUG - ElasticsearchNantes JUG - Elasticsearch
Nantes JUG - Elasticsearch
 
Elasticsearch - Montpellier JUG
Elasticsearch - Montpellier JUGElasticsearch - Montpellier JUG
Elasticsearch - Montpellier JUG
 
Tunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouriTunis big data_meetup__21_nov2015__aymenzaafouri
Tunis big data_meetup__21_nov2015__aymenzaafouri
 
Découverte de Elastic search
Découverte de Elastic searchDécouverte de Elastic search
Découverte de Elastic search
 
Moteurs de recherche : un oeil sous le capot avec Elastic Search
Moteurs de recherche : un oeil sous le capot avec Elastic SearchMoteurs de recherche : un oeil sous le capot avec Elastic Search
Moteurs de recherche : un oeil sous le capot avec Elastic Search
 
Présentation de ElasticSearch / Digital apéro du 12/11/2014
Présentation de ElasticSearch / Digital apéro du 12/11/2014Présentation de ElasticSearch / Digital apéro du 12/11/2014
Présentation de ElasticSearch / Digital apéro du 12/11/2014
 
Oxalide Workshop #3 - Elasticearch, an overview
Oxalide Workshop #3 - Elasticearch, an overviewOxalide Workshop #3 - Elasticearch, an overview
Oxalide Workshop #3 - Elasticearch, an overview
 
Poitou charentes JUG - Elasticsearch
Poitou charentes JUG - ElasticsearchPoitou charentes JUG - Elasticsearch
Poitou charentes JUG - Elasticsearch
 
[Breizhcamp 2015] MongoDB et Elastic, meilleurs ennemis ?
[Breizhcamp 2015] MongoDB et Elastic, meilleurs ennemis ?[Breizhcamp 2015] MongoDB et Elastic, meilleurs ennemis ?
[Breizhcamp 2015] MongoDB et Elastic, meilleurs ennemis ?
 
Solr retour d'experience
Solr retour d'experienceSolr retour d'experience
Solr retour d'experience
 
Paris data geek - Elasticsearch
Paris data geek - ElasticsearchParis data geek - Elasticsearch
Paris data geek - Elasticsearch
 
Lausanne JUG - Elasticsearch
Lausanne JUG - ElasticsearchLausanne JUG - Elasticsearch
Lausanne JUG - Elasticsearch
 
Elasticsearch - Esme sudria
Elasticsearch - Esme sudriaElasticsearch - Esme sudria
Elasticsearch - Esme sudria
 
Breizhcamp 2015 - Comment (ne pas réussir à) modéliser ses data dans elastics...
Breizhcamp 2015 - Comment (ne pas réussir à) modéliser ses data dans elastics...Breizhcamp 2015 - Comment (ne pas réussir à) modéliser ses data dans elastics...
Breizhcamp 2015 - Comment (ne pas réussir à) modéliser ses data dans elastics...
 
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
 
Elasticsearch - OSDC France 2012
Elasticsearch - OSDC France 2012Elasticsearch - OSDC France 2012
Elasticsearch - OSDC France 2012
 

Destaque

Apache solr andré bois-crettez 08
Apache solr   andré bois-crettez 08Apache solr   andré bois-crettez 08
Apache solr andré bois-crettez 08
Loïc Descotte
 
Les dépenses 2004 des collectivités locales de plus de 10 000 habitants - enq...
Les dépenses 2004 des collectivités locales de plus de 10 000 habitants - enq...Les dépenses 2004 des collectivités locales de plus de 10 000 habitants - enq...
Les dépenses 2004 des collectivités locales de plus de 10 000 habitants - enq...
Cap'Com
 
Trabajo informatica cristina garcia.ppt
Trabajo informatica cristina garcia.pptTrabajo informatica cristina garcia.ppt
Trabajo informatica cristina garcia.ppt
CristinaGarca1
 
Disco duro juan david osorio..
Disco duro juan david osorio..Disco duro juan david osorio..
Disco duro juan david osorio..
Isabela Galindo
 
Pres1 ide0910641
Pres1 ide0910641Pres1 ide0910641
Pres1 ide0910641
pablo146
 
La veille de red guy du 29.10.14 les marques irrésistibles
La veille de red guy du 29.10.14   les marques irrésistiblesLa veille de red guy du 29.10.14   les marques irrésistibles
La veille de red guy du 29.10.14 les marques irrésistibles
Red Guy
 
Peli and dani
Peli and daniPeli and dani
Peli and dani
pelayo7
 
Ce qu il faut savoir du web en chine en 2013, dans les diners en ville- chiff...
Ce qu il faut savoir du web en chine en 2013, dans les diners en ville- chiff...Ce qu il faut savoir du web en chine en 2013, dans les diners en ville- chiff...
Ce qu il faut savoir du web en chine en 2013, dans les diners en ville- chiff...
Regine G
 
Los alimentos
Los alimentosLos alimentos
Los alimentos
kitagv
 

Destaque (20)

Apache solr andré bois-crettez 08
Apache solr   andré bois-crettez 08Apache solr   andré bois-crettez 08
Apache solr andré bois-crettez 08
 
Chapitre1 elk chez_psa
Chapitre1 elk chez_psaChapitre1 elk chez_psa
Chapitre1 elk chez_psa
 
Chapitre2 prise en_main_kibana
Chapitre2 prise en_main_kibanaChapitre2 prise en_main_kibana
Chapitre2 prise en_main_kibana
 
Chapitre3 elk concepts_avances
Chapitre3 elk concepts_avancesChapitre3 elk concepts_avances
Chapitre3 elk concepts_avances
 
Les dépenses 2004 des collectivités locales de plus de 10 000 habitants - enq...
Les dépenses 2004 des collectivités locales de plus de 10 000 habitants - enq...Les dépenses 2004 des collectivités locales de plus de 10 000 habitants - enq...
Les dépenses 2004 des collectivités locales de plus de 10 000 habitants - enq...
 
Trabajo informatica cristina garcia.ppt
Trabajo informatica cristina garcia.pptTrabajo informatica cristina garcia.ppt
Trabajo informatica cristina garcia.ppt
 
Reconocer el entorno de trabajo
Reconocer el entorno de trabajoReconocer el entorno de trabajo
Reconocer el entorno de trabajo
 
Disco duro juan david osorio..
Disco duro juan david osorio..Disco duro juan david osorio..
Disco duro juan david osorio..
 
Voleu conèixer el nostre esquelet
Voleu conèixer el nostre esqueletVoleu conèixer el nostre esquelet
Voleu conèixer el nostre esquelet
 
Pres1 ide0910641
Pres1 ide0910641Pres1 ide0910641
Pres1 ide0910641
 
La veille de red guy du 29.10.14 les marques irrésistibles
La veille de red guy du 29.10.14   les marques irrésistiblesLa veille de red guy du 29.10.14   les marques irrésistibles
La veille de red guy du 29.10.14 les marques irrésistibles
 
Modèles numériques coûteux : de la quantification des incertitudes la planifi...
Modèles numériques coûteux : de la quantification des incertitudes la planifi...Modèles numériques coûteux : de la quantification des incertitudes la planifi...
Modèles numériques coûteux : de la quantification des incertitudes la planifi...
 
Peli and dani
Peli and daniPeli and dani
Peli and dani
 
Ce qu il faut savoir du web en chine en 2013, dans les diners en ville- chiff...
Ce qu il faut savoir du web en chine en 2013, dans les diners en ville- chiff...Ce qu il faut savoir du web en chine en 2013, dans les diners en ville- chiff...
Ce qu il faut savoir du web en chine en 2013, dans les diners en ville- chiff...
 
Paula andrea cortez
Paula  andrea  cortezPaula  andrea  cortez
Paula andrea cortez
 
Los alimentos
Los alimentosLos alimentos
Los alimentos
 
Dinero electronico
Dinero electronicoDinero electronico
Dinero electronico
 
Maniobra de Heimlich
Maniobra de HeimlichManiobra de Heimlich
Maniobra de Heimlich
 
CapCom13: AT4: S'appuyer sur des porte-parole -part2
CapCom13: AT4: S'appuyer sur des porte-parole -part2CapCom13: AT4: S'appuyer sur des porte-parole -part2
CapCom13: AT4: S'appuyer sur des porte-parole -part2
 
Sciences et démocratie
Sciences et démocratieSciences et démocratie
Sciences et démocratie
 

Semelhante a Solr and Elasticsearch in Action (at Breizhcamp)

Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
ABES
 
Les outils de veille informationnelle
Les outils de veille informationnelleLes outils de veille informationnelle
Les outils de veille informationnelle
Abou Aziz
 
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Jean-Baptiste Dayez
 
Isaac referentiels-ist12-121002051942-phpapp01
Isaac referentiels-ist12-121002051942-phpapp01Isaac referentiels-ist12-121002051942-phpapp01
Isaac referentiels-ist12-121002051942-phpapp01
Parc De Camargue
 
Doctorat sciences - Recherche bibliographique : méthode, sources et outils
Doctorat sciences - Recherche bibliographique : méthode, sources et outilsDoctorat sciences - Recherche bibliographique : méthode, sources et outils
Doctorat sciences - Recherche bibliographique : méthode, sources et outils
Frédérique Flamerie
 

Semelhante a Solr and Elasticsearch in Action (at Breizhcamp) (20)

Moteurs de recherche et Lucene at LorraineJUG
Moteurs de recherche et Lucene at LorraineJUGMoteurs de recherche et Lucene at LorraineJUG
Moteurs de recherche et Lucene at LorraineJUG
 
Presentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUGPresentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUG
 
aMS 2021 - De bonnes pratiques pour rendre SharePoint plus ludique
aMS 2021 - De bonnes pratiques pour rendre SharePoint plus ludiqueaMS 2021 - De bonnes pratiques pour rendre SharePoint plus ludique
aMS 2021 - De bonnes pratiques pour rendre SharePoint plus ludique
 
Offre Search
Offre SearchOffre Search
Offre Search
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
 
#Collab365 L'importance des métadonnées pour votre entreprise
#Collab365 L'importance des métadonnées pour votre entreprise#Collab365 L'importance des métadonnées pour votre entreprise
#Collab365 L'importance des métadonnées pour votre entreprise
 
14h constellio rida_benelloun
14h constellio rida_benelloun14h constellio rida_benelloun
14h constellio rida_benelloun
 
Les outils de veille informationnelle
Les outils de veille informationnelleLes outils de veille informationnelle
Les outils de veille informationnelle
 
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
 
La recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheurLa recherche sur Internet: devenez un super chercheur
La recherche sur Internet: devenez un super chercheur
 
Solution de recherche Drupal
Solution de recherche DrupalSolution de recherche Drupal
Solution de recherche Drupal
 
Marseille JUG Novembre 2013 Lucene Solr France Labs
Marseille JUG Novembre 2013 Lucene Solr France LabsMarseille JUG Novembre 2013 Lucene Solr France Labs
Marseille JUG Novembre 2013 Lucene Solr France Labs
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libres
 
June Spark meetup : search as recommandation
June Spark meetup : search as recommandationJune Spark meetup : search as recommandation
June Spark meetup : search as recommandation
 
Les évolutions de HAL : présentation du 20 septembre 2017
Les évolutions de HAL : présentation du 20 septembre 2017Les évolutions de HAL : présentation du 20 septembre 2017
Les évolutions de HAL : présentation du 20 septembre 2017
 
Isaac referentiels-ist12-121002051942-phpapp01
Isaac referentiels-ist12-121002051942-phpapp01Isaac referentiels-ist12-121002051942-phpapp01
Isaac referentiels-ist12-121002051942-phpapp01
 
Web sémantique
Web sémantique Web sémantique
Web sémantique
 
Doctorat sciences - Recherche bibliographique : méthode, sources et outils
Doctorat sciences - Recherche bibliographique : méthode, sources et outilsDoctorat sciences - Recherche bibliographique : méthode, sources et outils
Doctorat sciences - Recherche bibliographique : méthode, sources et outils
 
Jabes 2011 - Signalement des ressources électroniques - "Intégrer IdRef dans ...
Jabes 2011 - Signalement des ressources électroniques - "Intégrer IdRef dans ...Jabes 2011 - Signalement des ressources électroniques - "Intégrer IdRef dans ...
Jabes 2011 - Signalement des ressources électroniques - "Intégrer IdRef dans ...
 
Geneva jug Lucene Solr
Geneva jug Lucene Solr Geneva jug Lucene Solr
Geneva jug Lucene Solr
 

Mais de Lucian Precup

La revue de code : agile, lean, indispensable !
La revue de code : agile, lean, indispensable !La revue de code : agile, lean, indispensable !
La revue de code : agile, lean, indispensable !
Lucian Precup
 

Mais de Lucian Precup (9)

Enrich data and rewrite queries with the Elasticsearch percolator
Enrich data and rewrite queries with the Elasticsearch percolatorEnrich data and rewrite queries with the Elasticsearch percolator
Enrich data and rewrite queries with the Elasticsearch percolator
 
Joins in a distributed world Distributed Matters Barcelona 2015
Joins in a distributed world Distributed Matters Barcelona 2015Joins in a distributed world Distributed Matters Barcelona 2015
Joins in a distributed world Distributed Matters Barcelona 2015
 
Search and nosql for information management @nosqlmatters Cologne
Search and nosql for information management @nosqlmatters CologneSearch and nosql for information management @nosqlmatters Cologne
Search and nosql for information management @nosqlmatters Cologne
 
Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014
Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014
Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014
 
Back to the future : SQL 92 for Elasticsearch @nosqlmatters Paris
Back to the future : SQL 92 for Elasticsearch @nosqlmatters ParisBack to the future : SQL 92 for Elasticsearch @nosqlmatters Paris
Back to the future : SQL 92 for Elasticsearch @nosqlmatters Paris
 
Search, nosql et bigdata avec les moteurs de recherche
Search, nosql et bigdata avec les moteurs de rechercheSearch, nosql et bigdata avec les moteurs de recherche
Search, nosql et bigdata avec les moteurs de recherche
 
ALM et Agilite : la convergence
ALM et Agilite : la convergenceALM et Agilite : la convergence
ALM et Agilite : la convergence
 
La revue de code : facile !
La revue de code : facile !La revue de code : facile !
La revue de code : facile !
 
La revue de code : agile, lean, indispensable !
La revue de code : agile, lean, indispensable !La revue de code : agile, lean, indispensable !
La revue de code : agile, lean, indispensable !
 

Solr and Elasticsearch in Action (at Breizhcamp)

Notas do Editor

  1. Comment sont apparus les moteurs de recherche Fonctions: indexation, recherche, analyse du texte!!! Avant : Information structurées par domaine applicatif ; base de données (table, colonne), FS (fichier, contenu), Site Web (Plan de site et pages) process d’accès a l’information : naviguer / parcourir puis filtrer/trier navigation dans tout l’espace recherché Apres : Information non structurée et héterogènes : Process : Search puis filtrer / trier : navigation dans le résultat
  2. Comment sont apparus les moteurs de recherche Fonctions: indexation, recherche, analyse du texte!!! Avant : Information structurées par domaine applicatif ; base de données (table, colonne), FS (fichier, contenu), Site Web (Plan de site et pages) process d’accès a l’information : naviguer / parcourir puis filtrer/trier navigation dans tout l’espace recherché Apres : Information non structurée et héterogènes : Process : Search puis filtrer / trier : navigation dans le résultat
  3. Que peut faire un moteur de recherche? BD – en complément ou en remplacement BI + navigation sur les sites web
  4. Que peut faire un moteur de recherche? BD – en complément ou en remplacement BI + navigation sur les sites web
  5. Autres possibilités : - Envoi des documents en HTTP (XML, JSON) - Importer une BD - Charger un fichier CSV - Indexer des fichiers binaires (Word, Excel, PDF) - Envoi des documents en Java (SolrJ) - Crawling des sites web
  6. + highlighting ! Ne pas utiliser prefix query