Using ElasticSearch as a fast, flexible, and scalable solution to search occurrence records and checklists

•

2 gostaram•4,261 visualizações

kristgen

TDWG 2013 talk on ElasticSearch by Canadensys and GBIF France.

Tecnologia

Using ElasticSearch as a fast, flexible,
and scalable solution to search
occurrence records and checklists

Christian Gendreau, Canadensys
Marie-Elise Lecoq, GBIF France

Introduction
ElasticSearch is an open source, document oriented, distributed
search engine, built on top of Apache Lucene.

From ElasticSearch GitHub page

Setup
•  Java 6 or higher
•  Download : # wget …elasticsearch-0.90.5.zip
•  Unzip

Configuration
•  Name your cluster
•  Replication and multi-shard are enabled by default
•  Start : # bin/elasticsearch

$Add data Using the REST API $ curl -XPUT 'http://localhost:9200/twitter/tweet/1' -d '{ "user" : "kimchy", "post_date" : "2009-11-15T14:12:12", "message" : "trying out Elastic Search" }'$

Import data
Rivers
•  Document-based database (mongoDB)
•  JDBC (relational database)
•  Data source (wikipedia, Twitter)

Mapping
•  Schema-less
•  Customize indexing
•  Customize querying

ElasticSearch at
Canadensys
Database of Vascular Plants of Canada (VASCAN)

data.canadensys.net/vascan

Our ElasticSearch index
Index structure for scientific names
•  autocompletion : edge_ngram filter
o 

“carex” -> “ca”,”car”,”care”,”carex”

•  genus first letter : pattern_replace filter
o 

“carex feta” -> “c. feta”

•  epithet : path_hierarchy tokenizer
o 

“carex feta” -> “feta”

ElasticSearch at GBIF France
Data stored in ElasticSearch are updated upon MongoDB
changes.
The search engine requests elasticsearch using filters like taxon,
date, place, dataset and geolocalisation.
Statistic calculation using facets

ElasticSearch - Solr
•  Solr and elasticsearch both tries to solve the same problem
with no much differences

•  Development setup and production deployment (replication /
sharding) easier with elasticsearch

•  By default, the elasticsearch is well configured for Lucene and
customization remains easy.

Facets
•  “Group by” in SQL
•  Mostly used for calculate statistics
•  Example :
curl -XGET [...]
"facets" : {
”dataset" : {
"terms" : {
"field" : ”dataset",
"order" : "term”
…

API and libraries
REST API
o  interoperability between different programming languages
o  HTTP request

Java API
o 
o 

more efficient than REST API due to the binary API use.
built in marshaling(data formatting on the network)

$Query - RESTfull API Example: $ curl localhost:9200/vascan/_search?pretty=1 -d '{"query":{ "match":{ "name" :{ "query":"carex" } } } }’$

Query - Java API
Code example:
...
SearchRequestBuilder srb = client.prepareSearch(INDEX_NAME)
.setQuery(QueryBuilders
.boolQuery()
.should(QueryBuilders.matchQuery("vernacular_name",text))
.setTypes(VERNACULAR_TYPE);
...

Pitfalls
• 
• 
• 
• 

Error reporting (index creation, river creation)
Results may be hard to predict using complex queries
Documentation
With each mapping modification comes a free reindex from
data

Future
•  Scientific Name analyzer
•  Geospatial component

Mais conteúdo relacionado

Mais procurados

Elastic Stack IntroductionVikram Shinde

Elasticsearch Arcihtecture & What's New in Version 5Burak TUNGUT

ElasticSearch for data mining William Simms

BigData, NoSQL & ElasticSearchSanura Hettiarachchi

Elasticsearch in NetflixDanny Yuan

Elasticsearch Tutorial | Getting Started with Elasticsearch | ELK Stack Train...Edureka!

ElasticsearchDivij Sehgal

Microservices, Continuous Delivery, and Elasticsearch at Capital OneNoriaki Tatsumi

Introduction to ElasticsearchRuslan Zavacky

Big Data Overview Part 1William Simms

Elastic Stack RoadmapImma Valls Bernaus

Introduction to Elasticsearch with basics of LuceneRahul Jain

Log analysis with the elk stackVikrant Chauhan

What's new in Elasticsearch v5Idan Tohami

"TextMining with ElasticSearch", Saskia Vola, CEO at textminers.ioDataconomy Media

Au cœur de la roadmap de la Suite ElasticElasticsearch

Visualizing Austin's data with Elasticsearch and KibanaObjectRocket

Log analysis using Logstash,ElasticSearch and KibanaAvinash Ramineni

Webinar Slides: Tungsten Replicator for Elasticsearch - Real-time data loadin...Continuent

Introduction to ElasticsearchBo Andersen

Mais procurados (20)

Elastic Stack Introduction

Elasticsearch Arcihtecture & What's New in Version 5

ElasticSearch for data mining

BigData, NoSQL & ElasticSearch

Elasticsearch in Netflix

Elasticsearch Tutorial | Getting Started with Elasticsearch | ELK Stack Train...

Elasticsearch

Microservices, Continuous Delivery, and Elasticsearch at Capital One

Introduction to Elasticsearch

Big Data Overview Part 1

Elastic Stack Roadmap

Introduction to Elasticsearch with basics of Lucene

Log analysis with the elk stack

What's new in Elasticsearch v5

"TextMining with ElasticSearch", Saskia Vola, CEO at textminers.io

Au cœur de la roadmap de la Suite Elastic

Visualizing Austin's data with Elasticsearch and Kibana

Log analysis using Logstash,ElasticSearch and Kibana

Webinar Slides: Tungsten Replicator for Elasticsearch - Real-time data loadin...

Introduction to Elasticsearch

Semelhante a Using ElasticSearch as a fast, flexible, and scalable solution to search occurrence records and checklists

(BDT209) Launch: Amazon Elasticsearch For Real-Time Data AnalyticsAmazon Web Services

Workshop: Learning ElasticsearchAnurag Patel

06 integrate elasticsearchErhwen Kuo

Elasticsearch as a Database?Amazon Web Services

Elk presentation1#3uzzal basak

Elasticsearch & "PeopleSearch"George Stathis

ElasticSearch: Distributed Multitenant NoSQL Datastore and Search EngineDaniel N

Elasticsearch as a Database?Amazon Web Services

How ElasticSearch lives in my DevOps life琛琳饶

AWS October Webinar Series - Introducing Amazon Elasticsearch ServiceAmazon Web Services

Java clients for elasticsearchFlorian Hopf

Modernizing WordPress Search with ElasticsearchTaylor Lovett

Qui Quaerit, Reperit. AWS Elasticsearch in ActionGlobalLogic Ukraine

Getting started with Laravel & ElasticsearchPeter Steenbergen

Elasticsearch, Logstash, Kibana. Cool search, analytics, data mining and more...Oleksiy Panchenko

[2D1]Elasticsearch 성능 최적화NAVER D2

Elasticsearch Introduction at BigData meetupEric Rodriguez (Hiring in Lex)

963Annu Ahmed

[2 d1] elasticsearch 성능 최적화Henry Jeong

Elasticsearch JVM-MX Meetup April 2016Domingo Suarez Torres

Semelhante a Using ElasticSearch as a fast, flexible, and scalable solution to search occurrence records and checklists (20)

(BDT209) Launch: Amazon Elasticsearch For Real-Time Data Analytics

Workshop: Learning Elasticsearch

06 integrate elasticsearch

Elasticsearch as a Database?

Elk presentation1#3

Elasticsearch & "PeopleSearch"

ElasticSearch: Distributed Multitenant NoSQL Datastore and Search Engine

Elasticsearch as a Database?

How ElasticSearch lives in my DevOps life

AWS October Webinar Series - Introducing Amazon Elasticsearch Service

Java clients for elasticsearch

Modernizing WordPress Search with Elasticsearch

Qui Quaerit, Reperit. AWS Elasticsearch in Action

Getting started with Laravel & Elasticsearch

Elasticsearch, Logstash, Kibana. Cool search, analytics, data mining and more...

[2D1]Elasticsearch 성능 최적화

Elasticsearch Introduction at BigData meetup

963

[2 d1] elasticsearch 성능 최적화

Elasticsearch JVM-MX Meetup April 2016

Último

Why Teams call analytics are critical to your entire businesspanagenda

Corporate and higher education May webinar.pptxRustici Software

Finding Java's Hidden Performance Traps @ DevoxxUK 2024Victor Rentea

Emergent Methods: Multi-lingual narrative tracking in the news - real-time ex...Zilliz

EMPOWERMENT TECHNOLOGY GRADE 11 QUARTER 2 REVIEWERMadyBayot

Artificial Intelligence Chap.5 : UncertaintyKhushali Kathiriya

Cyberprint. Dark Pink Apt Group [EN].pdfOverkill Security

Apidays New York 2024 - APIs in 2030: The Risk of Technological Sleepwalk by ...apidays

"I see eyes in my soup": How Delivery Hero implemented the safety system for ...Zilliz

Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...apidays

2024: Domino Containers - The Next Step. News from the Domino Container commu...Martijn de Jong

How to Troubleshoot Apps for the Modern Connected WorkerThousandEyes

Polkadot JAM Slides - Token2049 - By Dr. Gavin WoodJuan lago vázquez

Manulife - Insurer Transformation Award 2024The Digital Insurer

Apidays New York 2024 - Passkeys: Developing APIs to enable passwordless auth...apidays

Ransomware_Q4_2023. The report. [EN].pdfOverkill Security

AXA XL - Insurer Innovation Award Americas 2024The Digital Insurer

Exploring the Future Potential of AI-Enabled Smartphone Processorsdebabhi2

DEV meet-up UiPath Document Understanding May 7 2024 AmsterdamUiPathCommunity

FWD Group - Insurer Innovation Award 2024The Digital Insurer

Using ElasticSearch as a fast, flexible, and scalable solution to search occurrence records and checklists

1. Using ElasticSearch as a fast, flexible, and scalable solution to search occurrence records and checklists Christian Gendreau, Canadensys Marie-Elise Lecoq, GBIF France

2. Introduction ElasticSearch is an open source, document oriented, distributed search engine, built on top of Apache Lucene. From ElasticSearch GitHub page

3. Setup •  Java 6 or higher •  Download : # wget …elasticsearch-0.90.5.zip •  Unzip

4. Configuration •  Name your cluster •  Replication and multi-shard are enabled by default •  Start : # bin/elasticsearch

5. Add data Using the REST API $ curl -XPUT 'http://localhost:9200/twitter/tweet/1' -d '{ "user" : "kimchy", "post_date" : "2009-11-15T14:12:12", "message" : "trying out Elastic Search" }'

6. Import data Rivers •  Document-based database (mongoDB) •  JDBC (relational database) •  Data source (wikipedia, Twitter)

7. Mapping •  Schema-less •  Customize indexing •  Customize querying

8. ElasticSearch at Canadensys Database of Vascular Plants of Canada (VASCAN) data.canadensys.net/vascan

9. Our ElasticSearch index Index structure for scientific names •  autocompletion : edge_ngram filter o  “carex” -> “ca”,”car”,”care”,”carex” •  genus first letter : pattern_replace filter o  “carex feta” -> “c. feta” •  epithet : path_hierarchy tokenizer o  “carex feta” -> “feta”

10. ElasticSearch at GBIF France Data stored in ElasticSearch are updated upon MongoDB changes. The search engine requests elasticsearch using filters like taxon, date, place, dataset and geolocalisation. Statistic calculation using facets

11. ElasticSearch at GBIF France

12. ElasticSearch - Solr •  Solr and elasticsearch both tries to solve the same problem with no much differences •  Development setup and production deployment (replication / sharding) easier with elasticsearch •  By default, the elasticsearch is well configured for Lucene and customization remains easy.

13. Facets •  “Group by” in SQL •  Mostly used for calculate statistics •  Example : curl -XGET [...] "facets" : { ”dataset" : { "terms" : { "field" : ”dataset", "order" : "term” …

14. API and libraries REST API o  interoperability between different programming languages o  HTTP request Java API o  o  more efficient than REST API due to the binary API use. built in marshaling(data formatting on the network)

15. Query - RESTfull API Example: $ curl localhost:9200/vascan/_search?pretty=1 -d '{"query":{ "match":{ "name" :{ "query":"carex" } } } }’

16. Query - Java API Code example: ... SearchRequestBuilder srb = client.prepareSearch(INDEX_NAME) .setQuery(QueryBuilders .boolQuery() .should(QueryBuilders.matchQuery("vernacular_name",text)) .setTypes(VERNACULAR_TYPE); ...

17. Pitfalls •  •  •  •  Error reporting (index creation, river creation) Results may be hard to predict using complex queries Documentation With each mapping modification comes a free reindex from data

18. Future •  Scientific Name analyzer •  Geospatial component

19. Thank you!

Using ElasticSearch as a fast, flexible, and scalable solution to search occurrence records and checklists

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Using ElasticSearch as a fast, flexible, and scalable solution to search occurrence records and checklists

Semelhante a Using ElasticSearch as a fast, flexible, and scalable solution to search occurrence records and checklists (20)

Último

Último (20)

Using ElasticSearch as a fast, flexible, and scalable solution to search occurrence records and checklists