Treinamento Elasticsearch - Parte 1

Introdução ao Elasticsearch
Luiz Henrique Zambom Santana
24 de Fevereiro de 2015

Agenda
•Visão e Histórico
•Conceitos
•Instalação
•Sense
•Desenvolvimento
•Buscas
•Clientes
•Cliente Java
•Bulkload
•Monitoramento
•Problemas
•Plugins
•Arquitetura

Apresentação
•Consultor AdHoc
•Freelancer
•Autor DevMedia
•Doutorando UFSC

Visão
•“flexible and powerful open source,
distributed real-time search and
analytics engine for the cloudcool. bonsai
cool”

Histórico
•Primeira versão lançada em 2010
•Pelo Israelense Shay Banon (https://twitter.com/kimchy)
•Código aberto em:
•https://github.com/elasticsearch/elasticsearch
•Suportado pela empresa Elasticsearch, com sede em Amsterdam
•A Elasticsearch também suporta o Kibana e o Logstash

Conceitos básicos
•Um mecanismo de busca textual
•Não é um banco de dados tradicional, pois:
•Não usa SQL
•Não suporta transações
•Não possui mecanismos de autenticação
•...
•É baseado no Apache Lucene, um framework Java que facilita busca
em textos

Conceitos básicos
•Alguns dos conceitos do ES são derivados do Lucene
•Índice (como um banco de dados)
•Documento, um texto formatado em JSON
•Campo
•Mapeamento

Conceitos básicos – comparação com BDR
Lucene Banco de dados relacional (BDR)
Índice (Index) Esquema
Type Tabela
Documento (JSON) Linha
Campo (Field) Coluna
Mapeamento (Mapping) Estrutura da tabela
Query DSL SQL

Instalação
•A instalação do ES é bastante simples:
•Baixar o zip do site:
•http://www.elasticsearch.org/overview/elkdownloads/
•Deszipar e executar:
•bin/elasticsearch
•Como serviço no Linux:
•apt-get –install elasticsearch
•yum install elasticsearch
•Para verificar se está executando:
•sudo /etc/init.d/elasticsearch start
•curl http://127.0.0.1:9200
•sudo /etc/init.d/elasticsearch stop

Instalação
•/etc/elasticsearch/bin: contém os scripts binários para iniciar e parar
cada nó, usando o comando /bin/elasticsearch start;
•/etc/elasticsearch/conf: contém arquivos de configuração, como o
elasticsearch.yml e o logging.yml;
•/etc/default/elasticseach: que contém as variáveis de ambiente como
tamanho de heap, e quantidade de descritores de arquivos;
•/var/lib/elasticsearch/data: onde se localiza os arquivos de dados
para cada índice, shard alocado para cada nó;
•/var/log/elasticsearch: onde fica os arquivos de log, incluindo o log de
uso e o slowlog;
•/usr/share/elasticsearch/plugins: onde localiza-se os arquivos de
plug-n, sendo que cada plug-in fica contido em um subdiretório

Comandos básicos
•O que podemos fazer com o ES?
•Criar índice
•Criar mapeamento
•Inserir documento
•Recuperar documento
•Alterar documento
•Excluir documento

Vamos usar o Sense
•Ótimo plugin para testar comandos:

Criar um índice
•Forma mais simples:
•PUT /goodname
•Podemos também adicionar configurações na criação desse índice:
PUT / goodname/{
"number_of_shards": 5,
"number_of_replicas": 1,
"analysis": {
"analyzer": {
"sinonimo": {
"tokenizer": "whitespace",
"filter": [ "lowercase", "filtro_sinonimo"]
},
...

Criar mapeamento
•Exemplo de criação de índice e de mapeamento:
POST /goodname/processo/_mapping
{
"processo": {
...(mostrar arquivo)
}
}

Indexar documentos
POST /goodname/processo/1
{
“numero" : “49484/2010",
“interessado" : “CAMARA MUNICIPAL DE NOVA OLIMPIA",
“descricao" : “REPRESENTACAO REF IRREGULARIDADES DA ATUAL
GESTAO, NO QUE SE REFERE AO USO INDEVIDO DE CARRO PARA ATENDER
INTERESSES PESSOAIS/MULTAS DE TRANSITO RECOLHIDAS COM RECURSOS
PUBLICOS, ETC"
}
POST /goodname/processo/2
{
“numero" : “154440/2002",
“relator" : “ANTONIO JOAQUIM",
“descricao" : “CONTRATO Nº 023/C/2002, A PRESTACAO DE
SERVICOS DE MAO DE OBRA NOS CARROS OFICIAIS DA SEDUC NO VALOR DE R$

Processo de busca
•Lista invertida

Processo de busca
•Analisadores

Buscas
•Tipos mais simples
•Match
•Multi match
•Prefix
•Phrase
•Term
•Bool
•Dismax

Buscas – Match All
POST /goodname/processo/_search
{
"query": {
"match_all": {}
}
}

Buscas – Match
{
"query": {
"match": {
"descricao": "carro"
}
}
}

Buscas - Multi match
{
"query": {
"multi_match": {
"query": "carro",
"fields": [
"descricao",
"palavrachave"
]
}
}

Buscas - Prefix
{
"query": {
"prefix" : { "relator" : "ANTONIO" }
}
}

Buscas - Phrase
{
"query": {
"match_phrase": {
"title": "REPRESENTACAO"
}
}
}

Buscas - Term
{
"query": {
"term" : { "numero" : "100587/2003" }
}
}

Buscas - Bool
{
"query": {
"bool": {
"must": [
{}
],
"should": [
{}
],
"must_not": [

Buscas – Dismax (mudança na forma de
calcular o score)
{
"query": {
"dis_max": {
"tie_breaker": 0.7,
"boost": 1.2,
"queries": [
{
"term": {
"status": "fechado"

Buscas
•Resultado
{
"took": 2,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
…

Clientes
•Java, Javascript, PHP, Python...
•Em Java
<dependency><groupId>org.elasticsearch</groupId><artifactId>elasticsearch</artifactId><version>1.3.2</version></dependency>

Clientes
•O cliente Java permite, por exemplo:
•Realizar buscas
•Criar índice
•Criar mapeamentos
•Verificar estado dos nós
•Realizar atividades de manutenção

Criar um cliente
•Definir
•Nome do cluster
•Endereços de rede
•IMPORTANTE:
•Todos nós do cluster devem ser adicionados ao cliente, isto garante:
•Round-Robin
•O cliente irá procurar os nós disponíveis

Adicionar um documento
public void create(String id, String produto,
String descricao, double preco) throws IOException {
XContentBuilder builder = jsonBuilder()
.startObject()
.field(" produto ", produto)
.field(" descricao ", descricao)
.field(" preco ", preco)
.endObject();
client.prepareIndex(index, type, id)

Buscas
•Tipos de busca
•Item coberto
•Endereço
•Auto complete
•Geográfico
•Importante:
•Também utiliza o XContentBuilder
•Retorno em hits
•Ordenado por score

Bulkload
•Controlar o tamanho do bulk
•Lista de falhas
•Possível enviar indexação, alteração ou exclusão em uma mesma
chamada

Plugins
•Site plugins
•HEAD
•http://localhost:9200/_plugin/head/
•plugin -install mobz/elasticsearch-head
•BigDesk
•http://localhost:9200/_plugin/bigdesk/
•plugin -install lukas-vlcek/bigdesk
•Inquisitor
•https://github.com/polyfractal/elasticsearch-inquisitor
•plugin -install polyfractal/elasticsearch-inquisitor
•plugin --url file:///c:/tmp/elasticsearch-inquisitor-master.zip --install inquisitor
•Synonyms
•Na inicialização de cada nó:
•[2015-01-14 08:54:33,515][INFO ][plugins ] [Seth] loaded [analysis-
phonetic], sites [bigdesk, head, inquisitor]

Curator
•É um script escrito em python, que permite gerenciar os índices do ES
•https://github.com/elasticsearch/curator
•Instalação:
•Instalar pip, gerenciador de pacotes do python, se a máquina tem Python
2.7.9 ou mais novo, o pip já está instalador
•# yum -y install python-pip
•Executar
•pip install elasticsearch-curator
•Configurar o comando de exclusão abaixo para ser executado diariamente
•curator delete --older-than 7 --prefix .marvel-
•

Instalação
•cluster.name: agoodname
•node.name: "anothergoodname"
•discovery.zen.ping.multicast.enabled: false
•discovery.zen.ping.unicast.hosts: ["10.0.0.201", "10.0.0.202",
"10.0.0.203"]
•bootstrap.mlockall: true
•script.disable_dynamic: false

Exemplo de Arquitetura Bulkload
Batch/
Scheduler
ES
1. Extração de arquivos
2. Executa
comando
3. Chamadas
bulk

Exemplo de Arquitetura com Java e BD
Navegador
Navegador
Navegador
Java
ES
1. HTTP
2. HTTP
3. Broadcast para o cluster:
A.Repassa a consulta para
todos os nós
B.Recebe resultados e
ordena de acordo com
score
C.Retorna para o cliente
4. IDs
5. Consulta
por IDs
6. Retorna
valores
completos
7. HTTP

Considerações sobre arquitetura
•Número de threads
•# nó: 3x4 (processadores): 12
•# cluster: 12x4: 48
•For count/search operations. Defaults to fixed with a size of 3x # of available processors,
queue_size of 1000.
•Thread pool
•http://10.2.0.242:9200/_cat/thread_pool
•http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/cat-thread-
pool.html
•Para recuperar as configurações
•http://10.2.0.242:9200/_cluster/settings
•Modificar apenas o tamanho da fila
PUT _cluster/settings
{
"persistent": {},

•Balanceamento de shards:
•Com os valores padrão o cluster pode entrar em um estado no qual alguns
nós possuem mais shards primários que outros, como ilustrado pelo HEAD.
Nesse caso, os nós 1 e 4 vão receber muito menos chamados que os nós 2 e
3, pois não possuem nós primários.
•Para alterar isso, devemos modificar os padrões de alocação da
seguinte forma:
PUT _cluster/settings
{
"persistent": {},
"transient": {
"threadpool.search.queue_size":2000,
“cluster.routing.allocation.balance.shard”:0.8,
“cluster.routing.allocation.balance.index”:0.2
“cluster.routing.allocation.balance.primary”:0.8,

•Gargalos possíveis:
•Aumentar paralelismo e concorrência:
•Número de shards
•Número de réplicas
•Aumentar o intervalo de refresh
•Criar índices diários
•Warmers
•Routing ou índice por cliente
•Slowlog
•Curator e Marvel

•Index alias
•Manualmente
•PUT /nome_index_v1/_alias/nome_index/
•Java
•client.admin().indices().prepareAliases().addAlias("nome_index_v1",
"nome_index").execute().get();

Conclusões
•Rápida evolução
•Setembro/2014: 1.3.1
•Janeiro/2015: 1.4.2
•Instalar Inquisitor e BigDesk em produção
•Analisar desempenho de forma contínua
•Ferramentas como o Marvel
•Outras ferramentas interessantes do Elasticsearch
•Agregação
•Percolation
•Gargalo:
•Bulkload
•Uso do banco de dados
•Uso de Redis

Referências
•https://gist.github.com/reyjrar/4364063
•http://blog.trifork.com/2013/10/24/how-to-avoid-the-split-brain-
problem-in-elasticsearch/
•http://www.elasticsearch.org/blog/performance-considerations-
elasticsearch-indexing/
•https://www.found.no/foundation/optimizing-elasticsearch-searches/
•https://blog.codecentric.de/en/2014/05/elasticsearch-indexing-
performance-cheatsheet/
•https://www.youtube.com/watch?v=LDyxijDEqj4

Treinamento Elasticsearch - Parte 1

Mais conteúdo relacionado

Mais procurados

Destaque

Semelhante a Treinamento Elasticsearch - Parte 1

Mais de Luiz Henrique Zambom Santana

Treinamento Elasticsearch - Parte 1