ELASTICSEARCH Capacidade e Desempenho

•Transferir como PPTX, PDF•

1 gostou•292 visualizações

Este documento apresenta uma agenda para projetar o dimensionamento de um cluster Elasticsearch. Primeiro, discute a definição dos dados, incluindo o tipo de dados, buscas e mapeamento. Em seguida, aborda o dimensionamento dos shards com base na análise histórica e simulações. Por fim, discute o dimensionamento do cluster e otimizações como leitura e escrita.

Tecnologia

Thiago Barradas
Software Enginner | Mundipagg
[ Web Applications ] [ ASP .NET ]
[ API RESTful ] [ Microsoft ♥ Linux ]
[ Elasticsearch ] [ Docker ]
[ DevOps ] [ Agile ]
tbarradas@mundipagg.com
LinkedIn: thiagobarradas
(21) 99329-9143

ELASTICSEARCH
CAPACITY PLANNING
PROJETANDO O SEU CLUSTER

Breve agenda
Definição dos Dados
Dimensionamento dos Shards
Dimensionamento do Cluster
Otimização de Leitura
Otimização de Escrita

Conhecendo seus objetivos
Armazenamento de Logs? Que tipo de Log?
Dados da sua companhia? Que tipo de Dados?
Dados analíticos? Auto complete? Alertas?
Dados geográficos? Full-text?
Por quê vou usar o Elasticsearch para isso?
DEFINIÇÃO DOS DADOS

Conhecendo seus dados
Quais dados serão armazenados?
Onde estão estes dados? Como eles estão hoje?
Os dados me atendem na sua forma “bruta”?
É necessário fazer transformações?
Como imagino o processo de carga dos dados e
sincronização?
DEFINIÇÃO DOS DADOS

Transporte dos dados
DEFINIÇÃO DOS DADOS

DEFINIÇÃO DOS DADOS
Que buscas irei fazer?

DEFINIÇÃO DOS DADOS
Dados pré processados

DIMENSIONAMENTO DOS SHARDS
DIMENSIONAMENTO DOS SHARDS

DIMENSIONAMENTO DOS SHARDS
Análise do histórico de crescimento

DIMENSIONAMENTO DOS SHARDS
Carga inicial para gerar métricas

Simulação baseada nas análises
DIMENSIONAMENTO DOS SHARDS

DIMENSIONAMENTO DOS SHARDS
Simulação baseada nas análises

Identificando patterns
DIMENSIONAMENTO DOS SHARDS

DIMENSIONAMENTO DOS SHARDS
Definindo shards por pattern

Otimizando Leitura
Utilize réplicas;
Busque em menos campos sempre que possível;
Mantenha dados pré processados na indexação;
Mapeie identificadores apenas como keyword;
Evite ao máximo o uso de scripts;
Ajuste os valores de cache, circuit break;
Busque por datas arredondadas;

Otimizando Escrita
Utilize escrita em Bulk;
Use múltiplos Workers para escrever;
Aumentar o Refresh Interval;
Usar IDs auto-gerados;
Desabilitar _field_names;

Otimizando Cluster
Desabilitar Swapping
Memória suficiente para o cache do Filesystem
Use compressão [best_compressione];
Faça o merge dos segmentos [Force Merge]
Quando possível, faça Shrink dos índices;

Otimizando Cluster
Tamanho dos Shards/Índices
Modelagem dos documentos;
Não use mapeamento dinâmico para strings;
Use o menor tipo numérico que seja suficiente;
Desabilite as features que vocês não precisa;

Links:
https://medium.com/thiagobarradas
https://github.com/ThiagoBarradas/elasticsearch-docker
https://www.elastic.co/guide/en/elasticsearch/guide/master/scale.html
https://www.elastic.co/guide/en/elasticsearch/reference/master/tune-
for-indexing-speed.html
https://www.elastic.co/guide/en/elasticsearch/reference/master/tune-
for-search-speed.html
https://www.elastic.co/guide/en/elasticsearch/reference/master/tune-
for-disk-usage.hvtml
https://www.elastic.co/guide/en/elasticsearch/reference/current/mappin
g-params.html

Thiago Barradas
tbarradas@mundipagg.com
+55 (21) 99329-9143
Linkedin: thiagobarradas
Obrigado!

Mais conteúdo relacionado

Semelhante a ELASTICSEARCH Capacidade e Desempenho

Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services

Bancos de dados NoSQL na AWSAmazon Web Services LATAM

Tendências de Big DataAmazon Web Services LATAM

Big Data x Data Mining - HadoopF.Davi Camilo Ribeiro

Path to the Future #1 - Tendências de Big DataAmazon Web Services LATAM

Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM

Entenda como as grandes empresas utilizam múltiplas abordagens de armazenamen...Leonardo Roberto Marinho Farias

Aws summit arquitetura big data-v1.2Amazon Web Services LATAM

AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM

Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura

Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM

Desenvolvendo um buscador com PHP e Elasticsearch - Fernando Silva - Tchelinu...Tchelinux

TDC2016POA | Trilha PHP - Desenvolvendo um buscador com PHP e Elasticsearchtdc-globalcode

Analise De Dados Azure MLOrlando Mariano

#1 Introdução ao MongoDBGabriel Alves Scavassa

[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil

Big Data na NuvemAmazon Web Services LATAM

Lambda architecture for large data volumes.Hugo Rozestraten

Semelhante a ELASTICSEARCH Capacidade e Desempenho (20)

Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...

Bancos de dados NoSQL na AWS

Tendências de Big Data

Big Data x Data Mining - Hadoop

Path to the Future #1 - Tendências de Big Data

Os benefícios de migrar seus workloads de Big Data para a AWS

Entenda como as grandes empresas utilizam múltiplas abordagens de armazenamen...

Aws summit arquitetura big data-v1.2

AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...

Stream de dados e Data Lake com Debezium, Delta Lake e EMR

Construindo um Data Warehouse moderno com Amazon Redshift

Desenvolvendo um buscador com PHP e Elasticsearch - Fernando Silva - Tchelinu...

TDC2016POA | Trilha PHP - Desenvolvendo um buscador com PHP e Elasticsearch

Analise De Dados Azure ML

#1 Introdução ao MongoDB

[DTC21] André Marques - Jornada do Engenheiro de Dados

Big Data na Nuvem

Lambda architecture for large data volumes.

Mais de Thiago Barradas

Elasticsearch - O motor de busca que está mudando o mercado! @ PHPeste 2019Thiago Barradas

Criando componentes e disponibilizando o como opensource em 5 minutos em .NETThiago Barradas

Codacy, CodeClimate, Sonarqube @ 5º DevOps Inside RJThiago Barradas

Clean Code: Por um mundo com códigos melhores - The Developers Conference - P...Thiago Barradas

Clean Code: Por um mundo com códigos melhores - SETI 2017Thiago Barradas

Palestra Elasticsearch - The Developers Conference - São Paulo - 2017Thiago Barradas

Palestra Elasticsearch - The Developers Conference - Floripa - 2017Thiago Barradas

Workshop Elasticsearch - Android Dev Conference 2016Thiago Barradas

Mais de Thiago Barradas (8)

Elasticsearch - O motor de busca que está mudando o mercado! @ PHPeste 2019

Criando componentes e disponibilizando o como opensource em 5 minutos em .NET

Codacy, CodeClimate, Sonarqube @ 5º DevOps Inside RJ

Clean Code: Por um mundo com códigos melhores - The Developers Conference - P...

Clean Code: Por um mundo com códigos melhores - SETI 2017

Palestra Elasticsearch - The Developers Conference - São Paulo - 2017

Palestra Elasticsearch - The Developers Conference - Floripa - 2017

Workshop Elasticsearch - Android Dev Conference 2016

ELASTICSEARCH Capacidade e Desempenho

2. Thiago Barradas Software Enginner | Mundipagg [ Web Applications ] [ ASP .NET ] [ API RESTful ] [ Microsoft ♥ Linux ] [ Elasticsearch ] [ Docker ] [ DevOps ] [ Agile ] tbarradas@mundipagg.com LinkedIn: thiagobarradas (21) 99329-9143

3. Networking

4. ELASTICSEARCH CAPACITY PLANNING PROJETANDO O SEU CLUSTER

5. Breve agenda Definição dos Dados Dimensionamento dos Shards Dimensionamento do Cluster Otimização de Leitura Otimização de Escrita

6. DEFINAÇÃO DOS DADOS

7. Conhecendo seus objetivos Armazenamento de Logs? Que tipo de Log? Dados da sua companhia? Que tipo de Dados? Dados analíticos? Auto complete? Alertas? Dados geográficos? Full-text? Por quê vou usar o Elasticsearch para isso? DEFINIÇÃO DOS DADOS

8. Conhecendo seus dados Quais dados serão armazenados? Onde estão estes dados? Como eles estão hoje? Os dados me atendem na sua forma “bruta”? É necessário fazer transformações? Como imagino o processo de carga dos dados e sincronização? DEFINIÇÃO DOS DADOS

9. Transporte dos dados DEFINIÇÃO DOS DADOS

10. Transporte dos dados DEFINIÇÃO DOS DADOS

11. Transporte dos dados DEFINIÇÃO DOS DADOS

12. DEFINIÇÃO DOS DADOS Que buscas irei fazer?

13. DEFINIÇÃO DOS DADOS Que buscas irei fazer?

14. DEFINIÇÃO DOS DADOS Que buscas irei fazer?

15. DEFINIÇÃO DOS DADOS Modelagem dos dados

16. DEFINIÇÃO DOS DADOS Modelagem dos dados

17. DEFINIÇÃO DOS DADOS Dados pré processados

18. DEFINIÇÃO DOS DADOS Mapping dos dados

19. DEFINIÇÃO DOS DADOS Mapping dos dados

20. DEFINIÇÃO DOS DADOS Mapping dos dados

21. DIMENSIONAMENTO DOS SHARDS DIMENSIONAMENTO DOS SHARDS

22. DIMENSIONAMENTO DOS SHARDS Análise do histórico de crescimento

23. DIMENSIONAMENTO DOS SHARDS Carga inicial para gerar métricas

24. Simulação baseada nas análises DIMENSIONAMENTO DOS SHARDS

25. DIMENSIONAMENTO DOS SHARDS Simulação baseada nas análises

26. DIMENSIONAMENTO DOS SHARDS Simulação baseada nas análises

27. Identificando patterns DIMENSIONAMENTO DOS SHARDS

28. DIMENSIONAMENTO DOS SHARDS Definindo shards por pattern

29. Templates DIMENSIONAMENTO DOS SHARDS

30. DIMENSIONANDO O CLUSTER

31. DIMENSIONANDO O CLUSTER

32. DIMENSIONANDO O CLUSTER

33. DIMENSIONANDO O CLUSTER

34. OTIMIZANDO LEITURA

35. Otimizando Leitura Utilize réplicas; Busque em menos campos sempre que possível; Mantenha dados pré processados na indexação; Mapeie identificadores apenas como keyword; Evite ao máximo o uso de scripts; Ajuste os valores de cache, circuit break; Busque por datas arredondadas;

36. OTIMIZANDO ESCRITA

37. Otimizando Escrita Utilize escrita em Bulk; Use múltiplos Workers para escrever; Aumentar o Refresh Interval; Usar IDs auto-gerados; Desabilitar _field_names;

38. OTIMIZANDO CLUSTER

39. Otimizando Cluster Desabilitar Swapping Memória suficiente para o cache do Filesystem Use compressão [best_compressione]; Faça o merge dos segmentos [Force Merge] Quando possível, faça Shrink dos índices;

40. Otimizando Cluster Tamanho dos Shards/Índices Modelagem dos documentos; Não use mapeamento dinâmico para strings; Use o menor tipo numérico que seja suficiente; Desabilite as features que vocês não precisa;

41.

42. Links: https://medium.com/thiagobarradas https://github.com/ThiagoBarradas/elasticsearch-docker https://www.elastic.co/guide/en/elasticsearch/guide/master/scale.html https://www.elastic.co/guide/en/elasticsearch/reference/master/tune- for-indexing-speed.html https://www.elastic.co/guide/en/elasticsearch/reference/master/tune- for-search-speed.html https://www.elastic.co/guide/en/elasticsearch/reference/master/tune- for-disk-usage.hvtml https://www.elastic.co/guide/en/elasticsearch/reference/current/mappin g-params.html

43. Thiago Barradas tbarradas@mundipagg.com +55 (21) 99329-9143 Linkedin: thiagobarradas Obrigado!

Notas do Editor

Pode ser o mesmo cluster ou não, o importante é mapear um por vez
Agrupado pelo mesmo número de shards mas não tem padrão no nome

ELASTICSEARCH Capacidade e Desempenho

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a ELASTICSEARCH Capacidade e Desempenho

Semelhante a ELASTICSEARCH Capacidade e Desempenho (20)

Mais de Thiago Barradas

Mais de Thiago Barradas (8)

ELASTICSEARCH Capacidade e Desempenho

Notas do Editor