2© 2016 Pivotal Software, Inc. All rights reserved. 2
Conhecendo o Greenplum
O banco de dados Open Source massivamente
par...
3© 2016 Pivotal Software, Inc. All rights reserved.
Quem sou eu?
Ÿ  Bacharel em Física – USP
Ÿ  11 anos de experiência com...
4© 2016 Pivotal Software, Inc. All rights reserved.
Powering Digital Transformation
A Pivotal ajuda empresas a prover a
me...
5© 2016 Pivotal Software, Inc. All rights reserved.
Introdução ao Greenplum DB
Arquitetura do GPDB
Greenplum <> PostgreSQL...
6© 2016 Pivotal Software, Inc. All rights reserved. 6
Introdução ao GPDB
7© 2016 Pivotal Software, Inc. All rights reserved.
http://greenplum.org/
Intodução ao Greenplum Database
8© 2016 Pivotal Software, Inc. All rights reserved.
https://github.com/greenplum-db/gpdb
Intodução ao Greenplum Database
9© 2016 Pivotal Software, Inc. All rights reserved.
Intodução ao Greenplum Database
”Mudar para sempre o Data Warehousing ...
10© 2016 Pivotal Software, Inc. All rights reserved.
Intodução ao Greenplum Database
11© 2016 Pivotal Software, Inc. All rights reserved.
Procedural Languages
•  C
•  pgSQL
•  R
•  Python
•  Java
•  Perl
Pos...
12© 2016 Pivotal Software, Inc. All rights reserved. 12
Arquitetura do GPDB
13© 2016 Pivotal Software, Inc. All rights reserved.
Arquitetura do Greenplum Database
Arquitetura MPP Shared Nothing
Ø  M...
14© 2016 Pivotal Software, Inc. All rights reserved.
Bob 12
Steve 10
Jim 15
Carson 2
Madison 6
Thomas 8
Andrea 22
cookie_o...
15© 2016 Pivotal Software, Inc. All rights reserved.
select * from cookie_order
where amt > 10
16© 2016 Pivotal Software, Inc. All rights reserved.
Arquitetura do Greenplum Database
Arquitetura MPP Shared Nothing
Ø  C...
17© 2016 Pivotal Software, Inc. All rights reserved.
Arquitetura do Greenplum Database
Polymorfic Storage
•  Melhor perfor...
18© 2016 Pivotal Software, Inc. All rights reserved.
Arquitetura do Greenplum Database
Alta Disponibilidade
Interconnect
S...
19© 2016 Pivotal Software, Inc. All rights reserved.
Arquitetura do Greenplum Database
Distribuição e Particionamento
Segm...
20© 2016 Pivotal Software, Inc. All rights reserved. 20
Greenplum <>
PostgreSQL
21© 2016 Pivotal Software, Inc. All rights reserved.
22© 2016 Pivotal Software, Inc. All rights reserved.
23© 2016 Pivotal Software, Inc. All rights reserved.
24© 2016 Pivotal Software, Inc. All rights reserved.
$ git diff --stat REL8_2_23..REL8_3_23
2423 files changed,
461334 ins...
25© 2016 Pivotal Software, Inc. All rights reserved.
26© 2016 Pivotal Software, Inc. All rights reserved.
$ git merge upstream/REL8_3_STABLE
$ grep -r "<<<<<<< HEAD" . | wc -l...
27© 2016 Pivotal Software, Inc. All rights reserved.
28© 2016 Pivotal Software, Inc. All rights reserved.
Long Story Short… !
29© 2016 Pivotal Software, Inc. All rights reserved. 29
Caos de Uso ???Casos de Uso
30© 2016 Pivotal Software, Inc. All rights reserved.
“Next Best Action” – Engine de Recomendação
Cliente
Banco de varejo (...
31© 2016 Pivotal Software, Inc. All rights reserved.
Análise de Falha Massiva - ANATEL
Cliente
Grande Telco Brasileira
Pro...
32© 2016 Pivotal Software, Inc. All rights reserved.
Prevenção a Evasão de Impostos
Cliente
Secretaria de Fazenda Estadual...
33© 2016 Pivotal Software, Inc. All rights reserved. 33
Concluindo…
34© 2016 Pivotal Software, Inc. All rights reserved.
!
35© 2016 Pivotal Software, Inc. All rights reserved.
TO BECOME A
HACKER
Greenplum: O banco de dados open source massivamente paralelo baseado em PostgreSQL | Luis Macedo
Greenplum: O banco de dados open source massivamente paralelo baseado em PostgreSQL | Luis Macedo
Próximos SlideShares
Carregando em…5
×

Greenplum: O banco de dados open source massivamente paralelo baseado em PostgreSQL | Luis Macedo

458 visualizações

Publicada em

Conheça o Greenplum DB o banco de dados massivamente paralelo voltado para Data Warehouse, Analytics e Big Data. Sua origem no PostgreSQL, história e retorno as origens open source. Veja como a arquitetura MPP Shared Nothing permite o processamento de grande volumes com facilidade e como as extensões analíticas permitem fazer Data Mining em um volume arbitrário de dados. Também analisaremos alguns casos de uso locais e internacionais!

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
458
No SlideShare
0
A partir de incorporações
0
Número de incorporações
59
Ações
Compartilhamentos
0
Downloads
24
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Greenplum: O banco de dados open source massivamente paralelo baseado em PostgreSQL | Luis Macedo

  1. 1. 2© 2016 Pivotal Software, Inc. All rights reserved. 2 Conhecendo o Greenplum O banco de dados Open Source massivamente paralelo baseado em PostgreSQL Luis Macedo Arquiteto de Plataforma
  2. 2. 3© 2016 Pivotal Software, Inc. All rights reserved. Quem sou eu? Ÿ  Bacharel em Física – USP Ÿ  11 anos de experiência com VLDBs Ÿ  Trabalhei nos projetos de DWH Telefonica, Oi, Vivo e TIM Ÿ  Projetos de Big Data e Hadoop na TIM e Bradesco Ÿ  Foco recente em plataformas de Nuvem
  3. 3. 4© 2016 Pivotal Software, Inc. All rights reserved. Powering Digital Transformation A Pivotal ajuda empresas a prover a melhor experiência a seus clientes e colaboradores se calcando em softwares modernos
  4. 4. 5© 2016 Pivotal Software, Inc. All rights reserved. Introdução ao Greenplum DB Arquitetura do GPDB Greenplum <> PostgreSQL Casos de Uso
  5. 5. 6© 2016 Pivotal Software, Inc. All rights reserved. 6 Introdução ao GPDB
  6. 6. 7© 2016 Pivotal Software, Inc. All rights reserved. http://greenplum.org/ Intodução ao Greenplum Database
  7. 7. 8© 2016 Pivotal Software, Inc. All rights reserved. https://github.com/greenplum-db/gpdb Intodução ao Greenplum Database
  8. 8. 9© 2016 Pivotal Software, Inc. All rights reserved. Intodução ao Greenplum Database ”Mudar para sempre o Data Warehousing oferecendo um sistema abrangente e comprovado em código aberto” •  Totalmente ACID Compliant •  Focado em “Big Structured Data” •  ANSI SQL Standard Compliant (PostgreSQL) •  Solução de Sofware •  Implementação em HW comodite, appliance ou em nuvem •  15+ anos de P&D •  Herança do PostgreSQL e Open Source •  Mais de 1000+ clientes enterprise pelo mundo
  9. 9. 10© 2016 Pivotal Software, Inc. All rights reserved. Intodução ao Greenplum Database
  10. 10. 11© 2016 Pivotal Software, Inc. All rights reserved. Procedural Languages •  C •  pgSQL •  R •  Python •  Java •  Perl PostGIS Fuzzy String Functions NJSQL Not Just SQL
  11. 11. 12© 2016 Pivotal Software, Inc. All rights reserved. 12 Arquitetura do GPDB
  12. 12. 13© 2016 Pivotal Software, Inc. All rights reserved. Arquitetura do Greenplum Database Arquitetura MPP Shared Nothing Ø  Master Host Ø  Coordenador Ø  Segment Host Ø  Executor Ø  Interconnect Ø  Barramento de conexão entre os servidores Ø  Segment Instance Ø  Similar ao processo postgres Standby Master … Master Host SQL Interconnect Segment Host Segment Instance Segment Instance Segment Instance Segment Instance Segment Host Segment Instance Segment Instance Segment Instance Segment Instance node1 Segment Host Segment Instance Segment Instance Segment Instance Segment Instance node2 Segment Host Segment Instance Segment Instance Segment Instance Segment Instance node3 Segment Host Segment Instance Segment Instance Segment Instance Segment Instance nodeN
  13. 13. 14© 2016 Pivotal Software, Inc. All rights reserved. Bob 12 Steve 10 Jim 15 Carson 2 Madison 6 Thomas 8 Andrea 22 cookie_order
  14. 14. 15© 2016 Pivotal Software, Inc. All rights reserved. select * from cookie_order where amt > 10
  15. 15. 16© 2016 Pivotal Software, Inc. All rights reserved. Arquitetura do Greenplum Database Arquitetura MPP Shared Nothing Ø  Carga e extração paralela Ø  10+ TB/h taxa de carga Ø  Escalabilidade linear Ø  Sem necessidade de reorg ou aregar intermediárias Ø  Multiplas horigens/destinos Ø  Hadoop, FS, S3 External Sources Loading, streaming, etc. gNet Network Interconnect ... ... ...... Master Servers Query planning & dispatch Segment Servers Query processing & data storage SQL ETL File Systems
  16. 16. 17© 2016 Pivotal Software, Inc. All rights reserved. Arquitetura do Greenplum Database Polymorfic Storage •  Melhor performance de consultas OLAP •  Melhor Compressão •  Vários níveis: quickLZ, zLib 1 a 9, RLE •  Melhor performance para workloadas de pequenos inserts •  Tabelas Heap tem melhor performance para Upd/Del Tabela ‘Vendas’ Jun Orientado a ColunaOrientado a Linha Out Ano -1 Ano -2 HDFS Externo •  Dados Frios •  Formatos: Texto, CSV, Binario, Avro, Parquet Nov DecJul Ago Set
  17. 17. 18© 2016 Pivotal Software, Inc. All rights reserved. Arquitetura do Greenplum Database Alta Disponibilidade Interconnect Segment Host Segment Instance Segment Instance Segment Instance Segment Instance Master HA Segment HA
  18. 18. 19© 2016 Pivotal Software, Inc. All rights reserved. Arquitetura do Greenplum Database Distribuição e Particionamento Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D SELECT COUNT(*) FROM orders WHERE order_date >= ‘Oct 20 2007’ AND order_date < ‘Oct 27 2007’ & As ordens estão distribuidas nos segmentos Somente as ordens das partições qualificadas são escaneadas Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D
  19. 19. 20© 2016 Pivotal Software, Inc. All rights reserved. 20 Greenplum <> PostgreSQL
  20. 20. 21© 2016 Pivotal Software, Inc. All rights reserved.
  21. 21. 22© 2016 Pivotal Software, Inc. All rights reserved.
  22. 22. 23© 2016 Pivotal Software, Inc. All rights reserved.
  23. 23. 24© 2016 Pivotal Software, Inc. All rights reserved. $ git diff --stat REL8_2_23..REL8_3_23 2423 files changed, 461334 insertions(+), 208900 deletions(-)
  24. 24. 25© 2016 Pivotal Software, Inc. All rights reserved.
  25. 25. 26© 2016 Pivotal Software, Inc. All rights reserved. $ git merge upstream/REL8_3_STABLE $ grep -r "<<<<<<< HEAD" . | wc -l 6653
  26. 26. 27© 2016 Pivotal Software, Inc. All rights reserved.
  27. 27. 28© 2016 Pivotal Software, Inc. All rights reserved. Long Story Short… !
  28. 28. 29© 2016 Pivotal Software, Inc. All rights reserved. 29 Caos de Uso ???Casos de Uso
  29. 29. 30© 2016 Pivotal Software, Inc. All rights reserved. “Next Best Action” – Engine de Recomendação Cliente Banco de varejo (EUA) Problema de Negócio Aumentar o mix de produtos financeiros adquiridos pelos clientes em especial produtos de alto retorno Desafios ▪  Com crescimento do volume de dados o ETL so tornou um gargalo ▪  Dificuldade de evoluir os modelos estatísticos com o alto volume de dados e ferrentas tradicionais Solução ▪  Trazer o ETL para ELT no Greenplum acelerando a carga e preparação do dado ▪  Utilizar MADlib para criar novos modelos de “Next best action” mais eficazes usando mais dados e mais granular ▪  Utilizar novo modelo para operacionalizar açoes de vendas otimizando o portifolio de cada gerente Who? What? When? Where? Next Best Action
  30. 30. 31© 2016 Pivotal Software, Inc. All rights reserved. Análise de Falha Massiva - ANATEL Cliente Grande Telco Brasileira Problema de Negócio Quando ocorre uma falha de um equipamento de rede e isto afeta uma região a ANATEL define uma complexa regra de reembolso para os afetados. Solução adotara era reemboçlar todos os clientes da região no momento da falha. Desafios ▪  Grande volume de dados não permitia a aplicação da regra ANATEL ▪  Não havia dados nos sistemas legados Solução ▪  Trazer todo dado de xDR para um Data Lake ▪  Criar listagem, cliente a cliente, aplicando a regra da ANTEL ▪  Alimentar sistema de billing com reembolços corretos
  31. 31. 32© 2016 Pivotal Software, Inc. All rights reserved. Prevenção a Evasão de Impostos Cliente Secretaria de Fazenda Estadual Problema de Negócio Com a digitalização das notas fiscais de compra e venda o volume dados disponíveis para análise cresceu muito abrindo espaço para uma fiscalização mais estrita. Desafios ▪  Volumes de dados não compatíveis com a arquitetura SMP do SQLServer ▪  Cilos de dados (diferentes SQLServers) ▪  Processo de fraude demorava 2 meses para executar. Solução ▪  Criar novo modelo de dados desnormalizado em GPDB ▪  Criar novos algoritmos de prevenção a evasão de impostos ▪  Sofisticar a análise e contemplar NF-e PF.
  32. 32. 33© 2016 Pivotal Software, Inc. All rights reserved. 33 Concluindo…
  33. 33. 34© 2016 Pivotal Software, Inc. All rights reserved. !
  34. 34. 35© 2016 Pivotal Software, Inc. All rights reserved. TO BECOME A HACKER

×