O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

TDC2017 | POA Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde

93 visualizações

Publicada em

Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde

Publicada em: Educação
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

TDC2017 | POA Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde

  1. 1. Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde
  2. 2. 1. Olá, muito prazer! 2. O cenário de BI da Mundi no início de 2017 3. A necesidade 4. A abordagem adotada 5. A solução implementada 6. Como funcionam 7. Prós e Contras Agenda
  3. 3. 1. Olá, muito prazer!
  4. 4. Natural de Fortaleza, Ceará Engenheiro Mecânico-Aeronáutico formado pelo ITA 2 anos e meio no mercado de pagamentos na MundiPagg Ricardo Duarte Lima
  5. 5. 2. O cenário de BI da Mundi no início de 2017
  6. 6. Aplicações ETL dispersas populando índices de Elastic Search O que tínhamos Klipfolio como ferramenta de visualização Dezenas de data sources
  7. 7. Modelo de dados embutido no ETL Por que não era tão bom? Um novo serviço de ETL para cada novo caso de uso Visualizações com complexidade de construção acima do desejado Serviços de ETL conectados diretamente nos bancos de produção
  8. 8. 3. A necessidade
  9. 9. Ser capaz de reportar as principais métricas operacionais do negócio com baixa latência O que gostaríamos de ter Ter liberdade e agilidade de conduzir estudos exploratórios mais complexos Poder expandir o modelo de dados facilmente Ser capaz de gerar relatórios complexos com baixo tempo de consulta/computação
  10. 10. 4. A abordagem adotada
  11. 11. Ter pessoas que foquem e entendam as necessidades de negócios
  12. 12. Ter o menor overhead possível para a administração e manutenção do pipeline de dados
  13. 13. Ser independente do time de infraestrutura
  14. 14. 5. A solução implementada
  15. 15. Um conjunto de ferramentas… ETL Data Warehouse Camada de Modelagem Visualização & Exploração
  16. 16. Na nuvem
  17. 17. 6. Como funcionam
  18. 18. Abrindo os capôs Entender a fundo como cada uma das ferramentas adotadas funciona é essencial para o futuro. Como substituir algo que não temos conhecimento sobre o funcionamento?
  19. 19. Replicação incremental ou total de diversos bancos de dados ETL - Alooma Recebimento de webhooks genéricos Integração nativa com APIs de diversos SaaS populares
  20. 20. Serviço que possui as consultas mapeadas para cada data source e executa-as periodicamente utilizando um parâmetro de replicação incremental Debaixo do capô Resultados das consultas ou eventos recebidos são modelados e inseridos no Kafka Um serviço consome os eventos do Kafka e passa por um componente de transformação customizado escrito em Python, pelo mapper definido e empacotado num arquivo csv que sofre um upload para um bucket S3 Um outro componente faz a inserção dos dados no Snowflake e em caso de falha, coloca o evento em uma restream queue Um task scheduler executa as queries de consolidação no Snowflake quando necessário
  21. 21. Data warehouse na nuvem como serviço Data warehouse - Snowflake Storage separado de compute – inclusive no preço Consultas SQL
  22. 22. Persistência de dados em buckets S3 Debaixo do capô Nós de compute separados – virtual warehouses Dados repousam em micropartições com estatísticas sobre os dados inclusos Engine própria de queries que interpreta o SQL e monta o plano de execução baseado nas estatísticas das micropartições dos buckets
  23. 23. Na nuvem ou on premise Modelagem, exploração e visualização - Looker Linguagem própria para definição dos modelos de dados Engine própria de construção de consultas SQL
  24. 24. 7. Prós e Contras
  25. 25. Muito rápido de implementar Prós Poucas pessoas necessárias para manter Custo dos serviços superior à utilização de softwares próprios rodando na AWS Menor flexibilidade Contras
  26. 26. www.mundipagg.com www.mundipagg.com/vagas Ricardo Duarte Lima rlima@mundipagg.com +55 (12) 98120-0886 São Paulo Rua Fidêncio Ramos, 308, 10º andar, Vila Olímpia CEP: 04551-902 Rio de Janeiro Av. General Justo, 375, 9º andar, Centro CEP: 20021-130

×