SlideShare uma empresa Scribd logo
1 de 27
Know your data. Get inspired!
Práticas DevOps aplicadas
a Big Data
Quem somos?
Alexandre Cardoso
• Cientista da Computação, pós-graduado em Big Data
• +20 anos fazendo software
• Últimos 7 anos dedicados ao Big Data
• CEO & founder da Datenworks
Gustavo Biondo
• Engenheiro da Computação
• +5 anos de xp Cloud e DevOps
• 6 meses focado em Big Data
• Líder de Operações e Sócio da Datenworks
Agenda
● Arquiteturas de Big Data
○ Organização para reutilização
○ Terraform & Terragrunt
● Acelerando o Time to Market
○ CI/CD para Big Data
● Monitoramento
○ Centralização de Logs & Métricas
○ Dashboards
○ Alarmes
Big Data – Do que estamos falando?
5 V's do
Big Data
VOLUME
VARIEDADE
VERACIDADE
VALOR
VELOCIDADE
● [Muitos] terabytes
● Transações
● Tabelas
● Arquivos
● Estruturado
● Não-estruturado
● Multi-fator
● Probabilístico
● Fidedigno
● Autêntico
● Disponível
● Não-repúdio
● Verificável
● Estatística
● Insights
● Correlações
● Hipóteses
● Batch
● Near/realtime
● Processos
● Streaming
Big Data em (alguns) números - 2020
➔ $189,1 bilhões - Receita projetada mundial com soluções de Big Data Analytics em 2019 [1]
➔ Em 2020, teremos gerado aproximadamente 40 trilhões de gigabytes de dados [2]
➔ $274.3 bilhões - Receita projetada mundial com soluções de Big Data Analytics em 2022 [1]
➔ Usuários na internet deverão gerar aproximadamente 2.5 quintilhões de bytes todos os dias [2]
➔ Usando Big Data, Netflix economiza $1 bilhão por ano em retenção de clientes [1]
➔ 8-10% de aumento no lucro em negócios que utilizam Big Data [1]
[1] https://financesonline.com/big-data-statistics
[2] https://techjury.net/blog/big-data-statistics
Como erguer um Big Data?
Data Sources
Fault Tolerance / Elasticity / High Availability
Metadata Data Quality Data Catalog Security
Ingestion Tier
[Near] Real-time
Batch
Data Tier
Raw Data Refined Data
Trusted Data
Processing Analysis
Ad-hoc query
API calls
Visualization
Events
Knowledge Tier Consumers
BI Tools
People
Companies &
Partners
Qual é o desafio?
➔ Implantação manual? Sem chance!
➔ Como garantir estado
(esperado/realizado)?
➔ Gerenciar configuração em escala?
➔ Implantar continuamente com
confiança e sem regressão?
➔ Como monitorar e "dormir em paz"?
➔ Como medir e antecipar problemas?
Terraform & Terragrunt
● Infraestrutura como código
● HCL
● Diminuir a repetição de código
● Organização e padronização
Modelo de 3 camadas
1ª Camada - Modules
Glue_catalog Kinesis_firehose Lambda
2ª Camada - Blueprints
3ª Camada - Environments
Terraform & Terragrunt
● Garante stacks 100% idênticas
● Ajuda no versionamento dos ambientes
● Replicação ágil de ambientes
Como integrar tudo isso no CI/CD?
Como integrar tudo isso no CI/CD?
● Vários players para execução
● Arquivos de configuração simples
● Free Tiers <3
Como integrar tudo isso no CI/CD?
Environments (camada 3)
E o Monitoramento?
Usuários & Aplicações
Processos
OS
Load Balancer
Batch job App Server Web Server
Database Services
CPU Memory Disk Network
Sistema de
Monitoramento
UI
Estrutura Monolítica
E o Monitoramento?
Estrutura Distribuída / Assíncrona?
Database
CDC engine
Queue
ETL process
Object store
Massive Parallel
Processing Lakehouse
Visualization
😱
Afinal, o que é "monitorar"?
➔ Monitorar
◆ Coletar, processar, agregar e exibir dados quantitativos e descritivos sobre um sistema e seu
comportamento
➔ Caixa-branca
◆ Obter dados a partir dos internals de um determinado sistema ou componente, como logs,
métricas JMX, memory dump, etc.
➔ Caixa-preta
◆ Observar e analisar o comportamento de um sistema do ponto de vista do usuário, a partir de
indicadores mensuráveis (tempo de resposta, taxa de erros, etc)
➔ Dashboard
◆ Um painel para acompanhamento visual de indicadores principais de um sistema/aplicação
Como centralizar e analisar tudo isso?
● Bom e velho ELK!!
● Beats vs Logstash
● Serviços coletando métricas/logs de serviços
[AWS] - Logs
[AWS] - Metrics
Open Distro <3
● Monitors & Triggers
● Notifications
● Dashboards
Alarms
Notificações
Quer entender um pouco mais dessa stack?
https://datenworks.com/blog
OBRIGADO!

Mais conteúdo relacionado

Semelhante a Dev Parana - Praticas Devops aplicadas a Big Data

E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOpsE se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOpsEdson Celio
 
Day 0 iniciando na carreira em ti
Day 0   iniciando na carreira em tiDay 0   iniciando na carreira em ti
Day 0 iniciando na carreira em tiLuis Henrique Costa
 
Performance no MongoDB - TDC 2017 | Florianópolis
Performance no MongoDB - TDC 2017 | FlorianópolisPerformance no MongoDB - TDC 2017 | Florianópolis
Performance no MongoDB - TDC 2017 | FlorianópolisJefferson Martins de Andrade
 
Tunning PostgreSQL em modo OGRO - 13º Latinoware
Tunning PostgreSQL em modo OGRO - 13º LatinowareTunning PostgreSQL em modo OGRO - 13º Latinoware
Tunning PostgreSQL em modo OGRO - 13º LatinowareGerdan Santos
 
Monitoramento Enterprise com Zabbix+RHEL
Monitoramento Enterprise com Zabbix+RHELMonitoramento Enterprise com Zabbix+RHEL
Monitoramento Enterprise com Zabbix+RHELAlessandro Silva
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Introdução ao Windows Azure - Sessão 1 (mais teórica)
Introdução ao Windows Azure - Sessão 1 (mais teórica)Introdução ao Windows Azure - Sessão 1 (mais teórica)
Introdução ao Windows Azure - Sessão 1 (mais teórica)Giovanni Bassi
 
Devops - A cultura ágil voltada à infra-estrutura
Devops - A cultura ágil voltada à infra-estruturaDevops - A cultura ágil voltada à infra-estrutura
Devops - A cultura ágil voltada à infra-estruturaFernando Celarino
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoComunidade NetPonto
 
TDC2018SP | Trilha Serveless - Pra que SERVErless?
TDC2018SP | Trilha Serveless - Pra que SERVErless?TDC2018SP | Trilha Serveless - Pra que SERVErless?
TDC2018SP | Trilha Serveless - Pra que SERVErless?tdc-globalcode
 
Apresentação Gerpro
Apresentação GerproApresentação Gerpro
Apresentação Gerprorafahreis
 
Docker + Bancos de Dados: isto é possível? - Databases SP - Março-2018
Docker + Bancos de Dados: isto é possível? - Databases SP - Março-2018Docker + Bancos de Dados: isto é possível? - Databases SP - Março-2018
Docker + Bancos de Dados: isto é possível? - Databases SP - Março-2018Renato Groff
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
Docker + Bancos de Dados: descomplicando a montagem de ambientes de Desenvolv...
Docker + Bancos de Dados: descomplicando a montagem de ambientes de Desenvolv...Docker + Bancos de Dados: descomplicando a montagem de ambientes de Desenvolv...
Docker + Bancos de Dados: descomplicando a montagem de ambientes de Desenvolv...Renato Groff
 
Sistemas para o Mundo Real - TDC 2012
Sistemas para o Mundo Real - TDC 2012Sistemas para o Mundo Real - TDC 2012
Sistemas para o Mundo Real - TDC 2012Leandro Silva
 

Semelhante a Dev Parana - Praticas Devops aplicadas a Big Data (20)

E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOpsE se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
 
Day 0 iniciando na carreira em ti
Day 0   iniciando na carreira em tiDay 0   iniciando na carreira em ti
Day 0 iniciando na carreira em ti
 
Overview de QA
Overview de QA Overview de QA
Overview de QA
 
Linuxtips - a saideira
Linuxtips - a saideiraLinuxtips - a saideira
Linuxtips - a saideira
 
Performance no MongoDB - TDC 2017 | Florianópolis
Performance no MongoDB - TDC 2017 | FlorianópolisPerformance no MongoDB - TDC 2017 | Florianópolis
Performance no MongoDB - TDC 2017 | Florianópolis
 
Tibero
TiberoTibero
Tibero
 
Tunning PostgreSQL em modo OGRO - 13º Latinoware
Tunning PostgreSQL em modo OGRO - 13º LatinowareTunning PostgreSQL em modo OGRO - 13º Latinoware
Tunning PostgreSQL em modo OGRO - 13º Latinoware
 
OpenShift
OpenShiftOpenShift
OpenShift
 
Big data e a globo.com - 2017
Big data e a globo.com - 2017Big data e a globo.com - 2017
Big data e a globo.com - 2017
 
Monitoramento Enterprise com Zabbix+RHEL
Monitoramento Enterprise com Zabbix+RHELMonitoramento Enterprise com Zabbix+RHEL
Monitoramento Enterprise com Zabbix+RHEL
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Introdução ao Windows Azure - Sessão 1 (mais teórica)
Introdução ao Windows Azure - Sessão 1 (mais teórica)Introdução ao Windows Azure - Sessão 1 (mais teórica)
Introdução ao Windows Azure - Sessão 1 (mais teórica)
 
Devops - A cultura ágil voltada à infra-estrutura
Devops - A cultura ágil voltada à infra-estruturaDevops - A cultura ágil voltada à infra-estrutura
Devops - A cultura ágil voltada à infra-estrutura
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis Paulino
 
TDC2018SP | Trilha Serveless - Pra que SERVErless?
TDC2018SP | Trilha Serveless - Pra que SERVErless?TDC2018SP | Trilha Serveless - Pra que SERVErless?
TDC2018SP | Trilha Serveless - Pra que SERVErless?
 
Apresentação Gerpro
Apresentação GerproApresentação Gerpro
Apresentação Gerpro
 
Docker + Bancos de Dados: isto é possível? - Databases SP - Março-2018
Docker + Bancos de Dados: isto é possível? - Databases SP - Março-2018Docker + Bancos de Dados: isto é possível? - Databases SP - Março-2018
Docker + Bancos de Dados: isto é possível? - Databases SP - Março-2018
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Docker + Bancos de Dados: descomplicando a montagem de ambientes de Desenvolv...
Docker + Bancos de Dados: descomplicando a montagem de ambientes de Desenvolv...Docker + Bancos de Dados: descomplicando a montagem de ambientes de Desenvolv...
Docker + Bancos de Dados: descomplicando a montagem de ambientes de Desenvolv...
 
Sistemas para o Mundo Real - TDC 2012
Sistemas para o Mundo Real - TDC 2012Sistemas para o Mundo Real - TDC 2012
Sistemas para o Mundo Real - TDC 2012
 

Dev Parana - Praticas Devops aplicadas a Big Data

  • 1. Know your data. Get inspired! Práticas DevOps aplicadas a Big Data
  • 2. Quem somos? Alexandre Cardoso • Cientista da Computação, pós-graduado em Big Data • +20 anos fazendo software • Últimos 7 anos dedicados ao Big Data • CEO & founder da Datenworks Gustavo Biondo • Engenheiro da Computação • +5 anos de xp Cloud e DevOps • 6 meses focado em Big Data • Líder de Operações e Sócio da Datenworks
  • 3. Agenda ● Arquiteturas de Big Data ○ Organização para reutilização ○ Terraform & Terragrunt ● Acelerando o Time to Market ○ CI/CD para Big Data ● Monitoramento ○ Centralização de Logs & Métricas ○ Dashboards ○ Alarmes
  • 4. Big Data – Do que estamos falando? 5 V's do Big Data VOLUME VARIEDADE VERACIDADE VALOR VELOCIDADE ● [Muitos] terabytes ● Transações ● Tabelas ● Arquivos ● Estruturado ● Não-estruturado ● Multi-fator ● Probabilístico ● Fidedigno ● Autêntico ● Disponível ● Não-repúdio ● Verificável ● Estatística ● Insights ● Correlações ● Hipóteses ● Batch ● Near/realtime ● Processos ● Streaming
  • 5. Big Data em (alguns) números - 2020 ➔ $189,1 bilhões - Receita projetada mundial com soluções de Big Data Analytics em 2019 [1] ➔ Em 2020, teremos gerado aproximadamente 40 trilhões de gigabytes de dados [2] ➔ $274.3 bilhões - Receita projetada mundial com soluções de Big Data Analytics em 2022 [1] ➔ Usuários na internet deverão gerar aproximadamente 2.5 quintilhões de bytes todos os dias [2] ➔ Usando Big Data, Netflix economiza $1 bilhão por ano em retenção de clientes [1] ➔ 8-10% de aumento no lucro em negócios que utilizam Big Data [1] [1] https://financesonline.com/big-data-statistics [2] https://techjury.net/blog/big-data-statistics
  • 6. Como erguer um Big Data? Data Sources Fault Tolerance / Elasticity / High Availability Metadata Data Quality Data Catalog Security Ingestion Tier [Near] Real-time Batch Data Tier Raw Data Refined Data Trusted Data Processing Analysis Ad-hoc query API calls Visualization Events Knowledge Tier Consumers BI Tools People Companies & Partners
  • 7. Qual é o desafio? ➔ Implantação manual? Sem chance! ➔ Como garantir estado (esperado/realizado)? ➔ Gerenciar configuração em escala? ➔ Implantar continuamente com confiança e sem regressão? ➔ Como monitorar e "dormir em paz"? ➔ Como medir e antecipar problemas?
  • 8. Terraform & Terragrunt ● Infraestrutura como código ● HCL ● Diminuir a repetição de código ● Organização e padronização
  • 9. Modelo de 3 camadas
  • 10. 1ª Camada - Modules Glue_catalog Kinesis_firehose Lambda
  • 11. 2ª Camada - Blueprints
  • 12. 3ª Camada - Environments
  • 13. Terraform & Terragrunt ● Garante stacks 100% idênticas ● Ajuda no versionamento dos ambientes ● Replicação ágil de ambientes
  • 14. Como integrar tudo isso no CI/CD?
  • 15. Como integrar tudo isso no CI/CD? ● Vários players para execução ● Arquivos de configuração simples ● Free Tiers <3
  • 16. Como integrar tudo isso no CI/CD? Environments (camada 3)
  • 17. E o Monitoramento? Usuários & Aplicações Processos OS Load Balancer Batch job App Server Web Server Database Services CPU Memory Disk Network Sistema de Monitoramento UI Estrutura Monolítica
  • 18. E o Monitoramento? Estrutura Distribuída / Assíncrona? Database CDC engine Queue ETL process Object store Massive Parallel Processing Lakehouse Visualization 😱
  • 19. Afinal, o que é "monitorar"? ➔ Monitorar ◆ Coletar, processar, agregar e exibir dados quantitativos e descritivos sobre um sistema e seu comportamento ➔ Caixa-branca ◆ Obter dados a partir dos internals de um determinado sistema ou componente, como logs, métricas JMX, memory dump, etc. ➔ Caixa-preta ◆ Observar e analisar o comportamento de um sistema do ponto de vista do usuário, a partir de indicadores mensuráveis (tempo de resposta, taxa de erros, etc) ➔ Dashboard ◆ Um painel para acompanhamento visual de indicadores principais de um sistema/aplicação
  • 20. Como centralizar e analisar tudo isso? ● Bom e velho ELK!! ● Beats vs Logstash ● Serviços coletando métricas/logs de serviços
  • 23. Open Distro <3 ● Monitors & Triggers ● Notifications ● Dashboards
  • 26. Quer entender um pouco mais dessa stack? https://datenworks.com/blog