SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
28 FEV ‘18
Arquitetura Big Data
v.01
1
Digital Architecture Meetup
Adriano Gomes Batista dos Santos
2
Arquiteto de soluções do time de Digital Architecture da everis:
o Arquitetura Digital
o Arquitetura Big Data
o Devops
o Arquitetura Orientada a Serviços (SOA)
o Arquitetura Java
Academia
o Bacharel em Ciência da Computação (PUC-SP).
o Especialização em Arquitetura de Software (UNICAMP).
o Especialização em Orientação a Objetos (UNICAMP).
o MBA em TI (USP).
o Técnico em Processamento de Dados (Flamingo).
adriano.batista.santos@everis.com https://www.linkedin.com/in/adrianoarquitetoti/
Assuntos
3
O caso do Navio Vasa, Reflexão!
Características Arquitetura Big Data
Arquitetura de Referência Big Data
Arvore de decisão Big
Data
4
Vasa – O navio de guerra
O caso do Navio Vasa, Reflexão!
Cliente
• Rei sueco Gustave Adolphus, 1626-1628;
• Em guerra com a Polônia;
• O patrocinador do projeto;
Requisito
• Construir um barco novo: 70 metros de comprimento para comportar
300 soldados, com 64 canhões pesados dispostos em dois decks;
Arquiteto
• O arquiteto Henrik Hybertsson foi contratado para construir o Navio;
Usuários
•Projetou o navio
Vasa como se
fosse um navio
com apenas um
deck ;
•Extrapolou o
projeto para
comportar um
deck duplo de
canhões;
PreocupaçõesdoArquiteto
•1 - Prazo;
•2 - Desempenho;
•3 - Funcionalidade;
•4 - Confiabilidade;
•5 - Custo;
DesempenhodoArquiteto
Vasa - O navio de guerra
5 Fonte: https://www.vasamuseet.se/pt
• A tripulação do navio.
O caso do Navio Vasa, Reflexão!
O que você faria?
Reflexão
Vasa - O navio de guerra
6
O que o arquiteto poderia ter feito antes para evitar que apenas no dia da
entrega do navio fosse descobertos os problemas?
Resultado do Projeto
•Em 1628 o navio afundou na baía de Estocolmo na sua viagem inaugural;
•Navio se inclinou devido forte vento; Água entrou pelas portas abertas dos canhões que foram disparados;
•1/3 dos tripulantes morreram;
O caso do Navio Vasa, Reflexão!
Reflexão
7
Arquitetura Big Data
Big Data
8
O Big Data é conceito que
diz respeito a análise,
processamento com alta
velocidade, e
armazenamento de
grandes volumes e
variedades de dados.
Características Arquitetura Big Data
O Apache Hadoop é um
ecossistema(conjunto de
softwares) open-source para
armazenamento de dados em
larga escala e processamento
distribuído em clusters de
computadores. É o pioneiro na
geração de tecnologias Big Data.
Casos de usos
“Diminuição da quantidade
de carros circulando nas
cidades: economia de
combustível e diminuição da
poluição.”
“Monitora os
equipamentos de
forma preventiva
para detectar o
aparecimento de
defeitos”.
9
Escalabilidadevertical
Escalabilidade horizontal
o Alto custo $
o Escalabilidade limitada
o Aumento dos recursos da máquina
o Melhor custo $
o Escalabilidade ilimitada
o Adição de máquinas ao cluster
Processamento Distribuído
Arquitetura tradicional Arquitetura Big Data
Características Arquitetura Big Data
10
Dados são copiados do computador repositório para serem processados em outros computadores.
Armazenamento e processamento
Dados
Computador Repositório
Arquitetura tradicional
Dados
“Computador X “
Processamento
“Computador Y “
Processamento
“Computador Z “
Processamento
Características Arquitetura Big Data
11
o Dado é distribuído quando é
armazenado;
o A computação do dado
ocorre onde esta o dado
armazenado;
o Sistemas modernos geram
mais dados;
o Terabytes são gerados
diariamente;
Armazenamento e processamento
Dados
Dados
Arquitetura Big Data
Arquitetura tradicional
Dados
Computador Repositório
“Computador X “
Processamento
“Computador Y “
Processamento
“Computador Z“
Processamento
“Computador X “
Processamento e
Repositório
“Computador y “
Processamento e
Repositório
“Computador Z “
Processamento e
Repositório
Características Arquitetura Big Data
12
Velocidade em disco
Armazenamento e processamento
Velocidade em memória
Características Arquitetura Big Data
13
A seguir ilustração referente o HDFS (Hadoop Distributed File System):
Perspectiva de um arquivo de entrada de 600 MB cujo é dividido em 5 blocos.
o O tamanho default dos blocos no HDFS é de 128 MB;
Armazenamento Big Data
Qual é o total de
espaço aproximado
que o arquivo ocupa
após ser armazenado
nos computadores?
a – 600 MB
b – 1920 MB
c – 1800 MB
d – 128 MB
e – nda
Reflexão
Características Arquitetura Big Data
Perspectiva do arquivo de entrada armazenado replicado nos
computadores.
Computador
X
Computador
y
Computador
z
Computador
i
Computador
j
14
Figura Os preços de armazenamento de dados caíram dramaticamente de mais de US $ 10.000 para menos de
US $ 0,10 por GB ao longo das décadas.
Custo de armazenamento
Características Arquitetura Big Data
15
Comunidade
Open Source
Características Arquitetura Big Data
Ingestion Batch Layer Service Layer ApplicationsSources
Governance & Security
DevOps
Fast Layer
16
DATA VISUALIZATION
DATA EXPLORATION
API GATEWAY /
ESB
CRYPITOGRAPHY ACCESS CONTROL
WORKLOAD
ANALYTICS / MACHINE
LEARNING
AUTOMATION CONTINUOUS DELIVERY CONTINUOUS INTEGRATION
Arquitetura de Referência – Perspectiva lógica
Arquitetura de Referência Big Data
Social
Audio/Video
DB
DocsArquivos
SensoresWeb
API
Filas
Batch
Fast
PERSISTENCE
Distribuido No-SQL
Scheduler
PROCESSING
Distribuido
PERSISTENCE
No-SQL
PROCESSING
Fast
APPs
CEP Regras
17
Ingestion Batch Layer Service Layer ApplicationsSources
Governance & Security
DATA EXPLORATION
DATA VISUALIZATION
PERSISTENCE
PROCESSING
WORK LOAD
Fast Layer
MACHINE LEARNING
Arquitetura de Referência – Perspectiva técnica - Batch
Arquitetura de Referência Big Data
Social
Audio/Video
DB
DocsArquivos
SensoresWeb
API
Filas
DevOps
Jupyter Zeppelin
MLlib
Scikits
18
Ingestion Batch Layer Service Layer ApplicationsSources
Governance & Security
DevOps
Fast Layer
API GATEWAY /
ESB
APPs
Arquitetura de Referência – Perspectiva técnica - Fast
Arquitetura de Referência Big Data
Social
Audio/Video
DB
DocsArquivos
SensoresWeb
API
Filas
PERSISTENCE
PROCESSING
19
Ferramentas Big Data
Quais
ferramentas
escolher para
desenvolver o
seu caso de uso
Big Data?
Arquitetura de Referência Big Data
Arvore de
decisão Big
Data ...
Obrigado, vamos juntos!
FEV‘18
20

Mais conteúdo relacionado

Semelhante a Arquitetura Big Data: Características e Referência

Palestra Edge Computing Sistemas Embarcados.pdf
Palestra Edge Computing Sistemas Embarcados.pdfPalestra Edge Computing Sistemas Embarcados.pdf
Palestra Edge Computing Sistemas Embarcados.pdfGustavo Ferreira Palma
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura
 
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearchXen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearchBernardo Donadio
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Arquitetura para otimização de legado
Arquitetura para otimização de legadoArquitetura para otimização de legado
Arquitetura para otimização de legadoClóvis Wichoski
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealMarco Garcia
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
Rails Summit 2008 - Web Operations - George Guimarães - Pagestacker
Rails Summit 2008 - Web Operations - George Guimarães - PagestackerRails Summit 2008 - Web Operations - George Guimarães - Pagestacker
Rails Summit 2008 - Web Operations - George Guimarães - PagestackerGeorge Guimarães
 
TDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload Analítico
TDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload AnalíticoTDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload Analítico
TDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload Analíticotdc-globalcode
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 

Semelhante a Arquitetura Big Data: Características e Referência (20)

Palestra Edge Computing Sistemas Embarcados.pdf
Palestra Edge Computing Sistemas Embarcados.pdfPalestra Edge Computing Sistemas Embarcados.pdf
Palestra Edge Computing Sistemas Embarcados.pdf
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearchXen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearch
 
SQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake MulticloudSQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake Multicloud
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
 
BigData MapReduce
BigData MapReduceBigData MapReduce
BigData MapReduce
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
TDC - Planejando data Lake com big data clusters
TDC - Planejando data Lake com big data clustersTDC - Planejando data Lake com big data clusters
TDC - Planejando data Lake com big data clusters
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Arquitetura para otimização de legado
Arquitetura para otimização de legadoArquitetura para otimização de legado
Arquitetura para otimização de legado
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x Deal
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Rails Summit 2008 - Web Operations - George Guimarães - Pagestacker
Rails Summit 2008 - Web Operations - George Guimarães - PagestackerRails Summit 2008 - Web Operations - George Guimarães - Pagestacker
Rails Summit 2008 - Web Operations - George Guimarães - Pagestacker
 
PostgreSQL
PostgreSQLPostgreSQL
PostgreSQL
 
TDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload Analítico
TDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload AnalíticoTDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload Analítico
TDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload Analítico
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Meetup Tivir - Big Data Clusters
Meetup Tivir - Big Data ClustersMeetup Tivir - Big Data Clusters
Meetup Tivir - Big Data Clusters
 

Arquitetura Big Data: Características e Referência

  • 1. 28 FEV ‘18 Arquitetura Big Data v.01 1 Digital Architecture Meetup
  • 2. Adriano Gomes Batista dos Santos 2 Arquiteto de soluções do time de Digital Architecture da everis: o Arquitetura Digital o Arquitetura Big Data o Devops o Arquitetura Orientada a Serviços (SOA) o Arquitetura Java Academia o Bacharel em Ciência da Computação (PUC-SP). o Especialização em Arquitetura de Software (UNICAMP). o Especialização em Orientação a Objetos (UNICAMP). o MBA em TI (USP). o Técnico em Processamento de Dados (Flamingo). adriano.batista.santos@everis.com https://www.linkedin.com/in/adrianoarquitetoti/
  • 3. Assuntos 3 O caso do Navio Vasa, Reflexão! Características Arquitetura Big Data Arquitetura de Referência Big Data Arvore de decisão Big Data
  • 4. 4 Vasa – O navio de guerra O caso do Navio Vasa, Reflexão!
  • 5. Cliente • Rei sueco Gustave Adolphus, 1626-1628; • Em guerra com a Polônia; • O patrocinador do projeto; Requisito • Construir um barco novo: 70 metros de comprimento para comportar 300 soldados, com 64 canhões pesados dispostos em dois decks; Arquiteto • O arquiteto Henrik Hybertsson foi contratado para construir o Navio; Usuários •Projetou o navio Vasa como se fosse um navio com apenas um deck ; •Extrapolou o projeto para comportar um deck duplo de canhões; PreocupaçõesdoArquiteto •1 - Prazo; •2 - Desempenho; •3 - Funcionalidade; •4 - Confiabilidade; •5 - Custo; DesempenhodoArquiteto Vasa - O navio de guerra 5 Fonte: https://www.vasamuseet.se/pt • A tripulação do navio. O caso do Navio Vasa, Reflexão! O que você faria? Reflexão
  • 6. Vasa - O navio de guerra 6 O que o arquiteto poderia ter feito antes para evitar que apenas no dia da entrega do navio fosse descobertos os problemas? Resultado do Projeto •Em 1628 o navio afundou na baía de Estocolmo na sua viagem inaugural; •Navio se inclinou devido forte vento; Água entrou pelas portas abertas dos canhões que foram disparados; •1/3 dos tripulantes morreram; O caso do Navio Vasa, Reflexão! Reflexão
  • 8. Big Data 8 O Big Data é conceito que diz respeito a análise, processamento com alta velocidade, e armazenamento de grandes volumes e variedades de dados. Características Arquitetura Big Data O Apache Hadoop é um ecossistema(conjunto de softwares) open-source para armazenamento de dados em larga escala e processamento distribuído em clusters de computadores. É o pioneiro na geração de tecnologias Big Data. Casos de usos “Diminuição da quantidade de carros circulando nas cidades: economia de combustível e diminuição da poluição.” “Monitora os equipamentos de forma preventiva para detectar o aparecimento de defeitos”.
  • 9. 9 Escalabilidadevertical Escalabilidade horizontal o Alto custo $ o Escalabilidade limitada o Aumento dos recursos da máquina o Melhor custo $ o Escalabilidade ilimitada o Adição de máquinas ao cluster Processamento Distribuído Arquitetura tradicional Arquitetura Big Data Características Arquitetura Big Data
  • 10. 10 Dados são copiados do computador repositório para serem processados em outros computadores. Armazenamento e processamento Dados Computador Repositório Arquitetura tradicional Dados “Computador X “ Processamento “Computador Y “ Processamento “Computador Z “ Processamento Características Arquitetura Big Data
  • 11. 11 o Dado é distribuído quando é armazenado; o A computação do dado ocorre onde esta o dado armazenado; o Sistemas modernos geram mais dados; o Terabytes são gerados diariamente; Armazenamento e processamento Dados Dados Arquitetura Big Data Arquitetura tradicional Dados Computador Repositório “Computador X “ Processamento “Computador Y “ Processamento “Computador Z“ Processamento “Computador X “ Processamento e Repositório “Computador y “ Processamento e Repositório “Computador Z “ Processamento e Repositório Características Arquitetura Big Data
  • 12. 12 Velocidade em disco Armazenamento e processamento Velocidade em memória Características Arquitetura Big Data
  • 13. 13 A seguir ilustração referente o HDFS (Hadoop Distributed File System): Perspectiva de um arquivo de entrada de 600 MB cujo é dividido em 5 blocos. o O tamanho default dos blocos no HDFS é de 128 MB; Armazenamento Big Data Qual é o total de espaço aproximado que o arquivo ocupa após ser armazenado nos computadores? a – 600 MB b – 1920 MB c – 1800 MB d – 128 MB e – nda Reflexão Características Arquitetura Big Data Perspectiva do arquivo de entrada armazenado replicado nos computadores. Computador X Computador y Computador z Computador i Computador j
  • 14. 14 Figura Os preços de armazenamento de dados caíram dramaticamente de mais de US $ 10.000 para menos de US $ 0,10 por GB ao longo das décadas. Custo de armazenamento Características Arquitetura Big Data
  • 16. Ingestion Batch Layer Service Layer ApplicationsSources Governance & Security DevOps Fast Layer 16 DATA VISUALIZATION DATA EXPLORATION API GATEWAY / ESB CRYPITOGRAPHY ACCESS CONTROL WORKLOAD ANALYTICS / MACHINE LEARNING AUTOMATION CONTINUOUS DELIVERY CONTINUOUS INTEGRATION Arquitetura de Referência – Perspectiva lógica Arquitetura de Referência Big Data Social Audio/Video DB DocsArquivos SensoresWeb API Filas Batch Fast PERSISTENCE Distribuido No-SQL Scheduler PROCESSING Distribuido PERSISTENCE No-SQL PROCESSING Fast APPs CEP Regras
  • 17. 17 Ingestion Batch Layer Service Layer ApplicationsSources Governance & Security DATA EXPLORATION DATA VISUALIZATION PERSISTENCE PROCESSING WORK LOAD Fast Layer MACHINE LEARNING Arquitetura de Referência – Perspectiva técnica - Batch Arquitetura de Referência Big Data Social Audio/Video DB DocsArquivos SensoresWeb API Filas DevOps Jupyter Zeppelin MLlib Scikits
  • 18. 18 Ingestion Batch Layer Service Layer ApplicationsSources Governance & Security DevOps Fast Layer API GATEWAY / ESB APPs Arquitetura de Referência – Perspectiva técnica - Fast Arquitetura de Referência Big Data Social Audio/Video DB DocsArquivos SensoresWeb API Filas PERSISTENCE PROCESSING
  • 19. 19 Ferramentas Big Data Quais ferramentas escolher para desenvolver o seu caso de uso Big Data? Arquitetura de Referência Big Data Arvore de decisão Big Data ...