Web aula 46: Conhecendo o
ecossistema BIG DATA
Fábio Jardim
https://www.linkedin.com/in/fjardim/
fabiogjardim@hotmail.com
http://highct.com.br
https://medium.com/@fbiojardim
www.projetoseti.com.br
Fábio Jardim
Bacharel em Ciência da Computação e Pós graduação em Análise de Big Data
Mais de 10 anos em plataforma de dados
Vivência em grandes e-commerces, varejo e banco
Arquiteto Big Data em projetos para grandes clientes
Atualmente em projetos no setor varejista e startups
Owner da High Consultoria e Treinamento
https://www.linkedin.com/in/fjardim/
fabiogjardim@hotmail.com
http://highct.com.br
https://medium.com/@fbiojardim
www.projetoseti.com.br
A evolução dos dados no nosso ambiente
Milhões de
transações
IOT
Bilhões de usuários em
rede sociais gerando
conteúdo a cada
segundo
Câmeras/Wifi
espalhadas pelas
lojas
Cada vez mais
pessoas usando
smartphones/intern
et
...
www.projetoseti.com.br
Onde armazenar
esses dados?
Como extrair
informações
valiosas desses
dados?
Como realizar
cruzamentos desses
dados com outras
fontes?
Os dados que eu uso
são os mesmos que
você usa?
Como processar
tantos dados?
Consigo prever o
futuro?
www.projetoseti.com.br
O Big Data
Grande conjunto de dados que excedem a capacidade de
armazenamento e processamento de dados convencional.
Principais características:
• Dados Estruturados, semi-estruturados e não estruturados
• Volume muito grande de dados
• Movem-se muito rápido
• Análise complexas de dados
www.projetoseti.com.br
Velocidade
VariedadeVolume
OS Vs
www.projetoseti.com.br
Onde armazenar tudo isso?
• Nasce o conceito de Data Lake.
• Vasto repositório com uma variedade de informações
brutas que podem ser adquiridas, processadas, analisadas
e entregues.
• Derivar insights relevantes para a empresa a partir
desta informação usando vários algoritmos de
análise e aprendizagem de máquinas.
www.projetoseti.com.br
DW x Datalake
Data Warehouse x DataLake
Estruturado e Processado Dados
Estruturado, semi-estruturado e não
estruturado
Dependente de esquema Processamento Livre de esquema
Alto custo para grandes volumes Armazenamento Desenvolvido para baixo custo
Configuração fixa, pouca agilidade Agilidade Configuração flexivel, alta agilidade
Consolidada Segurança Evoluindo
Área de negócios Usuários Data Scientists
www.projetoseti.com.br
Big Data e Analytics
Analytics
Métodos e
Algoritmos
Big Data
Data
Mining
Machine
Learning
Big
Data
Analytics
Software
www.projetoseti.com.br
O que é Hadoop
• Plataforma que fornece infraestrutura resiliente, econômica e
escalável
• Armazenamento e processamento distribuído para grandes
quantidades de dados
• Precursor do ecossistema Big Data
• 4 módulos na versão 2
HDFS, MapReduce, Hadoop Common e Yarn
Mike Cafarella Doug Cutting
www.projetoseti.com.br
O que é Hadoop
2002
2002
2004
2005
2006
2008
2003
2004
2006
2008
2010
Criação
do
Projeto
Nutch
Implentação
OpenSource
do GFS
chamada
NDFS (Nutch
Distributed
File System)
Equipe do
Nutch
implement
a versão
OpenSourc
e do
MapReduce
Doug
Cutting
entrou
para o
Yahoo!
Hadoop se
tornou um
projeto
independente
dentro da
Apache
Google
publica
paper
GFS
(Google
File
System)
Google
publica
paper
MapReduce
Criação do
Projeto
Hadoop
(NDFS+
MapReduce)
Yahoo! anunciou
seu index de
páginas web com
cluster de 10.000
máquinas
rodando Hadoop
Facebook
processa
40
petabyte
s
2012
Apache
Hadoop
1.0
disponíve
l
2013
Apache
Hadoop
2.2
disponíve
l
2017
Apache
Hadoop
2.8
disponíve
l
2017
www.projetoseti.com.br
Evolução do Ecossistema
HDFS
MapReduce
2006
Solr
Pig
HDFS
MapReduce
2007
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2008
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2009
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2010
Flume
BigTop
Oozie
Hcatalog
Hue
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2011
Spark
Tez
Impala
Kafka
Drill
Flume
BigTop
Oozie
Hcatalog
Hue
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2012
Parquet
Sentry
Spark
Tez
Impala
Kafka
Drill
Flume
BigTop
Oozie
Hcatalog
Hue
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2013
Knox
Flink
Parquet
Sentry
Spark
Tez
Impala
Kafka
Drill
Flume
BigTop
Oozie
Hcatalog
Hue
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2014
Kudu
RecordService
Falcon
Knox
Flink
Parquet
Sentry
Spark
Tez
Impala
Kafka
Drill
Flume
BigTop
Oozie
Hcatalog
Hue
Sqoop
Avro
Hive
Mahout
Hbase
Zookeeper
Solr
Pig
HDFS
MapReduce
2015
www.projetoseti.com.br
www.projetoseti.com.br
Principais distribuições
www.projetoseti.com.br
Eu preciso de um ambiente Big Data?
https://medium.com/via-varejo-arquitetura/voce-precisa-de-big-data-a373c59f3082
www.projetoseti.com.br
Onde usar Big Data?
Big
Data
Real Time
BI
Analytics
DW
Logs
Batch
Mensageria
Distribuição
de dados
www.projetoseti.com.br
Ecossistema Open Source
www.projetoseti.com.br
Ecossistema Open Source
www.projetoseti.com.br
O que preciso saber?
www.projetoseti.com.br
Os novos papéis
Data Engineer
• Processamento Batch e Real Time
• Consolidação de dados
• Preparação dos dados para o Data
Scientist
• Estrutura de dados
• Banco de dados relacional e NoSql
• Conhecimentos: Hive, Python, Scala,
HDFS, Spark, Hbase, Sqoop, Linux, Storm,
shell, etc…
Big Data Architect
• Definição de tecnologia
• Conhecimento abrangente entre as áreas
• Conhecimento nos diversos frameworks,
linguagens de programação e banco de dados
• Conhecimentos : Hadoop, Spark, Storm, Kafka,
Flume, Solr, Hbase, Pig, Hive, Zookeeper,
Python, Java, Scala, Cassandra, Sqoop, Linux,
Shell, cloud, network, etc…
www.projetoseti.com.br
O Data Scientist
• Ajudar na resolução de problemas
relacionados a negócios usando técnicas
orientadas as dados
• Aplicar técnicas de avançadas de analise
de dados como Machine Learning, Deep
Learning, Text analytics, etc...
• Trabalhar com uma variedade de
linguagens de programação assim como
Python, R, SAS, Scala, etc...
• Comunicar os resultados alcançados
www.projetoseti.com.br
Quem usa Big Data no Brasil
• Varejo
• Industria
• Governo
• Marketing
• Esporte
• Medicina
• Seguro
• Agricultura
• Finanças
www.projetoseti.com.br
Nossos patrocinadores
www.projetoseti.com.br
Nossas redes / Dúvidas e sugestões
 Pesquisa de satisfação: https://goo.gl/forms/9hGCntzMMOh6MyAp1
 Nosso site: http://www.projetoseti.com.br
 Linkedin: https://lnkd.in/eFSjBgi
 Facebook: https://fb.com/projetoseti.br
 Youtube: https://youtube.com/user/CanalProjetoseTI
 Twitter: @projetoseti
 Críticas e sugestões: contato@projetoseti.com.br

Web aula 46 - Conhecendo o ecossistema BIG DATA