Big	Data	e	Hadoop
- O	poder da	informação
22/07/2017
2 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved2
Thiago	Santiago
Engenheiro de	Soluções Hadoop	na Hortonworks
• 10	anos de	experiência profissional de	TI	em desenvolvimento e	arquitetura e	aplicações.
• Experiência em Plataformas DataGrid,	Soluções NoSQL	e	arquiteturas distribuídas de	computação e	
GoF Design	Patterns
• Experiência em ALM	(Application	Lifecycle	Management)	e	CI	(Continuous	integration)
Projetos em BigData
• Vivo
• TIM
• Banco	do	Brasil
• B2W	
linkedin.com/in/thiagosantiago/
3 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
The	Buzzword…
4 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
BigData Implícito…
5 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
6 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
O	que	é BigData?
7 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
O	Big	Data	procura responder	a	perguntas como:	Por quê?	E	se?	O	que	
acontecerá?	Como	otimizar?	E	fornecer novos insights
O	intuito final	é apenas um: dominar a	informação!
Big	Data	é baseado em 3	pilares:
Veracidade e	Valor
8 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Informação é poder!
9 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
10 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
11 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Informação é poder!
12 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
?
Quantas vezes Homens e
mulheres no Tinder movem
seus dedos para a esquerda e
direita nas telas de seus
dispositivos por minuto?
13 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Mudança de	era…
Papa	Bento
Papa	Francisco
14 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
8ZB
DATAINTERNET
OF
ANYTHING
44ZB
DATA
2020
14 ©	Hortonworks	Inc.	2011	– 2016.	All	Rights	Reserved
Byte
Kilobyte	(KB)
Megabyte	(MB)
Gigabyte	(GB)
Terabyte	(TB)	
Petabyte	(PB)
Exabyte	(EB)	
Zettabyte	(ZB)
15 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Como	analisar essa quantidade de	informação?
16 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Hadoop
https://pt.wikipedia.org/wiki/Hadoop
Plataforma de	software	em Java	de	computação distribuída voltada para	clusters	e	processamento de	grandes
massas de	dados.	
Foi inspirada no	MapReduce e	no	GoogleFS (GFS).	Trata-se	de	um	projeto da	Apache	de	alto	nível,	que	vai
sendo construído por uma comunidade de	contribuidores Java.	
O	Yahoo!	tem	sido o	maior contribuidor do	projeto,	utilizando essa plataforma intensivamente em seus
negócios.
17 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
O	que	é
MapReduce?
18 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Evolução do	Hadoop
19 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Possibilitar que	clientes consigam extrair informações valiosas de	
dados	complexos em soluções escaláveis e	confiáveis.
Qual a	função de	uma distribuição hadoop?
20 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Players
21 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
The	Forrester	Wave™:	Big	Data	Warehouse,	Q2	2017
Hortonworks	delivers a	viable open	source BDW	platform.
Hortonworks	delivers actionable intelligence from all kinds of
data-in-motion and data-at-rest.	Through its	open	source
strategy,	Hortonworks	continually evolves	its	offering by
working closely with partners across the EDW	ecosystem of
tools	and vendors.	The	vendor provides a	cost-effective,	
nimble,	and scalable architecture to implement big	data	
warehouses,	whether on-premises or in	the cloud.	All of the
technology built into the Hortonworks	Data	Platform	is an
Apache	open	source project.	Enterprises like Hortonworks'	
storage and compute	processing,	broad data	ingestion,	data	
governance,	and open	source support when deploying BDW,	
but they claim it	lags in	data	transformation and data	
modeling capabilities.
22 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
A	Connected	Data	
Strategy	Solves	
for	All	Data
DATA	IN	MOTION DATA	AT	REST
23 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Capture
streaming	data
Deliver
perishable	insights
Combine
new	&	old	data
Store
data	forever
Access
a	multi-tenant	data	lake
Model
with	artificial	intelligence
DATA	AT	RESTDATA	IN	MOTION
ACTIONABLE
INTELLIGENCE
Perishable	Insights Historical	Insights
24 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
The	Datalake
HDP
HDF
Data	Science
IT	Systems	&	Ops
25 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
HORTONWORKS	DATA	FLOW
NIFI
STREAMING	&	INTEGRATION OPERATIONS SECURITY
1.2.0
HDF	3.0
1H2017
1.0.0
HDF	2.0
Mar	2016
*	HDF	3.0	– Shows	current	Apache	branches	being	used.	Final	component	version	subject	to	change	based	on	Apache	release	process.
1.1.0
SuperSet
TP
Ranger
0.7.0
0.5.0
0.6.0
Ambari
2.5.1
2.4.0
2.4.2
Kafka
0.10.1.0
0.9.0
0.10.0
Zookeeper
3.4.6
3.4.6
3.4.6
Storm
1.1.0
1.0.1
1.0.2
SAM
0.5.0
Schema	Registry
0.3.0
HDF	2.1
Aug	2016
Ongoing	Innovation	in	Apache
Hortonworks	Data	Flow	3.0
HDP	2.2
Dec	2014
HDF	1.0
Dec	2014
0.3.0
0.6.1
HDF	1.2
Oct	2015
MiNiFi
0.2.0
1.0.0
0.0.1
0.10.0
26 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
HORTONWORKS	DATA	PLATFORM
Hadoop
&	YARN	
DATA	MGMT DATA		ACCESS GOVERNANCE	&	INTEGRATION OPERATIONS SECURITY
HDP	2.2
Dec	2014
HDP	2.2
Dec	2014
2.2.0
2.4.0
2.6.0
2.7.1
HDP	2.3
Oct	2015
2.7.3
HDP	2.6*
1H2017
2.7.1
HDP	2.4
Mar	2016
*	HDP	2.6	– Shows	current	Apache	branches	being	used.	Final	component	version	subject	to	change	based	on	Apache	release	process.
**	Spark	1.6.3+	Spark	2.1	– HDP	2.6	supports	both	Spark	1.6.3	and	Spark	2.1	as	GA.
***	Hive	2.1	is	GA	within	HDP	2.6.
****	Apache	Solr	is	available	as	an	add-on	product	HDP	Search.
2.7.3
Sqoop
1.4.4
1.4.5
1.4.4
1.4.6
1.4.6
1.4.6
1.4.6
Druid
0.9.2
Knox
0.4.0
0.5.0
0.6.0
0.11.0
0.6.0
0.9.0
Ranger
0.4.0
0.5.0
0.7.0
0.5.0
0.6.0
Ambari
1.4.4
2.0.0
1.5.1
2.1.0
2.5.0
2.2.1
2.4.0
Kafka
0.8.2
0.8.1
0.10.1.0
0.9.0
0.10.0
Zookeeper
3.4.5
3.4.6
3.4.5
3.4.6
3.4.6
3.4.6
3.4.6
Flume
1.5.2
1.4.0
1.3.1
1.5.2
1.5.2
1.5.2
1.5.2
Solr
4.10.2
4.7.2
5.2.1
5.5.1
****
5.2.1
5.5.1
Slider
0.60.0
0.80.0
0.91.0
0.80.0
0.91.0
Atlas
0.5.0
0.8.0
0.5.0
0.7.0
Accumulo
1.6.1
1.5.1
1.7.0
1.7.0
1.7.0
1.7.0
Phoenix
4.0.0
4.2.0
4.4.0
4.7.0
4.4.0
4.7.0
Storm
0.9.3
0.10.0
0.9.1
1.1.0
0.10.0
1.0.1
Falcon
0.5.0
0.6.0
0.6.1
0.10.0
0.6.1
0.10.0
Tez
0.4.0
0.5.2
0.7.0
0.7.0
0.7.0
0.7.0
Hive
0.12.0
0.13.0
0.14.0
1.2.1
1.2.1+
2.1***
1.2.1
1.2.1+
2.1***
Pig
0.12.0
0.12.1
0.14.0
0.15.0
0.16.0
0.15.0
0.16.0
HDP	2.5
Aug	2016
Oozie
3.3.2
4.1.0
4.0.0
4.2.0
4.2.0
4.2.0
4.2.0
Spark
1.2.1
1.4.1
1.6.3+
2.1**
1.6.0
1.6.2+
2.0**
HBase
0.98.4
0.96.1
0.98.0
1.1.2
1.1.2
1.1.2
1.1.2
Zeppelin
0.7.0
0.6.0
HDP	2.1
April	2014
HDP	2.0
Oct	2013
Ongoing	Innovation	in	Apache
Hortonworks	Data	Platform	2.6
27 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Ecosistema Hadoop
28 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Client
Use	CasesLegacy Cluster
Lambda	Standard	Architecture
Analytics,	BI,	Ad-hoc	
Exploration
Visualization
& Reporting
Real Time Views
Tooling
SuperSet
Bach Views
Custom Applications
Dashboards
Serving	Layer
Ingest
Atlas/Ranger
Analytics,	BI,	Ad-hoc	
Exploration
Data
Exploration
All Data
HDFS
Tooling
Hive
Batch	Layer
Model
Building
R
Spark
Marketing
Others
Customer	Sentiment	&	Churn	
Use	Case	
Zeppelin
Network	Optimization	Journey
Real-time	Marketing	&	
Advertising
Relational Bases
Social Networks
WebSites
Mobile Apps
CDR - Network
OOT
Adwords/adserver
Beacon
TWW/Smart Focus
Tooling Data	Science,	Machine	
Learning
Model Pré-
processing
Complex
Event
Processing
Kafka SAM
Speed	Layer
Druid
…
CRM
29 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Watch	Towers
Limited	Entry	Points
Moat
Kerberos
How	to	Protect	the	Elephant?
High	Hard	Walls
Check	Identity
Inner	Walls
Firewall
HDFS	Encryption
LDAP/AD
HDP	2.6Apache	Knox
Apache	Ranger
30 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
O	que	fazem os grandes com	
Hadoop?
31 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Apenas um	dos	vários clusters	Hadoop	operados pela	empresa abrange mais
de	4.000	máquinas.
Facebook	Messager no	Apache	Hadoop	HBase platform para	suportar bilhões
de	mensagens por dia.
Usam Hive	para	os reports	e	análise de	grandes conjuntos de	dados.
32 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Foi o	primeiro a	oferecer a	opção “o	que	outros	compraram também”,	
obtendo instantaneamente vantagem competitiva com	relação a	seus
concorrentes;
33 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Utiliza Hadoop	para	sugerir automaticamente conteúdo a	seus usuários
baseado no	que	foi assistido anteriormente.	
Talvez o	melhor exemplo de	sucesso de	Big	Data,	o	Netflix	passou a	não
somente oferecer sugestões de	conteúdo similar,	mas	sim	produzir
conteúdo direcionado para	as	preferências das	massas,	de	acordo com	o	
que	vem “aprendendo”	ao longo dos	anos.
34 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
“Aprende”	sobre a	rotina diária das	pessoas,	e	sugere automaticamente meios
de	transporte,	restaurantes,	opções de	entretenimento,	entre	outras coisas,	
baseando-se	no	comportamento individual	de	cada um.
35 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Analisa em tempo	real	a	situação do	trânsito das	cidades,	e	sugere o	caminho
mais rápido,	baseado no	feedback	dos	usuários e	de	análises de	velocidade de	
deslocamento informados automaticamente pelos dispositivos conectados;
36 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
O	site	de	namoro online	recentemente atualizou seu ambiente na nuvem,	
usando Hadoop	e	os processadores Intel	Xeon	E5	para	analisar um	volume	
massivo e	variado de	dados.	A	tecnologia ajuda a	eHarmony	a	disponibilizar
novas combinações a	milhões de	pessoas diariamente.	O	novo	ambiente
cloud	acomoda análises mais complexas,	criando resultados mais
personalizados e	aumentando a	chance	de	sucesso nos relacionamentos.
38 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Flink
BigData ou Pokemon?
Spark
39 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Jirachi
BigData ou Pokemon?
40 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Pangol
BigData ou Pokemon?
MapReduce
41 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Akiban
BigData ou Pokemon?
Data Base
42 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Spoink
BigData ou Pokemon?
43 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Seahorse
BigData ou Pokemon?
Spark
44 ©	Hortonworks	Inc.	2017.	All	Rights	Reserved
Summingbird
BigData ou Pokemon?
Storm
Obrigado!
tsantiago@hortonworks.com
www.linkedin.com/in/thiagosantiago
(11) 9-9298-9601

Instituto Infnet - BigData e Hadoop