SlideShare uma empresa Scribd logo
1 de 48
Baixar para ler offline
BigData
Iniciando meu estudo com Grandes Dados
email: susana.bouchardet@gmail.com
1
2
3
➤Volume: Muitos dados,
desafio de armazenamento.
➤Variedade: diferentes
f o r m a t o s d e d a d o s
estruturados e/ou não.
➤Veracidade: Acurácia e
autenticidade.
➤Valor: Retorno desses
dados para o negócio.
➤Velocidade: Tempo entre
dado gerado e analisado.
BigData
5V
Descrição do Problema
Captura de
Dados
Armazenamento
Processamento
Analise
6
GFS
➤Publicado em 2003
➤Revolucionário
➤arquivos em chunks de
64mb
➤cada chunk esta no
mínimo em 3 máquina
7
MapReduce
➤Publicado em 2004
➤modelo para processar
grandes volumes de
dados.
➤Técnica muito usada em
linguagens funcionais
8
MapReduce
Deer Bear River
Car Car River
Deer Car Bear
9
MapReduce
10
Hadoop
➤Nasceu no Yahoo em 2006
➤HDFS
➤HadoopMapReduce
➤HadoopYarn
➤Bancos de dados e novos
Frameworks surgiram
baseados nele.
11
Kafka
12
HBase
➤Foi criado para ser usado
com Hadoop
➤Banco Distribuido
➤Distribuído em 

Master > RegionServers >
Regions
➤ Orientado por colunas
13
Airflow
➤Criado em 2014 pelo
AirBnB
➤Conceit de DAG:
sequencia de tarefas a
serem executadas em
ordem.
➤ Agendor de DAG’s
➤ Divide a DAG em tasks
14
Airflow
15
Será que a Globo.com precisa
mesmo?
15
Números
3 Bilhões de eventos diários
2 Milhões de conexões simultâneas
50 Milhões de usuários únicos por mês
100 Mil novos conteúdos por mês
100 Mil recomendações por minuto
+20 algoritmos diferentes
Pra que tudo isso?
Pra que tudo isso?
➤Predição
➤Personalização
➤Saber mais sobre o
público
➤Distribuição mais
inteligente de
publicidade
17
➤Aplicações até 100
vezes mais rápido em
memória e até 10 vezes
mais rápido em disco
➤Nasceu em 2014
➤Foco em velocidade, facilidade de uso e
análises sofisticadas
Spark
18
Spark
19
➤RDD (Resilient Distributed Datasets)
Spark
20
➤RDD
Spark
20
➤RDD
Spark
x: [[1],[2,3]]
y:[1,2,3]
21
➤RDD
Spark
21
➤RDD
Spark
x: [[1],[2,3]]
y: 2
22
➤RDD
Spark
23
Spark
➤RDD
23
x: [‘a','b','c']
y: [(‘a’,1),
(’b’,1),
(’c’,1)]
Spark
➤RDD
24
➤RDD
Spark
24
➤RDD
Spark
x: [1,2,3]
y: [2,3]
25
➤RDD
Spark
25
➤RDD
Spark
x: [[1],[2],
[3],[4]]
y: 10
26
➤RDD
Spark
== ?
26
➤RDD
Spark
== ?
y: 2 y: -4
Porque?
27
➤RDD
Spark
28
Spark
➤RDD
28
x: [1,2,3]
y: [1,1,42,
2,4,42,
3,9,42]
Spark
➤RDD
29
➤RDD
Spark
29
➤RDD
Spark
x: ['a','a','b','b']
y: [('a',2),
('b',2)]
30
➤RDD
Spark
30
➤RDD
Spark
x: [('a',1),
('a',1),
('b',1),
('b',1)]
y: [(‘a’,[1,1]),
(‘b’,[1,1])]
31
Spark
Exemplo
32
33
34
35
36
37
OBRIGADA!
susana bouchardet
@s_bouchardet

Mais conteúdo relacionado

Mais procurados

Big Data com MATLAB (Tiago Monteiro), Webinar ao vivo
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivoBig Data com MATLAB (Tiago Monteiro), Webinar ao vivo
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivoOpencadd Advanced Technology
 
Big Data - Uma Introdução
Big Data - Uma IntroduçãoBig Data - Uma Introdução
Big Data - Uma IntroduçãoThiago Rigo
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
Apresentação TDC 2018 - Go e Banco de Dados
Apresentação TDC 2018 - Go e Banco de DadosApresentação TDC 2018 - Go e Banco de Dados
Apresentação TDC 2018 - Go e Banco de DadosMarcelo Krüger
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Arthur Souza
 
Amazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo RealAmazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo RealAmazon Web Services LATAM
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passosrhpinotti
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 

Mais procurados (14)

Big Data com MATLAB (Tiago Monteiro), Webinar ao vivo
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivoBig Data com MATLAB (Tiago Monteiro), Webinar ao vivo
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivo
 
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
 
Cassandra Trip Brasil
Cassandra Trip BrasilCassandra Trip Brasil
Cassandra Trip Brasil
 
BrunoSQLSaturday424
BrunoSQLSaturday424BrunoSQLSaturday424
BrunoSQLSaturday424
 
Big Data - Uma Introdução
Big Data - Uma IntroduçãoBig Data - Uma Introdução
Big Data - Uma Introdução
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Apresentação TDC 2018 - Go e Banco de Dados
Apresentação TDC 2018 - Go e Banco de DadosApresentação TDC 2018 - Go e Banco de Dados
Apresentação TDC 2018 - Go e Banco de Dados
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
Amazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo RealAmazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo Real
 
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
 
Proposta de arquitetura Hadoop
Proposta de arquitetura HadoopProposta de arquitetura Hadoop
Proposta de arquitetura Hadoop
 
Big data
Big dataBig data
Big data
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 

Semelhante a OverviewBigData_PythonSudeste2017

Xen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearchXen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearchBernardo Donadio
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Ferramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big DataFerramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big DataAlvaro Viebrantz
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas VertentesUnicamp
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaGlaucio Scheibel
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 

Semelhante a OverviewBigData_PythonSudeste2017 (20)

Big Data
Big DataBig Data
Big Data
 
Big Data
Big DataBig Data
Big Data
 
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearchXen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearch
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Web Scale Data Management
Web Scale Data ManagementWeb Scale Data Management
Web Scale Data Management
 
Big data
Big dataBig data
Big data
 
Big data e a globo.com - 2017
Big data e a globo.com - 2017Big data e a globo.com - 2017
Big data e a globo.com - 2017
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Ferramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big DataFerramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big Data
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas Vertentes
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência Poliglota
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
Qcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes WorkshopQcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes Workshop
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 

OverviewBigData_PythonSudeste2017