SlideShare uma empresa Scribd logo
1 de 52
Baixar para ler offline
FERRAMENTAS E APLICAÇÕES EM
BIG DATA
@ A LVA R O V I E B R A N T Z / / AV I E B R A N T Z . C O M . B R
1
Nossa noção de sucesso mudou…
2
http://press.spotify.com/us/category/pictures/
3
4
5
4.7
bilhões de
página
A Web é gigante hoje
Era do
Zetabyte*
* 1000 Exabytes
36.000
anos
de video
em hd
Últimos
20anos
http://www.livescience.com/54094-how-big-is-the-internet.html
6
7
• Grande quantidade de dados
• Distribuição
• Escalabilidade
• Crescimento rápido
WEB 2.0
Trade offs
• NoSQL
• BASE
• Consistencia Eventual
• Modelo flexível ( Schemaless )
• Escalabilidade Horizontal
• Disponibilidade
• SQL
• ACID = Transações
• Consistência Forte
• Modelo rigido (Schema)
• Escalabilidade Vertical
X
RelacionamentosModelos Agregados
Familias principais de NoSQL
BigTable GraphKeyValue Store Document
http://www.nosql-database.org/
Ecossistema Poliglota
• Escolher a melhor ferramenta para o trabalho.
• Nenhuma ferramenta deve resolver todos os problemas.
X
SQL NoSQL
Persistencia Poliglota
• Resolve problemas específicos
• Torna possível novas formas de obtenção de dados e de
valor no que o usuário produz.
Redis
User
Session
MongoDB
Catalogo
Produtos
RDBMS
Financeiro
Neo4J
Recomen
dações
Dynamo
Carrinho
RDBMS
Relatórios
RDBMS
Financeiro
Cassandra
Log

Atividades
AFINAL O QUE É
BIG DATA ?
13
APENAS GRANDE QUANTIDADE DE DADOS ?
http://www.sas.com/pt_br/insights/big-data/what-is-big-data.html
14
http://datastorm.com.br/5v-big-data-estrutura/
O QUE FAZER COM ESSES DADOS ?
15
BIG DATA
A N A LY T I C S
16
B I G D ATA A N A LY T I C S
• Coleta de dados
• Processamento
• Análise
• Insights
• Tomadas de decisão orientada a dados, ou seja,
baseadas em informações.
17
http://www.bigdatabusiness.com.br/o-dicionario-do-big-data-3/
ALEMANHAC O PA D O M U N D O 2 0 1 4
18
http://exame.abril.com.br/tecnologia/noticias/solucao-de-big-data-e-um-
dos-segredos-da-alemanha-na-copa-2
Match
Insights
=
4 T I P O S D E B I G D ATA A N A LY T I C S
• Análise Descritiva
• Análise Diagnóstica
• Análise Preditiva
• Análise Prescritiva
19
http://www.bigdatabusiness.com.br/conheca-os-4-tipos-de-analises-de-big-data-analytics/
DESCRITIVAS I T U A Ç Ã O AT U A L
20
www.li.poli.ufrj.br/?project=nubank-a-queridinha-brasileira
A N Á L I S E
D E
C R É D I T O
A N Á L I S E
D E R I S C O S
DIAGNÓSTICA
C A U S A L I D A D E
21
http://www.bigdatabusiness.com.br/big-data-e-eleicoes-conheca-os-casos-
da-india-e-reino-unido/
A Ç Õ E S D E
M A R K E T I N G
A N Á L I S E
D E
I M PA C T O
E L E I Ç Õ E S
N O
R E I N O U N I D O
E I N D I A
C A S E
PREDITIVAF U T U R O
22
http://www.bigdatabusiness.com.br/o-que-e-analise-preditiva/
E N C O N T R A R
PA D R Õ E S
E S TAT Í S T I C A
C O M P O RTA
M E N T OC O PA D O
M U N D O
X
M A N I F E S TA Ç Õ E S
C A S E
PRESCRITIVAVÁ R I A S P O S S I B I L I D A D E S , O Q U E FA Z E R ?
23
http://www.kazap.com.br/analise-prescritiva-ciencia-de-dados-trabalhando-
para-o-futuro-da-sua-empresa/
S I M U L A R
E S E E U
F I Z E R
I S S O ?
T O M A R
M E L H O R
D E C I S Ã O
BIG DATA
C R I T I C A S
24
C R I T I C A S A T É C N I C A S D E B I G D ATA
• Segurança e Privacidade
• Estou sendo observado ?
• Buzz word !!!
• Todo mundo fala
• Mas ninguém faz
• Encontrar profissionais
25
DATA SCIENTIST
E S S E É O C A R A
26
• Ciência da Computação
• Estatística e Matemática
• Jornalista
• Publicitário
Q U E M É O 

D ATA S C I E N T I S T
27
https://www.dezyre.com/article/10-different-types-of-data-scientists/179
FERRAMENTAS
H A D O O P E C O S Y S T E M
28
A PA C H E H A D O O P
• Baseado no paper BigTable do Google
• Open Source
• Pensado para processamento distribuído
de grande quantidade de dados.
• Padrão universal quando se fala em BigData
29
http://hadoop.apache.org
A PA C H E H A D O O P
• Armazenamento
• HDFS
• Processamento
• Map Reduce Framework
30
http://hadoop.apache.org
H D F S
Hadoop distributed file system
31
http://hadoop.apache.org
H D F S 

Replicação dos dados
32
33
M A P R E D U C E 

Framework de processamento distribuido
• Programar em ambiente distribuído é dificil e nada
trivial!
• Modelo funcional
• Funções de Map e Reduce (duuh)
• Funções sem efeitos colaterais
• Podem ser encadeados
• Localidade de referência
34
M A P R E D U C E 

Framework de processamento distribuido
• Map
• Transformar os dados em uma lista de chaves e valores
• Map(k,v) => List(k,v)
• Reduce
• Agrupa e realiza algum processamento em uma lista de valores
associados a uma chave
• Reduce(k, list(k)) => list(v)
35
M A P R E D U C E 

Framework de processamento distribuido
36
• Escrever MapReduce no braço não é produtivo
• Abstrações de dados
• Tabelas
• Consultas SQL
• Data Analytics
• Machine Learning
• Buscas Textuais
E C O S I S T E M A H A D O O P 

Muitas ferramentas foram construídas com essa base
C L O U D E R A
37
https://www.cloudera.com/products/open-source/apache-hadoop.html
S PA R K
Motor de processamento em larga escala
38
https://spark.apache.org
• Escrever aplicações de forma mais rápida em Scala, Python e R
• Velocidade de Processamento
• In-Memory
• Motor de execução otimizado
• Bibliotecas de abstração
• SQL, Streaming, Machine Learning e Grafos
• Usa infra do Hadoop (YARN)
W O R D C O U N T
Versão MapReduce no Hadoop
39
W O R D C O U N T
Versão Spark com Python
40
text_file = spark.textFile("hdfs://...")
 
text_file.flatMap(lambda line: line.split())
    .map(lambda word: (word, 1))
    .reduceByKey(lambda a, b: a+b)
H I V E
Datawarehouse e SQL em arquivos no HDFS
41
https://hive.apache.org
• Grande quantidade de dados tabular e semi-estruturado
• APPEND Only
• Catalogo de tabelas (HCatalog)
• SQL é a linguagem muito poderosa e flexível ❤
• Poder de análise de dados
• ETL em larga escala
• Vários formatos de dados e compactação
• Textfile, SerDe, Parquet, Avro
H I V E
Converte SQL em jobs MapReduce (!!!)
42
https://hive.apache.org
I M PA L A
Super fast SQL Analytics
43
https://impala.apache.org
• Baixa latência de consulta SQL no Hadoop
• Faz uso extensivo de memoria do cluster
• Aproveita muitas configurações do Hive (HCatalog)
• Inspirado no Paper F1/Spanner do Google
• Outros formatos de leitura
• Consulta SQL no HBase
• Preferência por arquivo de alta performance como Parquet e
Avro
S Q O O P
Pipeline de importação de bases estruturadas em massa
44
https://sqoop.apache.org
• Suporte a importação de banco de dados SQL
• Os grandes bancos tem suporte
• Suporte a importação a varios destinos
• HBase
• HDFS
• Hive
• Dicas de otimização
• Criação de partições
• Views com os dados convertidos
H B A S E
Banco de dados colunas de alta performance
45
https://hbase.apache.org
• Orientado a colunas
• Não relacional !
• Otimizado para agregações
• Altíssima performance de escrita e leitura aleatória
• Altamente escalável e tolerante a falhas
• Tabelas gigantes (bilhões de linhas x milhões de colunas)
• Baseado no BigTable do Google
H B A S E
Banco de dados colunas de alta performance
46
https://hbase.apache.org
• Case - Facebook Messenger
• Migrado do MySQL
• 11TB de mensagens por mês em 2011
• Zero data loss
• Alta escalabilidade e disponibilidade
K A F K A
Plataforma de streaming distribuido
47
https://kafka.apache.org
• Padrão PubSub/Mensageria
• Stream de dados em forma de mensagens
• Pode ser utilizado quando deseja-se capturar eventos de forma
mais rápida que consegue ser efetivamente processado
• Logs
• Métricas e Analytics
• Processamento em Tempo Real
• Filas do Kafka podem ser usadas como passo intermediário
• Mensageria comum
48
K A F K A
Plataforma de streaming distribuido
“Benchmarking Apache Kafka: 2 Million Writes Per Second (On Three
Cheap Machines)”
https://engineering.linkedin.com/kafka/benchmarking-apache-kafka-2-million-writes-second-
three-cheap-machines
49
S O L R
Buscais textuais e indexação de arquivos
50
http://lucene.apache.org/solr/
• Buscas FullText
• Suporte a várias línguas
• Sugestões de digitação
• Agregação de dados (Facets)
• Indexação de arquivos
• Texto, PDF, Word
• Buscar geo referenciadas
• Tem suporte a armazenamento em HDFS
O O Z I E
Agendamento de tarefas e fluxos em cluster
51
https://kafka.apache.org
• Gerenciamento de tarefas
• Normalmente baseadas em tempo
• Integrado com ecossistema Hadoop
• MapReduce
• Sqoop
• Hive
• Shell script
• .jars comuns
P E R G U N TA S ?
52
@ A LVA R O V I E B R A N T Z / / AV I E B R A N T Z . C O M . B R
FERRAMENTAS E APLICAÇÕES EM
BIG DATA

Mais conteúdo relacionado

Mais procurados

Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataSandro Andrade
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemAnálise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemOtávio Carvalho
 
João Marcos Araújo do Valle - Big Data
João Marcos Araújo do Valle - Big DataJoão Marcos Araújo do Valle - Big Data
João Marcos Araújo do Valle - Big DataPotiLivre Sobrenome
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Hadoop - Primeiros passos
Hadoop - Primeiros passosHadoop - Primeiros passos
Hadoop - Primeiros passosSensedia
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAnitaibezerra
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 

Mais procurados (20)

Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigData
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Proposta de arquitetura Hadoop
Proposta de arquitetura HadoopProposta de arquitetura Hadoop
Proposta de arquitetura Hadoop
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemAnálise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
João Marcos Araújo do Valle - Big Data
João Marcos Araújo do Valle - Big DataJoão Marcos Araújo do Valle - Big Data
João Marcos Araújo do Valle - Big Data
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Seminário Hadoop
Seminário HadoopSeminário Hadoop
Seminário Hadoop
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Hadoop - Primeiros passos
Hadoop - Primeiros passosHadoop - Primeiros passos
Hadoop - Primeiros passos
 
Big Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro SparkBig Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro Spark
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
BigData
BigDataBigData
BigData
 

Semelhante a Ferramentas e Aplicações em Big Data

Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big datasparsi
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataValêncio Garcia
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataVinícius Barros
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Ambiente Livre
 

Semelhante a Ferramentas e Aplicações em Big Data (20)

Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
BIG DATA na UFSM
BIG DATA na UFSMBIG DATA na UFSM
BIG DATA na UFSM
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Cassandra Trip Brasil
Cassandra Trip BrasilCassandra Trip Brasil
Cassandra Trip Brasil
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big data
 
Hadoop
HadoopHadoop
Hadoop
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big Data
 
Sql server 2019 big data cluster
Sql server 2019 big data clusterSql server 2019 big data cluster
Sql server 2019 big data cluster
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
Bancos de dados NoSQL (Not only sql)
Bancos de dados NoSQL (Not only sql)Bancos de dados NoSQL (Not only sql)
Bancos de dados NoSQL (Not only sql)
 

Mais de Alvaro Viebrantz

BigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage APIBigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage APIAlvaro Viebrantz
 
End to End IoT projects with Zephyr.pdf
End to End IoT projects with Zephyr.pdfEnd to End IoT projects with Zephyr.pdf
End to End IoT projects with Zephyr.pdfAlvaro Viebrantz
 
Carreira de Desenvolvimento
Carreira de DesenvolvimentoCarreira de Desenvolvimento
Carreira de DesenvolvimentoAlvaro Viebrantz
 
Construindo aplicações Cloud Native em Go
Construindo aplicações Cloud Native em GoConstruindo aplicações Cloud Native em Go
Construindo aplicações Cloud Native em GoAlvaro Viebrantz
 
Prototipação em hackathons
Prototipação em hackathonsPrototipação em hackathons
Prototipação em hackathonsAlvaro Viebrantz
 
Building REST APIs using gRPC and Go
Building REST APIs using gRPC and GoBuilding REST APIs using gRPC and Go
Building REST APIs using gRPC and GoAlvaro Viebrantz
 
TinyML - IoT e Machine Learning
TinyML -  IoT e Machine LearningTinyML -  IoT e Machine Learning
TinyML - IoT e Machine LearningAlvaro Viebrantz
 
O que projetos de IoT precisam ?
O que projetos de IoT precisam ?O que projetos de IoT precisam ?
O que projetos de IoT precisam ?Alvaro Viebrantz
 
Ambiente de CI/CD com Google Cloud
Ambiente de CI/CD com Google CloudAmbiente de CI/CD com Google Cloud
Ambiente de CI/CD com Google CloudAlvaro Viebrantz
 
Big Query - Escalabilidade Infinita para os seus Dados
Big Query  - Escalabilidade Infinita para os seus DadosBig Query  - Escalabilidade Infinita para os seus Dados
Big Query - Escalabilidade Infinita para os seus DadosAlvaro Viebrantz
 
Rodando uma API Com Django Rest Framework no Google Cloud
Rodando uma API Com Django Rest Framework  no Google CloudRodando uma API Com Django Rest Framework  no Google Cloud
Rodando uma API Com Django Rest Framework no Google CloudAlvaro Viebrantz
 
Edge computing na prática com IoT, Machine Learning e Google Cloud
Edge computing na prática com IoT, Machine Learning e Google CloudEdge computing na prática com IoT, Machine Learning e Google Cloud
Edge computing na prática com IoT, Machine Learning e Google CloudAlvaro Viebrantz
 
Edge computing in practice using IoT, Tensorflow and Google Cloud
Edge computing in practice using IoT, Tensorflow and Google CloudEdge computing in practice using IoT, Tensorflow and Google Cloud
Edge computing in practice using IoT, Tensorflow and Google CloudAlvaro Viebrantz
 
Iniciando com LoRa, The Things Network e Google Cloud
Iniciando com LoRa, The Things Network e Google CloudIniciando com LoRa, The Things Network e Google Cloud
Iniciando com LoRa, The Things Network e Google CloudAlvaro Viebrantz
 
Construindo projetos para o Google Assistant - I/O 2019 Recap São Paulo
Construindo projetos para o Google Assistant - I/O 2019 Recap São PauloConstruindo projetos para o Google Assistant - I/O 2019 Recap São Paulo
Construindo projetos para o Google Assistant - I/O 2019 Recap São PauloAlvaro Viebrantz
 
Edge computing na prática com IoT, Machine Learning e Google Cloud
Edge computing na prática com IoT, Machine Learning e Google CloudEdge computing na prática com IoT, Machine Learning e Google Cloud
Edge computing na prática com IoT, Machine Learning e Google CloudAlvaro Viebrantz
 
Construindo projetos com Google Assistant e IoT
Construindo projetos com Google Assistant e IoTConstruindo projetos com Google Assistant e IoT
Construindo projetos com Google Assistant e IoTAlvaro Viebrantz
 
Explorando Go em Ambiente Embarcado
Explorando Go em Ambiente EmbarcadoExplorando Go em Ambiente Embarcado
Explorando Go em Ambiente EmbarcadoAlvaro Viebrantz
 
Soluções de IoT usando Arduino e Google Cloud
Soluções de IoT usando Arduino e Google CloudSoluções de IoT usando Arduino e Google Cloud
Soluções de IoT usando Arduino e Google CloudAlvaro Viebrantz
 
Soluções de IoT usando Google Cloud e Firebase
Soluções de IoT usando Google Cloud e FirebaseSoluções de IoT usando Google Cloud e Firebase
Soluções de IoT usando Google Cloud e FirebaseAlvaro Viebrantz
 

Mais de Alvaro Viebrantz (20)

BigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage APIBigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage API
 
End to End IoT projects with Zephyr.pdf
End to End IoT projects with Zephyr.pdfEnd to End IoT projects with Zephyr.pdf
End to End IoT projects with Zephyr.pdf
 
Carreira de Desenvolvimento
Carreira de DesenvolvimentoCarreira de Desenvolvimento
Carreira de Desenvolvimento
 
Construindo aplicações Cloud Native em Go
Construindo aplicações Cloud Native em GoConstruindo aplicações Cloud Native em Go
Construindo aplicações Cloud Native em Go
 
Prototipação em hackathons
Prototipação em hackathonsPrototipação em hackathons
Prototipação em hackathons
 
Building REST APIs using gRPC and Go
Building REST APIs using gRPC and GoBuilding REST APIs using gRPC and Go
Building REST APIs using gRPC and Go
 
TinyML - IoT e Machine Learning
TinyML -  IoT e Machine LearningTinyML -  IoT e Machine Learning
TinyML - IoT e Machine Learning
 
O que projetos de IoT precisam ?
O que projetos de IoT precisam ?O que projetos de IoT precisam ?
O que projetos de IoT precisam ?
 
Ambiente de CI/CD com Google Cloud
Ambiente de CI/CD com Google CloudAmbiente de CI/CD com Google Cloud
Ambiente de CI/CD com Google Cloud
 
Big Query - Escalabilidade Infinita para os seus Dados
Big Query  - Escalabilidade Infinita para os seus DadosBig Query  - Escalabilidade Infinita para os seus Dados
Big Query - Escalabilidade Infinita para os seus Dados
 
Rodando uma API Com Django Rest Framework no Google Cloud
Rodando uma API Com Django Rest Framework  no Google CloudRodando uma API Com Django Rest Framework  no Google Cloud
Rodando uma API Com Django Rest Framework no Google Cloud
 
Edge computing na prática com IoT, Machine Learning e Google Cloud
Edge computing na prática com IoT, Machine Learning e Google CloudEdge computing na prática com IoT, Machine Learning e Google Cloud
Edge computing na prática com IoT, Machine Learning e Google Cloud
 
Edge computing in practice using IoT, Tensorflow and Google Cloud
Edge computing in practice using IoT, Tensorflow and Google CloudEdge computing in practice using IoT, Tensorflow and Google Cloud
Edge computing in practice using IoT, Tensorflow and Google Cloud
 
Iniciando com LoRa, The Things Network e Google Cloud
Iniciando com LoRa, The Things Network e Google CloudIniciando com LoRa, The Things Network e Google Cloud
Iniciando com LoRa, The Things Network e Google Cloud
 
Construindo projetos para o Google Assistant - I/O 2019 Recap São Paulo
Construindo projetos para o Google Assistant - I/O 2019 Recap São PauloConstruindo projetos para o Google Assistant - I/O 2019 Recap São Paulo
Construindo projetos para o Google Assistant - I/O 2019 Recap São Paulo
 
Edge computing na prática com IoT, Machine Learning e Google Cloud
Edge computing na prática com IoT, Machine Learning e Google CloudEdge computing na prática com IoT, Machine Learning e Google Cloud
Edge computing na prática com IoT, Machine Learning e Google Cloud
 
Construindo projetos com Google Assistant e IoT
Construindo projetos com Google Assistant e IoTConstruindo projetos com Google Assistant e IoT
Construindo projetos com Google Assistant e IoT
 
Explorando Go em Ambiente Embarcado
Explorando Go em Ambiente EmbarcadoExplorando Go em Ambiente Embarcado
Explorando Go em Ambiente Embarcado
 
Soluções de IoT usando Arduino e Google Cloud
Soluções de IoT usando Arduino e Google CloudSoluções de IoT usando Arduino e Google Cloud
Soluções de IoT usando Arduino e Google Cloud
 
Soluções de IoT usando Google Cloud e Firebase
Soluções de IoT usando Google Cloud e FirebaseSoluções de IoT usando Google Cloud e Firebase
Soluções de IoT usando Google Cloud e Firebase
 

Ferramentas e Aplicações em Big Data

  • 1. FERRAMENTAS E APLICAÇÕES EM BIG DATA @ A LVA R O V I E B R A N T Z / / AV I E B R A N T Z . C O M . B R 1
  • 2. Nossa noção de sucesso mudou… 2
  • 4. 4
  • 5. 5
  • 6. 4.7 bilhões de página A Web é gigante hoje Era do Zetabyte* * 1000 Exabytes 36.000 anos de video em hd Últimos 20anos http://www.livescience.com/54094-how-big-is-the-internet.html 6
  • 7. 7
  • 8. • Grande quantidade de dados • Distribuição • Escalabilidade • Crescimento rápido WEB 2.0
  • 9. Trade offs • NoSQL • BASE • Consistencia Eventual • Modelo flexível ( Schemaless ) • Escalabilidade Horizontal • Disponibilidade • SQL • ACID = Transações • Consistência Forte • Modelo rigido (Schema) • Escalabilidade Vertical X
  • 10. RelacionamentosModelos Agregados Familias principais de NoSQL BigTable GraphKeyValue Store Document http://www.nosql-database.org/
  • 11. Ecossistema Poliglota • Escolher a melhor ferramenta para o trabalho. • Nenhuma ferramenta deve resolver todos os problemas. X SQL NoSQL
  • 12. Persistencia Poliglota • Resolve problemas específicos • Torna possível novas formas de obtenção de dados e de valor no que o usuário produz. Redis User Session MongoDB Catalogo Produtos RDBMS Financeiro Neo4J Recomen dações Dynamo Carrinho RDBMS Relatórios RDBMS Financeiro Cassandra Log
 Atividades
  • 13. AFINAL O QUE É BIG DATA ? 13
  • 14. APENAS GRANDE QUANTIDADE DE DADOS ? http://www.sas.com/pt_br/insights/big-data/what-is-big-data.html 14 http://datastorm.com.br/5v-big-data-estrutura/
  • 15. O QUE FAZER COM ESSES DADOS ? 15
  • 16. BIG DATA A N A LY T I C S 16
  • 17. B I G D ATA A N A LY T I C S • Coleta de dados • Processamento • Análise • Insights • Tomadas de decisão orientada a dados, ou seja, baseadas em informações. 17 http://www.bigdatabusiness.com.br/o-dicionario-do-big-data-3/
  • 18. ALEMANHAC O PA D O M U N D O 2 0 1 4 18 http://exame.abril.com.br/tecnologia/noticias/solucao-de-big-data-e-um- dos-segredos-da-alemanha-na-copa-2 Match Insights =
  • 19. 4 T I P O S D E B I G D ATA A N A LY T I C S • Análise Descritiva • Análise Diagnóstica • Análise Preditiva • Análise Prescritiva 19 http://www.bigdatabusiness.com.br/conheca-os-4-tipos-de-analises-de-big-data-analytics/
  • 20. DESCRITIVAS I T U A Ç Ã O AT U A L 20 www.li.poli.ufrj.br/?project=nubank-a-queridinha-brasileira A N Á L I S E D E C R É D I T O A N Á L I S E D E R I S C O S
  • 21. DIAGNÓSTICA C A U S A L I D A D E 21 http://www.bigdatabusiness.com.br/big-data-e-eleicoes-conheca-os-casos- da-india-e-reino-unido/ A Ç Õ E S D E M A R K E T I N G A N Á L I S E D E I M PA C T O E L E I Ç Õ E S N O R E I N O U N I D O E I N D I A C A S E
  • 22. PREDITIVAF U T U R O 22 http://www.bigdatabusiness.com.br/o-que-e-analise-preditiva/ E N C O N T R A R PA D R Õ E S E S TAT Í S T I C A C O M P O RTA M E N T OC O PA D O M U N D O X M A N I F E S TA Ç Õ E S C A S E
  • 23. PRESCRITIVAVÁ R I A S P O S S I B I L I D A D E S , O Q U E FA Z E R ? 23 http://www.kazap.com.br/analise-prescritiva-ciencia-de-dados-trabalhando- para-o-futuro-da-sua-empresa/ S I M U L A R E S E E U F I Z E R I S S O ? T O M A R M E L H O R D E C I S Ã O
  • 24. BIG DATA C R I T I C A S 24
  • 25. C R I T I C A S A T É C N I C A S D E B I G D ATA • Segurança e Privacidade • Estou sendo observado ? • Buzz word !!! • Todo mundo fala • Mas ninguém faz • Encontrar profissionais 25
  • 26. DATA SCIENTIST E S S E É O C A R A 26
  • 27. • Ciência da Computação • Estatística e Matemática • Jornalista • Publicitário Q U E M É O 
 D ATA S C I E N T I S T 27 https://www.dezyre.com/article/10-different-types-of-data-scientists/179
  • 28. FERRAMENTAS H A D O O P E C O S Y S T E M 28
  • 29. A PA C H E H A D O O P • Baseado no paper BigTable do Google • Open Source • Pensado para processamento distribuído de grande quantidade de dados. • Padrão universal quando se fala em BigData 29 http://hadoop.apache.org
  • 30. A PA C H E H A D O O P • Armazenamento • HDFS • Processamento • Map Reduce Framework 30 http://hadoop.apache.org
  • 31. H D F S Hadoop distributed file system 31 http://hadoop.apache.org
  • 32. H D F S 
 Replicação dos dados 32
  • 33. 33 M A P R E D U C E 
 Framework de processamento distribuido • Programar em ambiente distribuído é dificil e nada trivial! • Modelo funcional • Funções de Map e Reduce (duuh) • Funções sem efeitos colaterais • Podem ser encadeados • Localidade de referência
  • 34. 34 M A P R E D U C E 
 Framework de processamento distribuido • Map • Transformar os dados em uma lista de chaves e valores • Map(k,v) => List(k,v) • Reduce • Agrupa e realiza algum processamento em uma lista de valores associados a uma chave • Reduce(k, list(k)) => list(v)
  • 35. 35 M A P R E D U C E 
 Framework de processamento distribuido
  • 36. 36 • Escrever MapReduce no braço não é produtivo • Abstrações de dados • Tabelas • Consultas SQL • Data Analytics • Machine Learning • Buscas Textuais E C O S I S T E M A H A D O O P 
 Muitas ferramentas foram construídas com essa base
  • 37. C L O U D E R A 37 https://www.cloudera.com/products/open-source/apache-hadoop.html
  • 38. S PA R K Motor de processamento em larga escala 38 https://spark.apache.org • Escrever aplicações de forma mais rápida em Scala, Python e R • Velocidade de Processamento • In-Memory • Motor de execução otimizado • Bibliotecas de abstração • SQL, Streaming, Machine Learning e Grafos • Usa infra do Hadoop (YARN)
  • 39. W O R D C O U N T Versão MapReduce no Hadoop 39
  • 40. W O R D C O U N T Versão Spark com Python 40 text_file = spark.textFile("hdfs://...")   text_file.flatMap(lambda line: line.split())     .map(lambda word: (word, 1))     .reduceByKey(lambda a, b: a+b)
  • 41. H I V E Datawarehouse e SQL em arquivos no HDFS 41 https://hive.apache.org • Grande quantidade de dados tabular e semi-estruturado • APPEND Only • Catalogo de tabelas (HCatalog) • SQL é a linguagem muito poderosa e flexível ❤ • Poder de análise de dados • ETL em larga escala • Vários formatos de dados e compactação • Textfile, SerDe, Parquet, Avro
  • 42. H I V E Converte SQL em jobs MapReduce (!!!) 42 https://hive.apache.org
  • 43. I M PA L A Super fast SQL Analytics 43 https://impala.apache.org • Baixa latência de consulta SQL no Hadoop • Faz uso extensivo de memoria do cluster • Aproveita muitas configurações do Hive (HCatalog) • Inspirado no Paper F1/Spanner do Google • Outros formatos de leitura • Consulta SQL no HBase • Preferência por arquivo de alta performance como Parquet e Avro
  • 44. S Q O O P Pipeline de importação de bases estruturadas em massa 44 https://sqoop.apache.org • Suporte a importação de banco de dados SQL • Os grandes bancos tem suporte • Suporte a importação a varios destinos • HBase • HDFS • Hive • Dicas de otimização • Criação de partições • Views com os dados convertidos
  • 45. H B A S E Banco de dados colunas de alta performance 45 https://hbase.apache.org • Orientado a colunas • Não relacional ! • Otimizado para agregações • Altíssima performance de escrita e leitura aleatória • Altamente escalável e tolerante a falhas • Tabelas gigantes (bilhões de linhas x milhões de colunas) • Baseado no BigTable do Google
  • 46. H B A S E Banco de dados colunas de alta performance 46 https://hbase.apache.org • Case - Facebook Messenger • Migrado do MySQL • 11TB de mensagens por mês em 2011 • Zero data loss • Alta escalabilidade e disponibilidade
  • 47. K A F K A Plataforma de streaming distribuido 47 https://kafka.apache.org • Padrão PubSub/Mensageria • Stream de dados em forma de mensagens • Pode ser utilizado quando deseja-se capturar eventos de forma mais rápida que consegue ser efetivamente processado • Logs • Métricas e Analytics • Processamento em Tempo Real • Filas do Kafka podem ser usadas como passo intermediário • Mensageria comum
  • 48. 48 K A F K A Plataforma de streaming distribuido “Benchmarking Apache Kafka: 2 Million Writes Per Second (On Three Cheap Machines)” https://engineering.linkedin.com/kafka/benchmarking-apache-kafka-2-million-writes-second- three-cheap-machines
  • 49. 49
  • 50. S O L R Buscais textuais e indexação de arquivos 50 http://lucene.apache.org/solr/ • Buscas FullText • Suporte a várias línguas • Sugestões de digitação • Agregação de dados (Facets) • Indexação de arquivos • Texto, PDF, Word • Buscar geo referenciadas • Tem suporte a armazenamento em HDFS
  • 51. O O Z I E Agendamento de tarefas e fluxos em cluster 51 https://kafka.apache.org • Gerenciamento de tarefas • Normalmente baseadas em tempo • Integrado com ecossistema Hadoop • MapReduce • Sqoop • Hive • Shell script • .jars comuns
  • 52. P E R G U N TA S ? 52 @ A LVA R O V I E B R A N T Z / / AV I E B R A N T Z . C O M . B R FERRAMENTAS E APLICAÇÕES EM BIG DATA