SlideShare uma empresa Scribd logo
1 de 50
Big Data
e o Ecossistema Hadoop
Na era da informação
Olá!
FaBIana Ravanêda
 Especialista em Business Intelligence Master pela PUC
 Pós-graduando em Ciência de Dados e Big Data na PUC
 Palestrante e Instrutora de BI, DW e Analytics
 Certificações: Big Data, IoT, Oracle e formação Agile BI
Carreira sólida na área de TI, mais especificamente em projetos de BI, DW e Analytics, em empresas de
médio/grade porte como: Brookfield, CVM, Dataprev, Petrobrás, Bradesco Seguros, entre outras.
Agenda
Big Data
#JuntosSomosMaisTI
Hadoop
Certificações
Dúvidas, encerramento e contatos
Ecossistema
Soluções Comerciais
Big Data
Meios de crescimento do Big Data
Tráfego Global de Dados Móveis,
2016 a 2021
3 principais tendências que contribuem para o crescimento do tráfego de dados
móveis:
 Adaptando-se a dispositivos móveis mais inteligentes
 Definindo Avanços da Rede Celular - 2G, 3G e 4G (5G perspectiva)
 Revendo preços escalonados - dados ilimitados e planos compartilhados
Fonte: https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-
networking-index-vni/mobile-white-paper-c11-520862.html
BIG
Data???
E como analisar essa
quantidade de dados?
Hadoop
Fornecedor de
soluções empresariais
Hadoop
Coordenação e gestão
de serviço
DW que funciona com
Hadoop e MapReduce
Plataforma de
gerenciamento de
recursos em cluster
Dez/02
Primeira biblioteca
Map/Reduce na Google
Out/03
Artigo sobre GFS
Sistema de arquivos
distribuídos / grandes
clusters de hardware
Dez/04
Artigo sobre Map
Reduce
Dez/05
Doug Cutting cria o
Projeto Nutch (MR e HDFS)
Fev/06
Hadoop se torna um
projeto oficial da Apache
Abr/07
Yahoo! roda Hadoop
em um cluster de
1000 nós
Jan/08
Hadoop se transforma no
projeto principal da Apache
Dez/11
Apache disponibiliza
versão Hadoop 1.0.0
Conceito
Hadoop é um framework gratuito, baseado linguagem de programação
Java, que suporta o processamento de grandes conjuntos de dados em
ambientes de computação distribuída (através de diversos
computadores simultaneamente), com atenção a tolerância a falhas.
Ele é baseado no Google File System (GFS). Trata-se de um projeto
da Apache de alto nível, construído por uma comunidade de
contribuidores e utilizando a linguagem de programação Java.
O Yahoo! tem sido o maior contribuidor do projeto, utilizando essa
plataforma intensivamente em seus negócios.
Principais características do Hadoop
Escalável
Pode armazenar e processar
petabytes sem problemas
Confiável
Automaticamente mantém
múltiplas copias de dados e
remaneja as tarefas em casos
de falhas
Econômico
Distribui os dados e o
processamento através dos
clusters. Estes clusters
podem ter milhares de nós
(máquinas)
Eficiente
Por distribuir os dados pode
processar eles em paralelo por
meio dos nós, onde os dados
estão alocados
Arquitetura Hadoop
Basicamente dois passos:
1-Dados são
enviados para o
cluster Hadoop
2-Programas são
executados para
processar os dados
Componentes Base
do Hadoop
 HDFS – armazenamento
distribuído
 MapReduce – computação
distribuída
Distribuições Hadoop
 Atualmente, Hortonworks,
Cloudera e MapR são os principais
distribuidores Hadoop
(MapReduce, Hive, Sqoop, Pig, ...)
de forma mais integrada de
acordo com a arquitetura de cada
distribuição
 A Amazon possui sua própria
implementação Hadoop chamada
Elastic MapReduce (EMR)
Hadoop x RDBMS
Ecossistema Hadoop
TRANSFERÊNCIADEDADOS
OPERAÇÃO E
DESENVOLVIMENTO
INTERAÇÃO
DE DADOS
INTELIGÊNCIA
EXECUÇÃO DE JOBS
ARMAZENAMENTO
DE DADOS
INTERAÇÃO
DE DADOS
SISTEMA DE ARQUIVOS
Tolerância a falhas a
recuperação automática
Portabilidade entre
hardware e sistemas
operacionais heterogêneos
Escalabilidade para
armazenar e processar
grandes quantidades de
dados
Confiabilidade, através da
manutenção de várias
cópias de dados
Arquitetura HFDS • Gerencia a estrutura do file system
• Gerencia os metadados de todos os
arquivos e diretórios dentro da
estrutura
• Armazena e busca blocos de dados
quando solicitado pelo cliente ou
Namenode
• Reporta periodicamente para o
Namenode com a lista de blocos que
foram armazenados
 Modelo de programação para
processamento e geração de
grandes conjuntos de dados
 Flexibilidade – processa todos
os dados independente do tipo
e formato, seja estruturado ou
não-estruturado
 Confiabilidade – permite que os
jobs sejam executados em
paralelo e em caso de falhas de
um job, outros não são
afetados
 Acessibilidade – suporte as
diversas linguagens de
programação como Java, C++,
Phyton, Apache Pig
Arquitetura Map Reduce
Ok… mas como isso
funciona na prática?
Exemplo MapReduce para contar palavras
um leitor
de entrada
uma função
de Map
uma função
de partição
uma função de
comparação
uma
função Reduce
um escritor
de saída
Voltando ao
Ecossistema
 É uma solução de alta performance, para
coordenação de serviços em aplicações
distribuídas
 Espécie de guardião do Zoo!
 É um serviço de coordenação distribuída
para gerenciar grandes conjuntos de hosts
(Clusters)
 Permite que os desenvolvedores se
concentrem na lógica do aplicativo
principal sem se preocupar com a
natureza distribuída do aplicativo
 Foi originalmente construído pelo Yahoo
para acessar seus aplicativos de uma
forma fácil e robusta mais tarde se tornou
padrão para organização de serviços
Hadoop, Hbase e outras estruturas
distribuídas
 O Hbase usa para acompanhar o estado de
dados distribuídos através do cluster
 É um Data Warehouse que funciona com
Hadoop e MapReduce
 É um sistema de armazenamento de dados
que facilita a agregação dos dados para
relatórios e análise de grandes conjuntos
de dados (Big Data)
 Permite consultas sobre os dados usando
linguagem SQL-like, chamada HiveQL (HQL)
suporta os conceitos básicos do SQL
 Prove capacidade de tolerância a falha para
armazenamento de dados e depende do
MapReduce para execução
 Permite conexões JDBC / ODBC por isso é
facilmente entregado com outras
ferramentas de BI
 Assim como o PIG, gera Jobs MapReduce
que executam no cluster Hadoop
 Desenvolvido pelo Facebook
 É uma ferramenta que é utilizada para
analisar grandes conjuntos de dados
que representam fluxos de dados
 É possível realizar todas as operações
de manipulação de dados no Hadoop
usando Pig
 Para escrever programas de análise de
dados, Pig oferece uma linguagem de
alto nível conhecida como Pig Latin que
oferece vários operadores que os
programadores podem usar para criar as
duas próprias funções para leitura,
escrita e processamento de dados
 Tem um componente conhecido como
Pig engine que aceita os scripts Pig
Latin como entrada e converte esses
scripts em Jobs MapReduce
 É um serviço que basicamente permite
enviar os dados diretamente para o
HDFS
 Foi desenvolvido pela Claudera e
permite mover grandes quantidade de
dados
 Basicamente, é um serviço que funciona
em ambiente distribuído para coletar,
agregar e mover grandes quantidades de
dados de forma eficiente
 Arquitetura simples e flexível baseada
em streaming (fluxo constante) de
dados
 O modelo de dados do Flume, permite
que ele seja usado em aplicações
analíticas online
 Projeto do ecossistema do Apache
Hadoop, cuja responsabilidade é
importar e exportar dados de bancos
de dados relacionais
 Sqoop = SQL to Hadoop
 Ferramenta desenvolvida para
transferir dados do Hadoop para
RDBMS e vice-versa
 Também gera classes Java através
das quais você pode facilmente
interagir com os dados importados
 Utiliza conexão JDBC para conectar
com os banco de dados relacionais
 Pode criar tabelas diretamente no
Hive e suporta importação
incremental
 Exemplo listando tabelas de um
banco MySQL com Sqoop
 É um sistema de agendamento de
workflow usado para gerenciar
principalmente os Jobs de MapReduce
 É integrado com o restante dos
componentes do ecossistema para
apoiar vários tipos de trabalhos do
Hadoop (como Java Map-Reduce,
streaming Map-Reduce, Pig, Hive e
Sqoop), bem como jobs específicos do
sistema (como programas Java e scripts
shell) e então inteligentemente ligá-los
um ao outro
 Permite aos usuários especificar, por
exemplo, que uma determinada
consulta só pode ser iniciada, após os
jobs anteriores que acessem os mesmos
dados, sejam concluídos
 É uma biblioteca open-source de
algoritmos de aprendizado de
máquina, escalável e com foco
em clustering, classificação e
sistemas de recomendação
 É dedicado a Marchine Learning
 Permite a utilização dos
principais algoritmos de
clustering, testes de regressão e
modelagem estatística e os
implementa usando o modelo
MapReduce
 Banco de Dados orientado a coluna construído
sobre o sistema de arquivos do Hadoop
 Banco de dados oficial do Hadoop
 Tem um modelo de dados semelhante ao Big
Table do Google projetado para fornecer
acesso aleatório rápido a grande quantidades
de dados
 Aproveita a tolerância de falhas fornecida pelo
sistema de arquivos do Hadoop (HDFS)
 É uma parte do ecossistema que fornece e
tempo real acesso aleatório de leitura /
gravação de dados do HFDS
 Podemos armazenar dados diretamente no
HFDS ou através do Hbase
 É um tipo de banco de dados NoSQL e utiliza o
modelo key-valor (chave-valor)
 Cada valor é identificado por uma chave
 Objetivo é armazenar tabelas realmente
grandes com bilhões de registros
Soluções comerciais
Quadrante dos Principais Players Hadoop
Fonte: Data Science Academy
Principais Players no mercado
Distribuição
Hadoop da Amazon,
uma plataforma de
análise de dados
bem organizada e
construída sobre a
arquitetura HDFS
Suíte de
funcionalidades
essenciais para
implementação
do Hadoop, que
pode ser usado
para qualquer
plataforma de
dados
AMAZON ELASTIC
MAPREDUCE - EMR
HORTONWORKS CLOUDERA
Fundada por um
grupo de
engenheiros do
Yahoo, Google e
Facebook, está
entre os grandes
fornecedores,
com plataforma
confiável para uso
comercial desde
2008
MAPR
Permite utilização
de aplicações
baseadas em
Hadoop e Spark,
para atender às
necessidades
críticas de
negócio, que
operam 24/7
MICROSOFT - AZURE
É uma distribuição
Apache Hadoop
distribuída em Cloud.
O Azure lida com
quantidade de dados,
de terabytes até
petabytes, e permite
a inclusão de nodes
sob demanda
Quem utiliza
??
?
?
??
?
Principais clientes do Hadoop
Ferramentas e
serviços para
conteúdo digital
Onde usa: no
armazenamento e
processamento de
dados internos e de
redes sociais
~ 80 nós de
processamento
Comércio eletrônico
com foco em uma
plataforma global
de negociação
(shopping popular)
Onde usa: na
otimização de
buscas
~ 532 nós de
processamento
Adobe
www.adobe.com
e-Bay
www.ebay.com
Facebook
www.facebook.co
m
Sítio que provê
serviço de rede
social Atualmente
conta com mais de
845 milhões de
usuários ativos
Onde usa: análise
de log
~ 1.400 nós de
processamento
LinkedIn
www.linkedin.com
Rede social de caráter
profissional para
compartilhar
informações, ideias e
oportunidades.
Onde usa: análise e
busca de similaridade
entre perfis de usuários
~ 1.900 nós de
processamento
Last.FM
www.last.fm
Rádio online
agregando uma
comunidade virtual
com foco em música
Onde usa: análise de
log, análise de perfil
de usuário, teste A/B,
outros
~ 64 nós de
processamento
Trilha de aprendizagem
Algumas certificações
 Certificação: MCSA (Microsoft
Certified Solutions Associate) Data
Science
Site: https://www.microsoft.com/pt-
br/learning/mcsa-machine-
learning.aspx
Valor: são 2 exames: 70-773 (Análise
de Big Data com Microsoft R) e 70-774
(Data Science com Azure Machine
Learning), cada um por USD$ 100.00
Idioma do exame: Inglês
 Certificação: MCSE (Microsoft
Certified Solutions Expert) Data
Management and Analytics
Site: https://www.microsoft.com/pt-
br/learning/mcse-data-management-
analytics.aspx
Valor: além da Certificação MCSA, são
6 exames com foco em Cloud
Computing, Processamento de Big
Data e Banco de Dados SQL Server),
cada um por USD$ 100.00
Idioma do exame: Inglês e alguns
exames em português
 Certificação: IBM Certified Data
Architect – Big Data
Site: http://www-
03.ibm.com/certify/certs/5000170
1.shtml
Valor: USD$200.00
Idioma: inglês
 Certificação: IBM Certified Data
Engineer – Big Data
Site: http://www-
03.ibm.com/certify/certs/5000150
1.shtml
Valor: USD$200.00
Idioma: inglês
 Certificação: IBM Certified
Application Developer – Watson V3
Site: http://www-
03.ibm.com/certify/certs/6000010
1.shtml
Valor: USD$200.00
Idioma: inglês e japonês
 Certificação: CCP (Cloudera Certified
Professional) Data Engineer
Site: https://www.cloudera.com/more/
training/certification/ccp-data-
engineer.html
Valor: USD$400.00
Idioma: inglês
 Certificação: CCA (Cloudera Certified
Associate) Spark and Hadoop Developer
Site: https://www.cloudera.com/more/
training/certification/cca-spark.html
Valor: USD$295.00
Idioma: inglês
 Certificação: CCA (Cloudera Certified
Associate) Data Analyst
Site: https://www.cloudera.com/more/
training/certification/cca-data-
analyst.html
Valor: USD$295.00
Idioma: inglês
 Certificação: CCA (Cloudera Certified
Associate) Administrator
Site: https://www.cloudera.com/more/
training/certification/cca-admin.html
Valor: USD$295.00
Idioma: inglês
 Certificação: HDPCD Certification
Site: https://hortonworks.com/services/tra
ining/certification/hdpcd-certification/
Valor: USD$250.00
Idioma: inglês
 Certificação: HDP Certified Apache Spark
Developer
Site: https://hortonworks.com/services/tra
ining/certification/hdp-certified-spark-
developer/
Valor: USD$250.00
Idioma: inglês
 Certificação: HDPCD Java Certification
Site: https://hortonworks.com/services/tra
ining/certification/hdpcdjava-
certification/
Valor: USD$250.00
Idioma: inglês
 Certificação: HDPCA Certification
Site: https://hortonworks.com/services/tra
ining/certification/hdpca-certification/
Valor: USD$250.00
Idioma: inglês
 Certificação: HCA Certification
Site: https://hortonworks.com/services/tra
ining/certification/hca-certification/
Valor: USD$250.00
Idioma: inglês
Pesquisas tem mostrado que o crescimento
do Hadoop tem sido vertiginoso
Mercado
 Segundo um estudo da Forrester, algo entre 60% e 73%
dos dados coletados e armazenados pelas empresas,
atualmente, não são analisados. “Isso é inaceitável numa
era em que perspectivas aprofundadas e melhoria de
desempenho configuram-se em uma necessidade
competitiva”, avalia os analistas Mike Gualtieri e Noel
Yuhanna.
 Os produtores de aplicações estão adotando Hadoop em
massa, dizem, e os analistas preveem que 100% das
grandes empresas acabará por adotar a tecnologia
também.
 Segundo a Forrester, não há uma distribuição dominante
no mercado. Em vez disso, há um conjunto de
fornecedores competentes, com diferentes pontos
fortes. São elas: Cloudera, Hortonworks, MapR, IBM e
Microsoft. Cada uma dessas empresas possui
competências distintas nas práticas envolvendo o
conceito, indica um relatório.
#JuntosSomosMaisTI
#JuntosSomosMaisTI
É uma corrente do bem onde empresas e pessoas, que apoiam a iniciativa de palestras e eventos,
querem contribuir nesse caminhada.
 Hoje a parceria é com a Aprenda Virtual, que está oferecendo
40% de desconto em qualquer um dos seus cursos.
 Mais informações: www.aprendavirtual.com.br
Dúvidas, encerramento e
contatos
Dúvidas, encerramento e contatos
www.ravatecnologia.com.br
ravaneda@ravatecnologia.com.br
linkedin.com/in/fabianaravaneda
(21) 9 8474-7111

Mais conteúdo relacionado

Mais procurados

Big Data Analytics : Understanding for Research Activity
Big Data Analytics : Understanding for Research ActivityBig Data Analytics : Understanding for Research Activity
Big Data Analytics : Understanding for Research ActivityAndry Alamsyah
 
Introduction to Big Data
Introduction to Big DataIntroduction to Big Data
Introduction to Big DataVipin Batra
 
Hot-Spot analysis Using Apache Spark framework
Hot-Spot analysis Using Apache Spark frameworkHot-Spot analysis Using Apache Spark framework
Hot-Spot analysis Using Apache Spark frameworkSupriya .
 
Big Data vs Data Science vs Data Analytics | Demystifying The Difference | Ed...
Big Data vs Data Science vs Data Analytics | Demystifying The Difference | Ed...Big Data vs Data Science vs Data Analytics | Demystifying The Difference | Ed...
Big Data vs Data Science vs Data Analytics | Demystifying The Difference | Ed...Edureka!
 
tf.data: TensorFlow Input Pipeline
tf.data: TensorFlow Input Pipelinetf.data: TensorFlow Input Pipeline
tf.data: TensorFlow Input PipelineAlluxio, Inc.
 
Big Data Applications | Big Data Analytics Use-Cases | Big Data Tutorial for ...
Big Data Applications | Big Data Analytics Use-Cases | Big Data Tutorial for ...Big Data Applications | Big Data Analytics Use-Cases | Big Data Tutorial for ...
Big Data Applications | Big Data Analytics Use-Cases | Big Data Tutorial for ...Edureka!
 
Big Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture CapabilitiesBig Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture CapabilitiesAshraf Uddin
 
Turner Construction Company | HBS Case Study on B2B Marketing | IIM (A)
Turner Construction Company | HBS Case Study on B2B Marketing | IIM (A)Turner Construction Company | HBS Case Study on B2B Marketing | IIM (A)
Turner Construction Company | HBS Case Study on B2B Marketing | IIM (A)Archal Shah
 
Hadoop Presentation - PPT
Hadoop Presentation - PPTHadoop Presentation - PPT
Hadoop Presentation - PPTAnand Pandey
 
Data Analytics & Visualization (Introduction)
Data Analytics & Visualization (Introduction)Data Analytics & Visualization (Introduction)
Data Analytics & Visualization (Introduction)Dolapo Amusat
 
The Analytics Stack Guidebook (Holistics)
The Analytics Stack Guidebook (Holistics)The Analytics Stack Guidebook (Holistics)
The Analytics Stack Guidebook (Holistics)Truong Bomi
 
Forecasting time series powerful and simple
Forecasting time series powerful and simpleForecasting time series powerful and simple
Forecasting time series powerful and simpleIvo Andreev
 

Mais procurados (17)

Big Data Analytics : Understanding for Research Activity
Big Data Analytics : Understanding for Research ActivityBig Data Analytics : Understanding for Research Activity
Big Data Analytics : Understanding for Research Activity
 
Introduction to Big Data
Introduction to Big DataIntroduction to Big Data
Introduction to Big Data
 
Hot-Spot analysis Using Apache Spark framework
Hot-Spot analysis Using Apache Spark frameworkHot-Spot analysis Using Apache Spark framework
Hot-Spot analysis Using Apache Spark framework
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Big Data vs Data Science vs Data Analytics | Demystifying The Difference | Ed...
Big Data vs Data Science vs Data Analytics | Demystifying The Difference | Ed...Big Data vs Data Science vs Data Analytics | Demystifying The Difference | Ed...
Big Data vs Data Science vs Data Analytics | Demystifying The Difference | Ed...
 
tf.data: TensorFlow Input Pipeline
tf.data: TensorFlow Input Pipelinetf.data: TensorFlow Input Pipeline
tf.data: TensorFlow Input Pipeline
 
Big data-ppt
Big data-pptBig data-ppt
Big data-ppt
 
Big Data Applications | Big Data Analytics Use-Cases | Big Data Tutorial for ...
Big Data Applications | Big Data Analytics Use-Cases | Big Data Tutorial for ...Big Data Applications | Big Data Analytics Use-Cases | Big Data Tutorial for ...
Big Data Applications | Big Data Analytics Use-Cases | Big Data Tutorial for ...
 
Big Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture CapabilitiesBig Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture Capabilities
 
Turner Construction Company | HBS Case Study on B2B Marketing | IIM (A)
Turner Construction Company | HBS Case Study on B2B Marketing | IIM (A)Turner Construction Company | HBS Case Study on B2B Marketing | IIM (A)
Turner Construction Company | HBS Case Study on B2B Marketing | IIM (A)
 
Hadoop Presentation - PPT
Hadoop Presentation - PPTHadoop Presentation - PPT
Hadoop Presentation - PPT
 
Data Analytics & Visualization (Introduction)
Data Analytics & Visualization (Introduction)Data Analytics & Visualization (Introduction)
Data Analytics & Visualization (Introduction)
 
Big data ppt
Big data pptBig data ppt
Big data ppt
 
Three Big Data Case Studies
Three Big Data Case StudiesThree Big Data Case Studies
Three Big Data Case Studies
 
The Analytics Stack Guidebook (Holistics)
The Analytics Stack Guidebook (Holistics)The Analytics Stack Guidebook (Holistics)
The Analytics Stack Guidebook (Holistics)
 
Forecasting time series powerful and simple
Forecasting time series powerful and simpleForecasting time series powerful and simple
Forecasting time series powerful and simple
 
Hadoop
HadoopHadoop
Hadoop
 

Semelhante a Big data e ecossistema hadoop

Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...Flavio Fonte, PMP, ITIL
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveFlavio Fonte, PMP, ITIL
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Natalia Raythz
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passosrhpinotti
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Finaljcaroso
 
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceApresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceMatteus Barbosa
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesAlessandro Binhara
 
BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaAlessandro Binhara
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 

Semelhante a Big data e ecossistema hadoop (20)

Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema.
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
 
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceApresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  Aplicações
 
BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenharia
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 

Big data e ecossistema hadoop

  • 1. Big Data e o Ecossistema Hadoop Na era da informação
  • 2. Olá! FaBIana Ravanêda  Especialista em Business Intelligence Master pela PUC  Pós-graduando em Ciência de Dados e Big Data na PUC  Palestrante e Instrutora de BI, DW e Analytics  Certificações: Big Data, IoT, Oracle e formação Agile BI Carreira sólida na área de TI, mais especificamente em projetos de BI, DW e Analytics, em empresas de médio/grade porte como: Brookfield, CVM, Dataprev, Petrobrás, Bradesco Seguros, entre outras.
  • 5. Meios de crescimento do Big Data
  • 6. Tráfego Global de Dados Móveis, 2016 a 2021 3 principais tendências que contribuem para o crescimento do tráfego de dados móveis:  Adaptando-se a dispositivos móveis mais inteligentes  Definindo Avanços da Rede Celular - 2G, 3G e 4G (5G perspectiva)  Revendo preços escalonados - dados ilimitados e planos compartilhados Fonte: https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual- networking-index-vni/mobile-white-paper-c11-520862.html
  • 8. E como analisar essa quantidade de dados?
  • 10.
  • 11. Fornecedor de soluções empresariais Hadoop Coordenação e gestão de serviço DW que funciona com Hadoop e MapReduce Plataforma de gerenciamento de recursos em cluster Dez/02 Primeira biblioteca Map/Reduce na Google Out/03 Artigo sobre GFS Sistema de arquivos distribuídos / grandes clusters de hardware Dez/04 Artigo sobre Map Reduce Dez/05 Doug Cutting cria o Projeto Nutch (MR e HDFS) Fev/06 Hadoop se torna um projeto oficial da Apache Abr/07 Yahoo! roda Hadoop em um cluster de 1000 nós Jan/08 Hadoop se transforma no projeto principal da Apache Dez/11 Apache disponibiliza versão Hadoop 1.0.0
  • 12. Conceito Hadoop é um framework gratuito, baseado linguagem de programação Java, que suporta o processamento de grandes conjuntos de dados em ambientes de computação distribuída (através de diversos computadores simultaneamente), com atenção a tolerância a falhas. Ele é baseado no Google File System (GFS). Trata-se de um projeto da Apache de alto nível, construído por uma comunidade de contribuidores e utilizando a linguagem de programação Java. O Yahoo! tem sido o maior contribuidor do projeto, utilizando essa plataforma intensivamente em seus negócios.
  • 13. Principais características do Hadoop Escalável Pode armazenar e processar petabytes sem problemas Confiável Automaticamente mantém múltiplas copias de dados e remaneja as tarefas em casos de falhas Econômico Distribui os dados e o processamento através dos clusters. Estes clusters podem ter milhares de nós (máquinas) Eficiente Por distribuir os dados pode processar eles em paralelo por meio dos nós, onde os dados estão alocados
  • 14. Arquitetura Hadoop Basicamente dois passos: 1-Dados são enviados para o cluster Hadoop 2-Programas são executados para processar os dados
  • 15. Componentes Base do Hadoop  HDFS – armazenamento distribuído  MapReduce – computação distribuída
  • 16. Distribuições Hadoop  Atualmente, Hortonworks, Cloudera e MapR são os principais distribuidores Hadoop (MapReduce, Hive, Sqoop, Pig, ...) de forma mais integrada de acordo com a arquitetura de cada distribuição  A Amazon possui sua própria implementação Hadoop chamada Elastic MapReduce (EMR)
  • 19. TRANSFERÊNCIADEDADOS OPERAÇÃO E DESENVOLVIMENTO INTERAÇÃO DE DADOS INTELIGÊNCIA EXECUÇÃO DE JOBS ARMAZENAMENTO DE DADOS INTERAÇÃO DE DADOS SISTEMA DE ARQUIVOS
  • 20. Tolerância a falhas a recuperação automática Portabilidade entre hardware e sistemas operacionais heterogêneos Escalabilidade para armazenar e processar grandes quantidades de dados Confiabilidade, através da manutenção de várias cópias de dados
  • 21. Arquitetura HFDS • Gerencia a estrutura do file system • Gerencia os metadados de todos os arquivos e diretórios dentro da estrutura • Armazena e busca blocos de dados quando solicitado pelo cliente ou Namenode • Reporta periodicamente para o Namenode com a lista de blocos que foram armazenados
  • 22.  Modelo de programação para processamento e geração de grandes conjuntos de dados  Flexibilidade – processa todos os dados independente do tipo e formato, seja estruturado ou não-estruturado  Confiabilidade – permite que os jobs sejam executados em paralelo e em caso de falhas de um job, outros não são afetados  Acessibilidade – suporte as diversas linguagens de programação como Java, C++, Phyton, Apache Pig
  • 24. Ok… mas como isso funciona na prática?
  • 25. Exemplo MapReduce para contar palavras um leitor de entrada uma função de Map uma função de partição uma função de comparação uma função Reduce um escritor de saída
  • 27.  É uma solução de alta performance, para coordenação de serviços em aplicações distribuídas  Espécie de guardião do Zoo!  É um serviço de coordenação distribuída para gerenciar grandes conjuntos de hosts (Clusters)  Permite que os desenvolvedores se concentrem na lógica do aplicativo principal sem se preocupar com a natureza distribuída do aplicativo  Foi originalmente construído pelo Yahoo para acessar seus aplicativos de uma forma fácil e robusta mais tarde se tornou padrão para organização de serviços Hadoop, Hbase e outras estruturas distribuídas  O Hbase usa para acompanhar o estado de dados distribuídos através do cluster
  • 28.  É um Data Warehouse que funciona com Hadoop e MapReduce  É um sistema de armazenamento de dados que facilita a agregação dos dados para relatórios e análise de grandes conjuntos de dados (Big Data)  Permite consultas sobre os dados usando linguagem SQL-like, chamada HiveQL (HQL) suporta os conceitos básicos do SQL  Prove capacidade de tolerância a falha para armazenamento de dados e depende do MapReduce para execução  Permite conexões JDBC / ODBC por isso é facilmente entregado com outras ferramentas de BI  Assim como o PIG, gera Jobs MapReduce que executam no cluster Hadoop  Desenvolvido pelo Facebook
  • 29.  É uma ferramenta que é utilizada para analisar grandes conjuntos de dados que representam fluxos de dados  É possível realizar todas as operações de manipulação de dados no Hadoop usando Pig  Para escrever programas de análise de dados, Pig oferece uma linguagem de alto nível conhecida como Pig Latin que oferece vários operadores que os programadores podem usar para criar as duas próprias funções para leitura, escrita e processamento de dados  Tem um componente conhecido como Pig engine que aceita os scripts Pig Latin como entrada e converte esses scripts em Jobs MapReduce
  • 30.  É um serviço que basicamente permite enviar os dados diretamente para o HDFS  Foi desenvolvido pela Claudera e permite mover grandes quantidade de dados  Basicamente, é um serviço que funciona em ambiente distribuído para coletar, agregar e mover grandes quantidades de dados de forma eficiente  Arquitetura simples e flexível baseada em streaming (fluxo constante) de dados  O modelo de dados do Flume, permite que ele seja usado em aplicações analíticas online
  • 31.  Projeto do ecossistema do Apache Hadoop, cuja responsabilidade é importar e exportar dados de bancos de dados relacionais  Sqoop = SQL to Hadoop  Ferramenta desenvolvida para transferir dados do Hadoop para RDBMS e vice-versa  Também gera classes Java através das quais você pode facilmente interagir com os dados importados  Utiliza conexão JDBC para conectar com os banco de dados relacionais  Pode criar tabelas diretamente no Hive e suporta importação incremental  Exemplo listando tabelas de um banco MySQL com Sqoop
  • 32.  É um sistema de agendamento de workflow usado para gerenciar principalmente os Jobs de MapReduce  É integrado com o restante dos componentes do ecossistema para apoiar vários tipos de trabalhos do Hadoop (como Java Map-Reduce, streaming Map-Reduce, Pig, Hive e Sqoop), bem como jobs específicos do sistema (como programas Java e scripts shell) e então inteligentemente ligá-los um ao outro  Permite aos usuários especificar, por exemplo, que uma determinada consulta só pode ser iniciada, após os jobs anteriores que acessem os mesmos dados, sejam concluídos
  • 33.  É uma biblioteca open-source de algoritmos de aprendizado de máquina, escalável e com foco em clustering, classificação e sistemas de recomendação  É dedicado a Marchine Learning  Permite a utilização dos principais algoritmos de clustering, testes de regressão e modelagem estatística e os implementa usando o modelo MapReduce
  • 34.  Banco de Dados orientado a coluna construído sobre o sistema de arquivos do Hadoop  Banco de dados oficial do Hadoop  Tem um modelo de dados semelhante ao Big Table do Google projetado para fornecer acesso aleatório rápido a grande quantidades de dados  Aproveita a tolerância de falhas fornecida pelo sistema de arquivos do Hadoop (HDFS)  É uma parte do ecossistema que fornece e tempo real acesso aleatório de leitura / gravação de dados do HFDS  Podemos armazenar dados diretamente no HFDS ou através do Hbase  É um tipo de banco de dados NoSQL e utiliza o modelo key-valor (chave-valor)  Cada valor é identificado por uma chave  Objetivo é armazenar tabelas realmente grandes com bilhões de registros
  • 36. Quadrante dos Principais Players Hadoop Fonte: Data Science Academy
  • 37. Principais Players no mercado Distribuição Hadoop da Amazon, uma plataforma de análise de dados bem organizada e construída sobre a arquitetura HDFS Suíte de funcionalidades essenciais para implementação do Hadoop, que pode ser usado para qualquer plataforma de dados AMAZON ELASTIC MAPREDUCE - EMR HORTONWORKS CLOUDERA Fundada por um grupo de engenheiros do Yahoo, Google e Facebook, está entre os grandes fornecedores, com plataforma confiável para uso comercial desde 2008 MAPR Permite utilização de aplicações baseadas em Hadoop e Spark, para atender às necessidades críticas de negócio, que operam 24/7 MICROSOFT - AZURE É uma distribuição Apache Hadoop distribuída em Cloud. O Azure lida com quantidade de dados, de terabytes até petabytes, e permite a inclusão de nodes sob demanda
  • 39. Principais clientes do Hadoop Ferramentas e serviços para conteúdo digital Onde usa: no armazenamento e processamento de dados internos e de redes sociais ~ 80 nós de processamento Comércio eletrônico com foco em uma plataforma global de negociação (shopping popular) Onde usa: na otimização de buscas ~ 532 nós de processamento Adobe www.adobe.com e-Bay www.ebay.com Facebook www.facebook.co m Sítio que provê serviço de rede social Atualmente conta com mais de 845 milhões de usuários ativos Onde usa: análise de log ~ 1.400 nós de processamento LinkedIn www.linkedin.com Rede social de caráter profissional para compartilhar informações, ideias e oportunidades. Onde usa: análise e busca de similaridade entre perfis de usuários ~ 1.900 nós de processamento Last.FM www.last.fm Rádio online agregando uma comunidade virtual com foco em música Onde usa: análise de log, análise de perfil de usuário, teste A/B, outros ~ 64 nós de processamento
  • 41.  Certificação: MCSA (Microsoft Certified Solutions Associate) Data Science Site: https://www.microsoft.com/pt- br/learning/mcsa-machine- learning.aspx Valor: são 2 exames: 70-773 (Análise de Big Data com Microsoft R) e 70-774 (Data Science com Azure Machine Learning), cada um por USD$ 100.00 Idioma do exame: Inglês  Certificação: MCSE (Microsoft Certified Solutions Expert) Data Management and Analytics Site: https://www.microsoft.com/pt- br/learning/mcse-data-management- analytics.aspx Valor: além da Certificação MCSA, são 6 exames com foco em Cloud Computing, Processamento de Big Data e Banco de Dados SQL Server), cada um por USD$ 100.00 Idioma do exame: Inglês e alguns exames em português
  • 42.  Certificação: IBM Certified Data Architect – Big Data Site: http://www- 03.ibm.com/certify/certs/5000170 1.shtml Valor: USD$200.00 Idioma: inglês  Certificação: IBM Certified Data Engineer – Big Data Site: http://www- 03.ibm.com/certify/certs/5000150 1.shtml Valor: USD$200.00 Idioma: inglês  Certificação: IBM Certified Application Developer – Watson V3 Site: http://www- 03.ibm.com/certify/certs/6000010 1.shtml Valor: USD$200.00 Idioma: inglês e japonês
  • 43.  Certificação: CCP (Cloudera Certified Professional) Data Engineer Site: https://www.cloudera.com/more/ training/certification/ccp-data- engineer.html Valor: USD$400.00 Idioma: inglês  Certificação: CCA (Cloudera Certified Associate) Spark and Hadoop Developer Site: https://www.cloudera.com/more/ training/certification/cca-spark.html Valor: USD$295.00 Idioma: inglês  Certificação: CCA (Cloudera Certified Associate) Data Analyst Site: https://www.cloudera.com/more/ training/certification/cca-data- analyst.html Valor: USD$295.00 Idioma: inglês  Certificação: CCA (Cloudera Certified Associate) Administrator Site: https://www.cloudera.com/more/ training/certification/cca-admin.html Valor: USD$295.00 Idioma: inglês
  • 44.  Certificação: HDPCD Certification Site: https://hortonworks.com/services/tra ining/certification/hdpcd-certification/ Valor: USD$250.00 Idioma: inglês  Certificação: HDP Certified Apache Spark Developer Site: https://hortonworks.com/services/tra ining/certification/hdp-certified-spark- developer/ Valor: USD$250.00 Idioma: inglês  Certificação: HDPCD Java Certification Site: https://hortonworks.com/services/tra ining/certification/hdpcdjava- certification/ Valor: USD$250.00 Idioma: inglês  Certificação: HDPCA Certification Site: https://hortonworks.com/services/tra ining/certification/hdpca-certification/ Valor: USD$250.00 Idioma: inglês  Certificação: HCA Certification Site: https://hortonworks.com/services/tra ining/certification/hca-certification/ Valor: USD$250.00 Idioma: inglês
  • 45. Pesquisas tem mostrado que o crescimento do Hadoop tem sido vertiginoso
  • 46. Mercado  Segundo um estudo da Forrester, algo entre 60% e 73% dos dados coletados e armazenados pelas empresas, atualmente, não são analisados. “Isso é inaceitável numa era em que perspectivas aprofundadas e melhoria de desempenho configuram-se em uma necessidade competitiva”, avalia os analistas Mike Gualtieri e Noel Yuhanna.  Os produtores de aplicações estão adotando Hadoop em massa, dizem, e os analistas preveem que 100% das grandes empresas acabará por adotar a tecnologia também.  Segundo a Forrester, não há uma distribuição dominante no mercado. Em vez disso, há um conjunto de fornecedores competentes, com diferentes pontos fortes. São elas: Cloudera, Hortonworks, MapR, IBM e Microsoft. Cada uma dessas empresas possui competências distintas nas práticas envolvendo o conceito, indica um relatório.
  • 48. #JuntosSomosMaisTI É uma corrente do bem onde empresas e pessoas, que apoiam a iniciativa de palestras e eventos, querem contribuir nesse caminhada.  Hoje a parceria é com a Aprenda Virtual, que está oferecendo 40% de desconto em qualquer um dos seus cursos.  Mais informações: www.aprendavirtual.com.br
  • 50. Dúvidas, encerramento e contatos www.ravatecnologia.com.br ravaneda@ravatecnologia.com.br linkedin.com/in/fabianaravaneda (21) 9 8474-7111