Big data e ecossistema hadoop

Big Data
e o Ecossistema Hadoop
Na era da informação

Olá!
FaBIana Ravanêda
 Especialista em Business Intelligence Master pela PUC
 Pós-graduando em Ciência de Dados e Big Data na PUC
 Palestrante e Instrutora de BI, DW e Analytics
 Certificações: Big Data, IoT, Oracle e formação Agile BI
Carreira sólida na área de TI, mais especificamente em projetos de BI, DW e Analytics, em empresas de
médio/grade porte como: Brookfield, CVM, Dataprev, Petrobrás, Bradesco Seguros, entre outras.

Agenda
Big Data
#JuntosSomosMaisTI
Hadoop
Certificações
Dúvidas, encerramento e contatos
Ecossistema
Soluções Comerciais

Meios de crescimento do Big Data

Tráfego Global de Dados Móveis,
2016 a 2021
3 principais tendências que contribuem para o crescimento do tráfego de dados
móveis:
 Adaptando-se a dispositivos móveis mais inteligentes
 Definindo Avanços da Rede Celular - 2G, 3G e 4G (5G perspectiva)
 Revendo preços escalonados - dados ilimitados e planos compartilhados
Fonte: https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-
networking-index-vni/mobile-white-paper-c11-520862.html

E como analisar essa
quantidade de dados?

Fornecedor de
soluções empresariais
Hadoop
Coordenação e gestão
de serviço
DW que funciona com
Hadoop e MapReduce
Plataforma de
gerenciamento de
recursos em cluster
Dez/02
Primeira biblioteca
Map/Reduce na Google
Out/03
Artigo sobre GFS
Sistema de arquivos
distribuídos / grandes
clusters de hardware
Dez/04
Artigo sobre Map
Reduce
Dez/05
Doug Cutting cria o
Projeto Nutch (MR e HDFS)
Fev/06
Hadoop se torna um
projeto oficial da Apache
Abr/07
Yahoo! roda Hadoop
em um cluster de
1000 nós
Jan/08
Hadoop se transforma no
projeto principal da Apache
Dez/11
Apache disponibiliza
versão Hadoop 1.0.0

Conceito
Hadoop é um framework gratuito, baseado linguagem de programação
Java, que suporta o processamento de grandes conjuntos de dados em
ambientes de computação distribuída (através de diversos
computadores simultaneamente), com atenção a tolerância a falhas.
Ele é baseado no Google File System (GFS). Trata-se de um projeto
da Apache de alto nível, construído por uma comunidade de
contribuidores e utilizando a linguagem de programação Java.
O Yahoo! tem sido o maior contribuidor do projeto, utilizando essa
plataforma intensivamente em seus negócios.

Principais características do Hadoop
Escalável
Pode armazenar e processar
petabytes sem problemas
Confiável
Automaticamente mantém
múltiplas copias de dados e
remaneja as tarefas em casos
de falhas
Econômico
Distribui os dados e o
processamento através dos
clusters. Estes clusters
podem ter milhares de nós
(máquinas)
Eficiente
Por distribuir os dados pode
processar eles em paralelo por
meio dos nós, onde os dados
estão alocados

Arquitetura Hadoop
Basicamente dois passos:
1-Dados são
enviados para o
cluster Hadoop
2-Programas são
executados para
processar os dados

Componentes Base
do Hadoop
 HDFS – armazenamento
distribuído
 MapReduce – computação
distribuída

Distribuições Hadoop
 Atualmente, Hortonworks,
Cloudera e MapR são os principais
distribuidores Hadoop
(MapReduce, Hive, Sqoop, Pig, ...)
de forma mais integrada de
acordo com a arquitetura de cada
distribuição
 A Amazon possui sua própria
implementação Hadoop chamada
Elastic MapReduce (EMR)

TRANSFERÊNCIADEDADOS
OPERAÇÃO E
DESENVOLVIMENTO
INTERAÇÃO
DE DADOS
INTELIGÊNCIA
EXECUÇÃO DE JOBS
ARMAZENAMENTO
DE DADOS
INTERAÇÃO
DE DADOS
SISTEMA DE ARQUIVOS

Tolerância a falhas a
recuperação automática
Portabilidade entre
hardware e sistemas
operacionais heterogêneos
Escalabilidade para
armazenar e processar
grandes quantidades de
dados
Confiabilidade, através da
manutenção de várias
cópias de dados

Arquitetura HFDS • Gerencia a estrutura do file system
• Gerencia os metadados de todos os
arquivos e diretórios dentro da
estrutura
• Armazena e busca blocos de dados
quando solicitado pelo cliente ou
Namenode
• Reporta periodicamente para o
Namenode com a lista de blocos que
foram armazenados

 Modelo de programação para
processamento e geração de
grandes conjuntos de dados
 Flexibilidade – processa todos
os dados independente do tipo
e formato, seja estruturado ou
não-estruturado
 Confiabilidade – permite que os
jobs sejam executados em
paralelo e em caso de falhas de
um job, outros não são
afetados
 Acessibilidade – suporte as
diversas linguagens de
programação como Java, C++,
Phyton, Apache Pig

Ok… mas como isso
funciona na prática?

Exemplo MapReduce para contar palavras
um leitor
de entrada
uma função
de Map
uma função
de partição
uma função de
comparação
uma
função Reduce
um escritor
de saída

 É uma solução de alta performance, para
coordenação de serviços em aplicações
distribuídas
 Espécie de guardião do Zoo!
 É um serviço de coordenação distribuída
para gerenciar grandes conjuntos de hosts
(Clusters)
 Permite que os desenvolvedores se
concentrem na lógica do aplicativo
principal sem se preocupar com a
natureza distribuída do aplicativo
 Foi originalmente construído pelo Yahoo
para acessar seus aplicativos de uma
forma fácil e robusta mais tarde se tornou
padrão para organização de serviços
Hadoop, Hbase e outras estruturas
distribuídas
 O Hbase usa para acompanhar o estado de
dados distribuídos através do cluster

 É um Data Warehouse que funciona com
Hadoop e MapReduce
 É um sistema de armazenamento de dados
que facilita a agregação dos dados para
relatórios e análise de grandes conjuntos
de dados (Big Data)
 Permite consultas sobre os dados usando
linguagem SQL-like, chamada HiveQL (HQL)
suporta os conceitos básicos do SQL
 Prove capacidade de tolerância a falha para
armazenamento de dados e depende do
MapReduce para execução
 Permite conexões JDBC / ODBC por isso é
facilmente entregado com outras
ferramentas de BI
 Assim como o PIG, gera Jobs MapReduce
que executam no cluster Hadoop
 Desenvolvido pelo Facebook

 É uma ferramenta que é utilizada para
analisar grandes conjuntos de dados
que representam fluxos de dados
 É possível realizar todas as operações
de manipulação de dados no Hadoop
usando Pig
 Para escrever programas de análise de
dados, Pig oferece uma linguagem de
alto nível conhecida como Pig Latin que
oferece vários operadores que os
programadores podem usar para criar as
duas próprias funções para leitura,
escrita e processamento de dados
 Tem um componente conhecido como
Pig engine que aceita os scripts Pig
Latin como entrada e converte esses
scripts em Jobs MapReduce

 É um serviço que basicamente permite
enviar os dados diretamente para o
HDFS
 Foi desenvolvido pela Claudera e
permite mover grandes quantidade de
dados
 Basicamente, é um serviço que funciona
em ambiente distribuído para coletar,
agregar e mover grandes quantidades de
dados de forma eficiente
 Arquitetura simples e flexível baseada
em streaming (fluxo constante) de
dados
 O modelo de dados do Flume, permite
que ele seja usado em aplicações
analíticas online

 Projeto do ecossistema do Apache
Hadoop, cuja responsabilidade é
importar e exportar dados de bancos
de dados relacionais
 Sqoop = SQL to Hadoop
 Ferramenta desenvolvida para
transferir dados do Hadoop para
RDBMS e vice-versa
 Também gera classes Java através
das quais você pode facilmente
interagir com os dados importados
 Utiliza conexão JDBC para conectar
com os banco de dados relacionais
 Pode criar tabelas diretamente no
Hive e suporta importação
incremental
 Exemplo listando tabelas de um
banco MySQL com Sqoop

 É um sistema de agendamento de
workflow usado para gerenciar
principalmente os Jobs de MapReduce
 É integrado com o restante dos
componentes do ecossistema para
apoiar vários tipos de trabalhos do
Hadoop (como Java Map-Reduce,
streaming Map-Reduce, Pig, Hive e
Sqoop), bem como jobs específicos do
sistema (como programas Java e scripts
shell) e então inteligentemente ligá-los
um ao outro
 Permite aos usuários especificar, por
exemplo, que uma determinada
consulta só pode ser iniciada, após os
jobs anteriores que acessem os mesmos
dados, sejam concluídos

 É uma biblioteca open-source de
algoritmos de aprendizado de
máquina, escalável e com foco
em clustering, classificação e
sistemas de recomendação
 É dedicado a Marchine Learning
 Permite a utilização dos
principais algoritmos de
clustering, testes de regressão e
modelagem estatística e os
implementa usando o modelo
MapReduce

 Banco de Dados orientado a coluna construído
sobre o sistema de arquivos do Hadoop
 Banco de dados oficial do Hadoop
 Tem um modelo de dados semelhante ao Big
Table do Google projetado para fornecer
acesso aleatório rápido a grande quantidades
de dados
 Aproveita a tolerância de falhas fornecida pelo
sistema de arquivos do Hadoop (HDFS)
 É uma parte do ecossistema que fornece e
tempo real acesso aleatório de leitura /
gravação de dados do HFDS
 Podemos armazenar dados diretamente no
HFDS ou através do Hbase
 É um tipo de banco de dados NoSQL e utiliza o
modelo key-valor (chave-valor)
 Cada valor é identificado por uma chave
 Objetivo é armazenar tabelas realmente
grandes com bilhões de registros

Quadrante dos Principais Players Hadoop
Fonte: Data Science Academy

Principais Players no mercado
Distribuição
Hadoop da Amazon,
uma plataforma de
análise de dados
bem organizada e
construída sobre a
arquitetura HDFS
Suíte de
funcionalidades
essenciais para
implementação
do Hadoop, que
pode ser usado
para qualquer
plataforma de
dados
AMAZON ELASTIC
MAPREDUCE - EMR
HORTONWORKS CLOUDERA
Fundada por um
grupo de
engenheiros do
Yahoo, Google e
Facebook, está
entre os grandes
fornecedores,
com plataforma
confiável para uso
comercial desde
2008
MAPR
Permite utilização
de aplicações
baseadas em
Hadoop e Spark,
para atender às
necessidades
críticas de
negócio, que
operam 24/7
MICROSOFT - AZURE
É uma distribuição
Apache Hadoop
distribuída em Cloud.
O Azure lida com
quantidade de dados,
de terabytes até
petabytes, e permite
a inclusão de nodes
sob demanda

Principais clientes do Hadoop
Ferramentas e
serviços para
conteúdo digital
Onde usa: no
armazenamento e
processamento de
dados internos e de
redes sociais
~ 80 nós de
processamento
Comércio eletrônico
com foco em uma
plataforma global
de negociação
(shopping popular)
Onde usa: na
otimização de
buscas
~ 532 nós de
processamento
Adobe
www.adobe.com
e-Bay
www.ebay.com
Facebook
www.facebook.co
m
Sítio que provê
serviço de rede
social Atualmente
conta com mais de
845 milhões de
usuários ativos
Onde usa: análise
de log
~ 1.400 nós de
processamento
LinkedIn
www.linkedin.com
Rede social de caráter
profissional para
compartilhar
informações, ideias e
oportunidades.
Onde usa: análise e
busca de similaridade
entre perfis de usuários
~ 1.900 nós de
processamento
Last.FM
www.last.fm
Rádio online
agregando uma
comunidade virtual
com foco em música
Onde usa: análise de
log, análise de perfil
de usuário, teste A/B,
outros
~ 64 nós de
processamento

Trilha de aprendizagem
Algumas certificações

 Certificação: MCSA (Microsoft
Certified Solutions Associate) Data
Science
Site: https://www.microsoft.com/pt-
br/learning/mcsa-machine-
learning.aspx
Valor: são 2 exames: 70-773 (Análise
de Big Data com Microsoft R) e 70-774
(Data Science com Azure Machine
Learning), cada um por USD$ 100.00
Idioma do exame: Inglês
 Certificação: MCSE (Microsoft
Certified Solutions Expert) Data
Management and Analytics
Site: https://www.microsoft.com/pt-
br/learning/mcse-data-management-
analytics.aspx
Valor: além da Certificação MCSA, são
6 exames com foco em Cloud
Computing, Processamento de Big
Data e Banco de Dados SQL Server),
cada um por USD$ 100.00
Idioma do exame: Inglês e alguns
exames em português

 Certificação: IBM Certified Data
Architect – Big Data
Site: http://www-
03.ibm.com/certify/certs/5000170
1.shtml
Valor: USD$200.00
Idioma: inglês
 Certificação: IBM Certified Data
Engineer – Big Data
Site: http://www-
1.shtml
Valor: USD$200.00
Idioma: inglês
 Certificação: IBM Certified
Application Developer – Watson V3
Site: http://www-
1.shtml
Valor: USD$200.00
Idioma: inglês e japonês

 Certificação: CCP (Cloudera Certified
Professional) Data Engineer
Site: https://www.cloudera.com/more/
training/certification/ccp-data-
engineer.html
Valor: USD$400.00
Idioma: inglês
 Certificação: CCA (Cloudera Certified
Associate) Spark and Hadoop Developer
training/certification/cca-spark.html
Valor: USD$295.00
Idioma: inglês
Associate) Data Analyst
training/certification/cca-data-
analyst.html
Valor: USD$295.00
Idioma: inglês
Associate) Administrator
training/certification/cca-admin.html
Valor: USD$295.00
Idioma: inglês

 Certificação: HDPCD Certification
Site: https://hortonworks.com/services/tra
ining/certification/hdpcd-certification/
Valor: USD$250.00
Idioma: inglês
 Certificação: HDP Certified Apache Spark
Developer
ining/certification/hdp-certified-spark-
developer/
Valor: USD$250.00
Idioma: inglês
 Certificação: HDPCD Java Certification
ining/certification/hdpcdjava-
certification/
Valor: USD$250.00
Idioma: inglês
 Certificação: HDPCA Certification
ining/certification/hdpca-certification/
Valor: USD$250.00
Idioma: inglês
 Certificação: HCA Certification
ining/certification/hca-certification/
Valor: USD$250.00
Idioma: inglês

Pesquisas tem mostrado que o crescimento
do Hadoop tem sido vertiginoso

Mercado
 Segundo um estudo da Forrester, algo entre 60% e 73%
dos dados coletados e armazenados pelas empresas,
atualmente, não são analisados. “Isso é inaceitável numa
era em que perspectivas aprofundadas e melhoria de
desempenho configuram-se em uma necessidade
competitiva”, avalia os analistas Mike Gualtieri e Noel
Yuhanna.
 Os produtores de aplicações estão adotando Hadoop em
massa, dizem, e os analistas preveem que 100% das
grandes empresas acabará por adotar a tecnologia
também.
 Segundo a Forrester, não há uma distribuição dominante
no mercado. Em vez disso, há um conjunto de
fornecedores competentes, com diferentes pontos
fortes. São elas: Cloudera, Hortonworks, MapR, IBM e
Microsoft. Cada uma dessas empresas possui
competências distintas nas práticas envolvendo o
conceito, indica um relatório.

#JuntosSomosMaisTI
É uma corrente do bem onde empresas e pessoas, que apoiam a iniciativa de palestras e eventos,
querem contribuir nesse caminhada.
 Hoje a parceria é com a Aprenda Virtual, que está oferecendo
40% de desconto em qualquer um dos seus cursos.
 Mais informações: www.aprendavirtual.com.br

Dúvidas, encerramento e
contatos

Dúvidas, encerramento e contatos
www.ravatecnologia.com.br
ravaneda@ravatecnologia.com.br
linkedin.com/in/fabianaravaneda
(21) 9 8474-7111

Big data e ecossistema hadoop

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (17)

Semelhante a Big data e ecossistema hadoop

Semelhante a Big data e ecossistema hadoop (20)

Big data e ecossistema hadoop