Palestra sobre Big Data e o ecossitema hadoop, com seus conceitos e suas ferramentas, incluindo trilhas de aprendizagem e algumas certificações ministrada online no Canal Coders In Rio: https://www.youtube.com/watch?v=-pCwSkNoRY4&t=1s
1. Big Data
e o Ecossistema Hadoop
Na era da informação
2. Olá!
FaBIana Ravanêda
Especialista em Business Intelligence Master pela PUC
Pós-graduando em Ciência de Dados e Big Data na PUC
Palestrante e Instrutora de BI, DW e Analytics
Certificações: Big Data, IoT, Oracle e formação Agile BI
Carreira sólida na área de TI, mais especificamente em projetos de BI, DW e Analytics, em empresas de
médio/grade porte como: Brookfield, CVM, Dataprev, Petrobrás, Bradesco Seguros, entre outras.
6. Tráfego Global de Dados Móveis,
2016 a 2021
3 principais tendências que contribuem para o crescimento do tráfego de dados
móveis:
Adaptando-se a dispositivos móveis mais inteligentes
Definindo Avanços da Rede Celular - 2G, 3G e 4G (5G perspectiva)
Revendo preços escalonados - dados ilimitados e planos compartilhados
Fonte: https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-
networking-index-vni/mobile-white-paper-c11-520862.html
11. Fornecedor de
soluções empresariais
Hadoop
Coordenação e gestão
de serviço
DW que funciona com
Hadoop e MapReduce
Plataforma de
gerenciamento de
recursos em cluster
Dez/02
Primeira biblioteca
Map/Reduce na Google
Out/03
Artigo sobre GFS
Sistema de arquivos
distribuídos / grandes
clusters de hardware
Dez/04
Artigo sobre Map
Reduce
Dez/05
Doug Cutting cria o
Projeto Nutch (MR e HDFS)
Fev/06
Hadoop se torna um
projeto oficial da Apache
Abr/07
Yahoo! roda Hadoop
em um cluster de
1000 nós
Jan/08
Hadoop se transforma no
projeto principal da Apache
Dez/11
Apache disponibiliza
versão Hadoop 1.0.0
12. Conceito
Hadoop é um framework gratuito, baseado linguagem de programação
Java, que suporta o processamento de grandes conjuntos de dados em
ambientes de computação distribuída (através de diversos
computadores simultaneamente), com atenção a tolerância a falhas.
Ele é baseado no Google File System (GFS). Trata-se de um projeto
da Apache de alto nível, construído por uma comunidade de
contribuidores e utilizando a linguagem de programação Java.
O Yahoo! tem sido o maior contribuidor do projeto, utilizando essa
plataforma intensivamente em seus negócios.
13. Principais características do Hadoop
Escalável
Pode armazenar e processar
petabytes sem problemas
Confiável
Automaticamente mantém
múltiplas copias de dados e
remaneja as tarefas em casos
de falhas
Econômico
Distribui os dados e o
processamento através dos
clusters. Estes clusters
podem ter milhares de nós
(máquinas)
Eficiente
Por distribuir os dados pode
processar eles em paralelo por
meio dos nós, onde os dados
estão alocados
16. Distribuições Hadoop
Atualmente, Hortonworks,
Cloudera e MapR são os principais
distribuidores Hadoop
(MapReduce, Hive, Sqoop, Pig, ...)
de forma mais integrada de
acordo com a arquitetura de cada
distribuição
A Amazon possui sua própria
implementação Hadoop chamada
Elastic MapReduce (EMR)
20. Tolerância a falhas a
recuperação automática
Portabilidade entre
hardware e sistemas
operacionais heterogêneos
Escalabilidade para
armazenar e processar
grandes quantidades de
dados
Confiabilidade, através da
manutenção de várias
cópias de dados
21. Arquitetura HFDS • Gerencia a estrutura do file system
• Gerencia os metadados de todos os
arquivos e diretórios dentro da
estrutura
• Armazena e busca blocos de dados
quando solicitado pelo cliente ou
Namenode
• Reporta periodicamente para o
Namenode com a lista de blocos que
foram armazenados
22. Modelo de programação para
processamento e geração de
grandes conjuntos de dados
Flexibilidade – processa todos
os dados independente do tipo
e formato, seja estruturado ou
não-estruturado
Confiabilidade – permite que os
jobs sejam executados em
paralelo e em caso de falhas de
um job, outros não são
afetados
Acessibilidade – suporte as
diversas linguagens de
programação como Java, C++,
Phyton, Apache Pig
25. Exemplo MapReduce para contar palavras
um leitor
de entrada
uma função
de Map
uma função
de partição
uma função de
comparação
uma
função Reduce
um escritor
de saída
27. É uma solução de alta performance, para
coordenação de serviços em aplicações
distribuídas
Espécie de guardião do Zoo!
É um serviço de coordenação distribuída
para gerenciar grandes conjuntos de hosts
(Clusters)
Permite que os desenvolvedores se
concentrem na lógica do aplicativo
principal sem se preocupar com a
natureza distribuída do aplicativo
Foi originalmente construído pelo Yahoo
para acessar seus aplicativos de uma
forma fácil e robusta mais tarde se tornou
padrão para organização de serviços
Hadoop, Hbase e outras estruturas
distribuídas
O Hbase usa para acompanhar o estado de
dados distribuídos através do cluster
28. É um Data Warehouse que funciona com
Hadoop e MapReduce
É um sistema de armazenamento de dados
que facilita a agregação dos dados para
relatórios e análise de grandes conjuntos
de dados (Big Data)
Permite consultas sobre os dados usando
linguagem SQL-like, chamada HiveQL (HQL)
suporta os conceitos básicos do SQL
Prove capacidade de tolerância a falha para
armazenamento de dados e depende do
MapReduce para execução
Permite conexões JDBC / ODBC por isso é
facilmente entregado com outras
ferramentas de BI
Assim como o PIG, gera Jobs MapReduce
que executam no cluster Hadoop
Desenvolvido pelo Facebook
29. É uma ferramenta que é utilizada para
analisar grandes conjuntos de dados
que representam fluxos de dados
É possível realizar todas as operações
de manipulação de dados no Hadoop
usando Pig
Para escrever programas de análise de
dados, Pig oferece uma linguagem de
alto nível conhecida como Pig Latin que
oferece vários operadores que os
programadores podem usar para criar as
duas próprias funções para leitura,
escrita e processamento de dados
Tem um componente conhecido como
Pig engine que aceita os scripts Pig
Latin como entrada e converte esses
scripts em Jobs MapReduce
30. É um serviço que basicamente permite
enviar os dados diretamente para o
HDFS
Foi desenvolvido pela Claudera e
permite mover grandes quantidade de
dados
Basicamente, é um serviço que funciona
em ambiente distribuído para coletar,
agregar e mover grandes quantidades de
dados de forma eficiente
Arquitetura simples e flexível baseada
em streaming (fluxo constante) de
dados
O modelo de dados do Flume, permite
que ele seja usado em aplicações
analíticas online
31. Projeto do ecossistema do Apache
Hadoop, cuja responsabilidade é
importar e exportar dados de bancos
de dados relacionais
Sqoop = SQL to Hadoop
Ferramenta desenvolvida para
transferir dados do Hadoop para
RDBMS e vice-versa
Também gera classes Java através
das quais você pode facilmente
interagir com os dados importados
Utiliza conexão JDBC para conectar
com os banco de dados relacionais
Pode criar tabelas diretamente no
Hive e suporta importação
incremental
Exemplo listando tabelas de um
banco MySQL com Sqoop
32. É um sistema de agendamento de
workflow usado para gerenciar
principalmente os Jobs de MapReduce
É integrado com o restante dos
componentes do ecossistema para
apoiar vários tipos de trabalhos do
Hadoop (como Java Map-Reduce,
streaming Map-Reduce, Pig, Hive e
Sqoop), bem como jobs específicos do
sistema (como programas Java e scripts
shell) e então inteligentemente ligá-los
um ao outro
Permite aos usuários especificar, por
exemplo, que uma determinada
consulta só pode ser iniciada, após os
jobs anteriores que acessem os mesmos
dados, sejam concluídos
33. É uma biblioteca open-source de
algoritmos de aprendizado de
máquina, escalável e com foco
em clustering, classificação e
sistemas de recomendação
É dedicado a Marchine Learning
Permite a utilização dos
principais algoritmos de
clustering, testes de regressão e
modelagem estatística e os
implementa usando o modelo
MapReduce
34. Banco de Dados orientado a coluna construído
sobre o sistema de arquivos do Hadoop
Banco de dados oficial do Hadoop
Tem um modelo de dados semelhante ao Big
Table do Google projetado para fornecer
acesso aleatório rápido a grande quantidades
de dados
Aproveita a tolerância de falhas fornecida pelo
sistema de arquivos do Hadoop (HDFS)
É uma parte do ecossistema que fornece e
tempo real acesso aleatório de leitura /
gravação de dados do HFDS
Podemos armazenar dados diretamente no
HFDS ou através do Hbase
É um tipo de banco de dados NoSQL e utiliza o
modelo key-valor (chave-valor)
Cada valor é identificado por uma chave
Objetivo é armazenar tabelas realmente
grandes com bilhões de registros
37. Principais Players no mercado
Distribuição
Hadoop da Amazon,
uma plataforma de
análise de dados
bem organizada e
construída sobre a
arquitetura HDFS
Suíte de
funcionalidades
essenciais para
implementação
do Hadoop, que
pode ser usado
para qualquer
plataforma de
dados
AMAZON ELASTIC
MAPREDUCE - EMR
HORTONWORKS CLOUDERA
Fundada por um
grupo de
engenheiros do
Yahoo, Google e
Facebook, está
entre os grandes
fornecedores,
com plataforma
confiável para uso
comercial desde
2008
MAPR
Permite utilização
de aplicações
baseadas em
Hadoop e Spark,
para atender às
necessidades
críticas de
negócio, que
operam 24/7
MICROSOFT - AZURE
É uma distribuição
Apache Hadoop
distribuída em Cloud.
O Azure lida com
quantidade de dados,
de terabytes até
petabytes, e permite
a inclusão de nodes
sob demanda
39. Principais clientes do Hadoop
Ferramentas e
serviços para
conteúdo digital
Onde usa: no
armazenamento e
processamento de
dados internos e de
redes sociais
~ 80 nós de
processamento
Comércio eletrônico
com foco em uma
plataforma global
de negociação
(shopping popular)
Onde usa: na
otimização de
buscas
~ 532 nós de
processamento
Adobe
www.adobe.com
e-Bay
www.ebay.com
Facebook
www.facebook.co
m
Sítio que provê
serviço de rede
social Atualmente
conta com mais de
845 milhões de
usuários ativos
Onde usa: análise
de log
~ 1.400 nós de
processamento
LinkedIn
www.linkedin.com
Rede social de caráter
profissional para
compartilhar
informações, ideias e
oportunidades.
Onde usa: análise e
busca de similaridade
entre perfis de usuários
~ 1.900 nós de
processamento
Last.FM
www.last.fm
Rádio online
agregando uma
comunidade virtual
com foco em música
Onde usa: análise de
log, análise de perfil
de usuário, teste A/B,
outros
~ 64 nós de
processamento
41. Certificação: MCSA (Microsoft
Certified Solutions Associate) Data
Science
Site: https://www.microsoft.com/pt-
br/learning/mcsa-machine-
learning.aspx
Valor: são 2 exames: 70-773 (Análise
de Big Data com Microsoft R) e 70-774
(Data Science com Azure Machine
Learning), cada um por USD$ 100.00
Idioma do exame: Inglês
Certificação: MCSE (Microsoft
Certified Solutions Expert) Data
Management and Analytics
Site: https://www.microsoft.com/pt-
br/learning/mcse-data-management-
analytics.aspx
Valor: além da Certificação MCSA, são
6 exames com foco em Cloud
Computing, Processamento de Big
Data e Banco de Dados SQL Server),
cada um por USD$ 100.00
Idioma do exame: Inglês e alguns
exames em português
42. Certificação: IBM Certified Data
Architect – Big Data
Site: http://www-
03.ibm.com/certify/certs/5000170
1.shtml
Valor: USD$200.00
Idioma: inglês
Certificação: IBM Certified Data
Engineer – Big Data
Site: http://www-
03.ibm.com/certify/certs/5000150
1.shtml
Valor: USD$200.00
Idioma: inglês
Certificação: IBM Certified
Application Developer – Watson V3
Site: http://www-
03.ibm.com/certify/certs/6000010
1.shtml
Valor: USD$200.00
Idioma: inglês e japonês
46. Mercado
Segundo um estudo da Forrester, algo entre 60% e 73%
dos dados coletados e armazenados pelas empresas,
atualmente, não são analisados. “Isso é inaceitável numa
era em que perspectivas aprofundadas e melhoria de
desempenho configuram-se em uma necessidade
competitiva”, avalia os analistas Mike Gualtieri e Noel
Yuhanna.
Os produtores de aplicações estão adotando Hadoop em
massa, dizem, e os analistas preveem que 100% das
grandes empresas acabará por adotar a tecnologia
também.
Segundo a Forrester, não há uma distribuição dominante
no mercado. Em vez disso, há um conjunto de
fornecedores competentes, com diferentes pontos
fortes. São elas: Cloudera, Hortonworks, MapR, IBM e
Microsoft. Cada uma dessas empresas possui
competências distintas nas práticas envolvendo o
conceito, indica um relatório.
48. #JuntosSomosMaisTI
É uma corrente do bem onde empresas e pessoas, que apoiam a iniciativa de palestras e eventos,
querem contribuir nesse caminhada.
Hoje a parceria é com a Aprenda Virtual, que está oferecendo
40% de desconto em qualquer um dos seus cursos.
Mais informações: www.aprendavirtual.com.br