Big Data e Hadoop: introdução ao ecossistema de soluções para grandes volumes de dados
1. CETAX - All Rights Reserved
Data Science -
Módulo :
Big Data e Hadoop
2. CETAX - All Rights Reserved
• A Cetax é uma empresa de consultoria e treinamento especializada em
sistemas de Business Intelligence e Data Warehouse.
• Existe desde 2000 trabalhando exclusivamente com BI e DW.
• Nossos treinamentos são exclusivos sem cursos semelhantes no Brasil
• Outros cursos são ministrados em parcerias com outras empresas do
mercado ou mesmo profissionais que possuem experiência diferenciada
• Parceria Hortonworks (Hadoop), Talend (ETL), Tibco (Analytics)
APRESENTAÇÃO CETAX
3. CETAX - All Rights Reserved
MARCO ANTONIO GARCIA
• 20 anos de experiência em TI, sendo 15 exclusivamente com Inteligência - Business
Intelligence e Data Warehouse.
• MBA pela FGV, Formado pela FATEC em Processamento de Dados.
• Certificado pelo Kimball University nos EUA, onde teve aula pessoalmente com
Ralph Kimball, um dos principais gurus do data Warehouse, treinamentos
realizados no TDWI, maior entidade de pesquisa de Data Warehouses do mundo.
• Vivência profissional em diversos projetos, passando por Bancos e Financeiras,
Construção, Serviços, Varejo, Marketing e outros.
APRESENTAÇÃO - INSTRUTOR
4. CETAX - All Rights Reserved
A PALAVRA DO MOMENTO
5. CETAX - All Rights Reserved
• Muitas definições podem cercar o assunto :
– Alto Volume.
– Alta Velocidade.
– Diversas Fontes.
• Uma combinação de tudo isso e muito mais.
• Assim como BI, é um termo “guarda-chuva”.
BIG DATA = GRANDES DADOS?
6. CETAX - All Rights Reserved
• Além dos sistemas utilizados em empresas de todos os portes, temos milhares
de outros dispositivos que geram dados diariamente :
– Em 2010 existiam 5 bilhões de celulares no mundo.
– Um avião Boeing pode gerar até 20 TB/hora para seus engenheiros
examinar em tempo real.
– Em pouco tempo teremos muito mais equipamentos ligados a internet
gerando informações para análise “internet das coisas”
MUITOS DADOS GRANDES
7. CETAX - All Rights Reserved
• Volume – o volume crescente de dados em todas as áreas e empresas, Mb ->
Gb -> Tb -> Pb
• Velocidade – o tempo necessário para disponibilizar os dados para análise é
cada vez menor
• Variedade – a variedade de dados é cada vez maior, sensores, imagens, dados
não estruturados ou semi estruturados.
3 Vs – UMA DEFINIÇÃO
11. CETAX - All Rights Reserved
• Big Data representa um conjunto de dados que não pode mais ser
zacilmente gerenciado ou analisado com as ferramentas atuais de
dados, métodos ou arquitetura disponível até então.
BIG DATA – DEFINIÇÃO SIMPLES
12. CETAX - All Rights Reserved
• E então ?
• Quais softwares serão utilizados ?
• Quais devo aprender ?
E ENTÃO?
15. CETAX - All Rights Reserved
• Web log
• Click stream
• Sensor data
• Email
• Call center voice logs
• Images/video
• Dados RFID
• Dados de Localização e Geográficos
• Dados adquiridos no mercado
FONTES PARA O BIG DATA
16. CETAX - All Rights Reserved
UMA APOSTA? HADOOP!
17. CETAX - All Rights Reserved
Cluster Hadoop
core switch
top-of-rack
switches
Master Nodes –
Mantém os Serviços
e a Coordenação dos
Jobs de dados
Worker Nodes –
rodam o
processamento e
armazenamento dos
Dados
Clientes de Acesso, também
chamados de Gateway
Node ou Edge Node
18. CETAX - All Rights Reserved
• Estudo disciplinado dos dados e informações inerentes ao negócio e
todas as visões que podem cercar um determinado assunto.
• Ciência que estuda as informações, seu processo de captura,
transformação, geração e análise de dados.
• A Ciência de dados envolve diversas disciplinas como :
• Computação
• Estatística
• Matemática
• Conhecimento do Negócio
CIÊNCIA DE DADOS
20. CETAX - All Rights Reserved
REQUISITOS ESPERADOS DO CIENTISTA DE DADOS
21. CETAX - All Rights Reserved
• Profissional Multidisciplinar responsável por transformar dados em
informações ou produtos de informações dentro de uma corporação.
• Deve ser responsável pela formulação dos problemas, escolha de
modelos de simulação e estatística e entrega dos produtos de dados.
DEFINIÇÃO – CIENTISTA DE DADOS
22. CETAX - All Rights Reserved
• Data Scientist – Participa da formulação do problema, hipóteses de
resolução e análise de resultados.
• Business Analyst – Analisa os dados gerados em relação ao negócio
ou empresa avaliada
• Data Analyst – responsável por analisar os dados disponibilizados em
busca de solução para o problemas enfrentados
DATA SCIENTIST x BUSINESS ANALYST x DATA ANALYST
23. CETAX - All Rights Reserved
• Para trabalhar com Big Data acreditamos que o melhor caminho seria
conhecer as ferramentas utilizadas
• Ter perfil misto : técnico e negócios
• Conhecer de Business Inteligence e Data Warehouse
• Entender os processos da empresa
• Conhecer estatística e matemática
QUERO TRABALHAR COM BIG DATA
24. CETAX - All Rights Reserved
• Vemos 3 papéis claros:
• Cientista ou Analista de Dados
• Desenvolvedor
• Administrador
PAPEIS E FUNÇÕES
25. CETAX - All Rights Reserved
• Responsável por atender as demandas das áreas de negócio ou
planejamento da empresa.
• Participa da formulação dos problemas e respostas.
• Nível mais próximo ao negócio
• Deve conhecer as ferramentas de consulta e acesso aos dados.
• Deveria conhecer estatística
ANALISTA DE DADOS
26. CETAX - All Rights Reserved
• Responsável por Desenvolver os processos necessários para geração
dos dados.
• Processos de Captura, Transformação e Carga de Dados.
• Deve conhecer tecnicamente as ferramentas envolvidadas
• Deve conhecer sobre programação
• Será responsável pelo desenvolvimento de novas rotinas e processos.
DESENVOLVEDOR
27. CETAX - All Rights Reserved
• Responsável por manter os ambientes e ferramentas funcionando da
melhor maneira.
• Deve conhecer sobre os sistemas operacionais utilizados,
principalmente Linux.
• Deve conhecer sobre arquitetura de hardware e redes para garantir a
melhor performance.
• Deve conhecer sobre os processos de Tunning das ferramentas.
ADMINISTRADOR
28. CETAX - All Rights Reserved
• Programação – as ferramentas ainda são pouco automatizadas na
geração de código.
• Linux – a maioria dos softwares rodam em Linux, é necessário
conhecer comandos básicos para execução de processos.
• Modelagem de Dados
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
29. CETAX - All Rights Reserved
• Conhecer sobre o negócio ou sobre os processos da empresa.
• Conhecer ou ter noções mínimas de estatística e matemática
aplicada a dados.
CONHECIMENTOS TÉCNICOS PARA TRABALHAR COM BIG DATA
30. CETAX - All Rights Reserved
• Perguntas ?
• Não deixem de acessar nosso site e se cadastrem para
as promoções, vagas: www.cetax.com.br
MUITO OBRIGADO!
FINALIZANDO
Notas do Editor
2
3
A tempos não temos uma palavra tão forte no cenário de informática como Big Data !
O termo está sendo falado em todos os tipos de negócios, cursos, etc.
O termo é recente, muitas possibilidades, muitas definições ( algumas ainda vagas )
O mercado está em formação muitas coisas estão ainda acontecendo e muitas ainda estão por vir.
O que é certo : Big Data é uma tendência que vai mudar a maneira em que analisamos os dados em qualquer tipo de negócio !
O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários, a cada mês são gerados mais de 700 milhões de minutos por mês.
A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguirá assistir todos os vídeos do Youtube.
Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS.
O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15% totalmente inéditas. Seu "motor" de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 petabytes de informação.
Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não.
Volume – Volume dos Dados: Passamos a falar muito rápido de Gigabytes para Terabytes e agora estamos falando de Petabytes e outros volumes que não vou saber colocar aqui de cabeça para vocês.
Hoje são contabilizados em média 12 Terabytes de Tweets diariamente, em 2012 foram gerados cerca de 2.834 Exabytes (que são milhões de Gigabytes) a previsão é que em 2020 se gerem anualmente 40.026 Exabytes de informações.
Velocity – Velocidade: Hoje para alguns negócios, 1 minuto pode ser muito tempo, detecção de fraudes, liberações de pagamentos, análises de dados médicos ou qualquer outra informação sensível a tempo.
A maior parte dos projetos de DW/BI (Data Warehouse e Business Intelligence) ainda tem latência em D-1, ou seja, carregamos o dia anterior. Ainda acreditamos que essa solução se aplique a muitos negócios, porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento de negócio.
Variety – Variedade: Big Data também poderia ser considerado como Any Data (qualquer dado), hoje temos capacidade de capturar e analisar dados estruturados e não estruturados, texto, sensores, navegação Web, áudio, vídeo, arquivos de logs, catracas, centrais de ar condicionado, entre outros.
http://beyondplm.com/2013/10/14/will-plm-data-size-reach-yottabytes/
Detalhamento sobre os 3 V’s.
Alguns estudiosos acrescentaram mais V’s a definição de big data
Existe até essa definição de 10 V’s do Big Data.
Mas seria ela necessária ?
Definição simples e direta, algo que não pode mais ser feito com as ferramentas atuais !
O que temos que fazer ? Quais softwares serão usados ?
Muitos softwares ?
Por favor, se acalme, vamos falar disso um pouco mais para frente.
Muitos softwares ?
Por favor, se acalme, vamos falar disso um pouco mais para frente.
Essa lista é um exemplo de possíveis fontes, mas deveremos ter muito mais fontes.
As novas ferramentas permitem conexão e captura de dados em diversas categorias de softwares ou mesmo equipamentos eletrônicos que permita captura de dados.
Claro que além dos dados tradicionais que hoje buscamos em outros sistemas, bancos de dados e arquivos de texto.
16
This is an illustration of a Hadoop cluster. A Hadoop cluster comprises several components; the primary ones being the master and slave nodes.
Master nodes manage and coordinate cluster services and tasks. They are master nodes because they have various Hadoop master processes running on them. For example, a master node runs the NameNode process that coordinates Hadoop storage operations. A single master machine can run all of the Hadoop master processes. However for better scalability, and higher availability, is is common to have the various Hadoop master processes spread across multiple master nodes.
Slave nodes provide the CPU, memory, and local disk resources to store and process data. They are slave nodes because they have various Hadoop slave processes running on them. For example, a slave node runs a DataNode process that works under the management of the NameNode. The DataNode does the actual work of reading and writing data blocks to storage. A Hadoop cluster is easily scaled up by adding additional slave machines.
The Hadoop client machine has only the Hadoop client-side software installed on it. The software is used to access Hadoop tools and applications used to manage the cluster or process data.
It is common for Hadoop to be deployed on rack-based servers. Many server rack and blade chassis configurations are possible. In the illustration, each rack of machines has a top-of-the-rack network switch for intra-rack communication. Each top-of-the-rack switch is also connected to a core switch used for inter-rack and cluster-to-client communications.
Data Science ou Ciência de Dados
Estudo disciplinado dos dados e informações inerentes ao negócio e todas as visões que podem cercar um determinado assunto.