O documento discute uma solução para processar dados em tempo real e por lotes para atender clientes em múltiplos canais. A pesquisa propõe o Apache Storm para ingestão e análise de dados em streaming de redes sociais e outros dados por lotes. A arquitetura Hortonworks suporta essa solução híbrida de processamento em tempo real e por lotes.
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
Ingestão de Dados
1. Prof. Carlos Eduardo Santana
Novembro de 2014
MBA em Big Data
Alexandre Nicolau RM 46346
Alan Drummond RM 46467
José Mario Queiroz RM 46231
Leandro Navarro RM 46437
Rafael Cavazin RM 46474
Ingestão de Dados
2. Sumário
1. Introdução
1.1. Problema
1.2. Justificativa
1.3. Objetivo da Pesquisa
1.4. Metodologia de Pesquisa
2. Tema
2.1. O Apache Storm
2.2. Fluxo de Dados
2.3. Arquitetura (macro visão)
2.4. Comparativo
3. Parecer dos Integrantes
4. Conclusões
5. Referências
MBA em Big Data (Data Science) 2 Ingestão de Dados
3. Introdução – Problema
Como atender às necessidades de novos consumidores
que buscam o atendimento omni-channel com uma
arquitetura capaz de processar informações em tempo
real e também em processos batch?
MBA em Big Data (Data Science) 3
Ingestão de Dados
4. Introdução – Justificativa
No atual cenário de volumetria e variedade de dados, o feedback rápido ao
cliente se torna cada vez mais importante para a manutenção e expansão da
carteira.
Melhorar a experiência do cliente frequentemente traz maior confiança,
fidelização e consequentemente retenção, principalmente para a nova geração de
consumidores que advindos da nova era digital procuram experiências omni-channel.
MBA em Big Data (Data Science) 4
Ingestão de Dados
5. Introdução – Objetivo da Pesquisa
A pesquisa tem por objetivo identifica uma solução de mercado que esteja
integrada com a necessidade de ingestão de dados em tempo real (ou quase em
tempo real) para o tratamento de informações em canais de mídia social.
Essa solução também deve ser capaz de realizar a ingestão de dados de outras
fontes que não sejam através de streaming. Para isso uma solução hibrida pode
ser adotada.
Por consequência a adoção de uma arquitetura capaz de atender às
características de um ambiente Big Data, respeitando seus princípios de volume,
velocidade, variedade, veracidade e valor.
MBA em Big Data (Data Science) 5
Ingestão de Dados
6. Introdução – Metodologia Pesquisa
A metodologia empregada pra confecção deste estudo baseou-se
em pesquisa bibliográfica em websites de grandes empresas, artigos
acadêmicos e estudos de caso.
MBA em Big Data (Data Science) 6
Ingestão de Dados
7. Apache Storm
O Apache Storm é uma plataforma escalável, distribuída e tolerante a falhas para
processamento de conjuntos de dados, incluindo análise em tempo real de
informações, aprendizado de máquina e computação contínua, da Fundação
Apache (http://www.apache.org/).
Esse sistema faz com que seja fácil de processar de forma confiável streams
ilimitados de dados, fazendo para o processamento em tempo real o que fez o
Hadoop para o processamento em lote.
MBA em Big Data (Data Science) 7
Ingestão de Dados
8. Apache Storm
O Apache Storm pode estar conectado a diversos produtores de dados incluindo
serviços de mensageria, por exemplo Apache Kafka.
Em nossa solução foram adotados ambos os conceitos, conectado diretamente a
uma API do Twitter, o Apache Storm é capaz de processar twittes em tempo real.
Já conectado ao serviço de mensageria Apache Kafka, é capaz de consumir
informações muito próximo ao tempo real ou em processamentos batch.
As topologias de fontes de dados são chamados Spouts, responsáveis pela
distribuição e paralelização do fluxo de dados, que são encaminhados aos nós de
processamento chamados de Bolts.
Os Bolts podem realizar cálculos sofisticados arbitrariamente sobre os dados,
chamar outros Bolts, armazenar os dados e chamar outros serviços.
MBA em Big Data (Data Science) 8
Ingestão de Dados
9. Apache Storm
Empresas utilizam o Storm para evitar resultados negativos e para otimizar seus
objetivos. Abaixo alguns exemplos de casos de uso.
MBA em Big Data (Data Science) 9
Ingestão de Dados
Prevenção Otimização
Serviços
Financeiros
Segurança anti-fraude.
Violação de conformidade.
Precificação de taxas.
Telecomunicações Falhas de segurança.
Interrupção de rede.
Alocação de banda.
Atendimento ao cliente.
Varejo Encolhimento.
Ruptura de estoque.
Ofertas.
Preço.
Manufatura Falhas de máquina.
Garantia de qualidade.
Cadeia de suprimentos.
Melhoria contínua.
Transporte Monitorização condutores.
Manutenção preventiva.
Rotas.
Preço.
Web Falhas nas aplicações.
Questões operacionais.
Conteúdo personalizado.
Fonte: http://br.hortonworks.com/hadoop/storm/
10. Fluxo de Dados
MBA em Big Data (Data Science) 10
Ingestão de Dados
11. Arquitetura
MBA em Big Data (Data Science) 11
Ingestão de Dados
Foi selecionada para a
arquitetura proposta a
distribuição Hadoop da
empresa Hortonworks.
Arquitetada, desenvolvida e
construída completamente
de maneira aberta, a
Hortonworks Data Platform
(HDP) fornece uma
plataforma de dados pronto
empresa que permite que as
organizações a adotar uma
arquitetura de dados
moderna.
12. Comparativo
MBA em Big Data (Data Science) 12
Ingestão de Dados
Flume
Flume é sistema distribuído para a coleta de dados de muitas fontes,
agregando-os, e escrevendo-os em HDFS. Ele é projetado para ser confiável e
altamente disponível, baseada em streaming de fluxos de dados.
Sqoop
É uma ferramenta concebida para a transferência eficiente de dados em
massa entre o Hadoop e armazenamentos de dados estruturados, tais como
bancos de dados relacionais. Dispõe de replicação bidirecional instantânea e
atualizações incrementais.
Storm
É um sistema de processamento de evento, usa um conjunto de serviços
para dar escalabilidade e confiabilidade. É executado continuamente ao longo de
um fluxo de dados de entrada e pode armazenar sua saída em diversas
arquiteturas, como HDFS, mensageria em Kafka, RDBMS e outras aplicações.
13. Parecer dos Integrantes
MBA em Big Data (Data Science) 13
Ingestão de Dados
Alexandre Nicolau
Entendo que as ferramentas Flume e Storm tenham sido concebidas
originalmente para tarefas diferentes sendo o Flume um serviço confiável para
coletar, agregar e mover grandes volumes de dados de uma origem para um
destino (HDFS) e o Storm para computação em tempo real (análise de streaming),
capaz de analisar os dados “on-the-fly”, tomar decisões e armazenar em
diferentes locais de acordo com sua necessidade.
Para o contexto em questão, o Apache Storm é capaz de permitir a uma
organização uma reação mais rápida e assertiva para seus clientes, provendo uma
experiência inovadora.
14. Parecer dos Integrantes
MBA em Big Data (Data Science) 14
Ingestão de Dados
Alan Drummond
A implementação de uma arquitetura para processamento em tempo real
utilizando a solução Apache Storm se torna mais fácil se entendermos que pode
ser realizada em diversas linguagens como Java, Clojure, Scala, Python, Ruby,
entre outras.
Essa solução é capaz de atender aos desafios propostos, por sua
capacidade de escalabilidade e sua alta performance de processamento
paralelizado.
15. Parecer dos Integrantes
MBA em Big Data (Data Science) 15
Ingestão de Dados
José Mario Queiroz
A solução proposta é capaz de atender às necessidades do novo
consumidor, impulsionado pela Web 2.0 e que demanda um tempo de resposta
mais rápido e eficiente para seus problemas ou desejos.
Ser capaz de um implantar uma ferramenta centralizadora de
processamento de dados coletados dos diversos canais de atendimento (chat, call
center, e-mail e redes sociais) e aplica-los a um mesmo algoritmo de aprendizado
de máquina (Mahout) e de resposta em tempo real (ou quase) é um desafio que
o Apache Storm está apto para solucionar.
Com o Storm é possível implementar speed layer (processamento em
tempo real) e batch layer (armazenamento no HDFS) para processamento para
um segundo momentos. Como essa arquitetura é nova, existem poucos projetos
inviabilizando demonstrar casos de sucesso.
16. Parecer dos Integrantes
MBA em Big Data (Data Science) 16
Ingestão de Dados
Leandro Navarro
Existe um diversidade muito grande de ferramentas e arquiteturas para o
processamento de dados em tempo real e para um ingestão de grande volume de
dados com confiabilidade e velocidade.
Das ferramentas estudadas durante as pesquisas para formulação deste
trabalho, entendo que escolhemos uma solução capaz de solucionar o problema
proposto de resposta em tempo real.
O Apache Storm é uma solução que pode ser implantada em conjunto com
diversas outras ferramentas, inclusive com bancos de dados relacionais e que
suporta uma diversidade de fontes de dados diversificadas. Com isso propusemos
uma arquitetura completa e passível de instalação.
17. Parecer dos Integrantes
MBA em Big Data (Data Science) 17
Ingestão de Dados
Rafael Cavazin
Em Database Marketing e CRM é de extrema importância que a empresa
conheça seu público-alvo e suas informações cadastrais, contextuais e de
interações.
Dito isso, ser capaz de capturar os dados que são gerados através dos
múltiplos canais estabelecidos entre a empresa e seu consumidor se torna o
diferencial estratégico que levará ao maior conhecimento e consequentemente
ao atendimento personalizado dos consumidores, cada vez mais exigentes.
Empresas que não se preocuparam em melhor conhecer os consumidores,
através de arquiteturas de Big Data capazes de gerir essa avalanche de dados,
podem diminuir seu Market Share.
18. Conclusões
Como atender às necessidades de novos consumidores que buscam o
atendimento omni-channel com uma arquitetura capaz de processar
informações em tempo real e também em processos batch?
Garantir que seja identificado em tempo real o sentimento do cliente sobre um produto
ou serviço e integrar aos processos de negócio da empresa, melhorando o tempo de
resposta aos clientes insatisfeitos e também conquistar outros consumidores
interessados na marca.
Identificados os modelos comportamentais dos consumidores, através de uma análise
das bases de dados históricas (armazenadas em RDBMS e HDFS), com base nas
interações em tempo real é possível prever as intenções dos consumidores e tomar
ações promocionais de retenção para controlar a Churn Rate.
Identificar os nós centrais de divulgação de determinada marca, com a finalidade de
oferecer-lhes produtos e serviços de melhor qualidade para que ajudem a divulgar uma
melhor imagem da empresa/marca.
MBA em Big Data (Data Science) 18
Ingestão de Dados
19. Referências
THE APACHE SOFTWARE FOUNDATION. Apache Storm: Distributed and fault-tolerant realtime
computation. 2014. Disponível em: < https://storm.apache.org/ >. Acesso em: 26 nov. 2014.
THE APACHE SOFTWARE FOUNDATION. Apache Kafka: A high-throughput distributed messaging
system. 2014. Disponível em: < http://kafka.apache.org/documentation.html >. Acesso em: 26 nov.
2014.
HORTONWORKS INC. Apache Storm: A system for processing streaming data in real time. 2014.
Disponível em: < http://br.hortonworks.com/hadoop/storm/ >. Acesso em: 26 nov. 2014.
JOSÉ R PEQUENO. C4Media Inc. (Comp.). O Apache Software Foundation anuncia o Apache Storm
como um projeto Top-Level. 2014. Disponível em: < http://www.infoq.com/br/news/2014/10/apache-storm-
top-level >. Acesso em: 27 nov. 2014.
TIM JONES. iMaster (Comp.). Processe big data em tempo real com Twitter Storm. 2013. Disponível
em: < http://imasters.com.br/infra/linux/processe-big-data-em-tempo-real-com-twitter-storm/ >.
Acesso em: 27 nov. 2014.
MBA em Big Data (Data Science) 19
20. Referências
FABIANE NARDON. C4Media Inc. (Comp.). Data Science em Tempo Real com Storm. 2014. Disponível
em: < http://www.infoq.com/br/presentations/data-science-tempo-real >. Acesso em: 30 nov. 2014.
HORTONWORKS INC. Hortonworks Data Platform: A plataforma de dados Apache Hadoop totalmente
em código aberto, desenvolvida para empresas. 2014. Disponível em: <
http://br.hortonworks.com/hdp/ >. Acesso em: 30 nov. 2014.
CHRISTOPHE MARCHAL. Loading data in Hadoop 2 with Sqoop and Flume. 2013. Disponível em: <
http://pt.slideshare.net/toff63/big-data-loading-with-flume-and-sqoop >. Acesso em: 30 nov. 2014.
MBA em Big Data (Data Science) 20