Ingestão de Dados

830 visualizações

Publicada em

Trabalho desenvolvido durante o MBA em Big Data (Data Science) sobre ingestão de dados utilizando Apache Storm.

Publicada em: Dados e análise
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
830
No SlideShare
0
A partir de incorporações
0
Número de incorporações
6
Ações
Compartilhamentos
0
Downloads
26
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Ingestão de Dados

  1. 1. Prof. Carlos Eduardo Santana Novembro de 2014 MBA em Big Data Alexandre Nicolau RM 46346 Alan Drummond RM 46467 José Mario Queiroz RM 46231 Leandro Navarro RM 46437 Rafael Cavazin RM 46474 Ingestão de Dados
  2. 2. Sumário 1. Introdução 1.1. Problema 1.2. Justificativa 1.3. Objetivo da Pesquisa 1.4. Metodologia de Pesquisa 2. Tema 2.1. O Apache Storm 2.2. Fluxo de Dados 2.3. Arquitetura (macro visão) 2.4. Comparativo 3. Parecer dos Integrantes 4. Conclusões 5. Referências MBA em Big Data (Data Science) 2 Ingestão de Dados
  3. 3. Introdução – Problema Como atender às necessidades de novos consumidores que buscam o atendimento omni-channel com uma arquitetura capaz de processar informações em tempo real e também em processos batch? MBA em Big Data (Data Science) 3 Ingestão de Dados
  4. 4. Introdução – Justificativa No atual cenário de volumetria e variedade de dados, o feedback rápido ao cliente se torna cada vez mais importante para a manutenção e expansão da carteira. Melhorar a experiência do cliente frequentemente traz maior confiança, fidelização e consequentemente retenção, principalmente para a nova geração de consumidores que advindos da nova era digital procuram experiências omni-channel. MBA em Big Data (Data Science) 4 Ingestão de Dados
  5. 5. Introdução – Objetivo da Pesquisa A pesquisa tem por objetivo identifica uma solução de mercado que esteja integrada com a necessidade de ingestão de dados em tempo real (ou quase em tempo real) para o tratamento de informações em canais de mídia social. Essa solução também deve ser capaz de realizar a ingestão de dados de outras fontes que não sejam através de streaming. Para isso uma solução hibrida pode ser adotada. Por consequência a adoção de uma arquitetura capaz de atender às características de um ambiente Big Data, respeitando seus princípios de volume, velocidade, variedade, veracidade e valor. MBA em Big Data (Data Science) 5 Ingestão de Dados
  6. 6. Introdução – Metodologia Pesquisa A metodologia empregada pra confecção deste estudo baseou-se em pesquisa bibliográfica em websites de grandes empresas, artigos acadêmicos e estudos de caso. MBA em Big Data (Data Science) 6 Ingestão de Dados
  7. 7. Apache Storm O Apache Storm é uma plataforma escalável, distribuída e tolerante a falhas para processamento de conjuntos de dados, incluindo análise em tempo real de informações, aprendizado de máquina e computação contínua, da Fundação Apache (http://www.apache.org/). Esse sistema faz com que seja fácil de processar de forma confiável streams ilimitados de dados, fazendo para o processamento em tempo real o que fez o Hadoop para o processamento em lote. MBA em Big Data (Data Science) 7 Ingestão de Dados
  8. 8. Apache Storm O Apache Storm pode estar conectado a diversos produtores de dados incluindo serviços de mensageria, por exemplo Apache Kafka. Em nossa solução foram adotados ambos os conceitos, conectado diretamente a uma API do Twitter, o Apache Storm é capaz de processar twittes em tempo real. Já conectado ao serviço de mensageria Apache Kafka, é capaz de consumir informações muito próximo ao tempo real ou em processamentos batch. As topologias de fontes de dados são chamados Spouts, responsáveis pela distribuição e paralelização do fluxo de dados, que são encaminhados aos nós de processamento chamados de Bolts. Os Bolts podem realizar cálculos sofisticados arbitrariamente sobre os dados, chamar outros Bolts, armazenar os dados e chamar outros serviços. MBA em Big Data (Data Science) 8 Ingestão de Dados
  9. 9. Apache Storm Empresas utilizam o Storm para evitar resultados negativos e para otimizar seus objetivos. Abaixo alguns exemplos de casos de uso. MBA em Big Data (Data Science) 9 Ingestão de Dados Prevenção Otimização Serviços Financeiros  Segurança anti-fraude.  Violação de conformidade.  Precificação de taxas. Telecomunicações  Falhas de segurança.  Interrupção de rede.  Alocação de banda.  Atendimento ao cliente. Varejo  Encolhimento.  Ruptura de estoque.  Ofertas.  Preço. Manufatura  Falhas de máquina.  Garantia de qualidade.  Cadeia de suprimentos.  Melhoria contínua. Transporte  Monitorização condutores.  Manutenção preventiva.  Rotas.  Preço. Web  Falhas nas aplicações.  Questões operacionais.  Conteúdo personalizado. Fonte: http://br.hortonworks.com/hadoop/storm/
  10. 10. Fluxo de Dados MBA em Big Data (Data Science) 10 Ingestão de Dados
  11. 11. Arquitetura MBA em Big Data (Data Science) 11 Ingestão de Dados Foi selecionada para a arquitetura proposta a distribuição Hadoop da empresa Hortonworks. Arquitetada, desenvolvida e construída completamente de maneira aberta, a Hortonworks Data Platform (HDP) fornece uma plataforma de dados pronto empresa que permite que as organizações a adotar uma arquitetura de dados moderna.
  12. 12. Comparativo MBA em Big Data (Data Science) 12 Ingestão de Dados Flume Flume é sistema distribuído para a coleta de dados de muitas fontes, agregando-os, e escrevendo-os em HDFS. Ele é projetado para ser confiável e altamente disponível, baseada em streaming de fluxos de dados. Sqoop É uma ferramenta concebida para a transferência eficiente de dados em massa entre o Hadoop e armazenamentos de dados estruturados, tais como bancos de dados relacionais. Dispõe de replicação bidirecional instantânea e atualizações incrementais. Storm É um sistema de processamento de evento, usa um conjunto de serviços para dar escalabilidade e confiabilidade. É executado continuamente ao longo de um fluxo de dados de entrada e pode armazenar sua saída em diversas arquiteturas, como HDFS, mensageria em Kafka, RDBMS e outras aplicações.
  13. 13. Parecer dos Integrantes MBA em Big Data (Data Science) 13 Ingestão de Dados Alexandre Nicolau Entendo que as ferramentas Flume e Storm tenham sido concebidas originalmente para tarefas diferentes sendo o Flume um serviço confiável para coletar, agregar e mover grandes volumes de dados de uma origem para um destino (HDFS) e o Storm para computação em tempo real (análise de streaming), capaz de analisar os dados “on-the-fly”, tomar decisões e armazenar em diferentes locais de acordo com sua necessidade. Para o contexto em questão, o Apache Storm é capaz de permitir a uma organização uma reação mais rápida e assertiva para seus clientes, provendo uma experiência inovadora.
  14. 14. Parecer dos Integrantes MBA em Big Data (Data Science) 14 Ingestão de Dados Alan Drummond A implementação de uma arquitetura para processamento em tempo real utilizando a solução Apache Storm se torna mais fácil se entendermos que pode ser realizada em diversas linguagens como Java, Clojure, Scala, Python, Ruby, entre outras. Essa solução é capaz de atender aos desafios propostos, por sua capacidade de escalabilidade e sua alta performance de processamento paralelizado.
  15. 15. Parecer dos Integrantes MBA em Big Data (Data Science) 15 Ingestão de Dados José Mario Queiroz A solução proposta é capaz de atender às necessidades do novo consumidor, impulsionado pela Web 2.0 e que demanda um tempo de resposta mais rápido e eficiente para seus problemas ou desejos. Ser capaz de um implantar uma ferramenta centralizadora de processamento de dados coletados dos diversos canais de atendimento (chat, call center, e-mail e redes sociais) e aplica-los a um mesmo algoritmo de aprendizado de máquina (Mahout) e de resposta em tempo real (ou quase) é um desafio que o Apache Storm está apto para solucionar. Com o Storm é possível implementar speed layer (processamento em tempo real) e batch layer (armazenamento no HDFS) para processamento para um segundo momentos. Como essa arquitetura é nova, existem poucos projetos inviabilizando demonstrar casos de sucesso.
  16. 16. Parecer dos Integrantes MBA em Big Data (Data Science) 16 Ingestão de Dados Leandro Navarro Existe um diversidade muito grande de ferramentas e arquiteturas para o processamento de dados em tempo real e para um ingestão de grande volume de dados com confiabilidade e velocidade. Das ferramentas estudadas durante as pesquisas para formulação deste trabalho, entendo que escolhemos uma solução capaz de solucionar o problema proposto de resposta em tempo real. O Apache Storm é uma solução que pode ser implantada em conjunto com diversas outras ferramentas, inclusive com bancos de dados relacionais e que suporta uma diversidade de fontes de dados diversificadas. Com isso propusemos uma arquitetura completa e passível de instalação.
  17. 17. Parecer dos Integrantes MBA em Big Data (Data Science) 17 Ingestão de Dados Rafael Cavazin Em Database Marketing e CRM é de extrema importância que a empresa conheça seu público-alvo e suas informações cadastrais, contextuais e de interações. Dito isso, ser capaz de capturar os dados que são gerados através dos múltiplos canais estabelecidos entre a empresa e seu consumidor se torna o diferencial estratégico que levará ao maior conhecimento e consequentemente ao atendimento personalizado dos consumidores, cada vez mais exigentes. Empresas que não se preocuparam em melhor conhecer os consumidores, através de arquiteturas de Big Data capazes de gerir essa avalanche de dados, podem diminuir seu Market Share.
  18. 18. Conclusões Como atender às necessidades de novos consumidores que buscam o atendimento omni-channel com uma arquitetura capaz de processar informações em tempo real e também em processos batch?  Garantir que seja identificado em tempo real o sentimento do cliente sobre um produto ou serviço e integrar aos processos de negócio da empresa, melhorando o tempo de resposta aos clientes insatisfeitos e também conquistar outros consumidores interessados na marca.  Identificados os modelos comportamentais dos consumidores, através de uma análise das bases de dados históricas (armazenadas em RDBMS e HDFS), com base nas interações em tempo real é possível prever as intenções dos consumidores e tomar ações promocionais de retenção para controlar a Churn Rate.  Identificar os nós centrais de divulgação de determinada marca, com a finalidade de oferecer-lhes produtos e serviços de melhor qualidade para que ajudem a divulgar uma melhor imagem da empresa/marca. MBA em Big Data (Data Science) 18 Ingestão de Dados
  19. 19. Referências THE APACHE SOFTWARE FOUNDATION. Apache Storm: Distributed and fault-tolerant realtime computation. 2014. Disponível em: < https://storm.apache.org/ >. Acesso em: 26 nov. 2014. THE APACHE SOFTWARE FOUNDATION. Apache Kafka: A high-throughput distributed messaging system. 2014. Disponível em: < http://kafka.apache.org/documentation.html >. Acesso em: 26 nov. 2014. HORTONWORKS INC. Apache Storm: A system for processing streaming data in real time. 2014. Disponível em: < http://br.hortonworks.com/hadoop/storm/ >. Acesso em: 26 nov. 2014. JOSÉ R PEQUENO. C4Media Inc. (Comp.). O Apache Software Foundation anuncia o Apache Storm como um projeto Top-Level. 2014. Disponível em: < http://www.infoq.com/br/news/2014/10/apache-storm- top-level >. Acesso em: 27 nov. 2014. TIM JONES. iMaster (Comp.). Processe big data em tempo real com Twitter Storm. 2013. Disponível em: < http://imasters.com.br/infra/linux/processe-big-data-em-tempo-real-com-twitter-storm/ >. Acesso em: 27 nov. 2014. MBA em Big Data (Data Science) 19
  20. 20. Referências FABIANE NARDON. C4Media Inc. (Comp.). Data Science em Tempo Real com Storm. 2014. Disponível em: < http://www.infoq.com/br/presentations/data-science-tempo-real >. Acesso em: 30 nov. 2014. HORTONWORKS INC. Hortonworks Data Platform: A plataforma de dados Apache Hadoop totalmente em código aberto, desenvolvida para empresas. 2014. Disponível em: < http://br.hortonworks.com/hdp/ >. Acesso em: 30 nov. 2014. CHRISTOPHE MARCHAL. Loading data in Hadoop 2 with Sqoop and Flume. 2013. Disponível em: < http://pt.slideshare.net/toff63/big-data-loading-with-flume-and-sqoop >. Acesso em: 30 nov. 2014. MBA em Big Data (Data Science) 20

×