SlideShare uma empresa Scribd logo
1 de 20
Prof. Carlos Eduardo Santana 
Novembro de 2014 
MBA em Big Data 
Alexandre Nicolau RM 46346 
Alan Drummond RM 46467 
José Mario Queiroz RM 46231 
Leandro Navarro RM 46437 
Rafael Cavazin RM 46474 
Ingestão de Dados
Sumário 
1. Introdução 
1.1. Problema 
1.2. Justificativa 
1.3. Objetivo da Pesquisa 
1.4. Metodologia de Pesquisa 
2. Tema 
2.1. O Apache Storm 
2.2. Fluxo de Dados 
2.3. Arquitetura (macro visão) 
2.4. Comparativo 
3. Parecer dos Integrantes 
4. Conclusões 
5. Referências 
MBA em Big Data (Data Science) 2 Ingestão de Dados
Introdução – Problema 
Como atender às necessidades de novos consumidores 
que buscam o atendimento omni-channel com uma 
arquitetura capaz de processar informações em tempo 
real e também em processos batch? 
MBA em Big Data (Data Science) 3 
Ingestão de Dados
Introdução – Justificativa 
No atual cenário de volumetria e variedade de dados, o feedback rápido ao 
cliente se torna cada vez mais importante para a manutenção e expansão da 
carteira. 
Melhorar a experiência do cliente frequentemente traz maior confiança, 
fidelização e consequentemente retenção, principalmente para a nova geração de 
consumidores que advindos da nova era digital procuram experiências omni-channel. 
MBA em Big Data (Data Science) 4 
Ingestão de Dados
Introdução – Objetivo da Pesquisa 
A pesquisa tem por objetivo identifica uma solução de mercado que esteja 
integrada com a necessidade de ingestão de dados em tempo real (ou quase em 
tempo real) para o tratamento de informações em canais de mídia social. 
Essa solução também deve ser capaz de realizar a ingestão de dados de outras 
fontes que não sejam através de streaming. Para isso uma solução hibrida pode 
ser adotada. 
Por consequência a adoção de uma arquitetura capaz de atender às 
características de um ambiente Big Data, respeitando seus princípios de volume, 
velocidade, variedade, veracidade e valor. 
MBA em Big Data (Data Science) 5 
Ingestão de Dados
Introdução – Metodologia Pesquisa 
A metodologia empregada pra confecção deste estudo baseou-se 
em pesquisa bibliográfica em websites de grandes empresas, artigos 
acadêmicos e estudos de caso. 
MBA em Big Data (Data Science) 6 
Ingestão de Dados
Apache Storm 
O Apache Storm é uma plataforma escalável, distribuída e tolerante a falhas para 
processamento de conjuntos de dados, incluindo análise em tempo real de 
informações, aprendizado de máquina e computação contínua, da Fundação 
Apache (http://www.apache.org/). 
Esse sistema faz com que seja fácil de processar de forma confiável streams 
ilimitados de dados, fazendo para o processamento em tempo real o que fez o 
Hadoop para o processamento em lote. 
MBA em Big Data (Data Science) 7 
Ingestão de Dados
Apache Storm 
O Apache Storm pode estar conectado a diversos produtores de dados incluindo 
serviços de mensageria, por exemplo Apache Kafka. 
Em nossa solução foram adotados ambos os conceitos, conectado diretamente a 
uma API do Twitter, o Apache Storm é capaz de processar twittes em tempo real. 
Já conectado ao serviço de mensageria Apache Kafka, é capaz de consumir 
informações muito próximo ao tempo real ou em processamentos batch. 
As topologias de fontes de dados são chamados Spouts, responsáveis pela 
distribuição e paralelização do fluxo de dados, que são encaminhados aos nós de 
processamento chamados de Bolts. 
Os Bolts podem realizar cálculos sofisticados arbitrariamente sobre os dados, 
chamar outros Bolts, armazenar os dados e chamar outros serviços. 
MBA em Big Data (Data Science) 8 
Ingestão de Dados
Apache Storm 
Empresas utilizam o Storm para evitar resultados negativos e para otimizar seus 
objetivos. Abaixo alguns exemplos de casos de uso. 
MBA em Big Data (Data Science) 9 
Ingestão de Dados 
Prevenção Otimização 
Serviços 
Financeiros 
 Segurança anti-fraude. 
 Violação de conformidade. 
 Precificação de taxas. 
Telecomunicações  Falhas de segurança. 
 Interrupção de rede. 
 Alocação de banda. 
 Atendimento ao cliente. 
Varejo  Encolhimento. 
 Ruptura de estoque. 
 Ofertas. 
 Preço. 
Manufatura  Falhas de máquina. 
 Garantia de qualidade. 
 Cadeia de suprimentos. 
 Melhoria contínua. 
Transporte  Monitorização condutores. 
 Manutenção preventiva. 
 Rotas. 
 Preço. 
Web  Falhas nas aplicações. 
 Questões operacionais. 
 Conteúdo personalizado. 
Fonte: http://br.hortonworks.com/hadoop/storm/
Fluxo de Dados 
MBA em Big Data (Data Science) 10 
Ingestão de Dados
Arquitetura 
MBA em Big Data (Data Science) 11 
Ingestão de Dados 
Foi selecionada para a 
arquitetura proposta a 
distribuição Hadoop da 
empresa Hortonworks. 
Arquitetada, desenvolvida e 
construída completamente 
de maneira aberta, a 
Hortonworks Data Platform 
(HDP) fornece uma 
plataforma de dados pronto 
empresa que permite que as 
organizações a adotar uma 
arquitetura de dados 
moderna.
Comparativo 
MBA em Big Data (Data Science) 12 
Ingestão de Dados 
Flume 
Flume é sistema distribuído para a coleta de dados de muitas fontes, 
agregando-os, e escrevendo-os em HDFS. Ele é projetado para ser confiável e 
altamente disponível, baseada em streaming de fluxos de dados. 
Sqoop 
É uma ferramenta concebida para a transferência eficiente de dados em 
massa entre o Hadoop e armazenamentos de dados estruturados, tais como 
bancos de dados relacionais. Dispõe de replicação bidirecional instantânea e 
atualizações incrementais. 
Storm 
É um sistema de processamento de evento, usa um conjunto de serviços 
para dar escalabilidade e confiabilidade. É executado continuamente ao longo de 
um fluxo de dados de entrada e pode armazenar sua saída em diversas 
arquiteturas, como HDFS, mensageria em Kafka, RDBMS e outras aplicações.
Parecer dos Integrantes 
MBA em Big Data (Data Science) 13 
Ingestão de Dados 
Alexandre Nicolau 
Entendo que as ferramentas Flume e Storm tenham sido concebidas 
originalmente para tarefas diferentes sendo o Flume um serviço confiável para 
coletar, agregar e mover grandes volumes de dados de uma origem para um 
destino (HDFS) e o Storm para computação em tempo real (análise de streaming), 
capaz de analisar os dados “on-the-fly”, tomar decisões e armazenar em 
diferentes locais de acordo com sua necessidade. 
Para o contexto em questão, o Apache Storm é capaz de permitir a uma 
organização uma reação mais rápida e assertiva para seus clientes, provendo uma 
experiência inovadora.
Parecer dos Integrantes 
MBA em Big Data (Data Science) 14 
Ingestão de Dados 
Alan Drummond 
A implementação de uma arquitetura para processamento em tempo real 
utilizando a solução Apache Storm se torna mais fácil se entendermos que pode 
ser realizada em diversas linguagens como Java, Clojure, Scala, Python, Ruby, 
entre outras. 
Essa solução é capaz de atender aos desafios propostos, por sua 
capacidade de escalabilidade e sua alta performance de processamento 
paralelizado.
Parecer dos Integrantes 
MBA em Big Data (Data Science) 15 
Ingestão de Dados 
José Mario Queiroz 
A solução proposta é capaz de atender às necessidades do novo 
consumidor, impulsionado pela Web 2.0 e que demanda um tempo de resposta 
mais rápido e eficiente para seus problemas ou desejos. 
Ser capaz de um implantar uma ferramenta centralizadora de 
processamento de dados coletados dos diversos canais de atendimento (chat, call 
center, e-mail e redes sociais) e aplica-los a um mesmo algoritmo de aprendizado 
de máquina (Mahout) e de resposta em tempo real (ou quase) é um desafio que 
o Apache Storm está apto para solucionar. 
Com o Storm é possível implementar speed layer (processamento em 
tempo real) e batch layer (armazenamento no HDFS) para processamento para 
um segundo momentos. Como essa arquitetura é nova, existem poucos projetos 
inviabilizando demonstrar casos de sucesso.
Parecer dos Integrantes 
MBA em Big Data (Data Science) 16 
Ingestão de Dados 
Leandro Navarro 
Existe um diversidade muito grande de ferramentas e arquiteturas para o 
processamento de dados em tempo real e para um ingestão de grande volume de 
dados com confiabilidade e velocidade. 
Das ferramentas estudadas durante as pesquisas para formulação deste 
trabalho, entendo que escolhemos uma solução capaz de solucionar o problema 
proposto de resposta em tempo real. 
O Apache Storm é uma solução que pode ser implantada em conjunto com 
diversas outras ferramentas, inclusive com bancos de dados relacionais e que 
suporta uma diversidade de fontes de dados diversificadas. Com isso propusemos 
uma arquitetura completa e passível de instalação.
Parecer dos Integrantes 
MBA em Big Data (Data Science) 17 
Ingestão de Dados 
Rafael Cavazin 
Em Database Marketing e CRM é de extrema importância que a empresa 
conheça seu público-alvo e suas informações cadastrais, contextuais e de 
interações. 
Dito isso, ser capaz de capturar os dados que são gerados através dos 
múltiplos canais estabelecidos entre a empresa e seu consumidor se torna o 
diferencial estratégico que levará ao maior conhecimento e consequentemente 
ao atendimento personalizado dos consumidores, cada vez mais exigentes. 
Empresas que não se preocuparam em melhor conhecer os consumidores, 
através de arquiteturas de Big Data capazes de gerir essa avalanche de dados, 
podem diminuir seu Market Share.
Conclusões 
Como atender às necessidades de novos consumidores que buscam o 
atendimento omni-channel com uma arquitetura capaz de processar 
informações em tempo real e também em processos batch? 
 Garantir que seja identificado em tempo real o sentimento do cliente sobre um produto 
ou serviço e integrar aos processos de negócio da empresa, melhorando o tempo de 
resposta aos clientes insatisfeitos e também conquistar outros consumidores 
interessados na marca. 
 Identificados os modelos comportamentais dos consumidores, através de uma análise 
das bases de dados históricas (armazenadas em RDBMS e HDFS), com base nas 
interações em tempo real é possível prever as intenções dos consumidores e tomar 
ações promocionais de retenção para controlar a Churn Rate. 
 Identificar os nós centrais de divulgação de determinada marca, com a finalidade de 
oferecer-lhes produtos e serviços de melhor qualidade para que ajudem a divulgar uma 
melhor imagem da empresa/marca. 
MBA em Big Data (Data Science) 18 
Ingestão de Dados
Referências 
THE APACHE SOFTWARE FOUNDATION. Apache Storm: Distributed and fault-tolerant realtime 
computation. 2014. Disponível em: < https://storm.apache.org/ >. Acesso em: 26 nov. 2014. 
THE APACHE SOFTWARE FOUNDATION. Apache Kafka: A high-throughput distributed messaging 
system. 2014. Disponível em: < http://kafka.apache.org/documentation.html >. Acesso em: 26 nov. 
2014. 
HORTONWORKS INC. Apache Storm: A system for processing streaming data in real time. 2014. 
Disponível em: < http://br.hortonworks.com/hadoop/storm/ >. Acesso em: 26 nov. 2014. 
JOSÉ R PEQUENO. C4Media Inc. (Comp.). O Apache Software Foundation anuncia o Apache Storm 
como um projeto Top-Level. 2014. Disponível em: < http://www.infoq.com/br/news/2014/10/apache-storm- 
top-level >. Acesso em: 27 nov. 2014. 
TIM JONES. iMaster (Comp.). Processe big data em tempo real com Twitter Storm. 2013. Disponível 
em: < http://imasters.com.br/infra/linux/processe-big-data-em-tempo-real-com-twitter-storm/ >. 
Acesso em: 27 nov. 2014. 
MBA em Big Data (Data Science) 19
Referências 
FABIANE NARDON. C4Media Inc. (Comp.). Data Science em Tempo Real com Storm. 2014. Disponível 
em: < http://www.infoq.com/br/presentations/data-science-tempo-real >. Acesso em: 30 nov. 2014. 
HORTONWORKS INC. Hortonworks Data Platform: A plataforma de dados Apache Hadoop totalmente 
em código aberto, desenvolvida para empresas. 2014. Disponível em: < 
http://br.hortonworks.com/hdp/ >. Acesso em: 30 nov. 2014. 
CHRISTOPHE MARCHAL. Loading data in Hadoop 2 with Sqoop and Flume. 2013. Disponível em: < 
http://pt.slideshare.net/toff63/big-data-loading-with-flume-and-sqoop >. Acesso em: 30 nov. 2014. 
MBA em Big Data (Data Science) 20

Mais conteúdo relacionado

Mais procurados

Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Amazon Web Services
 
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovarLiberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovarAmazon Web Services LATAM
 
Iniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSIniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSAmazon Web Services LATAM
 
Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Amazon Web Services LATAM
 
Migrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRMigrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRAmazon Web Services LATAM
 
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Amazon Web Services LATAM
 
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
É Tudo sobre Dados -  ARC202 - Sao Paulo SummitÉ Tudo sobre Dados -  ARC202 - Sao Paulo Summit
É Tudo sobre Dados - ARC202 - Sao Paulo SummitAmazon Web Services
 
Sessão Avançada: Amazon Aurora - DAT302 - Sao Paulo Summit
Sessão Avançada: Amazon Aurora -  DAT302 - Sao Paulo SummitSessão Avançada: Amazon Aurora -  DAT302 - Sao Paulo Summit
Sessão Avançada: Amazon Aurora - DAT302 - Sao Paulo SummitAmazon Web Services
 
Path to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataPath to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataAmazon Web Services LATAM
 
Visão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloudVisão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloudAmazon Web Services
 
Amazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon Web Services LATAM
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services
 

Mais procurados (20)

Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
 
[Webinar] AWS Storage Day - Português
[Webinar] AWS Storage Day - Português[Webinar] AWS Storage Day - Português
[Webinar] AWS Storage Day - Português
 
Backup e Disaster Recovery na Nuvem
Backup e Disaster Recovery na NuvemBackup e Disaster Recovery na Nuvem
Backup e Disaster Recovery na Nuvem
 
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovarLiberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
 
Iniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSIniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWS
 
FLISOL 2017 - SQL Server no Linux
FLISOL 2017 - SQL Server no LinuxFLISOL 2017 - SQL Server no Linux
FLISOL 2017 - SQL Server no Linux
 
Aws summit arquitetura big data-v1.2
Aws summit arquitetura big data-v1.2Aws summit arquitetura big data-v1.2
Aws summit arquitetura big data-v1.2
 
Construindo Data Lakes e Analytics na AWS
Construindo Data Lakes e Analytics na AWSConstruindo Data Lakes e Analytics na AWS
Construindo Data Lakes e Analytics na AWS
 
Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB
 
Migrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRMigrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMR
 
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
 
Tech Talks Webinar- Armazenamento na AWS
Tech Talks Webinar- Armazenamento na AWSTech Talks Webinar- Armazenamento na AWS
Tech Talks Webinar- Armazenamento na AWS
 
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
É Tudo sobre Dados -  ARC202 - Sao Paulo SummitÉ Tudo sobre Dados -  ARC202 - Sao Paulo Summit
É Tudo sobre Dados - ARC202 - Sao Paulo Summit
 
Sessão Avançada: Amazon Aurora - DAT302 - Sao Paulo Summit
Sessão Avançada: Amazon Aurora -  DAT302 - Sao Paulo SummitSessão Avançada: Amazon Aurora -  DAT302 - Sao Paulo Summit
Sessão Avançada: Amazon Aurora - DAT302 - Sao Paulo Summit
 
DynamoDB - Uma Introdução
DynamoDB - Uma IntroduçãoDynamoDB - Uma Introdução
DynamoDB - Uma Introdução
 
Path to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataPath to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big Data
 
Visão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloudVisão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloud
 
Amazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenhoAmazon EC2 boas praticas e otimizações de desempenho
Amazon EC2 boas praticas e otimizações de desempenho
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
 
Keynote AWS RoadShow Belo Horizonte 2013
Keynote AWS RoadShow Belo Horizonte 2013Keynote AWS RoadShow Belo Horizonte 2013
Keynote AWS RoadShow Belo Horizonte 2013
 

Semelhante a Ingestão de Dados

Guia de compras - Microsoft Azure
Guia de compras - Microsoft AzureGuia de compras - Microsoft Azure
Guia de compras - Microsoft AzureRenato Grau
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...Eduardo Hahn
 
Sociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud ForensicsSociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud Forensicsederruschel
 
Sociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud ForensicsSociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud Forensicsederruschel
 
Sociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud ForensicsSociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud Forensicsederruschel
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Lucas Modesto
 
Riscos de segurança em cloud computing - Parte 4
Riscos de segurança em cloud computing - Parte 4Riscos de segurança em cloud computing - Parte 4
Riscos de segurança em cloud computing - Parte 4Fristtram Helder Fernandes
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Resolvendo problemas de customização em softwares como serviço (SaaS)
Resolvendo problemas de customização em softwares como serviço (SaaS)Resolvendo problemas de customização em softwares como serviço (SaaS)
Resolvendo problemas de customização em softwares como serviço (SaaS)André Aranha
 
Software as a Service
Software as a ServiceSoftware as a Service
Software as a ServiceDenis Vieira
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...Denodo
 

Semelhante a Ingestão de Dados (20)

Guia de compras - Microsoft Azure
Guia de compras - Microsoft AzureGuia de compras - Microsoft Azure
Guia de compras - Microsoft Azure
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
 
Sociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud ForensicsSociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud Forensics
 
Sociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud ForensicsSociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud Forensics
 
Sociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud ForensicsSociedade da Informação e Cloud Forensics
Sociedade da Informação e Cloud Forensics
 
Data mesh-pt
Data mesh-ptData mesh-pt
Data mesh-pt
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.
 
Riscos de segurança em cloud computing - Parte 4
Riscos de segurança em cloud computing - Parte 4Riscos de segurança em cloud computing - Parte 4
Riscos de segurança em cloud computing - Parte 4
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data
Big DataBig Data
Big Data
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
Pesquisa sobre no sql
Pesquisa sobre no sqlPesquisa sobre no sql
Pesquisa sobre no sql
 
Folderdataprev2016 web
Folderdataprev2016 webFolderdataprev2016 web
Folderdataprev2016 web
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Resolvendo problemas de customização em softwares como serviço (SaaS)
Resolvendo problemas de customização em softwares como serviço (SaaS)Resolvendo problemas de customização em softwares como serviço (SaaS)
Resolvendo problemas de customização em softwares como serviço (SaaS)
 
Software as a Service
Software as a ServiceSoftware as a Service
Software as a Service
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
 

Ingestão de Dados

  • 1. Prof. Carlos Eduardo Santana Novembro de 2014 MBA em Big Data Alexandre Nicolau RM 46346 Alan Drummond RM 46467 José Mario Queiroz RM 46231 Leandro Navarro RM 46437 Rafael Cavazin RM 46474 Ingestão de Dados
  • 2. Sumário 1. Introdução 1.1. Problema 1.2. Justificativa 1.3. Objetivo da Pesquisa 1.4. Metodologia de Pesquisa 2. Tema 2.1. O Apache Storm 2.2. Fluxo de Dados 2.3. Arquitetura (macro visão) 2.4. Comparativo 3. Parecer dos Integrantes 4. Conclusões 5. Referências MBA em Big Data (Data Science) 2 Ingestão de Dados
  • 3. Introdução – Problema Como atender às necessidades de novos consumidores que buscam o atendimento omni-channel com uma arquitetura capaz de processar informações em tempo real e também em processos batch? MBA em Big Data (Data Science) 3 Ingestão de Dados
  • 4. Introdução – Justificativa No atual cenário de volumetria e variedade de dados, o feedback rápido ao cliente se torna cada vez mais importante para a manutenção e expansão da carteira. Melhorar a experiência do cliente frequentemente traz maior confiança, fidelização e consequentemente retenção, principalmente para a nova geração de consumidores que advindos da nova era digital procuram experiências omni-channel. MBA em Big Data (Data Science) 4 Ingestão de Dados
  • 5. Introdução – Objetivo da Pesquisa A pesquisa tem por objetivo identifica uma solução de mercado que esteja integrada com a necessidade de ingestão de dados em tempo real (ou quase em tempo real) para o tratamento de informações em canais de mídia social. Essa solução também deve ser capaz de realizar a ingestão de dados de outras fontes que não sejam através de streaming. Para isso uma solução hibrida pode ser adotada. Por consequência a adoção de uma arquitetura capaz de atender às características de um ambiente Big Data, respeitando seus princípios de volume, velocidade, variedade, veracidade e valor. MBA em Big Data (Data Science) 5 Ingestão de Dados
  • 6. Introdução – Metodologia Pesquisa A metodologia empregada pra confecção deste estudo baseou-se em pesquisa bibliográfica em websites de grandes empresas, artigos acadêmicos e estudos de caso. MBA em Big Data (Data Science) 6 Ingestão de Dados
  • 7. Apache Storm O Apache Storm é uma plataforma escalável, distribuída e tolerante a falhas para processamento de conjuntos de dados, incluindo análise em tempo real de informações, aprendizado de máquina e computação contínua, da Fundação Apache (http://www.apache.org/). Esse sistema faz com que seja fácil de processar de forma confiável streams ilimitados de dados, fazendo para o processamento em tempo real o que fez o Hadoop para o processamento em lote. MBA em Big Data (Data Science) 7 Ingestão de Dados
  • 8. Apache Storm O Apache Storm pode estar conectado a diversos produtores de dados incluindo serviços de mensageria, por exemplo Apache Kafka. Em nossa solução foram adotados ambos os conceitos, conectado diretamente a uma API do Twitter, o Apache Storm é capaz de processar twittes em tempo real. Já conectado ao serviço de mensageria Apache Kafka, é capaz de consumir informações muito próximo ao tempo real ou em processamentos batch. As topologias de fontes de dados são chamados Spouts, responsáveis pela distribuição e paralelização do fluxo de dados, que são encaminhados aos nós de processamento chamados de Bolts. Os Bolts podem realizar cálculos sofisticados arbitrariamente sobre os dados, chamar outros Bolts, armazenar os dados e chamar outros serviços. MBA em Big Data (Data Science) 8 Ingestão de Dados
  • 9. Apache Storm Empresas utilizam o Storm para evitar resultados negativos e para otimizar seus objetivos. Abaixo alguns exemplos de casos de uso. MBA em Big Data (Data Science) 9 Ingestão de Dados Prevenção Otimização Serviços Financeiros  Segurança anti-fraude.  Violação de conformidade.  Precificação de taxas. Telecomunicações  Falhas de segurança.  Interrupção de rede.  Alocação de banda.  Atendimento ao cliente. Varejo  Encolhimento.  Ruptura de estoque.  Ofertas.  Preço. Manufatura  Falhas de máquina.  Garantia de qualidade.  Cadeia de suprimentos.  Melhoria contínua. Transporte  Monitorização condutores.  Manutenção preventiva.  Rotas.  Preço. Web  Falhas nas aplicações.  Questões operacionais.  Conteúdo personalizado. Fonte: http://br.hortonworks.com/hadoop/storm/
  • 10. Fluxo de Dados MBA em Big Data (Data Science) 10 Ingestão de Dados
  • 11. Arquitetura MBA em Big Data (Data Science) 11 Ingestão de Dados Foi selecionada para a arquitetura proposta a distribuição Hadoop da empresa Hortonworks. Arquitetada, desenvolvida e construída completamente de maneira aberta, a Hortonworks Data Platform (HDP) fornece uma plataforma de dados pronto empresa que permite que as organizações a adotar uma arquitetura de dados moderna.
  • 12. Comparativo MBA em Big Data (Data Science) 12 Ingestão de Dados Flume Flume é sistema distribuído para a coleta de dados de muitas fontes, agregando-os, e escrevendo-os em HDFS. Ele é projetado para ser confiável e altamente disponível, baseada em streaming de fluxos de dados. Sqoop É uma ferramenta concebida para a transferência eficiente de dados em massa entre o Hadoop e armazenamentos de dados estruturados, tais como bancos de dados relacionais. Dispõe de replicação bidirecional instantânea e atualizações incrementais. Storm É um sistema de processamento de evento, usa um conjunto de serviços para dar escalabilidade e confiabilidade. É executado continuamente ao longo de um fluxo de dados de entrada e pode armazenar sua saída em diversas arquiteturas, como HDFS, mensageria em Kafka, RDBMS e outras aplicações.
  • 13. Parecer dos Integrantes MBA em Big Data (Data Science) 13 Ingestão de Dados Alexandre Nicolau Entendo que as ferramentas Flume e Storm tenham sido concebidas originalmente para tarefas diferentes sendo o Flume um serviço confiável para coletar, agregar e mover grandes volumes de dados de uma origem para um destino (HDFS) e o Storm para computação em tempo real (análise de streaming), capaz de analisar os dados “on-the-fly”, tomar decisões e armazenar em diferentes locais de acordo com sua necessidade. Para o contexto em questão, o Apache Storm é capaz de permitir a uma organização uma reação mais rápida e assertiva para seus clientes, provendo uma experiência inovadora.
  • 14. Parecer dos Integrantes MBA em Big Data (Data Science) 14 Ingestão de Dados Alan Drummond A implementação de uma arquitetura para processamento em tempo real utilizando a solução Apache Storm se torna mais fácil se entendermos que pode ser realizada em diversas linguagens como Java, Clojure, Scala, Python, Ruby, entre outras. Essa solução é capaz de atender aos desafios propostos, por sua capacidade de escalabilidade e sua alta performance de processamento paralelizado.
  • 15. Parecer dos Integrantes MBA em Big Data (Data Science) 15 Ingestão de Dados José Mario Queiroz A solução proposta é capaz de atender às necessidades do novo consumidor, impulsionado pela Web 2.0 e que demanda um tempo de resposta mais rápido e eficiente para seus problemas ou desejos. Ser capaz de um implantar uma ferramenta centralizadora de processamento de dados coletados dos diversos canais de atendimento (chat, call center, e-mail e redes sociais) e aplica-los a um mesmo algoritmo de aprendizado de máquina (Mahout) e de resposta em tempo real (ou quase) é um desafio que o Apache Storm está apto para solucionar. Com o Storm é possível implementar speed layer (processamento em tempo real) e batch layer (armazenamento no HDFS) para processamento para um segundo momentos. Como essa arquitetura é nova, existem poucos projetos inviabilizando demonstrar casos de sucesso.
  • 16. Parecer dos Integrantes MBA em Big Data (Data Science) 16 Ingestão de Dados Leandro Navarro Existe um diversidade muito grande de ferramentas e arquiteturas para o processamento de dados em tempo real e para um ingestão de grande volume de dados com confiabilidade e velocidade. Das ferramentas estudadas durante as pesquisas para formulação deste trabalho, entendo que escolhemos uma solução capaz de solucionar o problema proposto de resposta em tempo real. O Apache Storm é uma solução que pode ser implantada em conjunto com diversas outras ferramentas, inclusive com bancos de dados relacionais e que suporta uma diversidade de fontes de dados diversificadas. Com isso propusemos uma arquitetura completa e passível de instalação.
  • 17. Parecer dos Integrantes MBA em Big Data (Data Science) 17 Ingestão de Dados Rafael Cavazin Em Database Marketing e CRM é de extrema importância que a empresa conheça seu público-alvo e suas informações cadastrais, contextuais e de interações. Dito isso, ser capaz de capturar os dados que são gerados através dos múltiplos canais estabelecidos entre a empresa e seu consumidor se torna o diferencial estratégico que levará ao maior conhecimento e consequentemente ao atendimento personalizado dos consumidores, cada vez mais exigentes. Empresas que não se preocuparam em melhor conhecer os consumidores, através de arquiteturas de Big Data capazes de gerir essa avalanche de dados, podem diminuir seu Market Share.
  • 18. Conclusões Como atender às necessidades de novos consumidores que buscam o atendimento omni-channel com uma arquitetura capaz de processar informações em tempo real e também em processos batch?  Garantir que seja identificado em tempo real o sentimento do cliente sobre um produto ou serviço e integrar aos processos de negócio da empresa, melhorando o tempo de resposta aos clientes insatisfeitos e também conquistar outros consumidores interessados na marca.  Identificados os modelos comportamentais dos consumidores, através de uma análise das bases de dados históricas (armazenadas em RDBMS e HDFS), com base nas interações em tempo real é possível prever as intenções dos consumidores e tomar ações promocionais de retenção para controlar a Churn Rate.  Identificar os nós centrais de divulgação de determinada marca, com a finalidade de oferecer-lhes produtos e serviços de melhor qualidade para que ajudem a divulgar uma melhor imagem da empresa/marca. MBA em Big Data (Data Science) 18 Ingestão de Dados
  • 19. Referências THE APACHE SOFTWARE FOUNDATION. Apache Storm: Distributed and fault-tolerant realtime computation. 2014. Disponível em: < https://storm.apache.org/ >. Acesso em: 26 nov. 2014. THE APACHE SOFTWARE FOUNDATION. Apache Kafka: A high-throughput distributed messaging system. 2014. Disponível em: < http://kafka.apache.org/documentation.html >. Acesso em: 26 nov. 2014. HORTONWORKS INC. Apache Storm: A system for processing streaming data in real time. 2014. Disponível em: < http://br.hortonworks.com/hadoop/storm/ >. Acesso em: 26 nov. 2014. JOSÉ R PEQUENO. C4Media Inc. (Comp.). O Apache Software Foundation anuncia o Apache Storm como um projeto Top-Level. 2014. Disponível em: < http://www.infoq.com/br/news/2014/10/apache-storm- top-level >. Acesso em: 27 nov. 2014. TIM JONES. iMaster (Comp.). Processe big data em tempo real com Twitter Storm. 2013. Disponível em: < http://imasters.com.br/infra/linux/processe-big-data-em-tempo-real-com-twitter-storm/ >. Acesso em: 27 nov. 2014. MBA em Big Data (Data Science) 19
  • 20. Referências FABIANE NARDON. C4Media Inc. (Comp.). Data Science em Tempo Real com Storm. 2014. Disponível em: < http://www.infoq.com/br/presentations/data-science-tempo-real >. Acesso em: 30 nov. 2014. HORTONWORKS INC. Hortonworks Data Platform: A plataforma de dados Apache Hadoop totalmente em código aberto, desenvolvida para empresas. 2014. Disponível em: < http://br.hortonworks.com/hdp/ >. Acesso em: 30 nov. 2014. CHRISTOPHE MARCHAL. Loading data in Hadoop 2 with Sqoop and Flume. 2013. Disponível em: < http://pt.slideshare.net/toff63/big-data-loading-with-flume-and-sqoop >. Acesso em: 30 nov. 2014. MBA em Big Data (Data Science) 20