Desafios do Big Data
Renato Ochando
1º Hackathon Inmetrics em parceria com a FIAP
Big Data
O que é?
Teve inicio no fim dos anos 90, com as empresas de
internet tentando gerenciar volumes de informação sem
precedentes.
Big Data é um termo que descreve sistemas com alto:
• Volume de informação
• Velocidade na ingestão de informação
• Variedade de dados
Demanda formas inovadoras de processar informação, a
um custo efetivo, que possibilitem visão profunda, tomada
de decisão e automação de processos.
“Big data não trata de petabytes, mas de computação
complexa.”
Big Data
O que é?
Se você é um desenvolvedor, até agora tudo bem com os
“três V” do Big Data – código de aplicação cuida de
volume, velocidade e variedade.
... Mas se você é um cientista de dados, nada disso cuida
do significado da informação. Então, são necessários mais
“dois V”, talvez:
• Veracidade da informação
• Valor que a informação agrega ao negócio
Em 2015, 85% das organizações na lista das 500 da
Fortune não serão capazes de explorar Big Data para
vantagem competitiva.
Volume
O Volume está sempre crescendo
Possuir mais informação significa possuir melhores
modelos.
Grandes volumes de informação são, de imediato, o maior
desafio para as estruturas convencionais de TI, o que
demanda por armazenamento altamente escalável e
consultas distribuídas.
As tecnologias mais utilizadas para armazenamento e
processamento de informações são Hadoop e MapReduce.
Constantemente o volume de informação criada excede o
limite da capacidade do seu storage (abordagem
seletiva).
Velocidade
Processamento em tempo real
A primeira geração de soluções para big data eram focadas
principalmente na captura e análise de informações batch.
Fast data se concentra em reduzir o intervalo de tempo
entre dados que chegam e o valor a ser extraído desses
dados.
Equilibra vários tradeoffs para entregar:
1. Confiabilidade na ingestão de dados;
2. Flexibilidade no armazenamento e consultas;
3. Ferramentas sofisticadas para analytics.
Big data foi ontem. Fast data é agora.
Variedade
Estrutura da informação
Soluções de Big Data irão armazenar informações
estruturadas, semiestruturadas, e não estruturadas. Por
exemplo documentos de texto, multimídia, etc.
Modelar e preparar informações de diferentes fontes de
sistemas para obter “visões” tem sido, por décadas, um
trabalho demorado e tedioso.
A maioria das organizações passam de 70% à 80% do tempo
modelando, em vez de interagir com com a informação
para produzir visões de negócio.
“Variedade, e não volume, será o maior desafio de Big
Data em 2015.”
Veracidade
In Data We Trust
Refere-se à vieses, ruído e anormalidade nos dados.
A correção da informação e eliminação de ruídos deve ser
feita, de preferência, na fonte de coleta.
Assim que os usuários começam a explorar as informações,
eles se tornam verdadeiramente engajados e mais
dispostos a investir em esforços para “limpar” os dados.
Veracidade não é apenas sobre a qualidade dos dados,
mas também sobre a compreensão dos dados.
Valor
Desafio de agregar valor
Lacuna entre habilidade e tecnologia para usar a
informação.
Enquanto 75% dos líderes de negócio acreditam que estão
extraindo máximo de seus dados. Na realidade, apenas 4%,
de fato, tem colhido frutos relevantes dessas iniciativas.
De forma geral, 43% das empresas indicaram que “obtém
pequenos benefícios tangíveis das informações”, enquanto
23% afirmam que não colhem benefício algum.
A estratégia em torno da utilização dos dados é o
principal recurso para uma organização obter vantagem
competitiva nos mercados onde atua.
Desafios arquiteturais
Arquitetura Lambda
Arquitetura para processamento de dados
genérica, escalável e tolerante à falhas.
Toda informação que entra no sistema é
despachada para ambas camadas batch e
online.
Camada batch: armazena toda a informação
(imutável) e pré computa visões para a camada
de servidão.
Camada online: compensa a alta latência de
atualizações, tratando apenas de informações
recentes.
Desafios de implementação
Os desafios continuam...
Inúmeras iniciativas para o
desenvolvimento de novas soluções.
Projetos open source ainda conduzem
o desenvolvimento de big data.
Empresas que vendem soluções de big
data ainda proveem suporte e
funcionalidades proprietárias.
Open source ou solução proprietária?
Segurança
Segurança de informação
Falhas de segurança são extremamente prejudiciais para o
negócio.
Segurança em big data não é fundamentalmente diferente
de segurança para sistemas tradicionais.
Os desafios surgem devido à:
1. Complexidade do ambiente;
2. Diferentes fontes de informação (coletada, agregada e
analisada);
3. Tecnologias aplicadas para sustentar a solução.
Nenhuma corrente é mais forte que seu elo mais fraco.
Obrigado!

Hackathon Inmetrics e Fiap: Desafios do Big Data

  • 1.
    Desafios do BigData Renato Ochando
  • 2.
    1º Hackathon Inmetricsem parceria com a FIAP
  • 3.
    Big Data O queé? Teve inicio no fim dos anos 90, com as empresas de internet tentando gerenciar volumes de informação sem precedentes. Big Data é um termo que descreve sistemas com alto: • Volume de informação • Velocidade na ingestão de informação • Variedade de dados Demanda formas inovadoras de processar informação, a um custo efetivo, que possibilitem visão profunda, tomada de decisão e automação de processos. “Big data não trata de petabytes, mas de computação complexa.”
  • 4.
    Big Data O queé? Se você é um desenvolvedor, até agora tudo bem com os “três V” do Big Data – código de aplicação cuida de volume, velocidade e variedade. ... Mas se você é um cientista de dados, nada disso cuida do significado da informação. Então, são necessários mais “dois V”, talvez: • Veracidade da informação • Valor que a informação agrega ao negócio Em 2015, 85% das organizações na lista das 500 da Fortune não serão capazes de explorar Big Data para vantagem competitiva.
  • 5.
    Volume O Volume estásempre crescendo Possuir mais informação significa possuir melhores modelos. Grandes volumes de informação são, de imediato, o maior desafio para as estruturas convencionais de TI, o que demanda por armazenamento altamente escalável e consultas distribuídas. As tecnologias mais utilizadas para armazenamento e processamento de informações são Hadoop e MapReduce. Constantemente o volume de informação criada excede o limite da capacidade do seu storage (abordagem seletiva).
  • 6.
    Velocidade Processamento em temporeal A primeira geração de soluções para big data eram focadas principalmente na captura e análise de informações batch. Fast data se concentra em reduzir o intervalo de tempo entre dados que chegam e o valor a ser extraído desses dados. Equilibra vários tradeoffs para entregar: 1. Confiabilidade na ingestão de dados; 2. Flexibilidade no armazenamento e consultas; 3. Ferramentas sofisticadas para analytics. Big data foi ontem. Fast data é agora.
  • 7.
    Variedade Estrutura da informação Soluçõesde Big Data irão armazenar informações estruturadas, semiestruturadas, e não estruturadas. Por exemplo documentos de texto, multimídia, etc. Modelar e preparar informações de diferentes fontes de sistemas para obter “visões” tem sido, por décadas, um trabalho demorado e tedioso. A maioria das organizações passam de 70% à 80% do tempo modelando, em vez de interagir com com a informação para produzir visões de negócio. “Variedade, e não volume, será o maior desafio de Big Data em 2015.”
  • 8.
    Veracidade In Data WeTrust Refere-se à vieses, ruído e anormalidade nos dados. A correção da informação e eliminação de ruídos deve ser feita, de preferência, na fonte de coleta. Assim que os usuários começam a explorar as informações, eles se tornam verdadeiramente engajados e mais dispostos a investir em esforços para “limpar” os dados. Veracidade não é apenas sobre a qualidade dos dados, mas também sobre a compreensão dos dados.
  • 9.
    Valor Desafio de agregarvalor Lacuna entre habilidade e tecnologia para usar a informação. Enquanto 75% dos líderes de negócio acreditam que estão extraindo máximo de seus dados. Na realidade, apenas 4%, de fato, tem colhido frutos relevantes dessas iniciativas. De forma geral, 43% das empresas indicaram que “obtém pequenos benefícios tangíveis das informações”, enquanto 23% afirmam que não colhem benefício algum. A estratégia em torno da utilização dos dados é o principal recurso para uma organização obter vantagem competitiva nos mercados onde atua.
  • 10.
    Desafios arquiteturais Arquitetura Lambda Arquiteturapara processamento de dados genérica, escalável e tolerante à falhas. Toda informação que entra no sistema é despachada para ambas camadas batch e online. Camada batch: armazena toda a informação (imutável) e pré computa visões para a camada de servidão. Camada online: compensa a alta latência de atualizações, tratando apenas de informações recentes.
  • 11.
    Desafios de implementação Osdesafios continuam... Inúmeras iniciativas para o desenvolvimento de novas soluções. Projetos open source ainda conduzem o desenvolvimento de big data. Empresas que vendem soluções de big data ainda proveem suporte e funcionalidades proprietárias. Open source ou solução proprietária?
  • 12.
    Segurança Segurança de informação Falhasde segurança são extremamente prejudiciais para o negócio. Segurança em big data não é fundamentalmente diferente de segurança para sistemas tradicionais. Os desafios surgem devido à: 1. Complexidade do ambiente; 2. Diferentes fontes de informação (coletada, agregada e analisada); 3. Tecnologias aplicadas para sustentar a solução. Nenhuma corrente é mais forte que seu elo mais fraco.
  • 13.

Notas do Editor

  • #4  BigData é somente acima de 500 terabytes.
  • #5  “Analistas fazem hype; Desenvolvedores fazem software.” “O quão grande é o BigData” é uma pergunta clichê mas ajuda a colocar desenvolvedores, analistas e usuários na mesma página. Viscosidade: Termo usado para descrever a latência ou lag dos dados em relação aos eventos sendo descritos. Viralidade: Definido por alguns utilizadores, como a velocidade à qual se espalha os dados; quantas vezes ele é pego e repetido por outros usuários ou eventos.
  • #6  Map Reduce tem mais de 10 anos. A Google o aposentou em 2014. LHC produz 15 PB por segundo e armazena apenas 35 PB por ano. Yahoo possui o maior cluster hadoop com 500 PB em 40.000 servidores. Volatilidade: Por quanto tempo a informação é valida.
  • #7  Desafios de volume e performance. Tecnologias mais quentes são Kafka, Spark e Cassandra.
  • #8  Tem a ver com ingestão de informação. É um problema cada vez mais caro e difícil de combater. Existe um trabalho futuro muito forte em automação para este cenário. Não confundir com o conceito de variabilidade, que está ligado ao fluxo de informações altamente inconsistentes, com picos periódicos.
  • #9  Vieses = análises tendenciosas. Ex.: Importação de limão mexicano reduz acidentes mortais nos EUA. Quando não consegue compreender não extrai valor.
  • #10  A imagem saiu na capa do The Economist, The Data Deluge (o dilúvio de informação).
  • #13  O Incremento de componentes faz surgir o desafio.