Hackathon Inmetrics e Fiap: Desafios do Big Data

Desafios do Big Data
Renato Ochando

1º Hackathon Inmetrics em parceria com a FIAP

Big Data
O que é?
Teve inicio no fim dos anos 90, com as empresas de
internet tentando gerenciar volumes de informação sem
precedentes.
Big Data é um termo que descreve sistemas com alto:
• Volume de informação
• Velocidade na ingestão de informação
• Variedade de dados
Demanda formas inovadoras de processar informação, a
um custo efetivo, que possibilitem visão profunda, tomada
de decisão e automação de processos.
“Big data não trata de petabytes, mas de computação
complexa.”

Big Data
O que é?
Se você é um desenvolvedor, até agora tudo bem com os
“três V” do Big Data – código de aplicação cuida de
volume, velocidade e variedade.
... Mas se você é um cientista de dados, nada disso cuida
do significado da informação. Então, são necessários mais
“dois V”, talvez:
• Veracidade da informação
• Valor que a informação agrega ao negócio
Em 2015, 85% das organizações na lista das 500 da
Fortune não serão capazes de explorar Big Data para
vantagem competitiva.

Volume
O Volume está sempre crescendo
Possuir mais informação significa possuir melhores
modelos.
Grandes volumes de informação são, de imediato, o maior
desafio para as estruturas convencionais de TI, o que
demanda por armazenamento altamente escalável e
consultas distribuídas.
As tecnologias mais utilizadas para armazenamento e
processamento de informações são Hadoop e MapReduce.
Constantemente o volume de informação criada excede o
limite da capacidade do seu storage (abordagem
seletiva).

Velocidade
Processamento em tempo real
A primeira geração de soluções para big data eram focadas
principalmente na captura e análise de informações batch.
Fast data se concentra em reduzir o intervalo de tempo
entre dados que chegam e o valor a ser extraído desses
dados.
Equilibra vários tradeoffs para entregar:
1. Confiabilidade na ingestão de dados;
2. Flexibilidade no armazenamento e consultas;
3. Ferramentas sofisticadas para analytics.
Big data foi ontem. Fast data é agora.

Variedade
Estrutura da informação
Soluções de Big Data irão armazenar informações
estruturadas, semiestruturadas, e não estruturadas. Por
exemplo documentos de texto, multimídia, etc.
Modelar e preparar informações de diferentes fontes de
sistemas para obter “visões” tem sido, por décadas, um
trabalho demorado e tedioso.
A maioria das organizações passam de 70% à 80% do tempo
modelando, em vez de interagir com com a informação
para produzir visões de negócio.
“Variedade, e não volume, será o maior desafio de Big
Data em 2015.”

Veracidade
In Data We Trust
Refere-se à vieses, ruído e anormalidade nos dados.
A correção da informação e eliminação de ruídos deve ser
feita, de preferência, na fonte de coleta.
Assim que os usuários começam a explorar as informações,
eles se tornam verdadeiramente engajados e mais
dispostos a investir em esforços para “limpar” os dados.
Veracidade não é apenas sobre a qualidade dos dados,
mas também sobre a compreensão dos dados.

Valor
Desafio de agregar valor
Lacuna entre habilidade e tecnologia para usar a
informação.
Enquanto 75% dos líderes de negócio acreditam que estão
extraindo máximo de seus dados. Na realidade, apenas 4%,
de fato, tem colhido frutos relevantes dessas iniciativas.
De forma geral, 43% das empresas indicaram que “obtém
pequenos benefícios tangíveis das informações”, enquanto
23% afirmam que não colhem benefício algum.
A estratégia em torno da utilização dos dados é o
principal recurso para uma organização obter vantagem
competitiva nos mercados onde atua.

Desafios arquiteturais
Arquitetura Lambda
Arquitetura para processamento de dados
genérica, escalável e tolerante à falhas.
Toda informação que entra no sistema é
despachada para ambas camadas batch e
online.
Camada batch: armazena toda a informação
(imutável) e pré computa visões para a camada
de servidão.
Camada online: compensa a alta latência de
atualizações, tratando apenas de informações
recentes.

Desafios de implementação
Os desafios continuam...
Inúmeras iniciativas para o
desenvolvimento de novas soluções.
Projetos open source ainda conduzem
o desenvolvimento de big data.
Empresas que vendem soluções de big
data ainda proveem suporte e
funcionalidades proprietárias.
Open source ou solução proprietária?

Segurança
Segurança de informação
Falhas de segurança são extremamente prejudiciais para o
negócio.
Segurança em big data não é fundamentalmente diferente
de segurança para sistemas tradicionais.
Os desafios surgem devido à:
1. Complexidade do ambiente;
2. Diferentes fontes de informação (coletada, agregada e
analisada);
3. Tecnologias aplicadas para sustentar a solução.
Nenhuma corrente é mais forte que seu elo mais fraco.

Hackathon Inmetrics e Fiap: Desafios do Big Data

Mais conteúdo relacionado

Mais procurados

Destaque

Semelhante a Hackathon Inmetrics e Fiap: Desafios do Big Data

Hackathon Inmetrics e Fiap: Desafios do Big Data

Notas do Editor