O documento apresenta os conceitos e desafios do Big Data, discutindo como os dados estão crescendo exponencialmente em volume, velocidade e variedade. Aprensenta as tecnologias necessárias para armazenar, processar e analisar grandes volumes de dados, incluindo MapReduce, NoSQL, aprendizado de máquina e computação em nuvem. Discutem os desafios de lidar com os 6 V's do Big Data e a necessidade de novas abordagens para extrair valor destes dados.
1. Universidade Federal do Ceará
Departamento de Engenharia de Teleinformática
Big Data:
Conceitos e Desafios
Flávio R. C. Sousa
flaviosousa@ufc.br
@flaviosousa
www.lia.ufc.br/~flavio
2015
3. Introdução
90% dos dados no mundo hoje foram
produzidos nos últimos dois anos
64 Bilhões de mensagens em 24 horas
100 GB para análise 3 seg/decisão
3
Fonte: IBM/Whatsapp
Os dados armazenados vão crescer
50 vezes mais até 2020
4. Introdução
Facebook
• 1.2B de usuários
• 1,13 Trilhões de "likes"
• 240B de fotos e 140.3B de relacionamentos
• Crescimento de 7PB por mês
Youtube
• 100 horas de vídeos adicionado a cada minuto
Bolsa de valores de Nova Iorque
• + 1 TB de dados a cada sessão do pregão
Boeing
• 640 TB gerados em um voo transatlântico
Wal-Mart
• 2,5 PB e 1 milhão de transações/hora
4
5. 5
Introdução
LHC CERN
• 15 Petabytes por ano
Sloan Digital Sky Survey
• 10 Petabytes gerados a cada varredura
Google
• 24 Petabytes processados por dia
640K ought to
be enough for
anybody.
6. 6
Introdução
Up to
10,000
Times
larger
Up to 10,000
times faster
Traditional Data
Warehouse and
Business Intelligence
DataScale
yr mo wk day hr min sec … ms s
Exa
Peta
Tera
Giga
Mega
Kilo
Decision Frequency
Occasional Frequent Real-time
Data in Motion
DataatRest
Telco Promotions
100,000 records/sec, 6B/day
10 ms/decision
270TB for Deep Analytics
Homeland Security
600,000 records/sec, 50B/day
1-2 ms/decision
320TB for Deep Analytics
Fonte: IBM
10. Os dados são “Sujos”
10
Fonte: Amplab UC Berkeley
Diversas fontes de dados
Sem esquema
Sintaxe e semântica inconsistente
11. Questões “Complexas”
11Fonte: Amplab UC Berkeley
Perguntas difíceis
• Qual é o impacto no trânsito e no preços das casas
com construção de uma nova ponte?
Perguntas em tempo real
• Existe um ataque cibernético acontecendo?
Perguntas em abertas
• Quantos supernovas aconteceram no ano passado?
14. 14
“Big Data é como sexo no colegial:
“Ninguém faz, mas todo mundo diz que faz.
Então todos pensam que alguém está
fazendo e dizem que fazem também”
Big Data
Fonte: Jay Kidd, CTO da NetApp
15. Big Data
Big Data são dados que excedem o
armazenamento, o processamento e a
capacidade dos sistemas convencionais
• Volume de dados muito grande
• Dados são gerados rapidamente
• Dados não se encaixam nas estruturas de
arquiteturas de sistemas atuais
Além disso, para obter valor a partir desses
dados, é preciso mudar a forma de
analisá-los
15
Fonte: Jordi Torres
16. 6 V's do Big Data
Valor
Veracidade
VolatilidadeVelocidade
Variedade
Volume
Não-estruturado
Semi-estruturado
Estruturado
Terabytes
…
Exabytes
Batch
Tempo Real Janela de tempo onde
podemos usar os dados
Estado verdadeiro
da realidade
Análise Estratégica de Dados
24. 24
“O desafio fundamental para as aplicações de
Big Data é explorar os grandes volumes de
dados e extrair informações úteis ou
conhecimento para futuras ações”
Fonte: Rajaraman and Ullman 2012
Análise para Big Data
25. Homeland Security
FinanceSmarter Healthcare Multi-channel
sales
Telecom
Manufacturing
Traffic Control
Trading
Analytics
Fraud and
Risk
Log Analysis
Search Quality
Retail: Churn,
NBO
Análise para Big Data: Gera Valor
Fonte: Alberto Laender
36. Novos Sistemas para Big Data
Lidem com 6 V’s do Big Data
• Heterogeneidade
• Análise de padrões temporais
• Processamento em tempo real
• Alta dimensionalidade dos dados
• Incerteza, subjetividade e ambiguidade
Novas tecnologias
• Big Data + Cloud
Segurança dos dados
• Privacidade
37. Big Data para Computação Cognitiva
37
Fonte: Jordi Torres
38. Big Data para Computação Cognitiva
38
Fonte: Jordi Torres