O documento discute as oportunidades do Big Data, mencionando exemplos históricos como o pouso na Lua em 1969 com hardware limitado e desafios atuais com volumes massivos de dados. Também aborda conceitos-chave do Big Data como os "5 Vs", tendências, desafios, perfis de profissionais e casos de uso internos e externos para extrair valor dos dados.
1. Big Data e oportunidades
Negócios Digitais – Salvador/BA
Marcelo Pinheiro, Enterprise Specialist
marcelo.pinheiro@intel.com
Setembro/2014
Intel Confidential — Do Not Forward
2. Homem na Lua
Software
Data: 1969
64kb, 2kb, RAM, Fortran
Tem que funcionar!
Apolo XI
Velocidade: 3500km/h
Peso: 13.500 kg
Extremamente Complexo
Homem na Lua
Distância: 356.600 km
Nunca feito antes
Precisa retornar à Terra
2
4. Big Data não
significa
necessariamente
volume de dados
6
5. O que é Big Data? Os n-Vs
7
Volume
Variedade
Velocidade
Outros Vs que queira incluir
6. Tendências e Valor do Big Data
8
5.5 Billion
Mobile Phones
in 2013
30 Billion pieces of
content shared every
month
40 Billion Photos
15 sectors in the United States hosted
have more data stored per
company than the US Library
of Congress (235 TBs)
RFID Tags sale projected
to grow from 12 Million in
2011 to 209 Billion in 2021
Smart meter projected to grow from ~ 130 Million in
2011 to ~ 340 Million in 2015. In addition, China State
utility is targeting ~750 Million smart meters by 2020
Source: McKinsey Global Institute Analysis, Pikes Research
8. A Arte e a Ciência de…
11
Descobrir o que não sabemos dos dados
Obter previsão, informação acionável dos dados
Criar produto dos dados que possuem impacto nos negócios
Comunicar histórias relevantes dos dados para o negócio
Criar confiança nas decisões que criam valor ao negócio
9. O cientista de dados
Cético
Curioso
Possui uma mente investigativa
Conhece sobre máquinas de
aprendizagem
Estatística
Probabilidade
Métodos científicos aplicados
Realiza experimentos
Programador
Conhece sobre infraestrutura
Sabe como criar produtos dos
dados
Capaz de encontrar respostas
para perguntas
Conta histórias relevantes para
a área de negócio
Tem domínio da teoria do
conhecimento
12
10. D I C E S
Dados Informação Conhecimento Entendimento Sabedoria
Passado Futuro
Engenheiro de dados Analista de Dados Minerador de Dados Cientista de
Dados
Cru O que Como Porque Quando
Números Descrição Experiência Causa e Efeito Predição
Cartas Contexto Testado Provado
O que é o
melhor
Símbolos Relacionamento Instruções
Conhecer o que
não se sabe
Conhecer o que
nem é
perguntado
Sinais Relatórios Programas Modelos
14
12. Estratégia da Intel
Intel® Intelligent Systems Framework:
Simplifying the Internet of Things
Wind River Intelligent Device Platform
Driving Secure
Interoperability
Unlocking
Edge Data
Filtering
Data
Billions of devices
that need to share
data with each other
and the cloud
Edge systems need
to react to streaming
data in real time
Data volume
outpacing network
and storage
efficiency
Connectivity Manageability Security
Pre-integrated smart and
connected capabilities enable
rich network options to save
development time and costs
Validated and flexible firmware
providing an extensive network
of connectivity choices,
including broad modem support
and PAN, LAN, and WAN
network access
Platform customization
significantly reduces time to
product while increasing
productive life of M2M
devices
Intuitive web-based tool
reduces configuration and
support costs and allows for
anytime provisioning and
management of devices
Dynamic post dynamic
“Services” framework (OSGi)
enables modularized,
hardware agnostic
deployment of new apps
Security features designed for
M2M development that protect
critical data throughout the
device lifecycle
Customizable SRM to ensure
the integrity of the end
devices via secure boot,
provide encrypted
communication between
device and management
console in the cloud, and offer
device resource management
to limit system exposure of
untrusted applications
16
14. Como usamos Big Data internamente – Alguns
exemplos
18
MALWARE
MILLION
new malware samples per
quarter1
CYBER ATTACKS
MILLION
U.S. cyber attacks
per day2
Chip Design Validation:
Cut Product Time to Market by 25%
Faster analysis process for validating results
Streamlined debug process through analysis of
large volumes of historical test data
Reseller Channel Management:
Increased sales by $5M per Qtr.
Decreased cost by $6M per Qtr.
Smarter reseller engagement prioritization by leveraging
advanced customer profile algorithms
Cost efficient detection of non-complaint claims
Malware Detection:
Proof of Concept (POC)
Collecting and analyzing large amounts of server
security data at the system, network, and application
levels lead to discovery of new malware threats before
they arise.
1 “McAfee Threats Report: Second Quarter 2012,” McAfee, www.mcafee.com/us/resources/reports/rp-quarterly-threat-q2-2012.pdf (PDF)
2 Koebler, Jason, “U.S. Nukes Face Up to 10 Million Cyber Attacks Daily ,” U.S. News & World Report (2012),
www.usnews.com/news/articles/2012/03/20/us-nukes-face-up-to-10-million-cyber-attacks-daily
15. Casos de uso de Big Data
19
Combate ao Câncer Medir Inflação - Premise CERN
Fim de Namoro Trânsito Rastreamento de Lixo
Análise de CV Esportes Entender o consumidor
Image Sources: http://upload.wikimedia.org/wikipedia/commons/c/ca/AVIDAC_--_First_Argonne_Computer_%281953%29.jpg and www.jenbutneverjenn.com
Precisamos paralelizar as operações com os dados mas isso é muito complexo e caro...
O negócio não consegue acessar os dados relevantes e o tempo todo precisa de dados externos...
Não podemos tratar em tempo os dados dos clientes para melhorar a interação com eles...
Não dá para colocar todos os dados no modelo star-schema...
Os relatórios de BI não dizem algo que já não se sabe...
Não é mais possível processar os dados dentro da janela de ETL...
Não é possível predizer com boa margem de certeza se não se pode explorar os dados e desenvolver os próprios modelos
Segurança em TI
Privacidade
Acesso aos dados. Politica para coleta de dados
Privacidade do usuário
Com o IoT, quem vai acessar a informação ? Será que os usuário estão preocupados em utlizar um dispositivo IoT sabendo que existem informações que serão analisadas por algúem ?
1) Combate ao Cancer – escanear mutações genéticas e descobrir o melhor tratamento – redução do tempo de mapeamento do DNA para medicina personalizada
2) San Francisco – Startup Premise - App que tira fotos do preço e disponibilidade de produtos (x 30K sites de comércio eletrônico), 40 a 50 mil dados por hora e calcula o índice de inflação por pais e globalmente (IPCA ou Consumer Price Index – CPI)
3) Estudo e análise do universo – CERN – laboratório Suíço de Física Nuclear – LHC – 65000 processadores, 30 Petabytes distribuídos por 150 datacenters para analisar todos os dados
4) Algoritmo de fim de relacionamento – usa dados de redes sociais e cálculo índice de disperção (grupos em comum, amigos em comum, tópicos em comum) – 8,6 bilhões de conexões e 1,3 milhão de usuários, 20 anos de idade e entre 50 e 2k amigos
5) Trânsito – Dublin - fontes: camera de monitoramento, gps de ônibus, tabelas de horários, fluxo de passageiros e criaram um panorama digital do trânsito
6) O Lab. Senseable City do MIT – 500 pessoas para usarem tag eletrônicas em seus lixos - Seatlle – 5k pedaços taggeados foram rastreados ao longo de 3 meses. -> Impacto – melhoria do fluxo do lixo na cidade
7) Eliminador de CV – app capaz de processar 12 milhões de profissionais do Linkedin com mais de 30 filtros (
8) Esportes – coleta de dados individualizadas de cada jogador (6 novas cameras específicas), movimentos, tempo do jogo, produtividade de forma instantânea para o torcedor – 3 datacenters – 1 in-game tracking, 1 historical data, 1 para video – video usado para contextualizar, dados estatísticos associados aos vídeos
9) Entender o consumidor –seguradoras de carro (perfil do motorista de fato, exemplo das eleições nos estados unidos – uso de dados do twitter, perfil do eleitor, etc), varejo para ser mais assertivo no marketing (personalized marketing)