Big Data e oportunidades 
Negócios Digitais – Salvador/BA 
Marcelo Pinheiro, Enterprise Specialist 
marcelo.pinheiro@intel.com 
Setembro/2014 
Intel Confidential — Do Not Forward
Homem na Lua 
Software 
Data: 1969 
64kb, 2kb, RAM, Fortran 
Tem que funcionar! 
Apolo XI 
Velocidade: 3500km/h 
Peso: 13.500 kg 
Extremamente Complexo 
Homem na Lua 
Distância: 356.600 km 
Nunca feito antes 
Precisa retornar à Terra 
2
SkyDive Stratos, 2012 
Dezenas de Gigabytes 
3 
Homem na Lua 
Apolo XI, 1969 
64kb
Big Data não 
significa 
necessariamente 
volume de dados 
6
O que é Big Data? Os n-Vs 
7 
Volume 
Variedade 
Velocidade 
Outros Vs que queira incluir
Tendências e Valor do Big Data 
8 
5.5 Billion 
Mobile Phones 
in 2013 
30 Billion pieces of 
content shared every 
month 
40 Billion Photos 
15 sectors in the United States hosted 
have more data stored per 
company than the US Library 
of Congress (235 TBs) 
RFID Tags sale projected 
to grow from 12 Million in 
2011 to 209 Billion in 2021 
Smart meter projected to grow from ~ 130 Million in 
2011 to ~ 340 Million in 2015. In addition, China State 
utility is targeting ~750 Million smart meters by 2020 
Source: McKinsey Global Institute Analysis, Pikes Research
Desafios 
9
A Arte e a Ciência de… 
11 
 Descobrir o que não sabemos dos dados 
 Obter previsão, informação acionável dos dados 
 Criar produto dos dados que possuem impacto nos negócios 
 Comunicar histórias relevantes dos dados para o negócio 
 Criar confiança nas decisões que criam valor ao negócio
O cientista de dados 
 Cético 
 Curioso 
 Possui uma mente investigativa 
 Conhece sobre máquinas de 
aprendizagem 
 Estatística 
 Probabilidade 
 Métodos científicos aplicados 
 Realiza experimentos 
 Programador 
 Conhece sobre infraestrutura 
 Sabe como criar produtos dos 
dados 
 Capaz de encontrar respostas 
para perguntas 
 Conta histórias relevantes para 
a área de negócio 
 Tem domínio da teoria do 
conhecimento 
12
D I C E S 
Dados Informação Conhecimento Entendimento Sabedoria 
Passado Futuro 
Engenheiro de dados Analista de Dados Minerador de Dados Cientista de 
Dados 
Cru O que Como Porque Quando 
Números Descrição Experiência Causa e Efeito Predição 
Cartas Contexto Testado Provado 
O que é o 
melhor 
Símbolos Relacionamento Instruções 
Conhecer o que 
não se sabe 
Conhecer o que 
nem é 
perguntado 
Sinais Relatórios Programas Modelos 
14
Inteligência e impacto no negócio
Estratégia da Intel 
Intel® Intelligent Systems Framework: 
Simplifying the Internet of Things 
Wind River Intelligent Device Platform 
Driving Secure 
Interoperability 
Unlocking 
Edge Data 
Filtering 
Data 
Billions of devices 
that need to share 
data with each other 
and the cloud 
Edge systems need 
to react to streaming 
data in real time 
Data volume 
outpacing network 
and storage 
efficiency 
Connectivity Manageability Security 
Pre-integrated smart and 
connected capabilities enable 
rich network options to save 
development time and costs 
Validated and flexible firmware 
providing an extensive network 
of connectivity choices, 
including broad modem support 
and PAN, LAN, and WAN 
network access 
Platform customization 
significantly reduces time to 
product while increasing 
productive life of M2M 
devices 
Intuitive web-based tool 
reduces configuration and 
support costs and allows for 
anytime provisioning and 
management of devices 
Dynamic post dynamic 
“Services” framework (OSGi) 
enables modularized, 
hardware agnostic 
deployment of new apps 
Security features designed for 
M2M development that protect 
critical data throughout the 
device lifecycle 
Customizable SRM to ensure 
the integrity of the end 
devices via secure boot, 
provide encrypted 
communication between 
device and management 
console in the cloud, and offer 
device resource management 
to limit system exposure of 
untrusted applications 
16
A prova viva!! 
17
Como usamos Big Data internamente – Alguns 
exemplos 
18 
MALWARE 
MILLION 
new malware samples per 
quarter1 
CYBER ATTACKS 
MILLION 
U.S. cyber attacks 
per day2 
Chip Design Validation: 
Cut Product Time to Market by 25% 
Faster analysis process for validating results 
Streamlined debug process through analysis of 
large volumes of historical test data 
Reseller Channel Management: 
Increased sales by $5M per Qtr. 
Decreased cost by $6M per Qtr. 
Smarter reseller engagement prioritization by leveraging 
advanced customer profile algorithms 
Cost efficient detection of non-complaint claims 
Malware Detection: 
Proof of Concept (POC) 
Collecting and analyzing large amounts of server 
security data at the system, network, and application 
levels lead to discovery of new malware threats before 
they arise. 
1 “McAfee Threats Report: Second Quarter 2012,” McAfee, www.mcafee.com/us/resources/reports/rp-quarterly-threat-q2-2012.pdf (PDF) 
2 Koebler, Jason, “U.S. Nukes Face Up to 10 Million Cyber Attacks Daily ,” U.S. News & World Report (2012), 
www.usnews.com/news/articles/2012/03/20/us-nukes-face-up-to-10-million-cyber-attacks-daily
Casos de uso de Big Data 
19 
Combate ao Câncer Medir Inflação - Premise CERN 
Fim de Namoro Trânsito Rastreamento de Lixo 
Análise de CV Esportes Entender o consumidor
Caso clássico ……. 
20
Intel Confidential — Do Not Forward

Big Data e oportunidades de negócios

  • 1.
    Big Data eoportunidades Negócios Digitais – Salvador/BA Marcelo Pinheiro, Enterprise Specialist marcelo.pinheiro@intel.com Setembro/2014 Intel Confidential — Do Not Forward
  • 2.
    Homem na Lua Software Data: 1969 64kb, 2kb, RAM, Fortran Tem que funcionar! Apolo XI Velocidade: 3500km/h Peso: 13.500 kg Extremamente Complexo Homem na Lua Distância: 356.600 km Nunca feito antes Precisa retornar à Terra 2
  • 3.
    SkyDive Stratos, 2012 Dezenas de Gigabytes 3 Homem na Lua Apolo XI, 1969 64kb
  • 4.
    Big Data não significa necessariamente volume de dados 6
  • 5.
    O que éBig Data? Os n-Vs 7 Volume Variedade Velocidade Outros Vs que queira incluir
  • 6.
    Tendências e Valordo Big Data 8 5.5 Billion Mobile Phones in 2013 30 Billion pieces of content shared every month 40 Billion Photos 15 sectors in the United States hosted have more data stored per company than the US Library of Congress (235 TBs) RFID Tags sale projected to grow from 12 Million in 2011 to 209 Billion in 2021 Smart meter projected to grow from ~ 130 Million in 2011 to ~ 340 Million in 2015. In addition, China State utility is targeting ~750 Million smart meters by 2020 Source: McKinsey Global Institute Analysis, Pikes Research
  • 7.
  • 8.
    A Arte ea Ciência de… 11  Descobrir o que não sabemos dos dados  Obter previsão, informação acionável dos dados  Criar produto dos dados que possuem impacto nos negócios  Comunicar histórias relevantes dos dados para o negócio  Criar confiança nas decisões que criam valor ao negócio
  • 9.
    O cientista dedados  Cético  Curioso  Possui uma mente investigativa  Conhece sobre máquinas de aprendizagem  Estatística  Probabilidade  Métodos científicos aplicados  Realiza experimentos  Programador  Conhece sobre infraestrutura  Sabe como criar produtos dos dados  Capaz de encontrar respostas para perguntas  Conta histórias relevantes para a área de negócio  Tem domínio da teoria do conhecimento 12
  • 10.
    D I CE S Dados Informação Conhecimento Entendimento Sabedoria Passado Futuro Engenheiro de dados Analista de Dados Minerador de Dados Cientista de Dados Cru O que Como Porque Quando Números Descrição Experiência Causa e Efeito Predição Cartas Contexto Testado Provado O que é o melhor Símbolos Relacionamento Instruções Conhecer o que não se sabe Conhecer o que nem é perguntado Sinais Relatórios Programas Modelos 14
  • 11.
  • 12.
    Estratégia da Intel Intel® Intelligent Systems Framework: Simplifying the Internet of Things Wind River Intelligent Device Platform Driving Secure Interoperability Unlocking Edge Data Filtering Data Billions of devices that need to share data with each other and the cloud Edge systems need to react to streaming data in real time Data volume outpacing network and storage efficiency Connectivity Manageability Security Pre-integrated smart and connected capabilities enable rich network options to save development time and costs Validated and flexible firmware providing an extensive network of connectivity choices, including broad modem support and PAN, LAN, and WAN network access Platform customization significantly reduces time to product while increasing productive life of M2M devices Intuitive web-based tool reduces configuration and support costs and allows for anytime provisioning and management of devices Dynamic post dynamic “Services” framework (OSGi) enables modularized, hardware agnostic deployment of new apps Security features designed for M2M development that protect critical data throughout the device lifecycle Customizable SRM to ensure the integrity of the end devices via secure boot, provide encrypted communication between device and management console in the cloud, and offer device resource management to limit system exposure of untrusted applications 16
  • 13.
  • 14.
    Como usamos BigData internamente – Alguns exemplos 18 MALWARE MILLION new malware samples per quarter1 CYBER ATTACKS MILLION U.S. cyber attacks per day2 Chip Design Validation: Cut Product Time to Market by 25% Faster analysis process for validating results Streamlined debug process through analysis of large volumes of historical test data Reseller Channel Management: Increased sales by $5M per Qtr. Decreased cost by $6M per Qtr. Smarter reseller engagement prioritization by leveraging advanced customer profile algorithms Cost efficient detection of non-complaint claims Malware Detection: Proof of Concept (POC) Collecting and analyzing large amounts of server security data at the system, network, and application levels lead to discovery of new malware threats before they arise. 1 “McAfee Threats Report: Second Quarter 2012,” McAfee, www.mcafee.com/us/resources/reports/rp-quarterly-threat-q2-2012.pdf (PDF) 2 Koebler, Jason, “U.S. Nukes Face Up to 10 Million Cyber Attacks Daily ,” U.S. News & World Report (2012), www.usnews.com/news/articles/2012/03/20/us-nukes-face-up-to-10-million-cyber-attacks-daily
  • 15.
    Casos de usode Big Data 19 Combate ao Câncer Medir Inflação - Premise CERN Fim de Namoro Trânsito Rastreamento de Lixo Análise de CV Esportes Entender o consumidor
  • 16.
  • 17.
    Intel Confidential —Do Not Forward

Notas do Editor

  • #6 Image Sources: http://upload.wikimedia.org/wikipedia/commons/c/ca/AVIDAC_--_First_Argonne_Computer_%281953%29.jpg and www.jenbutneverjenn.com
  • #10 Precisamos paralelizar as operações com os dados mas isso é muito complexo e caro... O negócio não consegue acessar os dados relevantes e o tempo todo precisa de dados externos... Não podemos tratar em tempo os dados dos clientes para melhorar a interação com eles... Não dá para colocar todos os dados no modelo star-schema... Os relatórios de BI não dizem algo que já não se sabe... Não é mais possível processar os dados dentro da janela de ETL... Não é possível predizer com boa margem de certeza se não se pode explorar os dados e desenvolver os próprios modelos
  • #17 Segurança em TI Privacidade Acesso aos dados. Politica para coleta de dados Privacidade do usuário Com o IoT, quem vai acessar a informação ? Será que os usuário estão preocupados em utlizar um dispositivo IoT sabendo que existem informações que serão analisadas por algúem ?
  • #20 1) Combate ao Cancer – escanear mutações genéticas e descobrir o melhor tratamento – redução do tempo de mapeamento do DNA para medicina personalizada 2) San Francisco – Startup Premise - App que tira fotos do preço e disponibilidade de produtos (x 30K sites de comércio eletrônico), 40 a 50 mil dados por hora e calcula o índice de inflação por pais e globalmente (IPCA ou Consumer Price Index – CPI) 3) Estudo e análise do universo – CERN – laboratório Suíço de Física Nuclear – LHC – 65000 processadores, 30 Petabytes distribuídos por 150 datacenters para analisar todos os dados 4) Algoritmo de fim de relacionamento – usa dados de redes sociais e cálculo índice de disperção (grupos em comum, amigos em comum, tópicos em comum) – 8,6 bilhões de conexões e 1,3 milhão de usuários, 20 anos de idade e entre 50 e 2k amigos 5) Trânsito – Dublin - fontes: camera de monitoramento, gps de ônibus, tabelas de horários, fluxo de passageiros e criaram um panorama digital do trânsito 6) O Lab. Senseable City do MIT – 500 pessoas para usarem tag eletrônicas em seus lixos - Seatlle – 5k pedaços taggeados foram rastreados ao longo de 3 meses. -> Impacto – melhoria do fluxo do lixo na cidade 7) Eliminador de CV – app capaz de processar 12 milhões de profissionais do Linkedin com mais de 30 filtros ( 8) Esportes – coleta de dados individualizadas de cada jogador (6 novas cameras específicas), movimentos, tempo do jogo, produtividade de forma instantânea para o torcedor – 3 datacenters – 1 in-game tracking, 1 historical data, 1 para video – video usado para contextualizar, dados estatísticos associados aos vídeos 9) Entender o consumidor –seguradoras de carro (perfil do motorista de fato, exemplo das eleições nos estados unidos – uso de dados do twitter, perfil do eleitor, etc), varejo para ser mais assertivo no marketing (personalized marketing)