O que é BIG DATA e
como pode influenciar
nossas vidas
VIRADA CIENTÍFICA 2015 – IME/USP
Elaine Naomi Watanabe
Mestranda em Ciência da Computação no
Instituto de Matemática e Estatística da
Universidade de São Paulo (IME-USP)
Orientadora: Profa. Dra. Kelly Rosa Braghetto
Tema de Pesquisa: Gerenciamento de grandes
volumes de dados em workflows científicos
executados em nuvens computacionais
http://www.ime.usp.br/~elainew/
BIG DATA
ARMAZENAMENTO DE DADOS
Vocês já contaram
quantas fotos tiravam
antigamente e
quantas tiram hoje
em dia?
DADOS
ESTATÍSTICOS
DO NOSSO
DIA A DIA
GOOGLE
40 mil buscas por segundo
3,5 bilhões de buscas por dia
YOUTUBE
+ de 1 bilhão de usuários
+ de 100 milhões de horas de vídeo
assistidas por dia
DADOS
ESTATÍSTICOS
DO NOSSO
DIA A DIA
FACEBOOK
968 milhões usuários ativos por dia
(844 milhões via dispositivos móveis por dia)
1,49 bilhões usuários ativos por mês
INSTAGRAM
+ de 40 bilhões de fotos compartilhadas
3,5 bilhões de likes por dia
80 milhões de fotos por dia
400 milhões de usuários ativos por mês
DADOS
ESTATÍSTICOS
DO NOSSO
DIA A DIA
WHATSAPP
300 bilhões de mensagens por dia
700 milhões de usuários por mês
Um usuário envia, em média, 43
mensagens por dia
TWITTER
+ de 500 milhões de tweets por dia
+ de 316 milhões de usuários ativos por
mês
DADOS
ESTATÍSTICOS
DO NOSSO
DIA A DIA
NÚMERO DE SITES NO MUNDO:
+ de 942,1 milhões de sites
NÚMERO DE CELULARES NO MUNDO:
+ de 7,5 bilhões de celulares
NÚMERO DE USUÁRIOS DA INTERNET:
+ de 3,2 bilhões de usuários
NÚMERO DE PESSOAS NO MUNDO:
+ de 7,2 bilhões de pessoas
2,5 EXABYTES
de dados por dia...
e esse número dobra
a cada 40 meses
BIG DATA:The management revolution.
A. McAfee e E. Brynjolfsson
2,5 EXABYTES =
2,5 * 1024 PETABYTES =
2,5 * 1024 * 1024 TB =
2,5 * 1024 * 1024 * 1024 GB =
2,5 * 1024 * 1024 * 1024 * 1024 MB
Vamos analisar?
≈2,7 milhões de HDs de 1TB
≈600 bilhões de DVDs de 4,7GB
≈2 trilhões de disquetes de 1,44MB
POR DIA!
são
CRIAMOS MAIS DADOS POR
SEGUNDO NA INTERNET DO QUE
ARMAZENAMOS EM TODA INTERNET
NOS ÚLTIMOS 20 ANOS!
BIG DATA:The management revolution.
A. McAfee e E. Brynjolfsson
uma avalanche de
dados
uma ENORME
avalanche de dados
uma IMENSA
avalanche de dados
mas isso é
BIG DATA?
conjuntos de dados difíceis de se
capturar, armazenar, analisar e
visualizar com as tecnologias atuais
BIG DATA
Data-intensive applications, challenges, techniques and technologies: A survey on Big Data.
C.L. PhilipChen, Chun-Yang Zhang
3V’s
3D Data Management: Controlling Data
Volume, Velocity, and Variety.
Doug Laney (Gartner)
VOLUME
+
VARIEDADE
+
VELOCIDADE
4V’s
Understanding Big Data.
Paul Zikopoulos (IBM)
VOLUME + VARIEDADE +
VELOCIDADE
+
VALOR
ou
VARIABILIDADE
ou
VIRTUAL
5V’s
Why only one of the 5 Vs of big data
really matters.
Bernard Marr (IBM)
VOLUME + VARIEDADE
+ VELOCIDADE
+
VERACIDADE
+
VALOR
não existe uma
definição exata pois
ela depende do
domínio da aplicação
BIG DATA:The management revolution.
A. McAfee e E. Brynjolfsson
envolve captura, armazenamento,
processamento, análise e
visualização de imensos volumes
de dados
BIG DATA
EXPLORANDO O
BIG DATA
DETECTAR
MUDANÇAS ÚNICAS
NA VIDA DAS PESSOAS
como a GRAVIDEZ
Mas como?
How Companies Learn Your Secrets
http://www.nytimes.com/2012/02/19/magazine/shopping-
habits.html?_r=0
suplementos : primeiras 20 semanas
loções sem perfume: segundo trimestre
sabão sem perfume
e muito, muito algodão: Vai nascer logo!
padrão de comportamento...
RECOMENDAÇÃO DE FILMES
Responsável por 75% das
atividades de visualizações
The Science Behind the Netflix Algorithms That Decide What You’ll
Watch Next
http://www.wired.com/2013/08/qq_netflix-algorithm/
Big Data Lessons From Netflix
http://www.wired.com/insights/2014/03/big-data-lessons-netflix/
criado graças à
análise de
BIG DATA
Giving Viewers What They Want
http://www.nytimes.com/2013/02/25/busi
ness/media/for-house-of-cards-using-big-
data-to-guarantee-its-popularity.html?_r=0
ENCONTRAR O PAR PERFEITO
Questionário “diferente”...
responsável por 4% dos novos
casamentos nos EUA
http://eharmony.com/
Data science of love
http://www.infoq.com/presentations/eharmony-hadoop
PESQUISA COM
DESENVOLVEDORES JAVA
UM CLICK e descobriam
sobre a vida de cada um
Veja mais em:
Data Science – a vida real -
http://www.tailtarget.com/palestras-e-apresentacoes/
SUA VIDA ONLINE...
pode dizer se você é
um bom candidato
para uma vaga
O big data antecipa a morte do currículo
http://exame.abril.com.br/revista-exame/edicoes/1044/noticias/a-morte-do-curriculo
pode dizer se você
se divorciou
Driven by Data: Your Bank Can Predict Your Divorce
http://www.forbes.com/sites/techonomy/2011/11/15/driven-by-data-your-bank-can-predict-your-divorce/
se você está
desempregado
Tracking employment shocks using mobile phone data
Jameson L. Toole, Yu-Ru Lin, Erich Muehlegger, Daniel Shoag, Marta C. González, David Lazer
se seu namoro vai
acabar
Algoritmo prevê, no Facebook, quando um namoro vai acabar
http://exame.abril.com.br/tecnologia/noticias/algoritmo-preve-no-facebook-quando-um-
namoro-vai-acabar
se a inflação vai
subir nos próximos
meses
O que buscas no Google podem revelar sobre a inflação
http://exame.abril.com.br/economia/noticias/o-que-buscas-no-google-podem-revelar-sobre-a-inflacao
se cabelo enrolado
vai ser a tendência
para o próximo ano
Data Science – A Vida Real
http://www.tailtarget.com/palestras-e-apresentacoes/
E O LADO RUIM?
NSA
Agência de Segurança
Nacional dos Estados
Unidos
ESPIONAGEM
YOTTABYTES
de dados capturados
1024 ZettaBytes =
1024 * 1024 ExaBytes =
+ de 1 trilhão de HDs de 1 TB
ALVO = o mundo inteiro
Fonte: http://www.forbes.com/sites/metabrown/2015/08/27/nsa-
mass-surveillance-biggest-big-data-story/
E O LADO BOM?
E O LADO RUIM?
Diagnóstico
de doenças
 DETECTAR DEPRESSÃO PÓS-PARTO
VIA FACEBOOK OU TWITTER
Predicting Postpartum Changes in Emotion and Behavior via Social Media:
http://dl.acm.org/citation.cfm?id=2466447
Characterizing and Predicting Postpartum Depression from Shared
Facebook Data: http://dl.acm.org/citation.cfm?id=2531675
 CONTER EPIDEMIAS
HealthMap + ebola:
http://www.healthmap.org/ebola/#timeline
Veja mais em : http://exame.abril.com.br/tecnologia/noticias/conheca-o-
brasileiro-que-ajudou-a-conter-o-avanco-do-ebola
Novas formas
de ensinar e
aprender
• CRIAR CURSOS ONLINE
PERSONALIZADOS
Veja mais em: https://www.ucl.ac.uk/public-policy/public-policy-
briefings/big_data_briefing_final.pdf
• ACOMPANHAR MUDANÇAS NA
VIDA DOS ESTUDANTES
UNIVERSITÁRIOS
Veja mais em: http://vejasp.abril.com.br/materia/big-data-educacao/
E A NOSSA
PRIVACIDADE?
CONSEGUIREMOS
FUGIR DO MUNDO
DIGITAL?
QUEREMOS
CONSEGUIREMOS
FUGIR DO MUNDO
DIGITAL?
QUER SABER
MAIS?
cursos online  Coursera:
https://www.coursera.org/courses?query=big%20data
Big Data em Saúde no Brasil (USP)
https://www.coursera.org/course/bigdatabrasil
 EDX:
https://www.edx.org/course?search_query=big+data
 Big Data University:
https://bigdatauniversity.com/
 Udacity:
https://www.udacity.com/courses/data-science
 Standford online:
http://online.stanford.edu/search/node/big%20data
seus dados
no google
 Assuntos mais procurados no Google:
https://www.google.com/trends
 Histórico de lugares visitados:
https://www.google.com.br/maps/timeline
 Histórico de vídeos do Youtube:
https://www.youtube.com/feed/history
 Seus assuntos preferidos:
https://www.google.com/settings/u/0/ads/aut
henticated
 Histórico de buscas no Google:
https://history.google.com/history/
tendências na
computação
 Gerenciamento híbrido de dados:
Modelos convencionais (como SQL) e
não-convencionais (como NoSQL)
 Computação Móvel
 Internet das Coisas (IoT)
 Computação em Nuvem
 DATA SCIENCE
Big Data + Inteligência Artificial +
Estatística + Computação + ...
MUITO
OBRIGADA!
=D
REFERÊNCIAS
ESTATÍSTICAS DO YOUTUBE:
http://www.youtube.com/yt/press/statistics.html
ESTATÍSTICAS DO WHATSAPP:
http://www.bbc.co.uk/newsbeat/article/30706412/whatsapp-record-
number-of-messages-sent-each-day
ESTATÍSTICAS DO GOOGLE:
http://www.internetlivestats.com/google-search-statistics/
ESTATÍSTICAS DO INSTAGRAM:
https://instagram.com/press/
ESTATÍSTICAS DO TWITTER:
https://about.twitter.com/company
ESTATÍSTICAS DO FACEBOOK:
http://newsroom.fb.com/company-info/
NÚMERO DE CELULARES NO MUNDO:
https://gsmaintelligence.com/
NÚMERO DE PESSOAS NO MUNDO:
http://www.census.gov/popclock/
NÚMERO DE USUÁRIOS DA INTERNET:
http://www.internetlivestats.com/internet-users/
NÚMERO DE WEBSITES:
http://www.internetlivestats.com/total-number-of-websites/
BIG DATA: ISSUES AND CHALLENGES MOVING FORWARD
S. Kaisler, F. Armour, J.A. Espinosa, W. Money
3D DATA MANAGEMENT: CONTROLLING DATA VOLUME, VELOCITY,
AND VARIETY
Doug Laney
DATA-INTENSIVE APPLICATIONS, CHALLENGES, TECHNIQUES AND
TECHNOLOGIES: A SURVEY ON BIG DATA
C.L. Philip Chen, Chun-yang Zhang
BIG DATA: THE NEXT FRONTIER FOR INNOVATION, COMPETITION,
AND PRODUCTIVITY
James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard
Dobbs, Charles Roxburgh, Angela Hung Byers
BIG DATA: THE MANAGEMENT REVOLUTION.
A. Mcafee E E. Brynjolfsson

O que é BIG DATA e como pode influenciar nossas vidas

  • 1.
    O que éBIG DATA e como pode influenciar nossas vidas VIRADA CIENTÍFICA 2015 – IME/USP
  • 2.
    Elaine Naomi Watanabe Mestrandaem Ciência da Computação no Instituto de Matemática e Estatística da Universidade de São Paulo (IME-USP) Orientadora: Profa. Dra. Kelly Rosa Braghetto Tema de Pesquisa: Gerenciamento de grandes volumes de dados em workflows científicos executados em nuvens computacionais http://www.ime.usp.br/~elainew/
  • 3.
  • 4.
  • 5.
    Vocês já contaram quantasfotos tiravam antigamente e quantas tiram hoje em dia?
  • 6.
    DADOS ESTATÍSTICOS DO NOSSO DIA ADIA GOOGLE 40 mil buscas por segundo 3,5 bilhões de buscas por dia YOUTUBE + de 1 bilhão de usuários + de 100 milhões de horas de vídeo assistidas por dia
  • 7.
    DADOS ESTATÍSTICOS DO NOSSO DIA ADIA FACEBOOK 968 milhões usuários ativos por dia (844 milhões via dispositivos móveis por dia) 1,49 bilhões usuários ativos por mês INSTAGRAM + de 40 bilhões de fotos compartilhadas 3,5 bilhões de likes por dia 80 milhões de fotos por dia 400 milhões de usuários ativos por mês
  • 8.
    DADOS ESTATÍSTICOS DO NOSSO DIA ADIA WHATSAPP 300 bilhões de mensagens por dia 700 milhões de usuários por mês Um usuário envia, em média, 43 mensagens por dia TWITTER + de 500 milhões de tweets por dia + de 316 milhões de usuários ativos por mês
  • 9.
    DADOS ESTATÍSTICOS DO NOSSO DIA ADIA NÚMERO DE SITES NO MUNDO: + de 942,1 milhões de sites NÚMERO DE CELULARES NO MUNDO: + de 7,5 bilhões de celulares NÚMERO DE USUÁRIOS DA INTERNET: + de 3,2 bilhões de usuários NÚMERO DE PESSOAS NO MUNDO: + de 7,2 bilhões de pessoas
  • 10.
    2,5 EXABYTES de dadospor dia... e esse número dobra a cada 40 meses BIG DATA:The management revolution. A. McAfee e E. Brynjolfsson
  • 11.
    2,5 EXABYTES = 2,5* 1024 PETABYTES = 2,5 * 1024 * 1024 TB = 2,5 * 1024 * 1024 * 1024 GB = 2,5 * 1024 * 1024 * 1024 * 1024 MB Vamos analisar?
  • 12.
    ≈2,7 milhões deHDs de 1TB ≈600 bilhões de DVDs de 4,7GB ≈2 trilhões de disquetes de 1,44MB POR DIA! são
  • 13.
    CRIAMOS MAIS DADOSPOR SEGUNDO NA INTERNET DO QUE ARMAZENAMOS EM TODA INTERNET NOS ÚLTIMOS 20 ANOS! BIG DATA:The management revolution. A. McAfee e E. Brynjolfsson
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
    conjuntos de dadosdifíceis de se capturar, armazenar, analisar e visualizar com as tecnologias atuais BIG DATA Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. C.L. PhilipChen, Chun-Yang Zhang
  • 19.
    3V’s 3D Data Management:Controlling Data Volume, Velocity, and Variety. Doug Laney (Gartner) VOLUME + VARIEDADE + VELOCIDADE
  • 20.
    4V’s Understanding Big Data. PaulZikopoulos (IBM) VOLUME + VARIEDADE + VELOCIDADE + VALOR ou VARIABILIDADE ou VIRTUAL
  • 21.
    5V’s Why only oneof the 5 Vs of big data really matters. Bernard Marr (IBM) VOLUME + VARIEDADE + VELOCIDADE + VERACIDADE + VALOR
  • 22.
    não existe uma definiçãoexata pois ela depende do domínio da aplicação BIG DATA:The management revolution. A. McAfee e E. Brynjolfsson
  • 23.
    envolve captura, armazenamento, processamento,análise e visualização de imensos volumes de dados BIG DATA
  • 24.
  • 25.
    DETECTAR MUDANÇAS ÚNICAS NA VIDADAS PESSOAS como a GRAVIDEZ Mas como? How Companies Learn Your Secrets http://www.nytimes.com/2012/02/19/magazine/shopping- habits.html?_r=0
  • 26.
    suplementos : primeiras20 semanas loções sem perfume: segundo trimestre sabão sem perfume e muito, muito algodão: Vai nascer logo! padrão de comportamento...
  • 27.
    RECOMENDAÇÃO DE FILMES Responsávelpor 75% das atividades de visualizações The Science Behind the Netflix Algorithms That Decide What You’ll Watch Next http://www.wired.com/2013/08/qq_netflix-algorithm/ Big Data Lessons From Netflix http://www.wired.com/insights/2014/03/big-data-lessons-netflix/
  • 28.
    criado graças à análisede BIG DATA Giving Viewers What They Want http://www.nytimes.com/2013/02/25/busi ness/media/for-house-of-cards-using-big- data-to-guarantee-its-popularity.html?_r=0
  • 29.
    ENCONTRAR O PARPERFEITO Questionário “diferente”... responsável por 4% dos novos casamentos nos EUA http://eharmony.com/
  • 30.
    Data science oflove http://www.infoq.com/presentations/eharmony-hadoop
  • 31.
    PESQUISA COM DESENVOLVEDORES JAVA UMCLICK e descobriam sobre a vida de cada um Veja mais em: Data Science – a vida real - http://www.tailtarget.com/palestras-e-apresentacoes/
  • 32.
  • 33.
    pode dizer sevocê é um bom candidato para uma vaga O big data antecipa a morte do currículo http://exame.abril.com.br/revista-exame/edicoes/1044/noticias/a-morte-do-curriculo
  • 34.
    pode dizer sevocê se divorciou Driven by Data: Your Bank Can Predict Your Divorce http://www.forbes.com/sites/techonomy/2011/11/15/driven-by-data-your-bank-can-predict-your-divorce/
  • 35.
    se você está desempregado Trackingemployment shocks using mobile phone data Jameson L. Toole, Yu-Ru Lin, Erich Muehlegger, Daniel Shoag, Marta C. González, David Lazer
  • 36.
    se seu namorovai acabar Algoritmo prevê, no Facebook, quando um namoro vai acabar http://exame.abril.com.br/tecnologia/noticias/algoritmo-preve-no-facebook-quando-um- namoro-vai-acabar
  • 37.
    se a inflaçãovai subir nos próximos meses O que buscas no Google podem revelar sobre a inflação http://exame.abril.com.br/economia/noticias/o-que-buscas-no-google-podem-revelar-sobre-a-inflacao
  • 38.
    se cabelo enrolado vaiser a tendência para o próximo ano Data Science – A Vida Real http://www.tailtarget.com/palestras-e-apresentacoes/
  • 39.
    E O LADORUIM?
  • 40.
    NSA Agência de Segurança Nacionaldos Estados Unidos ESPIONAGEM YOTTABYTES de dados capturados 1024 ZettaBytes = 1024 * 1024 ExaBytes = + de 1 trilhão de HDs de 1 TB ALVO = o mundo inteiro Fonte: http://www.forbes.com/sites/metabrown/2015/08/27/nsa- mass-surveillance-biggest-big-data-story/
  • 41.
    E O LADOBOM? E O LADO RUIM?
  • 42.
    Diagnóstico de doenças  DETECTARDEPRESSÃO PÓS-PARTO VIA FACEBOOK OU TWITTER Predicting Postpartum Changes in Emotion and Behavior via Social Media: http://dl.acm.org/citation.cfm?id=2466447 Characterizing and Predicting Postpartum Depression from Shared Facebook Data: http://dl.acm.org/citation.cfm?id=2531675  CONTER EPIDEMIAS HealthMap + ebola: http://www.healthmap.org/ebola/#timeline Veja mais em : http://exame.abril.com.br/tecnologia/noticias/conheca-o- brasileiro-que-ajudou-a-conter-o-avanco-do-ebola
  • 43.
    Novas formas de ensinare aprender • CRIAR CURSOS ONLINE PERSONALIZADOS Veja mais em: https://www.ucl.ac.uk/public-policy/public-policy- briefings/big_data_briefing_final.pdf • ACOMPANHAR MUDANÇAS NA VIDA DOS ESTUDANTES UNIVERSITÁRIOS Veja mais em: http://vejasp.abril.com.br/materia/big-data-educacao/
  • 44.
  • 45.
  • 46.
  • 47.
  • 48.
    cursos online Coursera: https://www.coursera.org/courses?query=big%20data Big Data em Saúde no Brasil (USP) https://www.coursera.org/course/bigdatabrasil  EDX: https://www.edx.org/course?search_query=big+data  Big Data University: https://bigdatauniversity.com/  Udacity: https://www.udacity.com/courses/data-science  Standford online: http://online.stanford.edu/search/node/big%20data
  • 49.
    seus dados no google Assuntos mais procurados no Google: https://www.google.com/trends  Histórico de lugares visitados: https://www.google.com.br/maps/timeline  Histórico de vídeos do Youtube: https://www.youtube.com/feed/history  Seus assuntos preferidos: https://www.google.com/settings/u/0/ads/aut henticated  Histórico de buscas no Google: https://history.google.com/history/
  • 50.
    tendências na computação  Gerenciamentohíbrido de dados: Modelos convencionais (como SQL) e não-convencionais (como NoSQL)  Computação Móvel  Internet das Coisas (IoT)  Computação em Nuvem  DATA SCIENCE Big Data + Inteligência Artificial + Estatística + Computação + ...
  • 51.
  • 52.
  • 53.
    ESTATÍSTICAS DO YOUTUBE: http://www.youtube.com/yt/press/statistics.html ESTATÍSTICASDO WHATSAPP: http://www.bbc.co.uk/newsbeat/article/30706412/whatsapp-record- number-of-messages-sent-each-day ESTATÍSTICAS DO GOOGLE: http://www.internetlivestats.com/google-search-statistics/ ESTATÍSTICAS DO INSTAGRAM: https://instagram.com/press/ ESTATÍSTICAS DO TWITTER: https://about.twitter.com/company ESTATÍSTICAS DO FACEBOOK: http://newsroom.fb.com/company-info/
  • 54.
    NÚMERO DE CELULARESNO MUNDO: https://gsmaintelligence.com/ NÚMERO DE PESSOAS NO MUNDO: http://www.census.gov/popclock/ NÚMERO DE USUÁRIOS DA INTERNET: http://www.internetlivestats.com/internet-users/ NÚMERO DE WEBSITES: http://www.internetlivestats.com/total-number-of-websites/
  • 55.
    BIG DATA: ISSUESAND CHALLENGES MOVING FORWARD S. Kaisler, F. Armour, J.A. Espinosa, W. Money 3D DATA MANAGEMENT: CONTROLLING DATA VOLUME, VELOCITY, AND VARIETY Doug Laney DATA-INTENSIVE APPLICATIONS, CHALLENGES, TECHNIQUES AND TECHNOLOGIES: A SURVEY ON BIG DATA C.L. Philip Chen, Chun-yang Zhang BIG DATA: THE NEXT FRONTIER FOR INNOVATION, COMPETITION, AND PRODUCTIVITY James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers BIG DATA: THE MANAGEMENT REVOLUTION. A. Mcafee E E. Brynjolfsson