Material relativo à apresentação feita a alunos e professores do curso de Matemática da Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie. O evento ocorreu em 23 e 24/03/2013 em Campos do Jordão
Workshops do Curso de Matemática abordam Big Data e oportunidades
1. Universidade Presbiteriana Mackenzie
Faculdade de Computação e Informática
Workshops do Curso de Matemática
Campos do Jordão, 23-24/03/2013
BIG DATA:
UM NOVO CONCEITO,
GERANDO OPORTUNIDADES
E DESAFIOS
1
Prof. Dr. Vivaldo José Breternitz
2. Vivaldo José Breternitz
• Vida acadêmica
– Professor/Coordenador de Estágios na FCI
– Doutor em Ciências – USP
– Mestre em Engenharia – Mack
– Graduado em Administração - UniAnchieta
• Vida empresarial
– Na área de TI desde 1970
– Funções técnicas, executivas e consultoria em
empresas como ABN AMRO, Bradesco, Cica, Deutsche
Bank, Prodam, Prodesp, Santander etc.
2
2
3. • Poderíamos chamar Big Data a tecnologia que
reúne uma quantidade extraordinariamente
grande de dados, de vários tipos e os processa
praticamente em tempo real, aumentando as
possibilidades de uso imediato das informações
assim geradas
3
4. Utilização
– Marketing
– Finanças (caso Macy’s)
– Segurança (caso IBM RJ)
– Saúde (Google, epidemia de gripe)
– Fins militares (análise de atividade do
inimigo; telecom, imagens etc.)
– Etc., etc., etc....
4
5. O sw e o hw disponíveis até muito
recentemente não conseguiam dar
conta disso
5
6. O tema já chegou
ao cinema
• Moneyball: filme baseado na história
de Billy Beane, gerente do time de
baseball Oakland Athletics.
• Moneyball se foca nas tentativas de
Beane de criar um time competitivo (o
clube estava em má situação
financeira) usando análise estatistica
sofisticada para encontrar jogadores
baratos
• O filme foi lançado no final de 2011
6
8. Volume de dados
• Bit: menor unidade de informação em computação (usualmente, oito compõem um
byte)
• Byte: “espaço” em um computador que pode armazenar um caracter ou dois
algarismos
8
9. • How many data in the world?
Numbers
– 800 Terabytes, 2000
– 160 Exabytes, 2006
– 500 Exabytes, 2009
– 2.7 Zettabytes, 2012 (um
quatrilhão de DVDs)
– 35 Zettabytes by 2020
• How many data generated
ONE day?
– 7 TB, Twitter
Big data: The next frontier for innovation, competition,
– 10 TB, Facebook and productivity. McKinsey Global Institute 2011
9
11. An increasingly sensor-enabled and instrumented
business environment generates HUGE volumes of
data with MACHINE SPEED characteristics…
EACH engine generating 10 TB every 30 minutes!
11
12. Dados de tipos variados, inclusive
não estruturados
• Convencionais
• Sons
• Imagens
• Sensores
• Etc
12
13. Processados em tempo real
• Business Intelligence: captura os dados
e DEPOIS os processa
• Big Data: data streaming – os dados vão
sendo processados à medida que são
capturados
13
16. Estratégias, software e hardware radicalmente diferentes são
necessários (e já estão em uso por Amazon, Ebay, Facebook e outros):
– Hadoop - plataforma para computação distribuída
– Cassandra – gerenciador de banco de dados
– IBM Netezza Accelerator, SAP HANA – in memory processing
16
17. E logo vão proliferar
• Cursos, livros, consultorias, produtos
maquiados etc. etc., visando atingir esse
mercado...
• Isso sempre acontece....
17
18. O pessoal de TI consegue capturar e
processar os dados, mas para vocês,
está reservado o filé:
Análise!
Talento é mais importante
que tecnologia
18
19. Sinto-me constrangido em falar disso
com vocês
Afinal, quem vai ensinar
Matemática aos meus
netos????
Essa é uma preocupação
de quem pensa o Brasil
de forma estratégica
19
20. Esse pessoal
vem sendo
chamado Data
Scientists
“A data scientist is somebody who is
inquisitive, who can stare at data and spot
trends. It's almost like a Renaissance
individual who really wants to learn and
bring change to an organization.“
20
Anjul Bhambhri, vice president of Big Data products at IBM
21. Acredita-se que um bom Data Scientist deva
ter habilidades multidisciplinares
• Características pessoais
– Curiosidade
– Mente aberta
– Raciocínio lógico apurado
• Domínio de sistemas computacionais
• Conhecimentos na área empresarial:
– Entendimento do negócio e do mercado
– Capacidade de comunicar seus insights a pessoas com formações
diferentes
21
22. Acredita-se que um bom Data Scientist deva
ter habilidades multidisciplinares
• Conhecimentos na área de Matemática
– Álgebra linear: cálculo vetorial, matricial
– Cálculo: derivadas, integral
– Teste de hipóteses: paramétricos e não paramétricos
– Matemática discreta: média, mediana, moda etc.
– Estatística e software dessa área
– Modelagem matemática
– Teoria dos conjuntos
– Álgebra booleana
• Etc
22
25. O Prof. Leandro, nosso Coordenador de
Atividades Complementares, postou em nosso
Facebook um texto acerca do assunto,
intitulado “Cientista de dados é o cara”
• http://cio.uol.com.br/gestao
/2013/03/18/cientista-de-
dados-e-o-cara/
25
26. • Profissionais com esse perfil são muito
raros
• Sua formação demanda muito tempo
• Pesquisas da consultoria McKinsey
dizem que, apenas nos USA, faltarão em
2018 aproximadamente 190.000 desses
profissionais.
• Faltarão também cerca de 1,5 milhão de
profissionais habilitados como usuários
26
27. Esses profissionais não são os mesmos que
na atualidade são chamados de “Analistas
de Business Intelligence”, especialmente
pelo grau de sofisticação das ferramentas
utilizadas e da formação necessária
Não havendo ainda formação específica
para profissionais dessa área, tem sido
comum a utilização de pessoas com
formação e experiências diversas
27
28. Salários: ainda não temos números no
Brasil, mas...
• UK
– Graduates entering the Big Data industry
can expect to be paid approximately £27k
– An analyst with four years’ experience is
likely to command £40k - £48k
– Senior consultants will earn around £120k
– Consultancy is a popular option and
freelancers can potentially earn £500 per
day.
28
31. Privacidade
Adam Savage, of “Myth Busters,”
took a photo of his vehicle using
his smartphone. He then posted
the photo to his Twitter account
including the phrase “Off to work.”
Since the photo was taken by his
smartphone, the image contained
metadata revealing the exact
geographical location the photo was
taken
By simply taking and posting a photo,
Savage revealed the exact location
of his home, the vehicle he drives,
and the time he leaves for work
31
32. Computational Social Science (CSS)
• Ciência que compreende a investigação da
dinâmica social conduzida de forma
interdisciplinar, sob a perspectiva da
informação e por meio do uso de sistemas
computacionais avançados
• Sua aplicação pode gerar manipulação de
pessoas em escala nunca vista
32
I was on a plane in Airbus the other day, and do you realize that these things are hugely sensor enabled devices that are instrumented to collect data as they operate. They also generate huge volumes of data. +CLICK+ For this particular Airbus, over a billion lines of a code and a single engine generates 10 terabytes of data every 30 minutes. And so there ’ s four engines there, right? +CLICK+ And, you know, just taking this particular plane from the UK to New York would generate 640 terabytes of data. Now stop and ponder that for a moment. Propose this amount of data injection to your client and it becomes obvious – there ’ s too much data to process, analyze, store with traditional approaches.