1) O documento discute os conceitos de Big Data, Data Science e as tecnologias e mercado relacionados.
2) Grandes volumes de dados continuam a ser gerados diariamente pela internet e dispositivos conectados.
3) A análise de dados em larga escala requer novas abordagens de engenharia e armazenamento para lidar com a variedade e volume crescentes.
3. E
os
volumes
con;nuarão
crescendo
• Internet
da
Informação
gera
2,5
Quin;lhões
de
bytes
todos
os
dias
– 12+
Tb
de
Tweets
– 500+
Tb
de
Facebook
• Internet
das
Coisas
(IoT)
9,6
Bilhões
de
disposi;vos
conectados
• IoT
está
apenas
na
sua
infância
5. Big
Data
–
A
Resposta
• Engenharia
– Dividir
para
conquistar
• Processamento
paralelo
• Escalabilidade
horizontal
– Remodelar
Bancos
de
Dados
(NoSQL)
• Removendo
processos
que
geram
latência
(transac;on)
• Priorizando
I/O
em
alguns
casos
(Cassandra)
• Priorizando
a
Análise
em
outros
(Hadoop-‐MapReduce)
• Baixo
Custo
–
–
–
–
Uso
de
“hardware
de
prateleira”
Ecossistema
Open-‐Source
(Hadoop)
Redução
do
preço
do
armazenamento
Cloud
7. O
Termo
Big
Data
Erik
Larson,
1989
na
Harper’s
magazine:
“The
keepers
of
Big
Data
say
they
do
it
for
the
consumer's
benefit.
But
data
have
a
way
of
being
used
for
purposes
other
than
originally
intended.”
Aqueles
que
guardam
grandes
volumes
de
dados
dizem
que
o
fazem
em
benekcio
do
consumidor.
Mas
há
formas
de
usá-‐los
para
propósitos
diferentes
dos
originais.
8. Além
do
Big
Data
• Buzzword
não
ajuda
muito
– No
Brasil
32%
empresas
não
investem
por
falta
de
conhecimento
(Pesquisa
Ibramerc
2013)
– 49%
Empresas
não
tem
projeto
(Ibramec)
– Nas
startups
de
tecnologia
o
conceito
está
amplamente
disseminado
• Tendência:
sumir
o
“BIG”
e
ficar
Data
ou
Data
Analy;cs
(Análise
de
Dados)
9. Uma
Profusão
de
V
• Gartner
2001:
–
Volume:
tamanho
das
bases
–
Velocidade
:
latência
do
processamento
em
face
à
crescente
demanda
por
intera;vidade
–
Variedade:
diversidade
de
fontes,
formatos,
qualidade
e
estrutura
• IBM:
Veracidade
• Outros:
Viabilidade,
Valor,
Visualização,
V...
• O
V
essencial
é
gerar
Vantagem
Compe99va
htp://www.wired.com/insights/2013/05/the-‐
missing-‐vs-‐in-‐big-‐data-‐viability-‐and-‐value/
10. Ciência
de
Dados
htp://en.wikipedia.org/wiki/File:DataScienceDisciplines.png
11. Drew
Conway’s
Data
Science
Venn
Diagram
htp://drewconway.com/zia/2013/3/26/
the-‐data-‐science-‐venn-‐diagram
12. Perfil
do
Cien;sta
de
Dados
A
profissão
mais
sexy
do
século
21
•
•
•
•
•
•
•
•
Programador
Computação
Avançada
Modelagem
de
Dados
DBA
Estaus;co
Matemá;co
Designer
de
Visualização
e
Repor;ng
Entende
o
Negócio
htp://hbr.org/2012/10/data-‐scien;st-‐the-‐sexiest-‐job-‐of-‐the-‐21st-‐century/ar/1
13. Cien;sta
de
Dados
–
Uma
dúvida
“I
worry
that
the
Data
ScienBst
role
is
like
the
mythical
“webmaster”
of
the
90s:
master
of
all
trades.”
-‐-‐
Aaron
Kimball,
CTO
Wibidata
Temo
que
o
papel
do
Cien;sta
de
Dados
seja
igual
ao
mí;co
“webmaster”
dos
anos
90:
o
senhor
de
todos
as
coisas.
14. A;vidades
de
um
cien;sta
de
dados
1
• Estabelece
hipóteses
2
• Coleta
e
normaliza
dados
3
• Processa
e
analisa
resultados
4
• Comunica
resultados
15. Data
Science
–
Empregos
Fonte:
htp://www.indeed.com/jobtrends?q=Data-‐science&rela;ve=1
16. Business
Intelligence
• Monta
Datawarehouse
com
dados
estruturados
• Faz
extração,
normalização,
limpeza
(ETL)
• Monta
as
informações
em
bases
Analí;cas
Mul;dimensionais
(OLAP)
• Alguém
u;lizará
a
ferramenta
e
fará
análises
• Trabalha
com
estaus;ca
descri;va
17. Funcionário
visto
pelo
BI
• O
André
da
Contabilidade
é:
– Casado
– Teve
1
promoção
há
2
anos
– É
formado
pela
PUC
– Faz
extensão
em
Marke;ng
– Está
no
programa
de
aposentadoria
complementar
– R$
90.000
salário/ano
– Avaliado
como
competente
mas
“disperso”
pela
chefia
18. Funcionário
visto
pelo
Big
Data
• O
André
da
Contabilidade:
– Tem
um
Blog
com
milhares
de
leitores
– É
um
“advogado”
dos
produtos
da
empresa
nas
rede
sociais
(Twiter,
Google+,
Facebook)
– 150.000
seguidores
no
twiter
ele
é
um
influenciador
(formador
de
opinião)
– Várias
palestras
sobre
Branding
usando
casos
de
sucesso
da
empresa
19. Resultado
da
Análise
Business
Intelligence
Demissão
Big
Data
Promove
e
transfere
para
a
área
de
marke;ng
20. Diferenças
de
visão
Business
Intelligence
Data
Science
Perspec;va
Olha
o
que
já
foi
Olha
o
que
virá
Exper;se
Usuário
no
negócio
Cien;sta
de
dados
Questões
O
que
houve?
O
que
pode
acontecer?
E
se?
Olha
Para
dentro
Para
o
contexto
Análise
Descri;va
Predi;va
Resultado
Diagnós;co
Perspec;va
Gera
Dados,
Dashboards
Resposta
21. Ciência
de
dados
e
adequações
• DBA
tem
que
aprender
sobre
dados
não
estruturados
• Estaus;cos
têm
que
lidar
com
modelos
que
não
cabem
na
memória
do
seu
computador
• Engenheiros
de
so•ware
têm
que
aprender
sobre
modelagem
estaus;ca
e
mensurar
resultados
• Analistas
de
negócios
têm
que
aprender
sobre
algoritmos
e
questões
ligadas
a
computação
em
larga
escala
22. Ciência
de
Dados
-‐
Aplicações
• Analise
Predi;va
• Machine
Learning
– Visão
de
máquina
– Natural
Language
Processing
– Recomendação
– Segurança
(an;-‐spam,
vírus
etc.)
– Etc.
• Análise
de
Metadados
(NSA)
23. Mercado
de
novas
possibilidades
Serviços
Financeiros
• Detecção
de
Fraude
• Visão
360°do
cliente
Transporte
• o;mização
logís;ca
• conges;onamento
do
tráfego
Saúde
• Análise
de
registros
médicos
• Monitoramento
de
doenças
Telecomunicação
• Perfil
de
Cliente
• Análise
e
O;mização
de
redes
U9lidades
• Smart
Meter
Analy;cs
• Gerenciamento
dos
A;vos
Midia
Digital
• Segmentação
de
anúncios
em
tempo
real
Varejo
• Omni-‐channel
Marke;ng
• Real-‐;me
promo;ons
Segurança
• Vigilância
Mul;modal
• Detecção
de
segurança
ciberné;ca
24. Mercado
no
Brasil
..”Adam
Burgh,
da
baby.com.br,
revela
que
a
empresa
investe
em
um
sistema
de
inteligência
e
monitoramento
das
compras.
Com
essa
tecnologia,
a
loja
procura
se
adiantar
às
necessidades
de
cada
cliente.
"Estamos
sempre
coletando
os
dados
para
iden;ficar
o
perfil
da
mamãe
e
a
idade
do
bebê.
Se
a
mãe
está
comprando
uma
fralda
'G',
conseguimos
saber
que
a
próxima
compra
é
uma
cadeira
de
alimentação",
conta.”
htp://bit.ly/17Chl6d
25. Disposição
de
inves;mento
Senseta,
uma
empresa
colombiana
de
Big
Data,
venceu
na
semana
passada
o
úl;mo
rally
da
TNW.COM
para
a
América
La;na.
Compe;u
com
outras
16
Startups.
A
única
que
não
;nha
uma
app
charmosa
para
disposi;vos
móveis.
htp://thenextweb.com/voice/2013/08/29/and-‐the-‐winner-‐of-‐tnws-‐
startup-‐rally-‐in-‐la;n-‐america-‐is-‐senseta/
26.
Mercado
no
Brasil
Boo-‐Box
1
bilhão
de
ads
mensais
com
AWS
27. Mercado
no
Brasil
• Operação
Chaordic
na
AWS
– ~5TB
de
Banco
de
Dados
– Mais
de
1
Bi
requisições/mês
na
API
– 67
mil
RPM
–
Black
Friday
– 4
milhões
de
produtos
– 34
milhões
de
recomendações
geradas/dia
– 27
milhões
de
usuários
– 250GB
de
JS
comprimidos
servidor/dia
28. Timeline
do
Hadoop
•
Pre-‐2004:
commercial
RDBMS,
some
open
source
• 2004
MapReduce
• 2008
Hadoop
0.17
release
• 2008
Pig:
Rela;onal
Algebra
on
Hadoop
• 2008
Rela;onal
Algebra
in
a
Hadoop-‐like
system
• 2009
HIVE:
SQL
on
Hadoop
• 2009
Hbase:
Indexing
for
Hadoop
• 2010
Schemas
and
Indexing
for
Hadoop
• 2012
Transac;ons
in
HBase
29. Sinal
dos
tempos
Há
4
anos
Hoje
OS
Linux
Linux
Server
Apache
NodeJs
+
Apache
Linguagem
PHP
Javascript/Python
Banco
MySql
MongoDB
Output
PC/Laptop
Mobile
31. Obrigado!!!
The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have been
corrupted. Restart your computer, and then open the file again. If the red x still appears, you may have to delete the image and
then insert it again.
Hélio
Silva
HTTP://BR.LINKEDIN.COM/IN/HELIOSS/
HTTP://WWW.TIESPECIALISTAS.COM.BR/AUTHOR/HELIO-‐SILVA/