2. Rafaela Raganham
● Formada em Sistemas de Informação, pela
Faculdades Integradas do Brasil (Unibrasil).
●MBA Business Intelligence (Positivo)
● Palestrante FISL, FTSL, SFD e Solisc
Desempenha funções de análise e
desenvolvimento de sistemas desde 2008,
atualmente trabalha na Ambiente Livre
Tecnologia onde presta serviços de
desenvolvimento, customizações e consultoria
em sistemas open source.
5. Nossa sociedade está deixando para trás uma
pegada digital.
As pessoas estão vivendo em linha e todos estamos
expressando nossas atitudes, gostos, desgostos, opiniões
e perspectivas.
6.
7. Indivíduos com smartphones e sites de redes sociais
continuarão a impulsionar o crescimento de dados
exponencialmente
8. • 90% dos dados no mundo de hoje foram criados nos
últimos dois anos
• Previsão IDC: O universo global de dados irá dobrar a
cada dois anos, chegando a 40 mil exabytes ou de 40
trilhões de GB até 2020
• Internet Archive tem em torno de 2 petabytes de dados,
e está crescendo a uma taxa de 20 terabytes por mês.
• 30 bilhões de conteúdos foram adicionados ao
Facebook
• 2 bilhões de vídeos são vistos no Youtube
• 2,5 quintilhões de bytes de dados é criado
14. "Big Data é a capacidade de uma empresa para armazenar, processar
e acessar todos os dados de que necessita para funcionar, tomar
decisões, reduzir riscos, e servir os clientes." - Forrester
"Big Data, em geral, é definido como alto volume, velocidade e
variedade ativos de informação que exigem formas eficazes e
inovadoras de custos de processamento de informações para uma
melhor percepção e tomada de decisão." - Gartner
"Big data são os dados caracterizados por três atributos: volume,
variedade e velocidade." - IBM
"Big data são os dados caracterizados por quatro atributos principais:
volume, variedade, velocidade e valor." - Oracle
18. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
19. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
20. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
21. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
22. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste
23. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste
Zettabyte: Oceano Pacífico
24. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste
Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
25. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste
Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Hobbyist
26. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste
Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Hobbyist
Desktop
27. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste
Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Hobbyist
Desktop
Internet
28. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste
Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Hobbyist
Desktop
Internet
Big Data
29. Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste
Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
30.
31. Volume refere-se a grande
quantidade de dados gerados a
cada segundo.
Isso faz com que a maioria dos
conjuntos de dados sejam muito
grandes para armazenar e
analisar usando a tecnologia de
banco de dados tradicional.
Novas ferramentas de Big Data
utilizam sistemas distribuídos de
modo que podemos armazenar e
analisar os dados entre bancos de
dados que estão espalhados em
qualquer lugar do mundo
32. Velocidade refere-se à velocidade
com que os novos dados são
gerados e a velocidade com que
se move em torno de dados.
Basta pensar em mensagens de
mídia social que se tornam viral
em segundos. A tecnologia nos
permite agora a analisar os dados
enquanto ele está sendo gerado
(por vezes referido como
inMemory analytics), sem nunca
colocá-lo em bases de dados
33. Variedade refere-se aos diferentes
tipos de dados que podemos agora
utilizar. No passado, apenas eram
usados dados estruturados
cuidadosamente armazenados em
bancos de dados relacionais.
80% dos dados do mundo são
não-estruturados (texto, imagens,
vídeo, voz, etc) com grande
tecnologia de dados, podemos
agora analisar e reunir dados de
diferentes tipos, tais como
mensagens, conversas de mídia
social, fotos, dados do sensor ,
vídeo ou gravações de voz.
34. Veracidade refere-se a
confiabilidade dos dados. Com
muitas formas de grandes
qualidades e precisão dos dados
são menos controláveis ( basta
pensar em posts no Twitter com
hash tags, abreviações, erros de
digitação e linguagem coloquial,
bem como a confiabilidade e a
precisão do conteúdo), mas agora
a tecnologia permite-nos trabalhar
com este tipo de dados .
Veracidade
35. Valor! Ter acesso a big data
não é bom a menos que
possamos transformá-lo em
valor. As empresas estão
começando a gerar valores
incríveis com Big Data
Valor
36.
37. Compreensão e segmentação de clientes
Entendimento e otimização de processos de negócios
● Quantificação pessoal e otimização de desempenho
● Melhorar a Saúde e Saúde Pública
● Melhorando o desempenho Sports
● Melhorar a Ciência e Investigação
● Otimização de máquinas e dispositivos de desempenho
● Melhorar a segurança e aplicação da lei.
●
● Melhorar e optimizar Cidades e Países
●
● Negociação financeira
38. • Compreensão e segmentação de clientes
•
• O grande objetivo, em muitos casos, é a criação de modelos
preditivos
•
• → Empresas de seguros de automóveis entender o quão bem os
seus clientes realmente podem conduzir
• → Campanhas eleitorais do governo podem ser otimizada
utilizando grandes análise de dados
•
• Entendimento e otimização de processos de negócios
• Big data também é cada vez mais utilizada para otimizar
processos de negócios. Os varejistas são capazes de otimizar
suas ações com base em previsões geradas a partir de dados de
mídia social, as tendências de pesquisa na web e previsões
meteorológicas.
•
39. ● Quantificação pessoal e otimização de desempenho
•
• Podemos nos beneficiar dos dados gerados a partir de
dispositivos portáteis, tais como relógios inteligentes ou pulseiras
inteligentes
•
• A outra área em que nos beneficiamos com grandes análises de
dados é encontrar o amor. A maioria dos sites de namoro online
aplicam ferramentas de big data e algoritmos para nos encontrar
os pefis mais adequados.
•
• Melhorar a Saúde e Saúde Pública
• Técnicas de Big Data já estão sendo usados p ara monitorar bebês
em uma unidade de bebê prematuro e doente especialista. Ao
registrar e analisar cada batida do coração e padrão de cada bebê
respirando, o aparelho foi capaz de desenvolver algoritmos que
agora podem prever infecções 24 horas antes de qualquer
sintoma físico aparecer
40. ● Melhorando o desempenho Sports
•
• Usando a análise em vídeo que monitoram o desempenho de cada
jogador em um jogo de futebol ou de beisebol nos permitem obter
feedback (via smartphones e servidores em nuvem) nos jogos e
como melhorá-los. Muitas equipes desportivas de elite também
acompanham os atletas fora do ambiente esportivo - usando a
tecnologia inteligente para monitorar a nutrição e sono, assim
como as conversas de mídia social para monitorar o bem-estar
emocional.
•
•
•
•
•
•
41. • Copa do Mundo 2014 - Seleção Alemanha
Treino - Em 10 minutos de treino, 10 jogadores geram mais de 7
milhões de dados que são processados em tempo real
Jogo – Com o histórico de dados coletados nos treinos o técnico
pode saber quando um jogador chegou ao seu limite físico
Pós treino e jogo – Cada jogador recebe acesso a curtos clipes de
sua participação nos jogos além do seu desempenho físico e média
da equipe
42. → Magazine Luiza investe em projeto de Big Data, a
niciativa busca direcionar recomendações de produtos
em tempo real para seus clientes.
→ Netshoes - Mercado de e-commerce, que permitia e
facilitava trabalhar com muita inteligência as
informações
→Petrobras - Otimização e Monitoramento da
Produção
Análise preditiva para a Logistica de Armazenamento
→ Inpe
43.
44. Um cientista de dados representa uma evolução do papel de negócios
ou analista de dados
O que define o cientista de dados e o que o diferencia é forte visão de
negócios, juntamente com a capacidade de comunicar os resultados,
tanto para negócios e líderes de TI de uma forma que pode influenciar
a forma como uma organização se aproxima de um desafio
empresarial. Bons cientistas de dados não vão apenas resolver
problemas de negócios, eles vão escolher os problemas certos que
têm o maior valor para a organização.
Habilidades para um bom cientista de dados
Curiosidade
Criatividade
Foco
Atenção aos detalhes
45. O cientista de dados, vive em três mundos:
● Negócios
● TI
● Matemática
É possível visualizar no LinkedIn que muitas das vagas para
“data scientist” requerem um “full stack engineer”, alguém que
domina todo o processo de ciência de dados.
46.
47. Muitos das melhores e mais
conhecidas ferramentas de
dados disponíveis são
grandes projetos de código
aberto. O mais conhecido
deles é o Hadoop, o que
está gerando toda uma
indústria de serviços e
produtos relacionados.
51. ● Problema. Determine quais são os problemas que você pretende
resolver.
● Impacto. Entenda como esses problemas vão impactar no seu
negócio. É a sua equipe que vai estar fazendo a entrada de dados e
análise ? Como é que este problema afeta a sua organização?
● Os critérios de sucesso. Como você mede o sucesso? Quais
são as principais métricas que você precisa para acompanhar todo
este processo?
● Impacto. O que você precisa entender claramente é que se este
problema fosse resolvido, o que significaria para sua empresa? Este é
tipicamente um dos passos mais importantes, uma vez que ajuda a
determinar o que, como e quando você deve avançar com este projeto
52. ● Cloud. Decida onde a solução deve estar, se deve ser uma
nuvem, solução híbrida, etc.
● Requisitos de dados. Avalie sua exigência de dados e entenda
quais dados são necessários para resolver este problema. É dados
que você já tem? É de dados que você deve buscar?
● Identificar lacunas. Você tem pessoal suficiente para resolver
este problema? Eles são capazes de resolver este problema? Você
vai precisar de hardware ou software?
● Abordagem ágil. Comece com uma pré-produção ou uma
implementação piloto. Defina os objetivos e metas e divida em
partes gerenciáveis.