1. Ciência de Dados
Prof. Mário Augusto Pazoti
mario@unoeste.br
Engenharia de Software - EAD
2.
3. Big data
Conjunto de dados extremamente amplo e que, por esse motivo, necessitam de
ferramentas especialmente preparadas para lidar com grandes volumes, de
forma que toda e qualquer informação nestes meios possa ser encontrada,
analisada e aproveitada em tempo hábil (INTEL, 2013).
• Grande volume de dados é coletado diariamente
– Devido ao crescimento da web, mídias sociais e IoT
– Os logs da web foram o início de tudo
• A análise desses logs possibilitou a segmentação de anúncios/público,
reestruturação de sites, etc.
4. Big data
• Big Data: é diferenciado das bases
tradicionais pelo modo de se manipular os
dados
• Volume: quantidade muito maior de dados
armazenados.
• Velocidade: taxas de inserções muito mais
altas.
• Variedade: muito mais tipos de dados, além
dos dados relacionais.
VOLUME
VARIEDADE VELOCIDADE
YB
ZB
EB
PB
TB
Tabelas BD
Texto Estruturado
XML, HTML
Texto sem formatação
Vídeo, Imagem, Música...
Em Lote
Quase Tempo Real
Tempo Real
3 V’s do Big data
5. Os V’s do Big data
• Veracidade: os dados devem ser confiáveis. dados necessários e suficientes para testar
muitas hipóteses diferentes.
• Valor: informação é patrimônio e deve apresentar resultados que tragam benefícios e
compensem o investimento.
• Viralidade: descreve a rapidez com que as informações são dispersas nas redes entre
pessoas.
• Outros V’s:
– Validade: qualidade dos dados, governança, gerenciamento de dados em coletas massivas,
diversas, distribuídas heterogêneas e impuras.
– Variabilidade: o significado dos dados muda continuamente
– Visibilidade: os dados devem ser apresentados de forma clara e de fácil entendimento
– Viscosidade: relacionada à velocidade; Qual é a dificuldade de trabalhar com os dados?
6. Os V’s do Big data
• Atualmente, podemos encontrar 42 V’s
para Big data... ☺
– https://www.kdnuggets.com/2017/0
4/42-vs-big-data-data-science.html
8. Big data
Fonte: DOMO (2021)
Máquinas e pessoas continuamente:
○ Coletam dados
○ Geram dados
○ Processam dados
○ Transmitem dados
9. Dados nunca
dormem!
• 90% de todo o volume de
dados foram gerados nos
dois últimos anos
• Advém de diversas fontes,
como redes sociais,
motores de busca da
internet, e-commerce, entre
outras.
10. Mas qual o tamanho dos dados?
1 byte =
Equivale a
um caractere
1 megabyte =
(ou 1024 kilobytes - KB)
Equivale a um livro
1 gigabyte =
(ou 1024 MB)
Equivale a aproximadamente
1600 livros
1 terabyte =
(ou 1024 GB)
1 petabyte =
(ou 1024 TB)
1 exabyte =
(ou 1024 PB)
1.600.000.000.000 livros
1,6 trilhões equivale a 3000 vezes a quantidade
de livros da Biblioteca do Congresso dos EUA
13. Big data
• 01 jato comercial (2 turbinas) gera 40TB de dados por hora de voo.
• Em 1 ano = 1 ZT
Pense: quantos jatos há
em operação no mundo ??
14. Big data
• Recentes avanços tecnológicos surgiram:
– para aquisição, armazenamento, processamento e transferência de dados;
– com maior quantidade, rapidez, melhor qualidade e com menor custo.
15. Tipos de dados
Não estruturado
- Formato desconhecido
(layout)
- Conteúdo variável
- Documentos de múltiplas
páginas
Semiestruturado
- Formato desconhecido
(layout)
- Conteúdo definido
- Formatos variáveis
- Dados tabulares
Estruturado
- Formato fixo (layout)
- Conteúdo definido
- Formatos consistentes
16. Tipos de dados
Estruturados
• Layout conhecido e fixo
• Utilizam chaves (primárias e estrangeiras) para relacionamento
• Ex: Tabelas em BD MySQL, Oracle, SQL Server
Semiestruturados
• Tem um layout definido e possui uma tipagem quanto aos dados recebidos
• Há uma alta heterogeneidade na organização com formatos XML, RDF, OWL, JSON...
• Ex: Podem ser armazenados em MariaDB, PostgreSQL, MongoDB, HBASE...
Não estruturados
• Sem layout definido e colunas fixas
• São imagens, posts/mensagens, documentos, vídeos, áudios...
• Ex: Podem ser armazenados em MariaDB, PostgreSQL, MongoDB, Redis...
17. Tipos de dados
Dados Estruturados Dados Não Estruturados
Podem ser mostrados em
linhas, colunas e base de
dados relacionais
Números, datas e cadeias
de caracteres
Estima-se em 20% dos
dados totais da empresa
Requer menos espaço de
armazenamento
Mais fácil de gerenciar e
proteger com soluções
legadas
Não é possível exibir os
dados em linhas, colunas e
base de dados relacionais
Imagens, áudio, vídeo,
arquivos texto, e-mails,
planilhas
Estima-se em 80% dos
dados totais da empresa
Requer mais espaço de
armazenamento
Mais difícil de gerenciar e
proteger com soluções
legadas
18. Big data
Trata-se de uma coleção de conjunto de
dados (grandes e complexos)
estruturados, semiestruturados ou não
estruturados os quais dificilmente seriam
processados com eficiência por SGBDs ou
aplicações tradicionais.
19. Vamos voltar ao início!
O que é dado?
E informação?
E conhecimento?
É tudo a mesma coisa???
20. Dado
• Valores ou ocorrências em seu estado bruto, o qual não passou por
nenhum processo e nenhuma organização para ser utilizado
– 10
– João Antônio
– Masculino
– 12/04/2001
21. Informação
• Consideramos o dado já processado, o qual já
possui alguma organização e poderá ser
utilizado para qualquer tipo de conceito, seja
quantitativo ou qualitativo
• Podemos dizer que uma informação surge
mediante a um questionamento:
– Quais clientes compraram mais no último mês?
– O estoque está cheio, então quais produtos/lotes
estão mais próximo do vencimento?
22. Conhecimento
• Utilizamos o conhecimento quando, a
partir das informações acerca de uma
situação/problema, conseguimos prever o
que ocorrerá, seja por meio do histórico de
fatos ou por novas conclusões.
– Os lotes próximo da data de
vencimento serão colocados em
promoção, para reduzir o prejuízo.
– No último carnaval tivemos falta de
bebidas, a provisão desse é que
tenhamos mais turistas, então vamos
aumentar o estoque em um terço em
comparação ao carnaval passado.
23. Complementando...
• Ideia
– São as alternativas de solução que pensamos para o problema.
• Sabedoria
– Consiste em saber o que fazer com tudo isso. Qual a melhor decisão a ser
tomada.
24. Exemplo
Você está na rua e sente um pingo caindo
sobre você
Dado
É a descoberta de que vai chover
Informação
Vou molhar e se me molhar não poderei ir ao
trabalho
Conhecimento
Comprar um guarda-chuva ou pedir um taxi
por aplicativo?
Ideia
Usando o conhecimento → guarda-chuva
custa R$ 15.00 e o táxi custa R$ 10.00 (qual
a melhor escolha)
Sabedoria
25. Mágica ??? Não! Ciência
• Você já parou para pensar como a Netflix consegue "adivinhar" os filmes
que você gostaria de assistir?
• Como o Youtube possui vários vídeos interessantes como recomendação?
• E aquele site de compras que parece saber todas as coisas que você
gostaria de comprar?
26. Ciência dos Dados
• Estuda como Gerenciar, Analisar e Visualizar uma quantidade enorme de
dados
• A partir disso, produz Conhecimento capaz de responder aos
questionamentos apresentados
• Por meio de insights (ideias) consegue melhorar a tomada de decisões,
permitindo maior embasamento nas escolhas realizadas
29. Ciência de Dados
• Deve usar dados do presente e do passado
• Criar modelos que possam prever comportamentos futuros
• Benefícios esperados com o uso da tecnologia:
– Tomar decisões mais rápidas e eficazes
– Aumento do retorno (lucro)
30. Cientista de Dados
• Quais conhecimentos se espera do profissional?
– Matemática e Estatística
– Programação e Banco de dados
– Comunicação e Visualização
– Conhecimento de Negócios
– Gostar de resolver problemas
– Ser curioso
– Ter pensamento lógico
– Ser estratégico, proativo, criativo, inovador e colaborador
31. Dado é o novo petróleo!
Precisamos encontrá-lo, extraí-lo, refiná-lo, distribui-lo e monetizá-lo!
David Buckingam