Ciência de Dados
Prof. Mário Augusto Pazoti
mario@unoeste.br
Engenharia de Software - EAD
Big data
Conjunto de dados extremamente amplo e que, por esse motivo, necessitam de
ferramentas especialmente preparadas para lidar com grandes volumes, de
forma que toda e qualquer informação nestes meios possa ser encontrada,
analisada e aproveitada em tempo hábil (INTEL, 2013).
• Grande volume de dados é coletado diariamente
– Devido ao crescimento da web, mídias sociais e IoT
– Os logs da web foram o início de tudo
• A análise desses logs possibilitou a segmentação de anúncios/público,
reestruturação de sites, etc.
Big data
• Big Data: é diferenciado das bases
tradicionais pelo modo de se manipular os
dados
• Volume: quantidade muito maior de dados
armazenados.
• Velocidade: taxas de inserções muito mais
altas.
• Variedade: muito mais tipos de dados, além
dos dados relacionais.
VOLUME
VARIEDADE VELOCIDADE
YB
ZB
EB
PB
TB
Tabelas BD
Texto Estruturado
XML, HTML
Texto sem formatação
Vídeo, Imagem, Música...
Em Lote
Quase Tempo Real
Tempo Real
3 V’s do Big data
Os V’s do Big data
• Veracidade: os dados devem ser confiáveis. dados necessários e suficientes para testar
muitas hipóteses diferentes.
• Valor: informação é patrimônio e deve apresentar resultados que tragam benefícios e
compensem o investimento.
• Viralidade: descreve a rapidez com que as informações são dispersas nas redes entre
pessoas.
• Outros V’s:
– Validade: qualidade dos dados, governança, gerenciamento de dados em coletas massivas,
diversas, distribuídas heterogêneas e impuras.
– Variabilidade: o significado dos dados muda continuamente
– Visibilidade: os dados devem ser apresentados de forma clara e de fácil entendimento
– Viscosidade: relacionada à velocidade; Qual é a dificuldade de trabalhar com os dados?
Os V’s do Big data
• Atualmente, podemos encontrar 42 V’s
para Big data... ☺
– https://www.kdnuggets.com/2017/0
4/42-vs-big-data-data-science.html
Vamos
focar nos 5
primeiros
V’s
Big data
Fonte: DOMO (2021)
Máquinas e pessoas continuamente:
○ Coletam dados
○ Geram dados
○ Processam dados
○ Transmitem dados
Dados nunca
dormem!
• 90% de todo o volume de
dados foram gerados nos
dois últimos anos
• Advém de diversas fontes,
como redes sociais,
motores de busca da
internet, e-commerce, entre
outras.
Mas qual o tamanho dos dados?
1 byte =
Equivale a
um caractere
1 megabyte =
(ou 1024 kilobytes - KB)
Equivale a um livro
1 gigabyte =
(ou 1024 MB)
Equivale a aproximadamente
1600 livros
1 terabyte =
(ou 1024 GB)
1 petabyte =
(ou 1024 TB)
1 exabyte =
(ou 1024 PB)
1.600.000.000.000 livros
1,6 trilhões equivale a 3000 vezes a quantidade
de livros da Biblioteca do Congresso dos EUA
Mas como funciona a conversão?
Big data
1024 Brontobyte = 1 Geopbyte
1024 Geopbytes = 1 Saganbyte
1024 Saganbytes = 1 Pijabyte
1024 Pijabytes = 1 Alphabyte
1024 Alphabytes = 1 Kryatbyte
1024 Kryatbytes = 1 Amosbyte
1024 Amosbytes = 1 Pectrolbyte
1024 Pectrolbytes = 1 Bolgerbyte
1024 Bolgerbytes = 1 Sambobyte
1024 Sambobytes = 1 Quesabyte
1024 Quesabytes = 1 Kinsabyte
1024 Kinsabytes = 1 Rutherbyte
1024 Rutherbytes = 1 Dumbnibyte
1024 Dumbnibytes = 1 Seaborgbytte
1024 Seaborgbyttes = 1 Bohrbyte
1024 Bohrbytes = 1 Hassiubyte
1024 Hassiubytes = 1 Meitnerbyte
1024 Meitnerbytes = 1 Dormstadbyte
1024 Dormstadbytes = 1 Teoentbyte
Big data
• 01 jato comercial (2 turbinas) gera 40TB de dados por hora de voo.
• Em 1 ano = 1 ZT
Pense: quantos jatos há
em operação no mundo ??
Big data
• Recentes avanços tecnológicos surgiram:
– para aquisição, armazenamento, processamento e transferência de dados;
– com maior quantidade, rapidez, melhor qualidade e com menor custo.
Tipos de dados
Não estruturado
- Formato desconhecido
(layout)
- Conteúdo variável
- Documentos de múltiplas
páginas
Semiestruturado
- Formato desconhecido
(layout)
- Conteúdo definido
- Formatos variáveis
- Dados tabulares
Estruturado
- Formato fixo (layout)
- Conteúdo definido
- Formatos consistentes
Tipos de dados
Estruturados
• Layout conhecido e fixo
• Utilizam chaves (primárias e estrangeiras) para relacionamento
• Ex: Tabelas em BD MySQL, Oracle, SQL Server
Semiestruturados
• Tem um layout definido e possui uma tipagem quanto aos dados recebidos
• Há uma alta heterogeneidade na organização com formatos XML, RDF, OWL, JSON...
• Ex: Podem ser armazenados em MariaDB, PostgreSQL, MongoDB, HBASE...
Não estruturados
• Sem layout definido e colunas fixas
• São imagens, posts/mensagens, documentos, vídeos, áudios...
• Ex: Podem ser armazenados em MariaDB, PostgreSQL, MongoDB, Redis...
Tipos de dados
Dados Estruturados Dados Não Estruturados
Podem ser mostrados em
linhas, colunas e base de
dados relacionais
Números, datas e cadeias
de caracteres
Estima-se em 20% dos
dados totais da empresa
Requer menos espaço de
armazenamento
Mais fácil de gerenciar e
proteger com soluções
legadas
Não é possível exibir os
dados em linhas, colunas e
base de dados relacionais
Imagens, áudio, vídeo,
arquivos texto, e-mails,
planilhas
Estima-se em 80% dos
dados totais da empresa
Requer mais espaço de
armazenamento
Mais difícil de gerenciar e
proteger com soluções
legadas
Big data
Trata-se de uma coleção de conjunto de
dados (grandes e complexos)
estruturados, semiestruturados ou não
estruturados os quais dificilmente seriam
processados com eficiência por SGBDs ou
aplicações tradicionais.
Vamos voltar ao início!
O que é dado?
E informação?
E conhecimento?
É tudo a mesma coisa???
Dado
• Valores ou ocorrências em seu estado bruto, o qual não passou por
nenhum processo e nenhuma organização para ser utilizado
– 10
– João Antônio
– Masculino
– 12/04/2001
Informação
• Consideramos o dado já processado, o qual já
possui alguma organização e poderá ser
utilizado para qualquer tipo de conceito, seja
quantitativo ou qualitativo
• Podemos dizer que uma informação surge
mediante a um questionamento:
– Quais clientes compraram mais no último mês?
– O estoque está cheio, então quais produtos/lotes
estão mais próximo do vencimento?
Conhecimento
• Utilizamos o conhecimento quando, a
partir das informações acerca de uma
situação/problema, conseguimos prever o
que ocorrerá, seja por meio do histórico de
fatos ou por novas conclusões.
– Os lotes próximo da data de
vencimento serão colocados em
promoção, para reduzir o prejuízo.
– No último carnaval tivemos falta de
bebidas, a provisão desse é que
tenhamos mais turistas, então vamos
aumentar o estoque em um terço em
comparação ao carnaval passado.
Complementando...
• Ideia
– São as alternativas de solução que pensamos para o problema.
• Sabedoria
– Consiste em saber o que fazer com tudo isso. Qual a melhor decisão a ser
tomada.
Exemplo
Você está na rua e sente um pingo caindo
sobre você
Dado
É a descoberta de que vai chover
Informação
Vou molhar e se me molhar não poderei ir ao
trabalho
Conhecimento
Comprar um guarda-chuva ou pedir um taxi
por aplicativo?
Ideia
Usando o conhecimento → guarda-chuva
custa R$ 15.00 e o táxi custa R$ 10.00 (qual
a melhor escolha)
Sabedoria
Mágica ??? Não! Ciência
• Você já parou para pensar como a Netflix consegue "adivinhar" os filmes
que você gostaria de assistir?
• Como o Youtube possui vários vídeos interessantes como recomendação?
• E aquele site de compras que parece saber todas as coisas que você
gostaria de comprar?
Ciência dos Dados
• Estuda como Gerenciar, Analisar e Visualizar uma quantidade enorme de
dados
• A partir disso, produz Conhecimento capaz de responder aos
questionamentos apresentados
• Por meio de insights (ideias) consegue melhorar a tomada de decisões,
permitindo maior embasamento nas escolhas realizadas
Multidisciplinar
Definição
Coletar,
transformar
e armazenar
os dados
Mágica 1:
Gerar
informação
Mágica 2:
Apresentar a
informação
Mágica 3:
Gerar
conhecimento
Computação
Matemática/
Estatística
Comunicação/
Visualização
Conhecimento
sobre o domínio
Ciência de Dados
• Deve usar dados do presente e do passado
• Criar modelos que possam prever comportamentos futuros
• Benefícios esperados com o uso da tecnologia:
– Tomar decisões mais rápidas e eficazes
– Aumento do retorno (lucro)
Cientista de Dados
• Quais conhecimentos se espera do profissional?
– Matemática e Estatística
– Programação e Banco de dados
– Comunicação e Visualização
– Conhecimento de Negócios
– Gostar de resolver problemas
– Ser curioso
– Ter pensamento lógico
– Ser estratégico, proativo, criativo, inovador e colaborador
Dado é o novo petróleo!
Precisamos encontrá-lo, extraí-lo, refiná-lo, distribui-lo e monetizá-lo!
David Buckingam
aula1 - Bigdata.pdf
aula1 - Bigdata.pdf

aula1 - Bigdata.pdf

  • 1.
    Ciência de Dados Prof.Mário Augusto Pazoti mario@unoeste.br Engenharia de Software - EAD
  • 3.
    Big data Conjunto dedados extremamente amplo e que, por esse motivo, necessitam de ferramentas especialmente preparadas para lidar com grandes volumes, de forma que toda e qualquer informação nestes meios possa ser encontrada, analisada e aproveitada em tempo hábil (INTEL, 2013). • Grande volume de dados é coletado diariamente – Devido ao crescimento da web, mídias sociais e IoT – Os logs da web foram o início de tudo • A análise desses logs possibilitou a segmentação de anúncios/público, reestruturação de sites, etc.
  • 4.
    Big data • BigData: é diferenciado das bases tradicionais pelo modo de se manipular os dados • Volume: quantidade muito maior de dados armazenados. • Velocidade: taxas de inserções muito mais altas. • Variedade: muito mais tipos de dados, além dos dados relacionais. VOLUME VARIEDADE VELOCIDADE YB ZB EB PB TB Tabelas BD Texto Estruturado XML, HTML Texto sem formatação Vídeo, Imagem, Música... Em Lote Quase Tempo Real Tempo Real 3 V’s do Big data
  • 5.
    Os V’s doBig data • Veracidade: os dados devem ser confiáveis. dados necessários e suficientes para testar muitas hipóteses diferentes. • Valor: informação é patrimônio e deve apresentar resultados que tragam benefícios e compensem o investimento. • Viralidade: descreve a rapidez com que as informações são dispersas nas redes entre pessoas. • Outros V’s: – Validade: qualidade dos dados, governança, gerenciamento de dados em coletas massivas, diversas, distribuídas heterogêneas e impuras. – Variabilidade: o significado dos dados muda continuamente – Visibilidade: os dados devem ser apresentados de forma clara e de fácil entendimento – Viscosidade: relacionada à velocidade; Qual é a dificuldade de trabalhar com os dados?
  • 6.
    Os V’s doBig data • Atualmente, podemos encontrar 42 V’s para Big data... ☺ – https://www.kdnuggets.com/2017/0 4/42-vs-big-data-data-science.html
  • 7.
  • 8.
    Big data Fonte: DOMO(2021) Máquinas e pessoas continuamente: ○ Coletam dados ○ Geram dados ○ Processam dados ○ Transmitem dados
  • 9.
    Dados nunca dormem! • 90%de todo o volume de dados foram gerados nos dois últimos anos • Advém de diversas fontes, como redes sociais, motores de busca da internet, e-commerce, entre outras.
  • 10.
    Mas qual otamanho dos dados? 1 byte = Equivale a um caractere 1 megabyte = (ou 1024 kilobytes - KB) Equivale a um livro 1 gigabyte = (ou 1024 MB) Equivale a aproximadamente 1600 livros 1 terabyte = (ou 1024 GB) 1 petabyte = (ou 1024 TB) 1 exabyte = (ou 1024 PB) 1.600.000.000.000 livros 1,6 trilhões equivale a 3000 vezes a quantidade de livros da Biblioteca do Congresso dos EUA
  • 11.
    Mas como funcionaa conversão?
  • 12.
    Big data 1024 Brontobyte= 1 Geopbyte 1024 Geopbytes = 1 Saganbyte 1024 Saganbytes = 1 Pijabyte 1024 Pijabytes = 1 Alphabyte 1024 Alphabytes = 1 Kryatbyte 1024 Kryatbytes = 1 Amosbyte 1024 Amosbytes = 1 Pectrolbyte 1024 Pectrolbytes = 1 Bolgerbyte 1024 Bolgerbytes = 1 Sambobyte 1024 Sambobytes = 1 Quesabyte 1024 Quesabytes = 1 Kinsabyte 1024 Kinsabytes = 1 Rutherbyte 1024 Rutherbytes = 1 Dumbnibyte 1024 Dumbnibytes = 1 Seaborgbytte 1024 Seaborgbyttes = 1 Bohrbyte 1024 Bohrbytes = 1 Hassiubyte 1024 Hassiubytes = 1 Meitnerbyte 1024 Meitnerbytes = 1 Dormstadbyte 1024 Dormstadbytes = 1 Teoentbyte
  • 13.
    Big data • 01jato comercial (2 turbinas) gera 40TB de dados por hora de voo. • Em 1 ano = 1 ZT Pense: quantos jatos há em operação no mundo ??
  • 14.
    Big data • Recentesavanços tecnológicos surgiram: – para aquisição, armazenamento, processamento e transferência de dados; – com maior quantidade, rapidez, melhor qualidade e com menor custo.
  • 15.
    Tipos de dados Nãoestruturado - Formato desconhecido (layout) - Conteúdo variável - Documentos de múltiplas páginas Semiestruturado - Formato desconhecido (layout) - Conteúdo definido - Formatos variáveis - Dados tabulares Estruturado - Formato fixo (layout) - Conteúdo definido - Formatos consistentes
  • 16.
    Tipos de dados Estruturados •Layout conhecido e fixo • Utilizam chaves (primárias e estrangeiras) para relacionamento • Ex: Tabelas em BD MySQL, Oracle, SQL Server Semiestruturados • Tem um layout definido e possui uma tipagem quanto aos dados recebidos • Há uma alta heterogeneidade na organização com formatos XML, RDF, OWL, JSON... • Ex: Podem ser armazenados em MariaDB, PostgreSQL, MongoDB, HBASE... Não estruturados • Sem layout definido e colunas fixas • São imagens, posts/mensagens, documentos, vídeos, áudios... • Ex: Podem ser armazenados em MariaDB, PostgreSQL, MongoDB, Redis...
  • 17.
    Tipos de dados DadosEstruturados Dados Não Estruturados Podem ser mostrados em linhas, colunas e base de dados relacionais Números, datas e cadeias de caracteres Estima-se em 20% dos dados totais da empresa Requer menos espaço de armazenamento Mais fácil de gerenciar e proteger com soluções legadas Não é possível exibir os dados em linhas, colunas e base de dados relacionais Imagens, áudio, vídeo, arquivos texto, e-mails, planilhas Estima-se em 80% dos dados totais da empresa Requer mais espaço de armazenamento Mais difícil de gerenciar e proteger com soluções legadas
  • 18.
    Big data Trata-se deuma coleção de conjunto de dados (grandes e complexos) estruturados, semiestruturados ou não estruturados os quais dificilmente seriam processados com eficiência por SGBDs ou aplicações tradicionais.
  • 19.
    Vamos voltar aoinício! O que é dado? E informação? E conhecimento? É tudo a mesma coisa???
  • 20.
    Dado • Valores ouocorrências em seu estado bruto, o qual não passou por nenhum processo e nenhuma organização para ser utilizado – 10 – João Antônio – Masculino – 12/04/2001
  • 21.
    Informação • Consideramos odado já processado, o qual já possui alguma organização e poderá ser utilizado para qualquer tipo de conceito, seja quantitativo ou qualitativo • Podemos dizer que uma informação surge mediante a um questionamento: – Quais clientes compraram mais no último mês? – O estoque está cheio, então quais produtos/lotes estão mais próximo do vencimento?
  • 22.
    Conhecimento • Utilizamos oconhecimento quando, a partir das informações acerca de uma situação/problema, conseguimos prever o que ocorrerá, seja por meio do histórico de fatos ou por novas conclusões. – Os lotes próximo da data de vencimento serão colocados em promoção, para reduzir o prejuízo. – No último carnaval tivemos falta de bebidas, a provisão desse é que tenhamos mais turistas, então vamos aumentar o estoque em um terço em comparação ao carnaval passado.
  • 23.
    Complementando... • Ideia – Sãoas alternativas de solução que pensamos para o problema. • Sabedoria – Consiste em saber o que fazer com tudo isso. Qual a melhor decisão a ser tomada.
  • 24.
    Exemplo Você está narua e sente um pingo caindo sobre você Dado É a descoberta de que vai chover Informação Vou molhar e se me molhar não poderei ir ao trabalho Conhecimento Comprar um guarda-chuva ou pedir um taxi por aplicativo? Ideia Usando o conhecimento → guarda-chuva custa R$ 15.00 e o táxi custa R$ 10.00 (qual a melhor escolha) Sabedoria
  • 25.
    Mágica ??? Não!Ciência • Você já parou para pensar como a Netflix consegue "adivinhar" os filmes que você gostaria de assistir? • Como o Youtube possui vários vídeos interessantes como recomendação? • E aquele site de compras que parece saber todas as coisas que você gostaria de comprar?
  • 26.
    Ciência dos Dados •Estuda como Gerenciar, Analisar e Visualizar uma quantidade enorme de dados • A partir disso, produz Conhecimento capaz de responder aos questionamentos apresentados • Por meio de insights (ideias) consegue melhorar a tomada de decisões, permitindo maior embasamento nas escolhas realizadas
  • 27.
  • 28.
    Definição Coletar, transformar e armazenar os dados Mágica1: Gerar informação Mágica 2: Apresentar a informação Mágica 3: Gerar conhecimento Computação Matemática/ Estatística Comunicação/ Visualização Conhecimento sobre o domínio
  • 29.
    Ciência de Dados •Deve usar dados do presente e do passado • Criar modelos que possam prever comportamentos futuros • Benefícios esperados com o uso da tecnologia: – Tomar decisões mais rápidas e eficazes – Aumento do retorno (lucro)
  • 30.
    Cientista de Dados •Quais conhecimentos se espera do profissional? – Matemática e Estatística – Programação e Banco de dados – Comunicação e Visualização – Conhecimento de Negócios – Gostar de resolver problemas – Ser curioso – Ter pensamento lógico – Ser estratégico, proativo, criativo, inovador e colaborador
  • 31.
    Dado é onovo petróleo! Precisamos encontrá-lo, extraí-lo, refiná-lo, distribui-lo e monetizá-lo! David Buckingam