SlideShare uma empresa Scribd logo
1 de 58
Baixar para ler offline
Introdução à Ciência de Dados
Noções Gerais de Data Science
Copyright @2012, Concurrent, Inc.
João Pedro Albino
Departamento de Computação
Faculdade de Ciências
UNESP - Bauru
Dados não estruturados
alcançam escala
empresarial
Oportunidade
Data, data
everywhere
• Information has gone from scarce to superabundant.
That brings huge new benefits, says Kenneth Cukier — but
also big headaches.
http://www.economist.com/node/15557443
perspectivas de
uso de big data • https://java2blog.com/big-data-applications/
perspectivas de uso de big data
fonte: https://www.simplilearn.com/why-and-how-data-science-matters-to-business-article
desafios para o
big data -
comunicações,
mídia e
entretenimento
• Consumidores esperam rich media
• vídeo, áudio ou outros elementos que incentivam a interação e
envolvimento on-demand em diferentes formatos e dispositivos
• Coleta, análise e uso dos insights do consumidor
• Aproveitar o conteúdo de mídia móvel e social
• Compreensão dos padrões de uso de conteúdo de mídia em tempo real
• Aplicações de big data
• Criar perfis detalhados de clientes
• Criar conteúdo para diferentes públicos-alvo
• Recomendar conteúdo sob demanda
• Medir o desempenho do conteúdo
desafios para o big data -
educação
• Do ponto de vista técnico:
• incorporar dados importantes
• diferentes fontes/plataformas /fornecedores
• não foram projetados para trabalhar uns com os outros!
• Do ponto de vista prático
• funcionários / instituições
• aprender novas ferramentas de gerenciamento / análise de dados
• Do lado técnico-prático
• integrar dados!!
• Politicamente
• privacidade e proteção dos dados pessoais para fins educacionais
• LGPD / LGPD
• Lei nº 13.709/2018 / Lei nº 13.853, de 2019
• http://www.planalto.gov.br/ccivil_03/_ato2015-
2018/2018/lei/L13709.htm#art65..
• Vigência: agosto de 2020
desafios para
o big data -
educação
• Usado de forma significativa no ensino superior
• medir a eficácia do professor
• garantir boa experiência para alunos / professores
• desempenho do professor ajustado / medido
• variáveis
• número de estudantes, assunto, demografia estudantil, aspirações
estudantis, classificação comportamental
• Departamento de Educação dos EUA
• grandes dados para análises
• ajudar alunos que se distraem ao usar recursos on-line
• padrões de clique usados para detectar aborrecimento
desafios
para o big
data -
educação
• Seamless Learning
https://link.springer.com/chapter/10.1007/978-981-13-3071-1_1
desafios para o big
data - educação
• Learning Analytics
https://medium.com/@limaolflavio/a-import%C3%A2ncia-do-learning-analytics-na-avalia%C3%A7%C3%A3o-do-aprendizado-on-line-b43d67685848
Short Circuit (1986)
data, data… Input, more input!!
Short Circuit (1986)
data, data… Major Input!!
‣ Não estruturado
‣ Semi estruturado
‣ Estruturado
‣ Velocidade
de geração
‣ Taxa de análise
‣ Não confiável
‣ “Sujo”/ Não limpo
‣ Click stream
‣ Sensor ativo/passivo
‣ Logs
‣ Evento
‣ Corpus
‣ Fala
‣ Mídia social
‣ Tradicional
características do Big Data: 4 V's
o que é ciência de dados?
Uma continuação dos
campos de mineração de dados e
análise preditiva.
É a extração de
conhecimento (insights) de grandes
volumes de dados
estruturados ou
não estruturados.
Cientista de Dados:
Profissão dos anos 201x?
Cientista de Dados:
Valores fundamentais
• Um Cientista de Dados é alguém
que sabe obter, tabular, explorar,
modelar e interpretar dados,
combinando e utilizando estatística
e aprendizagem de máquina.
• Cientistas de Dados não somente
são adeptos a trabalhar com dados,
mas apreciam esses dados como um
produto de primeira classe.
• Hillary Mason
• Cientista de Dados
• Accel
habilidades de
um cientista de
dados
Cientista
de Dados:
Realidade
em 202x?
bastidores
Introdução à Ciência de Dados
pensamento estatístico
• um modo de raciocínio que inclui tanto o raciocínio lógico quanto o analítico: avaliar a
totalidade de um problema, bem como suas partes componentes; busca avaliar os
efeitos na mudança em uma ou mais variáveis
• esta abordagem tenta entender não apenas problemas e soluções, mas também os
processos envolvidos e suas variações
• particularmente valioso no trabalho do Big Data quando combinado com experiência
prática em comunicação - p.ex.:aproximadamente 50% dos meus pares vêm do
jornalismo ou de rádio e tv ... os programadores normalmente não pensam assim!
Disciplinas em Ciência de Dados
fluxo de ciência de dados
Dados “brutos"
“limpeza" dos dados
“Exploração”
dos dados
Desenvolvimento
do “modelo"
(Estatística básica,
plotagem de gráficos,
tendências,
mineração de padrões) (Seleção de variáveis, seleção de
atributos ou seleção de subconjunto
de variáveis)
Atualizar/
Aprimorar
o modelo
Domínio do
Conhecimento
Aprender
o modelo
Conhecimento
especializado
Avaliar o
experimento
Teste A/B
ponto de inflexão: o lado da demanda
• grandes sucessos na Internet após a temporada de férias de 1997 ...
AMZN, EBAY, então GOOG, Inktomi (YAHOO Search)
• considere esta métrica:
receita anual por cliente / loja de dados operacional em tamanho
superior a 100x dentro de alguns anos após 1997
• Os custos de armazenamento e processamento caíram, agora pode-se
trabalhar muito mais inteligentemente para extrair o ROI de dados
grandes - big data … os métodos devem se adaptar…
• A "sabedoria convencional" das ferramentas RDBMS e BI tornou-se
menos viável; o quadro de negócios ainda focado em tabelas dinâmicas e
gráficos de pizza ... que tende para a inércia…
• a pilha de código aberto para MapReduce e Hadoop cresceram ligados
diretamente à partir deste novo contexto ... mas isso resolve apenas parte
do problema
ruptura maciça no varejo, na publicidade, no jornalismo, etc.,
"Toda Fortune 500 está em alerta pelos próximos 10 anos"
– Geoffrey Moore, 2012 (Mohr Davidow Ventures)
o que é um cientista de dados?
ponto de inflexão: o lado da oferta
source:
DJ Patil
source:
R-Bloggers
big data: uma linha de tempo
from: https://smalldatagroup.files.wordpress.com/2013/11/big-data-timeline.png
habilidades mais
importantes
• aproximadamente 80% do custo (tempo +
dinheiro) em projetos relacionados aos
dados são gastos na preparação destes
dados - principalmente no problemas de
limpeza e de qualidade dos dados
• infelizmente, os orçamentos relativos a
dados tendem a entrar em frameworks que
só podem ser utilizadas após a sua limpeza
Habilidades importantes
• Habilidades mais importantes:
• aprender a utilizar ferramentas
programáveis que preparem os dados
• aprender a gerar visualizações de
dados convincentes
• aprender a estimar a confiança dos
resultados relatados
• aprender a automatizar o trabalho,
tornando a análise repetível
• Outras habilidades secundárias
• Modelagem
• algoritmos,
• etc.
advertências sociais
• a frase "Este dado pode não estar correto!" Pode ser um aviso prévio sobre a própria
organização dos dados
• depende muito de como as pessoas com quem você trabalha tendem chegar a suas
decisões:
‣ provavelmente boa: indução, captura, limitação
‣ provavelmente pobre: dedução, especulação, justificação
Em geral, uma boa visualização de dados pode reduzir/eliminar muito da argumentação
verbal
xkcd
aplicações da ciência de dados
processo de ciência de dados
descoberta
modelagem
integração
apps
sistemas
auxilia pessoas fazerem as
perguntas corretas
a automação permite que
se faça previsões seguras
entregar o nível de
produtos adequado aos
clientes
alavancagem inteligente
nas características do
produto
manter a infraestrutura
funcionando e rentável
Gephi
processo de ciência de dados
O modelo se baseia nas etapas:
análises estatísticas
transformação (análise, raspagem e formatação de dados)
visualização (gráficos, sumários, ferramentas, etc.)
algoritmos de aprendizado de máquina
sistemas de recomendação
• Representam uma subclasse dos sistemas de filtragem de informação
• procuram prever a “classificação” ou a “preferência” que um usuário daria para um item
---- Wikipedia
filtragem colaborativa
• Pressuposto básico
•Usuários com interesses
semelhantes têm preferência
similar
•Um número suficientemente
grande de preferências do usuário
estão disponíveis
• Principais Abordagens
•Baseado no usuário
•Baseado em itens
filtragem
colaborativa
baseada no usuário
filtragem colaborativa baseada
nos itens do usuário
problemas com a filtragem colaborativa
porque os
cientistas de
dados
necessitam de
ferramentas de
visualização?
porque os cientistas de dados necessitam de
ferramentas de visualização?
Dar sentido aos dados ganhou grande importância neste século 21.
Programar é uma das formas de se manipular os dados que estão
disponíveis e torná-los utilizável. Entretanto, nem todo mundo é
“programador” e para tais pessoas os cientistas de dados podem
usar ferramentas de visualização de dados para “contar estórias”.
40
como isso tudo começa?
Introdução à Ciência de Dados
fluxo de ciência de dados
Dados “brutos"
“limpeza" dos dados
“Exploração”
dos dados
Desenvolvimento
do “modelo"
(Estatística básica,
plotagem de gráficos,
tendências,
mineração de padrões) (Seleção de variáveis, seleção de
atributos ou seleção de subconjunto
de variáveis)
Atualizar/
Aprimorar
o modelo
Domínio do
Conhecimento
Aprender
o modelo
Conhecimento
especializado
Avaliar o
experimento
Teste A/B
ultrapassando
obstáculos
para obter
Informação
•“Criar" (gerar) os próprios dados, através de instrumentos (p.
ex. questionários, surveys, etc.)
•Obter os dados através de APIs web, interfaces providas por
bases de dados e por várias aplicações web modernas
(incluindo Twitter, Facebook, dentre outras).
•Extrair as informações de arquivos PDF.
•Extrair informações de telas dos sites (scraping).
exemplo
a linguagem “R"
o que é a linguagem R?
•A plataforma R” é uma “ferramenta” gráfica
para gerenciamento de dados estatísticos.
•R é plataforma de código aberto, mantido e
desenvolvido por uma comunidade de
desenvolvedores.
•O repositório de código R, bem como os
“binários compilados” (software pronto para
instalar) estão disponíveis em: http://cran.r-
project.org
•R compreende um projeto centralizado com
mais de 15.323 “pacotes” complementares
disponíveis livremente.
CRAN-R
The Comprehensive R Archive Network
https://cran.r-project.org/
• https://pt.wikipedia.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o)
então, por que utilizar o “R" ?
• Software estatísticos populares e seus públicos:
• SPSS: cientistas sociais
• Stata: cientistas sociais
• Mathematica / Matlab: engenheiros, matemáticos,
informáticos e físicos
• Python / NumPy: cientistas da computação,
desenvolvedores web
• SAS: indústrias intensivas em dados (por exemplo, serviços
financeiros)
• Excel: todos os tipos de organizações
• R é popular e usado por grande número de
analistas/acadêmicos
Fonte: Albino, J. P. (2016). Uma Abordagem para Criação de Valor em Dados Abertos para Pequenas e Médias Empresas Utilizando o Ecossistema R, 3o.
Encontro Internacional de Dados, Tecnologia e Informação, UNESP – Marília.
popularidade do R
https://www.kdnuggets.com/2019/05/poll-top-data-science-machine-learning-
platforms.html
https://businessoverbroadway.com/2019/01/13/programming-languages-most-used-and-recommended-by-data-scientis
https://becominghuman.ai/top-programming-languages-a-data-scientist-must-master-in-2019-
7101a8bc8e16
porém …
• Surgiu em 1993
• Usuários gostam de apontar e clicar
• R é orientado a linha de comando (linguagem
de programação)
• R-Studio é um ambiente de desenvolvimento
integrado (IDE) para R
• R é gratuito (open software)
• R não é uma linguagem de programação de
uso geral
• R não é usado para outras tarefas além de
programação estatística
• Suporte comercial para o R
• Microsoft / Revolution Analytics / Azure
• Oracle / Big Data Appliance / Oracle R
Enterprise
• JMP, Mathematica, MATLAB, Spotfire, SP
SS, STATISTICA, Platform Symphony, SAS
• TIBCO / S-Plus
R Studio - R’s IDE
exemplo 2: mapa do brasil em R
Fonte: Criando um mapa do Brasil no R em 7 passos
https://dataficacao.wordpress.com/2017/02/21/criando-mapa-brasil-r
Dados Abertos
habilidades não-técnicas do cientista de dados
inovação
Um(a) grande cientista de dados deve ser
inovador(a) e criativo(a) com as
habilidades que possui.
A criatividade de um(a) cientista de dados
o(a) ajuda a determinar onde os dados
podem agregar valor e trazer resultados
lucrativos para a sua “aplicação".
conhecimento
do negócio
(business)
• Cientistas de Dados precisam ter profunda experiência naquilo em
que estão trabalhando, para ter um melhor entendimento de quais
problemas está buscando resolver.
• O campo da Ciência de Dados exige identificar os problemas que
são importantes para um negócio e quais são as novas estratégias
que podem ser adotadas para alavancar os dados no sentido de
resolver estes problemas
3 C’s
O papel do(a) Cientista de Dados está fortemente voltado a estes três C’s:
Nota: do Inglês Curiosity, Common Sense e Communication Skills!
intuição sobre os
dados
• Um bom cientista de dados
não é aquele que apenas
adiciona todas as possíveis
características sem um modelo
de aprendizagem de máquina e
analisa os resultados.
• A coisa mais importante que
um cientista de dados deve
fazer antes de alimentar um
modelo de aprendizagem de
máquina é pensar se aquele
modelo tem sentido!
• Um cientista de dados deve
ter intuição sobre os dados!
Introdução à Ciência de Dados
Noções Gerais de Data Science
Copyright @2012, Concurrent, Inc.
João Pedro Albino
Departamento de Computação
Faculdade de Ciências
UNESP - Bauru

Mais conteúdo relacionado

Semelhante a Introducão à Ciência de Dados

Apresentação Watson Analytics Português
Apresentação Watson Analytics PortuguêsApresentação Watson Analytics Português
Apresentação Watson Analytics PortuguêsJaqueline Ariane
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreVivaldo Jose Breternitz
 
The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science WorkflowRenzo Ziegler
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
Faap: Curso de Comunicação e Análise de Dados na Era do Big Data
Faap: Curso de Comunicação e Análise de Dados na Era do Big DataFaap: Curso de Comunicação e Análise de Dados na Era do Big Data
Faap: Curso de Comunicação e Análise de Dados na Era do Big DataRafael Sbarai
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosFrancisco Oliveira
 
Boas Práticas para Dados na Web: Desafios e Benefícios
Boas Práticas para Dados na Web: Desafios e BenefíciosBoas Práticas para Dados na Web: Desafios e Benefícios
Boas Práticas para Dados na Web: Desafios e BenefíciosCentro Web
 
10 razões para utilizar o Qlik Sense
10 razões para utilizar o Qlik Sense10 razões para utilizar o Qlik Sense
10 razões para utilizar o Qlik SenseRoberto Oliveira
 
Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819Luana da Silva
 

Semelhante a Introducão à Ciência de Dados (20)

Apresentação Watson Analytics Português
Apresentação Watson Analytics PortuguêsApresentação Watson Analytics Português
Apresentação Watson Analytics Português
 
Dutra (2)
Dutra (2)Dutra (2)
Dutra (2)
 
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
 
The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science Workflow
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
TIEnergia2016
TIEnergia2016TIEnergia2016
TIEnergia2016
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
Workshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big DataWorkshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big Data
 
Faap: Curso de Comunicação e Análise de Dados na Era do Big Data
Faap: Curso de Comunicação e Análise de Dados na Era do Big DataFaap: Curso de Comunicação e Análise de Dados na Era do Big Data
Faap: Curso de Comunicação e Análise de Dados na Era do Big Data
 
Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados Massivos
 
Boas Práticas para Dados na Web: Desafios e Benefícios
Boas Práticas para Dados na Web: Desafios e BenefíciosBoas Práticas para Dados na Web: Desafios e Benefícios
Boas Práticas para Dados na Web: Desafios e Benefícios
 
Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
10 razões para utilizar o Qlik Sense
10 razões para utilizar o Qlik Sense10 razões para utilizar o Qlik Sense
10 razões para utilizar o Qlik Sense
 
Data Mining
Data Mining Data Mining
Data Mining
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819Apresentação Floripa tech day 240819
Apresentação Floripa tech day 240819
 

Introducão à Ciência de Dados

  • 1. Introdução à Ciência de Dados Noções Gerais de Data Science Copyright @2012, Concurrent, Inc. João Pedro Albino Departamento de Computação Faculdade de Ciências UNESP - Bauru
  • 2. Dados não estruturados alcançam escala empresarial Oportunidade
  • 3. Data, data everywhere • Information has gone from scarce to superabundant. That brings huge new benefits, says Kenneth Cukier — but also big headaches. http://www.economist.com/node/15557443
  • 4. perspectivas de uso de big data • https://java2blog.com/big-data-applications/
  • 5. perspectivas de uso de big data fonte: https://www.simplilearn.com/why-and-how-data-science-matters-to-business-article
  • 6. desafios para o big data - comunicações, mídia e entretenimento • Consumidores esperam rich media • vídeo, áudio ou outros elementos que incentivam a interação e envolvimento on-demand em diferentes formatos e dispositivos • Coleta, análise e uso dos insights do consumidor • Aproveitar o conteúdo de mídia móvel e social • Compreensão dos padrões de uso de conteúdo de mídia em tempo real • Aplicações de big data • Criar perfis detalhados de clientes • Criar conteúdo para diferentes públicos-alvo • Recomendar conteúdo sob demanda • Medir o desempenho do conteúdo
  • 7. desafios para o big data - educação • Do ponto de vista técnico: • incorporar dados importantes • diferentes fontes/plataformas /fornecedores • não foram projetados para trabalhar uns com os outros! • Do ponto de vista prático • funcionários / instituições • aprender novas ferramentas de gerenciamento / análise de dados • Do lado técnico-prático • integrar dados!! • Politicamente • privacidade e proteção dos dados pessoais para fins educacionais • LGPD / LGPD • Lei nº 13.709/2018 / Lei nº 13.853, de 2019 • http://www.planalto.gov.br/ccivil_03/_ato2015- 2018/2018/lei/L13709.htm#art65.. • Vigência: agosto de 2020
  • 8. desafios para o big data - educação • Usado de forma significativa no ensino superior • medir a eficácia do professor • garantir boa experiência para alunos / professores • desempenho do professor ajustado / medido • variáveis • número de estudantes, assunto, demografia estudantil, aspirações estudantis, classificação comportamental • Departamento de Educação dos EUA • grandes dados para análises • ajudar alunos que se distraem ao usar recursos on-line • padrões de clique usados para detectar aborrecimento
  • 9. desafios para o big data - educação • Seamless Learning https://link.springer.com/chapter/10.1007/978-981-13-3071-1_1
  • 10. desafios para o big data - educação • Learning Analytics https://medium.com/@limaolflavio/a-import%C3%A2ncia-do-learning-analytics-na-avalia%C3%A7%C3%A3o-do-aprendizado-on-line-b43d67685848
  • 11. Short Circuit (1986) data, data… Input, more input!!
  • 12. Short Circuit (1986) data, data… Major Input!!
  • 13. ‣ Não estruturado ‣ Semi estruturado ‣ Estruturado ‣ Velocidade de geração ‣ Taxa de análise ‣ Não confiável ‣ “Sujo”/ Não limpo ‣ Click stream ‣ Sensor ativo/passivo ‣ Logs ‣ Evento ‣ Corpus ‣ Fala ‣ Mídia social ‣ Tradicional características do Big Data: 4 V's
  • 14. o que é ciência de dados? Uma continuação dos campos de mineração de dados e análise preditiva. É a extração de conhecimento (insights) de grandes volumes de dados estruturados ou não estruturados.
  • 16. Cientista de Dados: Valores fundamentais • Um Cientista de Dados é alguém que sabe obter, tabular, explorar, modelar e interpretar dados, combinando e utilizando estatística e aprendizagem de máquina. • Cientistas de Dados não somente são adeptos a trabalhar com dados, mas apreciam esses dados como um produto de primeira classe. • Hillary Mason • Cientista de Dados • Accel
  • 20. pensamento estatístico • um modo de raciocínio que inclui tanto o raciocínio lógico quanto o analítico: avaliar a totalidade de um problema, bem como suas partes componentes; busca avaliar os efeitos na mudança em uma ou mais variáveis • esta abordagem tenta entender não apenas problemas e soluções, mas também os processos envolvidos e suas variações • particularmente valioso no trabalho do Big Data quando combinado com experiência prática em comunicação - p.ex.:aproximadamente 50% dos meus pares vêm do jornalismo ou de rádio e tv ... os programadores normalmente não pensam assim!
  • 22. fluxo de ciência de dados Dados “brutos" “limpeza" dos dados “Exploração” dos dados Desenvolvimento do “modelo" (Estatística básica, plotagem de gráficos, tendências, mineração de padrões) (Seleção de variáveis, seleção de atributos ou seleção de subconjunto de variáveis) Atualizar/ Aprimorar o modelo Domínio do Conhecimento Aprender o modelo Conhecimento especializado Avaliar o experimento Teste A/B
  • 23. ponto de inflexão: o lado da demanda • grandes sucessos na Internet após a temporada de férias de 1997 ... AMZN, EBAY, então GOOG, Inktomi (YAHOO Search) • considere esta métrica: receita anual por cliente / loja de dados operacional em tamanho superior a 100x dentro de alguns anos após 1997 • Os custos de armazenamento e processamento caíram, agora pode-se trabalhar muito mais inteligentemente para extrair o ROI de dados grandes - big data … os métodos devem se adaptar… • A "sabedoria convencional" das ferramentas RDBMS e BI tornou-se menos viável; o quadro de negócios ainda focado em tabelas dinâmicas e gráficos de pizza ... que tende para a inércia… • a pilha de código aberto para MapReduce e Hadoop cresceram ligados diretamente à partir deste novo contexto ... mas isso resolve apenas parte do problema ruptura maciça no varejo, na publicidade, no jornalismo, etc., "Toda Fortune 500 está em alerta pelos próximos 10 anos" – Geoffrey Moore, 2012 (Mohr Davidow Ventures)
  • 24. o que é um cientista de dados?
  • 25. ponto de inflexão: o lado da oferta source: DJ Patil source: R-Bloggers
  • 26. big data: uma linha de tempo from: https://smalldatagroup.files.wordpress.com/2013/11/big-data-timeline.png
  • 27. habilidades mais importantes • aproximadamente 80% do custo (tempo + dinheiro) em projetos relacionados aos dados são gastos na preparação destes dados - principalmente no problemas de limpeza e de qualidade dos dados • infelizmente, os orçamentos relativos a dados tendem a entrar em frameworks que só podem ser utilizadas após a sua limpeza
  • 28. Habilidades importantes • Habilidades mais importantes: • aprender a utilizar ferramentas programáveis que preparem os dados • aprender a gerar visualizações de dados convincentes • aprender a estimar a confiança dos resultados relatados • aprender a automatizar o trabalho, tornando a análise repetível • Outras habilidades secundárias • Modelagem • algoritmos, • etc.
  • 29. advertências sociais • a frase "Este dado pode não estar correto!" Pode ser um aviso prévio sobre a própria organização dos dados • depende muito de como as pessoas com quem você trabalha tendem chegar a suas decisões: ‣ provavelmente boa: indução, captura, limitação ‣ provavelmente pobre: dedução, especulação, justificação Em geral, uma boa visualização de dados pode reduzir/eliminar muito da argumentação verbal xkcd
  • 31. processo de ciência de dados descoberta modelagem integração apps sistemas auxilia pessoas fazerem as perguntas corretas a automação permite que se faça previsões seguras entregar o nível de produtos adequado aos clientes alavancagem inteligente nas características do produto manter a infraestrutura funcionando e rentável Gephi
  • 32. processo de ciência de dados O modelo se baseia nas etapas: análises estatísticas transformação (análise, raspagem e formatação de dados) visualização (gráficos, sumários, ferramentas, etc.)
  • 34. sistemas de recomendação • Representam uma subclasse dos sistemas de filtragem de informação • procuram prever a “classificação” ou a “preferência” que um usuário daria para um item ---- Wikipedia
  • 35. filtragem colaborativa • Pressuposto básico •Usuários com interesses semelhantes têm preferência similar •Um número suficientemente grande de preferências do usuário estão disponíveis • Principais Abordagens •Baseado no usuário •Baseado em itens
  • 38. problemas com a filtragem colaborativa
  • 39. porque os cientistas de dados necessitam de ferramentas de visualização?
  • 40. porque os cientistas de dados necessitam de ferramentas de visualização? Dar sentido aos dados ganhou grande importância neste século 21. Programar é uma das formas de se manipular os dados que estão disponíveis e torná-los utilizável. Entretanto, nem todo mundo é “programador” e para tais pessoas os cientistas de dados podem usar ferramentas de visualização de dados para “contar estórias”. 40
  • 41. como isso tudo começa? Introdução à Ciência de Dados
  • 42. fluxo de ciência de dados Dados “brutos" “limpeza" dos dados “Exploração” dos dados Desenvolvimento do “modelo" (Estatística básica, plotagem de gráficos, tendências, mineração de padrões) (Seleção de variáveis, seleção de atributos ou seleção de subconjunto de variáveis) Atualizar/ Aprimorar o modelo Domínio do Conhecimento Aprender o modelo Conhecimento especializado Avaliar o experimento Teste A/B
  • 43. ultrapassando obstáculos para obter Informação •“Criar" (gerar) os próprios dados, através de instrumentos (p. ex. questionários, surveys, etc.) •Obter os dados através de APIs web, interfaces providas por bases de dados e por várias aplicações web modernas (incluindo Twitter, Facebook, dentre outras). •Extrair as informações de arquivos PDF. •Extrair informações de telas dos sites (scraping).
  • 46. o que é a linguagem R? •A plataforma R” é uma “ferramenta” gráfica para gerenciamento de dados estatísticos. •R é plataforma de código aberto, mantido e desenvolvido por uma comunidade de desenvolvedores. •O repositório de código R, bem como os “binários compilados” (software pronto para instalar) estão disponíveis em: http://cran.r- project.org •R compreende um projeto centralizado com mais de 15.323 “pacotes” complementares disponíveis livremente.
  • 47. CRAN-R The Comprehensive R Archive Network https://cran.r-project.org/ • https://pt.wikipedia.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o)
  • 48. então, por que utilizar o “R" ? • Software estatísticos populares e seus públicos: • SPSS: cientistas sociais • Stata: cientistas sociais • Mathematica / Matlab: engenheiros, matemáticos, informáticos e físicos • Python / NumPy: cientistas da computação, desenvolvedores web • SAS: indústrias intensivas em dados (por exemplo, serviços financeiros) • Excel: todos os tipos de organizações • R é popular e usado por grande número de analistas/acadêmicos Fonte: Albino, J. P. (2016). Uma Abordagem para Criação de Valor em Dados Abertos para Pequenas e Médias Empresas Utilizando o Ecossistema R, 3o. Encontro Internacional de Dados, Tecnologia e Informação, UNESP – Marília.
  • 50. porém … • Surgiu em 1993 • Usuários gostam de apontar e clicar • R é orientado a linha de comando (linguagem de programação) • R-Studio é um ambiente de desenvolvimento integrado (IDE) para R • R é gratuito (open software) • R não é uma linguagem de programação de uso geral • R não é usado para outras tarefas além de programação estatística • Suporte comercial para o R • Microsoft / Revolution Analytics / Azure • Oracle / Big Data Appliance / Oracle R Enterprise • JMP, Mathematica, MATLAB, Spotfire, SP SS, STATISTICA, Platform Symphony, SAS • TIBCO / S-Plus
  • 51. R Studio - R’s IDE
  • 52. exemplo 2: mapa do brasil em R Fonte: Criando um mapa do Brasil no R em 7 passos https://dataficacao.wordpress.com/2017/02/21/criando-mapa-brasil-r Dados Abertos
  • 53. habilidades não-técnicas do cientista de dados
  • 54. inovação Um(a) grande cientista de dados deve ser inovador(a) e criativo(a) com as habilidades que possui. A criatividade de um(a) cientista de dados o(a) ajuda a determinar onde os dados podem agregar valor e trazer resultados lucrativos para a sua “aplicação".
  • 55. conhecimento do negócio (business) • Cientistas de Dados precisam ter profunda experiência naquilo em que estão trabalhando, para ter um melhor entendimento de quais problemas está buscando resolver. • O campo da Ciência de Dados exige identificar os problemas que são importantes para um negócio e quais são as novas estratégias que podem ser adotadas para alavancar os dados no sentido de resolver estes problemas
  • 56. 3 C’s O papel do(a) Cientista de Dados está fortemente voltado a estes três C’s: Nota: do Inglês Curiosity, Common Sense e Communication Skills!
  • 57. intuição sobre os dados • Um bom cientista de dados não é aquele que apenas adiciona todas as possíveis características sem um modelo de aprendizagem de máquina e analisa os resultados. • A coisa mais importante que um cientista de dados deve fazer antes de alimentar um modelo de aprendizagem de máquina é pensar se aquele modelo tem sentido! • Um cientista de dados deve ter intuição sobre os dados!
  • 58. Introdução à Ciência de Dados Noções Gerais de Data Science Copyright @2012, Concurrent, Inc. João Pedro Albino Departamento de Computação Faculdade de Ciências UNESP - Bauru