INTRODUÇÃO 
Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
O QUE É CIÊNCIA DOS 
DADOS?
Ciência da 
Computação 
! 
! 
Matemática 
e Estatística 
! 
! 
Ciência 
dos 
Dados 
! 
! 
! 
Domínio de 
Aplicação 
Finanças 
Economia 
Engenharia 
Direito 
Medicina 
Ciências 
Sociais 
Ciências
O QUE É CIÊNCIA DOS 
DADOS? 
Alto Baixo 
Coletar, 
transformar e 
armazenar 
dados 
Mágica 01: 
gerar 
informação 
Mágica 02: 
apresentar a 
informação 
Mágica 03: 
gerar 
conhecimento 
Massageamento de Números (máquina) 
Intrepretação (humano) 
Baixo Alto
O QUE É CIÊNCIA DOS 
DADOS? 
Computação Comunicação / 
Coletar, 
transformar e 
armazenar 
dados 
Mágica 01: 
gerar 
informação 
Mágica 02: 
apresentar a 
informação 
Mágica 03: 
gerar 
conhecimento 
Visualização 
Matemática / 
Estatística 
Conhecimento 
sobre o domínio
CIÊNCIA DA COMPUTAÇÃO 
VS CIÊNCIA DOS DADOS 
Ciência da 
Computação 
Entrada X 
Função F 
Saída Y = F(X) 
Ciência dos Dados 
Entrada X 
Saída Y 
Modelar f tal que 
Y = f(X) + ɛ
USANDO UM MODELO 
Entradas e 
Saídas 
Algoritmo de 
treinamento 
Modelo 
Novas 
entradas 
Saídas 
estimadas
“Ciência dos Dados é a ciência que estuda formas de 
extrair conhecimento generalizável a partir de dados.” 
–Vasant Dhar 
Leitura recomendada: 
! 
Data Science and Prediction, Communications of the ACM, Vol. 56 No. 12, Pages 64-73
E ONDE ESTÁ A CIÊNCIA 
NISSO?
“Qualquer área que se auto-denomina Ciência não 
pode ser Ciência.” 
–Autor desconhecido 
Leitura recomendada: 
! 
Is computer science science?, Communications of the ACM Vol. 48 No. 4, Pages 27-31 
Where is the Science in Computer Science?, Communications of the ACM, Vol. 55 No. 10, Page 5 
The Science in Computer Science, Communications of the ACM, Vol. 56 No. 5, Pages 35-38
UTILIZAR APRENDIZAGEM DE 
MÁQUINA NÃO É CIÊNCIA!
PERSEGUIR CORRELAÇÕES 
NÃO É CIÊNCIA!
CIÊNCIA É EXPLORAR E 
EXPLICAR O DESCONHECIDO! 
• No caso da Ciência dos Dados, isso significa 
aprender a fazer as perguntas corretas e a extrair 
dos dados as respostas adequadas para tais 
perguntas.
O QUE VEREMOS NESTE 
CURSO 
• Fundamentação teórica (Tipos de dados e como os dados 
são geralmente agrupados) 
• Técnicas para coleta de dados (Formulários, projeto de 
experimentos e dados públicos) 
• Técnicas para análise de dados (Sumarização estatística, 
correlação, regressão linear e agrupamento) 
• Princípios de visualização de dados
O QUE NÃO VEREMOS NESTE 
CURSO 
• Técnicas avançadas de aprendizagem de máquina 
• Técnicas avançadas de análise e modelagem 
estatística
FORMA DE AVALIAÇÃO 
• Desenvolvimento de um projeto (grupos de até 2 alunos) 
completo de análise e visualização de dados 
• 3 etapas: 
• Plano de pesquisa e planejamento de releases (35%) 
• Entrega da 1a release (25%) 
• Entrega da 2a release (40%)
TODOS OS PROJETOS 
DEVERÃO 
• Oferecer uma interface web 
• Realizar a coleta, limpeza e análise dos dados de 
forma (semi-)automática 
• Exibir de forma interativa e geo-referenciada os 
resultados obtidos 
• Considerar a evolução temporal dos resultados
FONTES DE DADOS 
• Só poderão ser utilizadas fontes de dados listadas 
no site da disciplina 
• Os alunos podem sugerir novas fontes de dados
REFERÊNCIAS 
• DATA + DESIGN: A simple introduction to preparing 
and visualizing information. Trina Chiasson et al, 2014. 
• Core Concepts in Data Analysis: Summarization, 
Correlation and Visualization. Boris Mirkin, 2011 
• The Art of Computer Systems Performance Analysis: 
Techniques for Experimental Design, Measurement, 
Simulation, and Modeling. R. Jain, 1991.

Introdução à Análise de Dados - Aula 01

  • 1.
    INTRODUÇÃO Alexandre Duarte- http://alexandre.ci.ufpb.br/ensino/iad
  • 2.
    O QUE ÉCIÊNCIA DOS DADOS?
  • 3.
    Ciência da Computação ! ! Matemática e Estatística ! ! Ciência dos Dados ! ! ! Domínio de Aplicação Finanças Economia Engenharia Direito Medicina Ciências Sociais Ciências
  • 4.
    O QUE ÉCIÊNCIA DOS DADOS? Alto Baixo Coletar, transformar e armazenar dados Mágica 01: gerar informação Mágica 02: apresentar a informação Mágica 03: gerar conhecimento Massageamento de Números (máquina) Intrepretação (humano) Baixo Alto
  • 5.
    O QUE ÉCIÊNCIA DOS DADOS? Computação Comunicação / Coletar, transformar e armazenar dados Mágica 01: gerar informação Mágica 02: apresentar a informação Mágica 03: gerar conhecimento Visualização Matemática / Estatística Conhecimento sobre o domínio
  • 6.
    CIÊNCIA DA COMPUTAÇÃO VS CIÊNCIA DOS DADOS Ciência da Computação Entrada X Função F Saída Y = F(X) Ciência dos Dados Entrada X Saída Y Modelar f tal que Y = f(X) + ɛ
  • 7.
    USANDO UM MODELO Entradas e Saídas Algoritmo de treinamento Modelo Novas entradas Saídas estimadas
  • 8.
    “Ciência dos Dadosé a ciência que estuda formas de extrair conhecimento generalizável a partir de dados.” –Vasant Dhar Leitura recomendada: ! Data Science and Prediction, Communications of the ACM, Vol. 56 No. 12, Pages 64-73
  • 9.
    E ONDE ESTÁA CIÊNCIA NISSO?
  • 10.
    “Qualquer área quese auto-denomina Ciência não pode ser Ciência.” –Autor desconhecido Leitura recomendada: ! Is computer science science?, Communications of the ACM Vol. 48 No. 4, Pages 27-31 Where is the Science in Computer Science?, Communications of the ACM, Vol. 55 No. 10, Page 5 The Science in Computer Science, Communications of the ACM, Vol. 56 No. 5, Pages 35-38
  • 11.
    UTILIZAR APRENDIZAGEM DE MÁQUINA NÃO É CIÊNCIA!
  • 12.
  • 13.
    CIÊNCIA É EXPLORARE EXPLICAR O DESCONHECIDO! • No caso da Ciência dos Dados, isso significa aprender a fazer as perguntas corretas e a extrair dos dados as respostas adequadas para tais perguntas.
  • 14.
    O QUE VEREMOSNESTE CURSO • Fundamentação teórica (Tipos de dados e como os dados são geralmente agrupados) • Técnicas para coleta de dados (Formulários, projeto de experimentos e dados públicos) • Técnicas para análise de dados (Sumarização estatística, correlação, regressão linear e agrupamento) • Princípios de visualização de dados
  • 15.
    O QUE NÃOVEREMOS NESTE CURSO • Técnicas avançadas de aprendizagem de máquina • Técnicas avançadas de análise e modelagem estatística
  • 16.
    FORMA DE AVALIAÇÃO • Desenvolvimento de um projeto (grupos de até 2 alunos) completo de análise e visualização de dados • 3 etapas: • Plano de pesquisa e planejamento de releases (35%) • Entrega da 1a release (25%) • Entrega da 2a release (40%)
  • 17.
    TODOS OS PROJETOS DEVERÃO • Oferecer uma interface web • Realizar a coleta, limpeza e análise dos dados de forma (semi-)automática • Exibir de forma interativa e geo-referenciada os resultados obtidos • Considerar a evolução temporal dos resultados
  • 18.
    FONTES DE DADOS • Só poderão ser utilizadas fontes de dados listadas no site da disciplina • Os alunos podem sugerir novas fontes de dados
  • 19.
    REFERÊNCIAS • DATA+ DESIGN: A simple introduction to preparing and visualizing information. Trina Chiasson et al, 2014. • Core Concepts in Data Analysis: Summarization, Correlation and Visualization. Boris Mirkin, 2011 • The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Measurement, Simulation, and Modeling. R. Jain, 1991.