Introdução à Análise de Dados - Aula 01

1.110 visualizações

Publicada em

Aula inicial da disciplina de Introdução à Análise de Dados da UFPB.

Publicada em: Educação
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.110
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
69
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Introdução à Análise de Dados - Aula 01

  1. 1. INTRODUÇÃO Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
  2. 2. O QUE É CIÊNCIA DOS DADOS?
  3. 3. Ciência da Computação ! ! Matemática e Estatística ! ! Ciência dos Dados ! ! ! Domínio de Aplicação Finanças Economia Engenharia Direito Medicina Ciências Sociais Ciências
  4. 4. O QUE É CIÊNCIA DOS DADOS? Alto Baixo Coletar, transformar e armazenar dados Mágica 01: gerar informação Mágica 02: apresentar a informação Mágica 03: gerar conhecimento Massageamento de Números (máquina) Intrepretação (humano) Baixo Alto
  5. 5. O QUE É CIÊNCIA DOS DADOS? Computação Comunicação / Coletar, transformar e armazenar dados Mágica 01: gerar informação Mágica 02: apresentar a informação Mágica 03: gerar conhecimento Visualização Matemática / Estatística Conhecimento sobre o domínio
  6. 6. CIÊNCIA DA COMPUTAÇÃO VS CIÊNCIA DOS DADOS Ciência da Computação Entrada X Função F Saída Y = F(X) Ciência dos Dados Entrada X Saída Y Modelar f tal que Y = f(X) + ɛ
  7. 7. USANDO UM MODELO Entradas e Saídas Algoritmo de treinamento Modelo Novas entradas Saídas estimadas
  8. 8. “Ciência dos Dados é a ciência que estuda formas de extrair conhecimento generalizável a partir de dados.” –Vasant Dhar Leitura recomendada: ! Data Science and Prediction, Communications of the ACM, Vol. 56 No. 12, Pages 64-73
  9. 9. E ONDE ESTÁ A CIÊNCIA NISSO?
  10. 10. “Qualquer área que se auto-denomina Ciência não pode ser Ciência.” –Autor desconhecido Leitura recomendada: ! Is computer science science?, Communications of the ACM Vol. 48 No. 4, Pages 27-31 Where is the Science in Computer Science?, Communications of the ACM, Vol. 55 No. 10, Page 5 The Science in Computer Science, Communications of the ACM, Vol. 56 No. 5, Pages 35-38
  11. 11. UTILIZAR APRENDIZAGEM DE MÁQUINA NÃO É CIÊNCIA!
  12. 12. PERSEGUIR CORRELAÇÕES NÃO É CIÊNCIA!
  13. 13. CIÊNCIA É EXPLORAR E EXPLICAR O DESCONHECIDO! • No caso da Ciência dos Dados, isso significa aprender a fazer as perguntas corretas e a extrair dos dados as respostas adequadas para tais perguntas.
  14. 14. O QUE VEREMOS NESTE CURSO • Fundamentação teórica (Tipos de dados e como os dados são geralmente agrupados) • Técnicas para coleta de dados (Formulários, projeto de experimentos e dados públicos) • Técnicas para análise de dados (Sumarização estatística, correlação, regressão linear e agrupamento) • Princípios de visualização de dados
  15. 15. O QUE NÃO VEREMOS NESTE CURSO • Técnicas avançadas de aprendizagem de máquina • Técnicas avançadas de análise e modelagem estatística
  16. 16. FORMA DE AVALIAÇÃO • Desenvolvimento de um projeto (grupos de até 2 alunos) completo de análise e visualização de dados • 3 etapas: • Plano de pesquisa e planejamento de releases (35%) • Entrega da 1a release (25%) • Entrega da 2a release (40%)
  17. 17. TODOS OS PROJETOS DEVERÃO • Oferecer uma interface web • Realizar a coleta, limpeza e análise dos dados de forma (semi-)automática • Exibir de forma interativa e geo-referenciada os resultados obtidos • Considerar a evolução temporal dos resultados
  18. 18. FONTES DE DADOS • Só poderão ser utilizadas fontes de dados listadas no site da disciplina • Os alunos podem sugerir novas fontes de dados
  19. 19. REFERÊNCIAS • DATA + DESIGN: A simple introduction to preparing and visualizing information. Trina Chiasson et al, 2014. • Core Concepts in Data Analysis: Summarization, Correlation and Visualization. Boris Mirkin, 2011 • The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Measurement, Simulation, and Modeling. R. Jain, 1991.

×