1) O documento introduz o conceito de ciência de dados, que envolve a coleta, transformação e armazenamento de dados, além da geração de informações e conhecimento a partir dos dados com o uso de técnicas de computação, estatística e domínios de aplicação.
2) A ciência de dados difere da ciência da computação ao tentar modelar saídas a partir de entradas de dados ao invés de definir funções exatas.
3) O curso abordará técnicas de coleta, análise e visual
3. Ciência da
Computação
!
!
Matemática
e Estatística
!
!
Ciência
dos
Dados
!
!
!
Domínio de
Aplicação
Finanças
Economia
Engenharia
Direito
Medicina
Ciências
Sociais
Ciências
4. O QUE É CIÊNCIA DOS
DADOS?
Alto Baixo
Coletar,
transformar e
armazenar
dados
Mágica 01:
gerar
informação
Mágica 02:
apresentar a
informação
Mágica 03:
gerar
conhecimento
Massageamento de Números (máquina)
Intrepretação (humano)
Baixo Alto
5. O QUE É CIÊNCIA DOS
DADOS?
Computação Comunicação /
Coletar,
transformar e
armazenar
dados
Mágica 01:
gerar
informação
Mágica 02:
apresentar a
informação
Mágica 03:
gerar
conhecimento
Visualização
Matemática /
Estatística
Conhecimento
sobre o domínio
6. CIÊNCIA DA COMPUTAÇÃO
VS CIÊNCIA DOS DADOS
Ciência da
Computação
Entrada X
Função F
Saída Y = F(X)
Ciência dos Dados
Entrada X
Saída Y
Modelar f tal que
Y = f(X) + ɛ
7. USANDO UM MODELO
Entradas e
Saídas
Algoritmo de
treinamento
Modelo
Novas
entradas
Saídas
estimadas
8. “Ciência dos Dados é a ciência que estuda formas de
extrair conhecimento generalizável a partir de dados.”
–Vasant Dhar
Leitura recomendada:
!
Data Science and Prediction, Communications of the ACM, Vol. 56 No. 12, Pages 64-73
10. “Qualquer área que se auto-denomina Ciência não
pode ser Ciência.”
–Autor desconhecido
Leitura recomendada:
!
Is computer science science?, Communications of the ACM Vol. 48 No. 4, Pages 27-31
Where is the Science in Computer Science?, Communications of the ACM, Vol. 55 No. 10, Page 5
The Science in Computer Science, Communications of the ACM, Vol. 56 No. 5, Pages 35-38
13. CIÊNCIA É EXPLORAR E
EXPLICAR O DESCONHECIDO!
• No caso da Ciência dos Dados, isso significa
aprender a fazer as perguntas corretas e a extrair
dos dados as respostas adequadas para tais
perguntas.
14. O QUE VEREMOS NESTE
CURSO
• Fundamentação teórica (Tipos de dados e como os dados
são geralmente agrupados)
• Técnicas para coleta de dados (Formulários, projeto de
experimentos e dados públicos)
• Técnicas para análise de dados (Sumarização estatística,
correlação, regressão linear e agrupamento)
• Princípios de visualização de dados
15. O QUE NÃO VEREMOS NESTE
CURSO
• Técnicas avançadas de aprendizagem de máquina
• Técnicas avançadas de análise e modelagem
estatística
16. FORMA DE AVALIAÇÃO
• Desenvolvimento de um projeto (grupos de até 2 alunos)
completo de análise e visualização de dados
• 3 etapas:
• Plano de pesquisa e planejamento de releases (35%)
• Entrega da 1a release (25%)
• Entrega da 2a release (40%)
17. TODOS OS PROJETOS
DEVERÃO
• Oferecer uma interface web
• Realizar a coleta, limpeza e análise dos dados de
forma (semi-)automática
• Exibir de forma interativa e geo-referenciada os
resultados obtidos
• Considerar a evolução temporal dos resultados
18. FONTES DE DADOS
• Só poderão ser utilizadas fontes de dados listadas
no site da disciplina
• Os alunos podem sugerir novas fontes de dados
19. REFERÊNCIAS
• DATA + DESIGN: A simple introduction to preparing
and visualizing information. Trina Chiasson et al, 2014.
• Core Concepts in Data Analysis: Summarization,
Correlation and Visualization. Boris Mirkin, 2011
• The Art of Computer Systems Performance Analysis:
Techniques for Experimental Design, Measurement,
Simulation, and Modeling. R. Jain, 1991.