SlideShare uma empresa Scribd logo
1 de 47
Baixar para ler offline
Data Science For Dummies
Eduardo Bonet
O que essa palestra NÃO vai ser
● Não será uma palestra técnica
● Não será uma palestra motivacional
● Você não vai sair daqui um Cientista de Dados
2
O que essa palestra vai ser
● O que um Cientista de Dados faz
● As habilidades esperadas de um Cientista de Dados.
● Onde procurar recursos para ir em busca dessas habilidades.
Os slides estarão disponíveis em github.com/ebonet/presentations/
3
O que é um Cientista de Dados?
4
Ninguém Sabe!
5
Cientista de Dados:
Uma pessoa que é melhor em estatística do que
qualquer Engenheiro de Software e melhor em
engenharia de software que qualquer estatísto.
6
Cientista de Dados:
Um estatístico que usa Mac
7
Autor: Halan Harris
8
Dia a dia de Ciência de Dados, exemplificado
9
Encontrar Problema Buscar Dados
Limpar e Explorar
Dados
Estabelecer
Hipótese
Validar Hipótese
Comunicar
Resultados
Hipótese
Incorreta
Hipótese
Correta
Encontrar um problema
É possível estimar um aluguel em
Florianópolis?
10/50
Dia a dia exemplificado
Coletar Dados
Viva Real: site de imóveis para aluguel. http://api.
vivareal.com:80/api/1.0/api-docs
Retorna informações como (Exemplo).
● Bairro
● Latitude, Longitude
● Preço
● Número de banheiro, quartos, garagens, etc…
● Preço de condomínio
11
Dia a dia exemplificado
Limpar dados
● Corrigir localidades com coordenadas incorretas
● Remover entradas com valores estranhos
12
Dia a dia exemplificado
Explorar Dados
● Verificar distribuições de preços
● Estudar possíveis correlações
13
Dia a dia exemplificado
Explorar Dados
14
Dia a dia exemplificado
Elaborar Hipótese ou Proposta de solução
O preço do aluguel pode ser calculado com um modelo linear em cima das seguintes
variáveis:
Área
Número de quartos
Número de banheiros
Latitude
Longitude
Número de garagens
15
Dia a dia exemplificado
Testar Hipótese (e falhar miseravelmente)
16
Dia a dia exemplificado
R² deveria ser perto de 1
Comunicar Resultados
17
Dia a dia exemplificado
O código está disponível em github.com/ebonet/pythonandr/
Encontrar nova hipótese
● Usar bairro em vez de latitude / longitude
● Cruzar entradas com banco de dados de crimes
● Banco de dados de tráfego
● Usar métodos estatísticos e algébricos para descobrir as variáveis que mais
influenciam no preço
Implementar, testar … e continuar falhando miseravelmente
18
Alguns aspectos
19
● Um cientista de dados é um generalista, não um especialista
● CIÊNCIA de dados = Método Científico
● Um bom cientista é quase um unicórnio: precisa ter perfil acadêmico e de
mercado, ter noção de visualização, saber garimpar dados, como armazenar
esses dados, achar maneira de processar tudo isso, gerar insights e trazer esses
insights para produção
● É possível encontrar vagas com graduação, mas muitos pedem pelo menos
mestrado
Quais são as habilidades de um
Cientista de Dados?
E onde consigo encontrá-las?
20
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram21
Diagrama de Venn de Drew Conway
Habilidades - Programação
22
Python
● Versátil e fácil de aprender
● Serve tanto para fazer análise quanto
para colocar em produção
23
Especialização Python (University of Michigan) | Python (CodeAcademy) | Python Class (Google)
Codewars, Codility, Hackerrank
Programação
R
● Linguagem feita para estatísticos
● Amplamente usada no meio acadêmico
● Tem entrado forte no mercado, recebendo grandes
investimentos.
24/50
Aprendendo R com R | Udacity + Facebook - Data analysis with R | R-bloggers | DataCamp - Intro to R
Coursera - R Programming | R-Cookbook
Programação
Bancos de Dados
● Grande disponibilidade de DBMS
● PostreSQL, MongoDB, MySQL, ….
● SQL vs NoSQL
25
Programação
Databases (Stanford) | SQL Tutorial
Computação Distribuída
● Algumas vezes, um computador apenas não dá
conta
● MapReduce, Apache Spark, Hadoop, etc …
26
MapReduce e Hadoop (Udacity + Cloudera) | Intro to Parallel Programming (Nvidia + Udacity )
Programação
Aquisição e Limpeza de Dados
● 80% do processo é gasto entre aquisição e
limpeza de dados
● Inconsistência de dados é algo comum
● Sem dados não há Ciência de Dados
27
Model Building and Validation (Udacity) | Cleaning Data in R (pago) (Data Camp)
Data Mining (University of Illinois)
Programação
Machine Learning
● Permite criar modelos extramente complexos e
poderosos
● Sistemas Recomendadores, Busca, Aprendizado
Dinâmico
● Redes Neurais, KNN, Máquinas de Vetor Suporte
28
Intro to Machine Learning, Supervised ML, Unsupervised ML, Reinforcement Learning (Udacity)
Machine Learning Specialization (University of Washington)
Machine Learning (Stanford)
Programação
Programação - Algoritmos
● Eficiência faz diferença!
● Saber implementar algoritmos paralelizáveis
29
Algoritmos Parte I e II (Princenton)
Algoritmos I e II (Stanford)
Especialização (UC San Diego)
Programação
Habilidades - Estatística e Matemática
30
Operações Matriciais
● Multiplicação
● Fatoração matricial
● Autovalores e Autovetores
31
Coursera - Coding the Matrix | MIT- Linear Algebra
Matemática / Estatística
Cálculo Multivariável
● Matrizes Jacobiana e Hessiana
● Base para Modelos Estatísticos,
Otimização e Aprendizado de
Máquina.
32
Berkeley - Multivariate Calculus | MIT - Multivariate Calculus - 2007 | MIT - Multivariate Calculus - 2010
Matemática / Estatística
Otimização
● Métodos para minimizar uma função específica
● Base para a maioria dos algoritmos de
Aprendizado de Máquina e Regressões
Estatísticas
33
Stanford - Convex Optimization (Avançado) | Cursos de Cálculo Multivariável | Coursera - Linear
Programming
Matemática / Estatística
Matemática - Processamento de Sinais
● Detectar peridiocidade em eventos
● Remover ruído nos dados
34
Matemática / Estatística
Digital Signal Processing | DSP (MIT - Oppenheim)
Estatística - Distribuições
● Poisson, Normal, Uniforme, Gama
● Saber qual distribuição melhor
representa o problema
● Testes de Hipóteses
● Lidar com amostras enviesadas
35
Intro to Statistics | Intro to Descriptive Statistics | Intro to Inferential
Statistics
Matemática / Estatística
Testes A/B
● Permite comparar resultados de duas
ou mais modificações
● Muito usado pra marketing e teste de
diferentes algoritmos
36
Udacity - A/B Testing
Matemática / Estatística
Visualização de dados
● Comunicação de Resultados
● Representar mais do que duas dimensões
● Representação de diferentes variáveis
37
Udacity - Data Visualization and D3.js | https://plot.ly | Flowing Data | Edward Turfte - Envisioning
Information
Matemática / Estatística
Conhecimentos de Domínio
38
Mercado Financeiro
E-commerce
Biologia
Ecologia
Psicologia
Personalização
Política
Otimização de Processos
Marketing
Logística
Esportes
Saúde
Cursos sobre Ciência de Dados
● Udacity - Intro to Data Science
● edX - Data Science Ethics
● John Hopkins - Data Science Especialization
● Big Data University
39
40
Links Diversos
● Quora Data Science FAQ
● DataCamp - Cursos bons, alguns free
● Open Datasets
● Kaggle
● Coursera - Lista de Cursos
● Floripa Data Science
Tips and Tricks
41
Jupyter
● Código + Texto
● Python, R, Julia, Go …..
42
Tips and Tricks
Correlação não é Causalidade
43
Tips and Tricks
Cuidado com erro muito baixo
44
Tips and Tricks
Método Científico significa que resultados devem
ser reproduzíveis!
45
Tips and Tricks
Concluindo
● Um cientista de dados é um generalista, não um especialista
● Muitas habilidades não triviais para se estudar
● Inúmeras oportunidades de criar impacto
● Extremamente desafiador, mas muito divertido
● A graduação não é suficiente, é preciso ir além!
46
Obrigado!
Github | LinkedIn 47

Mais conteúdo relacionado

Destaque

Introduction to Machine Learning
Introduction to Machine LearningIntroduction to Machine Learning
Introduction to Machine LearningRaveen Perera
 
7 historical software bugs
 7 historical software bugs 7 historical software bugs
7 historical software bugsAlexandre Uehara
 
Europython - Machine Learning for dummies with Python
Europython - Machine Learning for dummies with PythonEuropython - Machine Learning for dummies with Python
Europython - Machine Learning for dummies with PythonJavier Arias Losada
 
Introduction of Machine Learning
Introduction of Machine LearningIntroduction of Machine Learning
Introduction of Machine LearningMohammad Hossain
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningKnoldus Inc.
 
Elastically scalable architectures with microservices. The end of the monolith?
Elastically scalable architectures with microservices. The end of the monolith?Elastically scalable architectures with microservices. The end of the monolith?
Elastically scalable architectures with microservices. The end of the monolith?Javier Arias Losada
 
[Eestec] Machine Learning online seminar 1, 12 2016
[Eestec] Machine Learning online seminar 1, 12 2016[Eestec] Machine Learning online seminar 1, 12 2016
[Eestec] Machine Learning online seminar 1, 12 2016Grigoris C
 
Introduction Machine Learning by MyLittleAdventure
Introduction Machine Learning by MyLittleAdventureIntroduction Machine Learning by MyLittleAdventure
Introduction Machine Learning by MyLittleAdventuremylittleadventure
 
Pybcn machine learning for dummies with python
Pybcn machine learning for dummies with pythonPybcn machine learning for dummies with python
Pybcn machine learning for dummies with pythonJavier Arias Losada
 
Brief introduction to Machine Learning
Brief introduction to Machine LearningBrief introduction to Machine Learning
Brief introduction to Machine LearningCodeForFrankfurt
 
Pivotal Digital Transformation Forum: Data Science
Pivotal Digital Transformation Forum: Data Science Pivotal Digital Transformation Forum: Data Science
Pivotal Digital Transformation Forum: Data Science VMware Tanzu
 
Machine learning for dummies - Azuges November 2016
Machine learning for dummies - Azuges November 2016Machine learning for dummies - Azuges November 2016
Machine learning for dummies - Azuges November 2016Carlos Landeras Martínez
 
Machine learning for dummies
Machine learning for dummiesMachine learning for dummies
Machine learning for dummiesAlexandre Uehara
 
Getting Started with Amazon Machine Learning
Getting Started with Amazon Machine LearningGetting Started with Amazon Machine Learning
Getting Started with Amazon Machine LearningAmazon Web Services
 
Introduction to Machine Learning
Introduction to Machine LearningIntroduction to Machine Learning
Introduction to Machine LearningJames Ward
 
Python for Data Science - TDC 2015
Python for Data Science - TDC 2015Python for Data Science - TDC 2015
Python for Data Science - TDC 2015Gabriel Moreira
 
Intro to Data Science for Non-Data Scientists
Intro to Data Science for Non-Data ScientistsIntro to Data Science for Non-Data Scientists
Intro to Data Science for Non-Data ScientistsSri Ambati
 
An introduction to Machine Learning (and a little bit of Deep Learning)
An introduction to Machine Learning (and a little bit of Deep Learning)An introduction to Machine Learning (and a little bit of Deep Learning)
An introduction to Machine Learning (and a little bit of Deep Learning)Thomas da Silva Paula
 

Destaque (20)

Introduction to Machine Learning
Introduction to Machine LearningIntroduction to Machine Learning
Introduction to Machine Learning
 
7 historical software bugs
 7 historical software bugs 7 historical software bugs
7 historical software bugs
 
Europython - Machine Learning for dummies with Python
Europython - Machine Learning for dummies with PythonEuropython - Machine Learning for dummies with Python
Europython - Machine Learning for dummies with Python
 
Introduction of Machine Learning
Introduction of Machine LearningIntroduction of Machine Learning
Introduction of Machine Learning
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Elastically scalable architectures with microservices. The end of the monolith?
Elastically scalable architectures with microservices. The end of the monolith?Elastically scalable architectures with microservices. The end of the monolith?
Elastically scalable architectures with microservices. The end of the monolith?
 
[Eestec] Machine Learning online seminar 1, 12 2016
[Eestec] Machine Learning online seminar 1, 12 2016[Eestec] Machine Learning online seminar 1, 12 2016
[Eestec] Machine Learning online seminar 1, 12 2016
 
Introduction Machine Learning by MyLittleAdventure
Introduction Machine Learning by MyLittleAdventureIntroduction Machine Learning by MyLittleAdventure
Introduction Machine Learning by MyLittleAdventure
 
Pybcn machine learning for dummies with python
Pybcn machine learning for dummies with pythonPybcn machine learning for dummies with python
Pybcn machine learning for dummies with python
 
Brief introduction to Machine Learning
Brief introduction to Machine LearningBrief introduction to Machine Learning
Brief introduction to Machine Learning
 
Pivotal Digital Transformation Forum: Data Science
Pivotal Digital Transformation Forum: Data Science Pivotal Digital Transformation Forum: Data Science
Pivotal Digital Transformation Forum: Data Science
 
Machine learning for dummies - Azuges November 2016
Machine learning for dummies - Azuges November 2016Machine learning for dummies - Azuges November 2016
Machine learning for dummies - Azuges November 2016
 
Machine learning for dummies
Machine learning for dummiesMachine learning for dummies
Machine learning for dummies
 
Getting Started with Amazon Machine Learning
Getting Started with Amazon Machine LearningGetting Started with Amazon Machine Learning
Getting Started with Amazon Machine Learning
 
Introduction to Machine Learning
Introduction to Machine LearningIntroduction to Machine Learning
Introduction to Machine Learning
 
Python for Data Science - TDC 2015
Python for Data Science - TDC 2015Python for Data Science - TDC 2015
Python for Data Science - TDC 2015
 
Intro to Data Science for Non-Data Scientists
Intro to Data Science for Non-Data ScientistsIntro to Data Science for Non-Data Scientists
Intro to Data Science for Non-Data Scientists
 
An introduction to Machine Learning (and a little bit of Deep Learning)
An introduction to Machine Learning (and a little bit of Deep Learning)An introduction to Machine Learning (and a little bit of Deep Learning)
An introduction to Machine Learning (and a little bit of Deep Learning)
 
Fintech
FintechFintech
Fintech
 
Machine Learning for Dummies
Machine Learning for DummiesMachine Learning for Dummies
Machine Learning for Dummies
 

Semelhante a Data Science Skills

Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Demonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoDemonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoRafa Spoladore
 
The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science WorkflowRenzo Ziegler
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dadoscardoso80
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Data Scientist: Onde vive? Como se reproduz? De que se alimenta?
Data Scientist: Onde vive? Como se reproduz? De que se alimenta?Data Scientist: Onde vive? Como se reproduz? De que se alimenta?
Data Scientist: Onde vive? Como se reproduz? De que se alimenta?Ludimila Gonçalves
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para LeigosPedro Neto
 
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Bruno Rocha
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Inteligência artificial: inferindo resultados e tendências
Inteligência artificial: inferindo resultados e tendênciasInteligência artificial: inferindo resultados e tendências
Inteligência artificial: inferindo resultados e tendênciasClaudio Lima
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...Ambiente Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 

Semelhante a Data Science Skills (20)

Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Demonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoDemonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismo
 
The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science Workflow
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Data Scientist: Onde vive? Como se reproduz? De que se alimenta?
Data Scientist: Onde vive? Como se reproduz? De que se alimenta?Data Scientist: Onde vive? Como se reproduz? De que se alimenta?
Data Scientist: Onde vive? Como se reproduz? De que se alimenta?
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para Leigos
 
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Desvendando os mistérios do Data Science
Desvendando os mistérios do Data ScienceDesvendando os mistérios do Data Science
Desvendando os mistérios do Data Science
 
Inteligência artificial: inferindo resultados e tendências
Inteligência artificial: inferindo resultados e tendênciasInteligência artificial: inferindo resultados e tendências
Inteligência artificial: inferindo resultados e tendências
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Big data, e eu com isso?
Big data, e eu com isso?Big data, e eu com isso?
Big data, e eu com isso?
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 

Mais de Eduardo Felipe Ewert Bonet (6)

Usando Java 8 no Android
Usando Java 8 no AndroidUsando Java 8 no Android
Usando Java 8 no Android
 
Using Java 8 on Android
Using Java 8 on AndroidUsing Java 8 on Android
Using Java 8 on Android
 
Testing in go
Testing in goTesting in go
Testing in go
 
Testes em go
Testes em goTestes em go
Testes em go
 
Python e R: uma comparação prática
Python e R: uma comparação práticaPython e R: uma comparação prática
Python e R: uma comparação prática
 
A Gradle Story
A Gradle StoryA Gradle Story
A Gradle Story
 

Data Science Skills

  • 1. Data Science For Dummies Eduardo Bonet
  • 2. O que essa palestra NÃO vai ser ● Não será uma palestra técnica ● Não será uma palestra motivacional ● Você não vai sair daqui um Cientista de Dados 2
  • 3. O que essa palestra vai ser ● O que um Cientista de Dados faz ● As habilidades esperadas de um Cientista de Dados. ● Onde procurar recursos para ir em busca dessas habilidades. Os slides estarão disponíveis em github.com/ebonet/presentations/ 3
  • 4. O que é um Cientista de Dados? 4
  • 6. Cientista de Dados: Uma pessoa que é melhor em estatística do que qualquer Engenheiro de Software e melhor em engenharia de software que qualquer estatísto. 6
  • 7. Cientista de Dados: Um estatístico que usa Mac 7
  • 9. Dia a dia de Ciência de Dados, exemplificado 9 Encontrar Problema Buscar Dados Limpar e Explorar Dados Estabelecer Hipótese Validar Hipótese Comunicar Resultados Hipótese Incorreta Hipótese Correta
  • 10. Encontrar um problema É possível estimar um aluguel em Florianópolis? 10/50 Dia a dia exemplificado
  • 11. Coletar Dados Viva Real: site de imóveis para aluguel. http://api. vivareal.com:80/api/1.0/api-docs Retorna informações como (Exemplo). ● Bairro ● Latitude, Longitude ● Preço ● Número de banheiro, quartos, garagens, etc… ● Preço de condomínio 11 Dia a dia exemplificado
  • 12. Limpar dados ● Corrigir localidades com coordenadas incorretas ● Remover entradas com valores estranhos 12 Dia a dia exemplificado
  • 13. Explorar Dados ● Verificar distribuições de preços ● Estudar possíveis correlações 13 Dia a dia exemplificado
  • 14. Explorar Dados 14 Dia a dia exemplificado
  • 15. Elaborar Hipótese ou Proposta de solução O preço do aluguel pode ser calculado com um modelo linear em cima das seguintes variáveis: Área Número de quartos Número de banheiros Latitude Longitude Número de garagens 15 Dia a dia exemplificado
  • 16. Testar Hipótese (e falhar miseravelmente) 16 Dia a dia exemplificado R² deveria ser perto de 1
  • 17. Comunicar Resultados 17 Dia a dia exemplificado O código está disponível em github.com/ebonet/pythonandr/
  • 18. Encontrar nova hipótese ● Usar bairro em vez de latitude / longitude ● Cruzar entradas com banco de dados de crimes ● Banco de dados de tráfego ● Usar métodos estatísticos e algébricos para descobrir as variáveis que mais influenciam no preço Implementar, testar … e continuar falhando miseravelmente 18
  • 19. Alguns aspectos 19 ● Um cientista de dados é um generalista, não um especialista ● CIÊNCIA de dados = Método Científico ● Um bom cientista é quase um unicórnio: precisa ter perfil acadêmico e de mercado, ter noção de visualização, saber garimpar dados, como armazenar esses dados, achar maneira de processar tudo isso, gerar insights e trazer esses insights para produção ● É possível encontrar vagas com graduação, mas muitos pedem pelo menos mestrado
  • 20. Quais são as habilidades de um Cientista de Dados? E onde consigo encontrá-las? 20
  • 23. Python ● Versátil e fácil de aprender ● Serve tanto para fazer análise quanto para colocar em produção 23 Especialização Python (University of Michigan) | Python (CodeAcademy) | Python Class (Google) Codewars, Codility, Hackerrank Programação
  • 24. R ● Linguagem feita para estatísticos ● Amplamente usada no meio acadêmico ● Tem entrado forte no mercado, recebendo grandes investimentos. 24/50 Aprendendo R com R | Udacity + Facebook - Data analysis with R | R-bloggers | DataCamp - Intro to R Coursera - R Programming | R-Cookbook Programação
  • 25. Bancos de Dados ● Grande disponibilidade de DBMS ● PostreSQL, MongoDB, MySQL, …. ● SQL vs NoSQL 25 Programação Databases (Stanford) | SQL Tutorial
  • 26. Computação Distribuída ● Algumas vezes, um computador apenas não dá conta ● MapReduce, Apache Spark, Hadoop, etc … 26 MapReduce e Hadoop (Udacity + Cloudera) | Intro to Parallel Programming (Nvidia + Udacity ) Programação
  • 27. Aquisição e Limpeza de Dados ● 80% do processo é gasto entre aquisição e limpeza de dados ● Inconsistência de dados é algo comum ● Sem dados não há Ciência de Dados 27 Model Building and Validation (Udacity) | Cleaning Data in R (pago) (Data Camp) Data Mining (University of Illinois) Programação
  • 28. Machine Learning ● Permite criar modelos extramente complexos e poderosos ● Sistemas Recomendadores, Busca, Aprendizado Dinâmico ● Redes Neurais, KNN, Máquinas de Vetor Suporte 28 Intro to Machine Learning, Supervised ML, Unsupervised ML, Reinforcement Learning (Udacity) Machine Learning Specialization (University of Washington) Machine Learning (Stanford) Programação
  • 29. Programação - Algoritmos ● Eficiência faz diferença! ● Saber implementar algoritmos paralelizáveis 29 Algoritmos Parte I e II (Princenton) Algoritmos I e II (Stanford) Especialização (UC San Diego) Programação
  • 30. Habilidades - Estatística e Matemática 30
  • 31. Operações Matriciais ● Multiplicação ● Fatoração matricial ● Autovalores e Autovetores 31 Coursera - Coding the Matrix | MIT- Linear Algebra Matemática / Estatística
  • 32. Cálculo Multivariável ● Matrizes Jacobiana e Hessiana ● Base para Modelos Estatísticos, Otimização e Aprendizado de Máquina. 32 Berkeley - Multivariate Calculus | MIT - Multivariate Calculus - 2007 | MIT - Multivariate Calculus - 2010 Matemática / Estatística
  • 33. Otimização ● Métodos para minimizar uma função específica ● Base para a maioria dos algoritmos de Aprendizado de Máquina e Regressões Estatísticas 33 Stanford - Convex Optimization (Avançado) | Cursos de Cálculo Multivariável | Coursera - Linear Programming Matemática / Estatística
  • 34. Matemática - Processamento de Sinais ● Detectar peridiocidade em eventos ● Remover ruído nos dados 34 Matemática / Estatística Digital Signal Processing | DSP (MIT - Oppenheim)
  • 35. Estatística - Distribuições ● Poisson, Normal, Uniforme, Gama ● Saber qual distribuição melhor representa o problema ● Testes de Hipóteses ● Lidar com amostras enviesadas 35 Intro to Statistics | Intro to Descriptive Statistics | Intro to Inferential Statistics Matemática / Estatística
  • 36. Testes A/B ● Permite comparar resultados de duas ou mais modificações ● Muito usado pra marketing e teste de diferentes algoritmos 36 Udacity - A/B Testing Matemática / Estatística
  • 37. Visualização de dados ● Comunicação de Resultados ● Representar mais do que duas dimensões ● Representação de diferentes variáveis 37 Udacity - Data Visualization and D3.js | https://plot.ly | Flowing Data | Edward Turfte - Envisioning Information Matemática / Estatística
  • 38. Conhecimentos de Domínio 38 Mercado Financeiro E-commerce Biologia Ecologia Psicologia Personalização Política Otimização de Processos Marketing Logística Esportes Saúde
  • 39. Cursos sobre Ciência de Dados ● Udacity - Intro to Data Science ● edX - Data Science Ethics ● John Hopkins - Data Science Especialization ● Big Data University 39
  • 40. 40 Links Diversos ● Quora Data Science FAQ ● DataCamp - Cursos bons, alguns free ● Open Datasets ● Kaggle ● Coursera - Lista de Cursos ● Floripa Data Science
  • 42. Jupyter ● Código + Texto ● Python, R, Julia, Go ….. 42 Tips and Tricks
  • 43. Correlação não é Causalidade 43 Tips and Tricks
  • 44. Cuidado com erro muito baixo 44 Tips and Tricks
  • 45. Método Científico significa que resultados devem ser reproduzíveis! 45 Tips and Tricks
  • 46. Concluindo ● Um cientista de dados é um generalista, não um especialista ● Muitas habilidades não triviais para se estudar ● Inúmeras oportunidades de criar impacto ● Extremamente desafiador, mas muito divertido ● A graduação não é suficiente, é preciso ir além! 46