Cientista de Dados - A profissão mais sexy do século 21

915 visualizações

Publicada em

Há pouco tempo atrás não existia, depois virou a "profissão do futuro", e agora é a "profissão da moda". Toda empresa quer um, do Facebook até times profissionais de basquete.

Cabe ao cientista de dados viabilizar a transformação do recente dilúvio de dados em informação estruturada, e gerar conhecimento para evoluir a engenharia de soluções, e alavancar os negócios.

Nesta palestra técnica vamos apresentar os desafios e algumas ferramentas da profissão mais sexy do século 21. O objetivo principal será passar, de forma didática, uma visão completa do que vem a ser um Cientista de Dados. É importante, pois você ainda pode se tornar um!

Publicada em: Dados e análise
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
915
No SlideShare
0
A partir de incorporações
0
Número de incorporações
261
Ações
Compartilhamentos
0
Downloads
19
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Cientista de Dados - A profissão mais sexy do século 21

  1. 1. Cientista de Dados Rodrigo Senra rsenra@acm.org A profissão mais sexy do século 21
  2. 2. Apenas um rapaz latino americano... • Engenheiro de Software • GPr Sistemas (11 anos) • HI Tecnologia (5 anos) • Professor Universitário - PUC-Campinas (2 anos) • Especialista - Globo.com (2 anos) • Cientista Pesquisador - EMC2 • Engenheiro de Computação Grad-MSc-PhD IC-Unicamp • Entusiasta de FLOSS (atuante na comunidade Python desde 2000)
  3. 3. • Estudantes ? • Professores ? • Profissionais ? • Cientistas de Dados ? Quem está aqui ?
  4. 4. Vamos falar de… • O dilúvio de dados • Cientista de Dados • Quem é • O que faz • Como faz • Ferramentas
  5. 5. Cientista de Dados Rodrigo Senra Quem é ? Por que é importante ?
  6. 6. fONTE: IDC Digital Universe Study, patrocinado pela EMC, 2011 2009
 0.8 Zettabytes CRESCIMENTO DA INFORMAÇÃO 2020 44 X MAIOR 35.2 ZB IN 2010 THE DIGITAL UNIVERSE WAS 1.2 ZETTABYTES 1,200,000,000,000,000,000,000 Zetta Exa Peta Tera Giga Mega Kilo Byte fonte: http://thehumanfaceofbigdata.com/
  7. 7. • ︎Government-to-citizen (G2C) • Government-to-employee (G2E) • Government-to-business (G2B) • Government to-government (G2G)
  8. 8. http://www.telegraph.co.uk/news/picturegalleries/picturesoftheday/2545407/Pictures-of-the-day-12-August-2008.html?image=8
  9. 9. Cientista de Dados Rodrigo Senra O que faz ? Quem é ?
  10. 10. Data Science is a newly emerging field dedicated to analyzing and manipulating data to derive insights and build data products. https://beta.oreilly.com/ideas/what-is-data-science It combines skill-sets ranging from computer science, to mathematics, to art. http://images.fineartamerica.com/images-medium-large-5/1-pi-transition-paths-martin-krzywinski.jpg
  11. 11. http://drewconway.com/
  12. 12. Estatísticas descritivas: ! Média vs. Mediana. ! Desvio Padrão ! Quartis, Min/Max. ! Correlação entre variavéis 1 X y 10.00 8.04 8.00 6.95 13.00 7.58 9.00 8.81 11.00 8.33 14.00 9.96 6.00 7.24 4.00 4.26 12.00 10.84 7.00 4.82 5.00 5.68 2 x y 10.0 9.14 8.00 8.14 13.0 8.74 9.00 8.77 11.0 9.26 14.0 8.10 6.00 6.13 4.00 3.10 12.0 9.13 7.00 7.26 5.00 4.74 3 x y 10.0 7.46 8.00 6.77 13.0 12.7 9.00 7.11 11.0 7.81 14.0 8.84 6.00 6.08 4.00 5.39 12.0 8.15 7.00 6.42 5.00 5.73 4 x y 8.00 6.58 8.00 5.76 8.00 7.71 8.00 8.84 8.00 8.47 8.00 7.04 8.00 5.25 19.00 12.50 8.00 5.56 8.00 7.91 8.00 6.89 Média de x: 9 Variância de x: 11 Média exata de y: 7.5 (2 d.p) Variância de y: 4.13 (to 2 d.p) Correlação entre x e y : 0.816 Regressão linear: Y = 3.00 + 0.500xTruth lies on statistics !
  13. 13. Cientista de Dados Rodrigo Senra Como faz ?
  14. 14. http://i0.wp.com/sciencereview.berkeley.edu/wp-content/uploads/2014/04/spring_2014_azam_05.jpg
  15. 15. http://godwincaruana.me/data-science-workflow-overview-and-challenges-cacm/
  16. 16. Big Data a cada passo da exploração de petróleo Navigation Seismic: Pre-stack Seismic: Post-stack Log Curves Culture Data Geologic Model Pressure Data Velocity Data Interpretation
  17. 17. Resolução de Problemas Agrupamento
  18. 18. Fernando Perez, lead PI at BIDS and creator of IPython, demonstrates brain imaging analyses performed using the IPython Notebook, an interactive web-based computational environment. credit: Peg Skorpinski
  19. 19. https://www.kaggle.com Kaggle is the world's largest community of data scientists. They compete with each other to solve complex data science problems, and the top competitors are invited to work on the most interesting and sensitive business problems from some of the world’s biggest companies through Masters competitions.
  20. 20. Tools Used By Competitors
  21. 21. http://www-bcf.usc.edu/~gareth/ISL/ http://www.greenteapress.com/thinkstats/thinkstats.pdf
  22. 22. Obrigado a todos pela atenção. Rodrigo Dias Arruda Senra http://rodrigo.senra.nom.br rodsenra@gmail.com @rodsenra As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra. Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante. Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de copyright. Agradecimento especial a Ana Oliveira e Diego Salomone que contribuíram com alguns slides de suas apresentações sobre o mesmo tema.

×