Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015

1.404 visualizações

Publicada em

Não é preciso ser um cientista para atuar na área de Data Science, Engenheiros de software, programadores, desenvolvedores web tem muito a colaborar integrando-se aos times de Data Science.

Publicada em: Software

Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015

  1. 1. brunorocha.org Data Developer Trabalhando com Data Science não sendo um cientista!
  2. 2. DATA MINING MACHINE LEARNING DATA MATCHING BIG DATA RECOMMENDATION NLP REST API TEXT PARSING
  3. 3. brunorocha.org Data Science Uai, que trem é esse?
  4. 4. brunorocha.org A lenda da fralda e da cerveja
  5. 5. brunorocha.org Um funcionário do WalMart notou que a venda de fraldas descartáveis estava associada à de cerveja. Ele notou que os compradores homens, que saíam à noite para comprar fraldas, aproveitavam para levar algumas latinhas para casa. Ele sugeriu que os produtos fossem postos lado a lado. Resultado: a venda de cervejas disparou durante as noites.
  6. 6. brunorocha.org Um funcionário do WalMart notou… - Não escala - Não distribui - Não tem precisão - ...
  7. 7. brunorocha.org Business Inteligence Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.
  8. 8. brunorocha.org Business Inteligence Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil. - Passivo - Manual (Dependente do Analista)
  9. 9. brunorocha.org Business Inteligence Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil. - Passivo - Manual (Dependente do Analista)
  10. 10. brunorocha.org Business Inteligence Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil. - Passivo - Manual (Dependente do Analista) - Muito útil e relevante mas não resolve todos os problemas - Crawling - Mining - Parsing - APIs - Notebooks - Algoritmos - ML - Linguagens - BigData
  11. 11. brunorocha.org Supermercado Entrada A Entrada B
  12. 12. brunorocha.org Supermercado Entrada A Entrada B
  13. 13. brunorocha.org Supermercado Entrada A Entrada B
  14. 14. brunorocha.org Supermercado Entrada A Entrada B
  15. 15. brunorocha.org Supermercado Entrada A Grande quantidade de sinais a serem analisados. - Local do produto - Local da entrada - Tamanho do carrinho - Local das prateleiras - Iluminação - Embalagens - Preços - Ordem de compra - Horário da compra - Sexo do comprador - Idade do comprador - Duração da compra - ... Entrada B
  16. 16. brunorocha.org Supermercado Entrada A Features e sinais: - Local do produto - Local da entrada - Tamanho do carrinho - Local das prateleiras - Iluminação - Embalagens - Preços - Ordem de compra - Horário da compra - Sexo do comprador - Idade do comprador - Duração da compra - ... Entrada B
  17. 17. brunorocha.org Data Science é sobre encontrar, classificar e correlacionar padrões em um conjunto de dados e utilizar essas análises de dados para: - Business Inteligence - Monitoramento - Análises preditivas - Recomendações - Detecção de novas combinações e novos padrões - Dominar o mundo - Acabar com a fome mundial - Curar doenças - ...
  18. 18. brunorocha.org Data Science is not always evil Bio Medical Data Science Initiative http://med.stanford.edu/bdsi.html - Triagem médica - Correlação entre exames - Recomendação de tratamentos - Detecção e predição de epidêmias - Otimização da fabricação de medicamentos e equipamentos - Diminuição/Abolição de testes em animais - Gerenciamento de desastres - Diagnóstico inteligente - Monitoramento e preservação ambiental - Recomendar filmes legais no NetFlix - Recomendar a próxima empresa em que você pode trabalhar!
  19. 19. brunorocha.org Aprendizado de Máquina e Inteligência Artificial e Big Data O problema do Big Data (quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar em tempo hábil sem o uso de IA e computação distribuida) Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o trabalho de classificação. Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de dados para treinar, monitorar e avaliar o desempenho e confiabilidade. The Machine is Learning
  20. 20. brunorocha.org "Dadólogo" Ciência dos dados Aprendizado de Máquina e Inteligência Artificial e Big Data O problema do Big Data (quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar em tempo hábil sem o uso de IA e computação distribuida) Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o trabalho de classificação. Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de dados para treinar, monitorar e avaliar o desempenho e confiabilidade. The Machine is Learning Biólogo Ciência da Vida =
  21. 21. brunorocha.org "Dadólogo" Ciência dos dados Dadólogo é um termo feio, mas soa melhor do que "cientista de dados", não?? Ou você já viu um "podólogo" ser chamado de cientista de pés?
  22. 22. brunorocha.org O Data Scientist In god we trust: All others bring data! ● Profissional cientista das áreas de estatística, matemática, fisica, computação. ● Conhecimentos teóricos avançados e boa desenvoltura prática em computação. ● Mestre das estruturas de dados. ● A profissão mais sexy do século! https://hbr.org/2012/10/data-scientist-the- sexiest-job-of-the-21st-century/ ● Salários na média entre 10k e 20k no Brasil (2015) - $120k a $200k/year U.S.A (2015). ● Requisitado em todas as industrias de Startups a MultiNacionais. ● Sobram vagas e faltam profissionais qualificados e interessados.
  23. 23. brunorocha.org O quê que o Python tem a ver com isso?
  24. 24. brunorocha.org Other languages in Data Science - R - Julia - Scala - Java - Lua/Torch - Matlab - Go - ...
  25. 25. brunorocha.org So… Why Python? UAI
  26. 26. brunorocha.org
  27. 27. brunorocha.org Python pode ser usada em todas as etapas do trabalho, desde a captura de dados até a apresentação das análises!
  28. 28. brunorocha.org Coletar: Armazenar: Apresentar: Automatizar, escalar, distribuir: SQL* Agregar, Consultar e Analisar: NLP NER
  29. 29. brunorocha.org O Dilema do Full Stack Developer O desenvolvedor superman que "em teoria" resolve todos os problemas end-to-end mas ninguém sabe quando ele vai sair voando ou se vai morrer no final.
  30. 30. brunorocha.org O Dilema do Ben 10 Developer OU Que se transforma em mais de 10 monstros para tentar resolver problemas mas acaba tendo crises de identidade durante o projeto.
  31. 31. brunorocha.org X Trabaia pa carai…. ou …. ficá di boa? ou melhor! Contar com ajuda para fazer as duas coisas!
  32. 32. brunorocha.org - Devops (infra, provisionamento, monitoramento, escalabilidade, cloud) - Engenharia e Arquitetura - Web, APIs e integrações - Project Leadership - Data Mining - Database Administration - P & D - Data Science Algorithms - Fazer café - Atender telefone - Vender - … - candidatos??
  33. 33. brunorocha.org O Homer Simpsom Developer Doh… achei que seria mais fácil e que eu ia dar conta de entregar tudo em X dias…. O que eu faço agora? qual banco de dados eu uso? qual linguagem é melhor? VI ou Emacs???
  34. 34. brunorocha.org Multitask nunca funciona para o desenvolvedor de software ou para o Cientista de Dados! Melhor manter o foco e priorizar a qualidade de vida!
  35. 35. brunorocha.org Dia de trabalho para o cientista de dados = 8hrs (ou menos) Estudo Pesquisa ExperimentosData Mining Qualidade de vida importa!!!
  36. 36. brunorocha.org Dia de trabalho para o cientista de dados = 8hrs (ou menos) Estudo Pesquisa ExperimentosData Mining Qualidade de vida importa!!! Engenharia DevOps Project Leadership Web APIs Testes Automação …..
  37. 37. brunorocha.org
  38. 38. brunorocha.org Especialização é bom para todos!!! - Foco = Qualidade - Tempo livre = qualidade de vida - Melhora o mercado de trabalho - Evita retenção de know how
  39. 39. brunorocha.org Formação do time de Data Science Atenção: Contém slides gentilmente roubados do http://pt. slideshare.net/rodsenra
  40. 40. brunorocha.org
  41. 41. brunorocha.org
  42. 42. brunorocha.org DevOps
  43. 43. brunorocha.org DevOps
  44. 44. brunorocha.org O Engenheiro de Dados
  45. 45. brunorocha.org
  46. 46. brunorocha.org SUPERVISORD IPTABLES CRON TMUX NGINX GUNICORN uWSGI Domine O Sistema Operacional
  47. 47. brunorocha.org Cloud / PaaS
  48. 48. brunorocha.org Persistência Poliglota
  49. 49. brunorocha.org AUTOMAÇÃO, PROVISIONAMENTO, DEPLOY
  50. 50. brunorocha.org WEB DEVELOPMENT and REST API
  51. 51. brunorocha.org Engenharia de Software - Design Patterns - Boas práticas (PEP-8, MCCABE) - Testes e CI - Mineração de dados - Crawling, Parsing (bs, regex, etc..) - VCS - Modularização, Empacotamento - Documentação
  52. 52. brunorocha.org
  53. 53. brunorocha.org http://guidetodatamining.com/
  54. 54. brunorocha.org

×