Renzo Ziegler
Data Scientist and SoftwareTeam Leader
BTT Corp
Nogord.ioTalks
 Engenheiro eletrônico e de computação
 Trabalho há 12 anos com captura e análise de dados
 Hoje trabalho na BTT Corp
 Buscando padrões em sinais de temperatura cerebral
 Cruzando com dados de doenças e condições clínicas desfavoráveis
 The Sexiest Job of the 21st century (By Harvard Business review)
 Combina
 Estatística e Matemática
 Computação
 Conhecimentos da área
 Formas criativas para captura e armazenamento de dados
 Resolução de problemas
 Olhar diferente para os dados
 Buscar padrões
 Extrair insights
 Obter informações
https://www.simplilearn.com/data-science-vs-big-data-vs-data-analytics-article
 Define o problema
 Obtém dados necessários
 Processa os dados
 Explora os dados
 Realiza uma análise profunda
 Machine Learning, Modelos estatísticos, algoritmos
 Comunica os resultados da análise
https://medium.springboard.com/the-data-science-process-the-complete-laymans-guide-to-what-a-data-scientist-actually-does-ca3e166b7c67
 Área da Inteligência artificial onde algoritmos fazem o computador
aprender sem ser codificado explicitamente
 Habilidade de uma máquina em aprender usando grandes
quantidades de dados ao invés de regras hard-coded
 Faz com que programas de computadores mudem quando expostos a
novos dados
https://medium.com/@mindfiresolutions.usa/the-effect-of-machine-learning-on-web-application-development-c88a9e5f9553
 O grande desafio da IA e do Machine Learning é a coleta de
dados, e não os algoritmos
 A coleta de dados depende de usuários, de seres humanos
executando tarefas de forma eficiente em computadores
 Os seres humanos interagem com computadores através de
interfaces e o design, a experiência do usuário e a
tecnologia determinam a qualidade das interações.
https://explosion.ai/blog/how-front-end-can-improve-ai
Data Prep
Algorithm
https://en.wikipedia.org/wiki/Data_science
1. Coleta e entendimento dos dados
2. Preparação dos dados
3. Construção do modelo
4. Validação eTeste do modelo
5. Deploy do modelo
https://www.quora.com/Recently-I-learned-python-I-find-artificial-intelligence-very-interesting-since-I-love-coding-very-much-What-do-you-
suggest-I-should-do-next-to-develop-an-AI-system-Assume-I-know-basics-such-as-neural-networks-and-decision-tree
 Defina o problema, questionando o usuário
 Leve em conta o conhecimento da área em cada etapa
 Crie um protótipo da aplicação
 Fluxo de dados & Frontend
 Comece pelo Frontend!
▪ Pense sempre nos seus usuários
 Obtenha os dados corretos
 Produza alguns elementos visuais para saber como preparar
os dados no próximo passo
 Entenda seus dados para responder algumas questões
estratégicas antecipadamente
 Outliers
 Correlações
 Missing data
 Limpe & prepare os dados
 Merge tables
 Engineer new features
 Handle missing data, outliers etc.
 Clean, standardize/normalize as needed.
 A parte mais rápida!
 Escolha alguns algoritmos para avaliar
 De acordo com seus pontos fortes e fracos
 Tente com diferentes parâmetros e/ou tuning automático
 Verifique se o resultado tem qualidade e faz sentido
 Depende de qual abordagem escolhida
 MSE, R2
 Sensitivity vs Specificity
 Precision vs Recall
 Não esqueça de validar com os usuários!
 O resultado faz sentido?
 Você consegue tirar conclusões com os outputs?
 Fluxo de dados up and running
 Alimentando o frontend
 Modelo reprodutível
 Modelo automatizado que possa coletar, preparar, modelar, validar e
colocar em produção um novo modelo, a partir de novos dados?
http://www.tivix.com/blog/full-stack-development-services-means-data-sci/
Renzo Ziegler
rziegler@bttcorp.com
https://www.linkedin.com/in/renzo-ziegler-49b1b62/

The Data Science Workflow

  • 1.
    Renzo Ziegler Data Scientistand SoftwareTeam Leader BTT Corp Nogord.ioTalks
  • 2.
     Engenheiro eletrônicoe de computação  Trabalho há 12 anos com captura e análise de dados  Hoje trabalho na BTT Corp  Buscando padrões em sinais de temperatura cerebral  Cruzando com dados de doenças e condições clínicas desfavoráveis
  • 3.
     The SexiestJob of the 21st century (By Harvard Business review)  Combina  Estatística e Matemática  Computação  Conhecimentos da área  Formas criativas para captura e armazenamento de dados  Resolução de problemas  Olhar diferente para os dados  Buscar padrões  Extrair insights  Obter informações https://www.simplilearn.com/data-science-vs-big-data-vs-data-analytics-article
  • 4.
     Define oproblema  Obtém dados necessários  Processa os dados  Explora os dados  Realiza uma análise profunda  Machine Learning, Modelos estatísticos, algoritmos  Comunica os resultados da análise https://medium.springboard.com/the-data-science-process-the-complete-laymans-guide-to-what-a-data-scientist-actually-does-ca3e166b7c67
  • 5.
     Área daInteligência artificial onde algoritmos fazem o computador aprender sem ser codificado explicitamente  Habilidade de uma máquina em aprender usando grandes quantidades de dados ao invés de regras hard-coded  Faz com que programas de computadores mudem quando expostos a novos dados https://medium.com/@mindfiresolutions.usa/the-effect-of-machine-learning-on-web-application-development-c88a9e5f9553
  • 6.
     O grandedesafio da IA e do Machine Learning é a coleta de dados, e não os algoritmos  A coleta de dados depende de usuários, de seres humanos executando tarefas de forma eficiente em computadores  Os seres humanos interagem com computadores através de interfaces e o design, a experiência do usuário e a tecnologia determinam a qualidade das interações. https://explosion.ai/blog/how-front-end-can-improve-ai
  • 7.
  • 8.
  • 9.
    1. Coleta eentendimento dos dados 2. Preparação dos dados 3. Construção do modelo 4. Validação eTeste do modelo 5. Deploy do modelo https://www.quora.com/Recently-I-learned-python-I-find-artificial-intelligence-very-interesting-since-I-love-coding-very-much-What-do-you- suggest-I-should-do-next-to-develop-an-AI-system-Assume-I-know-basics-such-as-neural-networks-and-decision-tree
  • 10.
     Defina oproblema, questionando o usuário  Leve em conta o conhecimento da área em cada etapa  Crie um protótipo da aplicação  Fluxo de dados & Frontend  Comece pelo Frontend! ▪ Pense sempre nos seus usuários
  • 11.
     Obtenha osdados corretos  Produza alguns elementos visuais para saber como preparar os dados no próximo passo  Entenda seus dados para responder algumas questões estratégicas antecipadamente  Outliers  Correlações  Missing data
  • 12.
     Limpe &prepare os dados  Merge tables  Engineer new features  Handle missing data, outliers etc.  Clean, standardize/normalize as needed.
  • 13.
     A partemais rápida!  Escolha alguns algoritmos para avaliar  De acordo com seus pontos fortes e fracos  Tente com diferentes parâmetros e/ou tuning automático
  • 14.
     Verifique seo resultado tem qualidade e faz sentido  Depende de qual abordagem escolhida  MSE, R2  Sensitivity vs Specificity  Precision vs Recall  Não esqueça de validar com os usuários!  O resultado faz sentido?  Você consegue tirar conclusões com os outputs?
  • 15.
     Fluxo dedados up and running  Alimentando o frontend  Modelo reprodutível  Modelo automatizado que possa coletar, preparar, modelar, validar e colocar em produção um novo modelo, a partir de novos dados?
  • 16.
  • 17.