SlideShare uma empresa Scribd logo
O Esqueleto de um
Projeto de Dados
Etapas, competências e ferramentas
para Cientistas de Dados
Introdução
Fernando Tadao Ito
Cientista de Dados faz 7 anos
Ainda procura no Google “how df join pandas”
Atualmente fazendo consultoria nos EUA
linkedin.com/f.tadao
medium.com/@f-tadao
O que é um Projeto de Dados?
❖ Em sua essência:
➢ Coletar dados de algum canto;
➢ Processar dados usando algum
tipo de agregação ou
enriquecimento;
➢ Entregar valor utilizando estes
dados processados.
+ O’Reilly: Foundation for Architecting Data
Projects
O que é um Projeto de Dados?
Ranking Geral
❖ S (Não dá pra ficar sem):
➢ Planejamento -> Qual o propósito do projeto?
➢ Modelagem -> Como escolher e treinar meu modelo?
❖ A (Facilita a sua vida):
➢ Wrangling -> Como pescar e descamar meus dados?
➢ Análise -> Como mostrar e avaliar o resultado final do projeto?
❖ B (Facilita a vida de todo mundo):
➢ MLOps -> Como organizar as versões e os artefatos do meu modelo?
➢ Implantação -> Como (e onde) vou executar o treinamento e inferência do meu modelo?
❖ C (Boa ferramenta no seu arsenal):
➢ Raspagem -> Como puxar dados de páginas da Internet?
➢ Pesquisa (acadêmica!) -> Como criar modelos do zero a partir de artigos?
Planejamento (S)
❖ Habilidade de colocar no papel um
plano que leva um dado cru à um
produto.
❖ Definir quais são as entradas e saídas de
cada parte do projeto.
❖ Responsabilidade dividida com todos da
equipe…
➢ Quanto mais know-how de cada parte,
melhor!
❖ Ferramentas:
➢ Gerenciador de Projeto (JIRA, Notion)
➢ Criação de Diagramas (diagrams.net)
➢ Saber escrever (RFC)!
Raspagem (C)
❖ Tirar dados da Internet usando scrapers.
❖ Opcional na maioria dos casos, mas
ajuda a criar PoCs de qualquer coisa!
❖ Responsabilidade: cientista de dados ou
engenheiros de software.
❖ Ferramentas:
➢ Framework de raspagem (Scrapy,
Puppeteer, Selenium)
➢ XPath ou CSS
➢ Maneiras de salvar dados (AWS
Firehose, GCP Dataflow)
➢ Maneiras de visualizar dados brutos
(AWS Athena, GCP BigQuery)
Wrangling (A)
❖ Marretar os dados até ajeitar eles.
➢ Normalização, mapeamento, limpeza e
estruturação!
❖ Responsabilidade: engenheiros e
cientistas de dados.
❖ Ferramentas:
➢ SQL x 10! (DBT, Snowflake/Snowpark)
➢ Manipulação de dados (Pandas,
Numpy)
➢ Validação de dados (Great
Expectations, Pytest)
Pesquisa (C)
❖ Criar o melhor modelo para a tarefa a
ser cumprida.
➢ Necessário para inovação mas opcional
para problemas do dia-a-dia.
➢ Polêmica: é preciso saber matemática
pesada para ser cientista de dados?
❖ Responsabilidade: pesquisadores de IA
ou cientistas de dados.
❖ Ferramentas:
➢ Uma boa fonte de artigos (Mendeley,
arXiv, Sci-Hub)
➢ Um framework para Deep Learning
(PyTorch, TensorFlow, Keras)
➢ Saber como usar GPU (CUDA, ROCm)
➢ Tudo relacionado a Modelagem no
próximo slide!
Modelagem (S)
❖ Saber criar e avaliar um modelo de dados.
➢ Pré-processamento, treinamento, avaliação de
métricas…
➢ É o toolkit básico de um cientista!
❖ Transformar dados em insights!
❖ Ferramentas:
➢ Framework pra treinamento de modelos básicos
(scikit-learn, spaCy para NLP, Keras Applications
para modelos pré-treinados)
➢ Automação de etapas (AutoML, PyCaret, SweetViz)
➢ Manipulação de dados (Pandas, etc)
➢ Paralelismo (Spark, Databricks, dask)
➢ Plataformas com Notebooks remotos (Databricks,
Sagemaker, JupyterLab)
MLOps (B)
❖ Manutenção do ciclo de vida de uma
aplicação de dados.
➢ Manter, observar e melhorar um modelo
com eficácia.
➢ Traduzir modelo de dev pra prod!
❖ Responsabilidade: engenheiros de
dados E cientistas!
❖ Ferramentas:
➢ Kubeflow (ML em k8s)
➢ MLflow, Weights & Biases
(versionamento)
➢ Metaflow (DAGs e ML)
➢ Sagemaker/Google Dataflow + ML
Implantação (B)
❖ Colocar um modelo em produção,
adaptando-o para sua pipeline.
➢ O famoso deploy!
❖ Responsabilidade: engenheiros e
cientistas de dados.
➢ Precisam trabalhar juntos!
❖ Ferramentas:
➢ Cloud em geral (AWS, GCP, Azure…)
➢ Containerização (Docker)
➢ Sistema hidráulico (Kafka, ActiveMQ,
GCP PubSub, AWS Firehose/SQS)
➢ Serverless? (AWS Lambda/Batch, GCP
Functions)
Análise (A)
❖ Entender e demonstrar os resultados de
seu modelo ou características de sua
base de dados com gráficos e métricas.
➢ Relacionar métricas de modelo com
métricas de negócio!
❖ Responsabilidade: cientistas e analistas
de dados.
❖ Ferramentas:
➢ Suítes de análise de dados (Tableau,
Looker, PowerBI)
➢ Dashboards (Metabase, Redash, Google
Data Studio)
➢ Sabedoria do domínio de negócio
Mas e na prática?
Exemplo: Análise de Sentimento de Twitter
❖ Queremos acompanhar a evolução
diária de sentimentos relacionados ao
#BBB22 no Twitter.
❖ Que participantes estão sendo
bem-recebidos? Quais ficaram
mal-vistos depois de uma edição
específica?
❖ Negócio quer isso pra ontem, e como
temos volume não precisamos de estado
da arte!
➢ Velocidade > Acurácia.
➢ Encurtamos pesquisa.
Exemplo: Análise de Sentimento de Twitter
Obrigado pela atenção!
Desculpa se eu passei do tempo, tinha muita coisa pra falar

Mais conteúdo relacionado

Semelhante a TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdf

Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataSandro Andrade
 
Situação da migração para PostgreSQL
Situação da migração para PostgreSQLSituação da migração para PostgreSQL
Situação da migração para PostgreSQLLeonardo Cezar
 
O que vi na QCon 2012 São Paulo
O que vi na QCon 2012 São PauloO que vi na QCon 2012 São Paulo
O que vi na QCon 2012 São PauloIsmael
 
Desmitificando as aplicações RESTFul usando Django Rest Framework
Desmitificando as aplicações RESTFul usando Django Rest FrameworkDesmitificando as aplicações RESTFul usando Django Rest Framework
Desmitificando as aplicações RESTFul usando Django Rest FrameworkBruno Oliveira
 
Apresentação TDC 2018 - Go e Banco de Dados
Apresentação TDC 2018 - Go e Banco de DadosApresentação TDC 2018 - Go e Banco de Dados
Apresentação TDC 2018 - Go e Banco de DadosMarcelo Krüger
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Tecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensTecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensAlessandro Binhara
 
Introdução ao Windows Azure - Sessão 1 (mais teórica)
Introdução ao Windows Azure - Sessão 1 (mais teórica)Introdução ao Windows Azure - Sessão 1 (mais teórica)
Introdução ao Windows Azure - Sessão 1 (mais teórica)Giovanni Bassi
 
Alterao ementa tii remodelado jair
Alterao ementa tii   remodelado jairAlterao ementa tii   remodelado jair
Alterao ementa tii remodelado jairjairdeoliveirajunior
 
Desenvolvimento web com CodeIgniter
Desenvolvimento web com CodeIgniterDesenvolvimento web com CodeIgniter
Desenvolvimento web com CodeIgniterPedro Junior
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoComunidade NetPonto
 

Semelhante a TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdf (20)

Palestra nosql
Palestra nosqlPalestra nosql
Palestra nosql
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 
Onde posso ir como “dev”
Onde posso ir como “dev”Onde posso ir como “dev”
Onde posso ir como “dev”
 
Aprendendo R
Aprendendo RAprendendo R
Aprendendo R
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigData
 
Ruby on Rails for beginners 2.0
Ruby on Rails for beginners 2.0Ruby on Rails for beginners 2.0
Ruby on Rails for beginners 2.0
 
Situação da migração para PostgreSQL
Situação da migração para PostgreSQLSituação da migração para PostgreSQL
Situação da migração para PostgreSQL
 
O que vi na QCon 2012 São Paulo
O que vi na QCon 2012 São PauloO que vi na QCon 2012 São Paulo
O que vi na QCon 2012 São Paulo
 
Desmitificando as aplicações RESTFul usando Django Rest Framework
Desmitificando as aplicações RESTFul usando Django Rest FrameworkDesmitificando as aplicações RESTFul usando Django Rest Framework
Desmitificando as aplicações RESTFul usando Django Rest Framework
 
PyFuncemeClimateTools
PyFuncemeClimateToolsPyFuncemeClimateTools
PyFuncemeClimateTools
 
Meetup-Churrops
Meetup-ChurropsMeetup-Churrops
Meetup-Churrops
 
Apresentação TDC 2018 - Go e Banco de Dados
Apresentação TDC 2018 - Go e Banco de DadosApresentação TDC 2018 - Go e Banco de Dados
Apresentação TDC 2018 - Go e Banco de Dados
 
Ementa curso de dados
Ementa curso de dadosEmenta curso de dados
Ementa curso de dados
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Tecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensTecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvens
 
Introdução ao Windows Azure - Sessão 1 (mais teórica)
Introdução ao Windows Azure - Sessão 1 (mais teórica)Introdução ao Windows Azure - Sessão 1 (mais teórica)
Introdução ao Windows Azure - Sessão 1 (mais teórica)
 
Alterao ementa tii remodelado jair
Alterao ementa tii   remodelado jairAlterao ementa tii   remodelado jair
Alterao ementa tii remodelado jair
 
Desenvolvimento web com CodeIgniter
Desenvolvimento web com CodeIgniterDesenvolvimento web com CodeIgniter
Desenvolvimento web com CodeIgniter
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis Paulino
 

TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdf

  • 1. O Esqueleto de um Projeto de Dados Etapas, competências e ferramentas para Cientistas de Dados
  • 2. Introdução Fernando Tadao Ito Cientista de Dados faz 7 anos Ainda procura no Google “how df join pandas” Atualmente fazendo consultoria nos EUA linkedin.com/f.tadao medium.com/@f-tadao
  • 3. O que é um Projeto de Dados? ❖ Em sua essência: ➢ Coletar dados de algum canto; ➢ Processar dados usando algum tipo de agregação ou enriquecimento; ➢ Entregar valor utilizando estes dados processados. + O’Reilly: Foundation for Architecting Data Projects
  • 4. O que é um Projeto de Dados?
  • 5. Ranking Geral ❖ S (Não dá pra ficar sem): ➢ Planejamento -> Qual o propósito do projeto? ➢ Modelagem -> Como escolher e treinar meu modelo? ❖ A (Facilita a sua vida): ➢ Wrangling -> Como pescar e descamar meus dados? ➢ Análise -> Como mostrar e avaliar o resultado final do projeto? ❖ B (Facilita a vida de todo mundo): ➢ MLOps -> Como organizar as versões e os artefatos do meu modelo? ➢ Implantação -> Como (e onde) vou executar o treinamento e inferência do meu modelo? ❖ C (Boa ferramenta no seu arsenal): ➢ Raspagem -> Como puxar dados de páginas da Internet? ➢ Pesquisa (acadêmica!) -> Como criar modelos do zero a partir de artigos?
  • 6. Planejamento (S) ❖ Habilidade de colocar no papel um plano que leva um dado cru à um produto. ❖ Definir quais são as entradas e saídas de cada parte do projeto. ❖ Responsabilidade dividida com todos da equipe… ➢ Quanto mais know-how de cada parte, melhor! ❖ Ferramentas: ➢ Gerenciador de Projeto (JIRA, Notion) ➢ Criação de Diagramas (diagrams.net) ➢ Saber escrever (RFC)!
  • 7. Raspagem (C) ❖ Tirar dados da Internet usando scrapers. ❖ Opcional na maioria dos casos, mas ajuda a criar PoCs de qualquer coisa! ❖ Responsabilidade: cientista de dados ou engenheiros de software. ❖ Ferramentas: ➢ Framework de raspagem (Scrapy, Puppeteer, Selenium) ➢ XPath ou CSS ➢ Maneiras de salvar dados (AWS Firehose, GCP Dataflow) ➢ Maneiras de visualizar dados brutos (AWS Athena, GCP BigQuery)
  • 8. Wrangling (A) ❖ Marretar os dados até ajeitar eles. ➢ Normalização, mapeamento, limpeza e estruturação! ❖ Responsabilidade: engenheiros e cientistas de dados. ❖ Ferramentas: ➢ SQL x 10! (DBT, Snowflake/Snowpark) ➢ Manipulação de dados (Pandas, Numpy) ➢ Validação de dados (Great Expectations, Pytest)
  • 9. Pesquisa (C) ❖ Criar o melhor modelo para a tarefa a ser cumprida. ➢ Necessário para inovação mas opcional para problemas do dia-a-dia. ➢ Polêmica: é preciso saber matemática pesada para ser cientista de dados? ❖ Responsabilidade: pesquisadores de IA ou cientistas de dados. ❖ Ferramentas: ➢ Uma boa fonte de artigos (Mendeley, arXiv, Sci-Hub) ➢ Um framework para Deep Learning (PyTorch, TensorFlow, Keras) ➢ Saber como usar GPU (CUDA, ROCm) ➢ Tudo relacionado a Modelagem no próximo slide!
  • 10. Modelagem (S) ❖ Saber criar e avaliar um modelo de dados. ➢ Pré-processamento, treinamento, avaliação de métricas… ➢ É o toolkit básico de um cientista! ❖ Transformar dados em insights! ❖ Ferramentas: ➢ Framework pra treinamento de modelos básicos (scikit-learn, spaCy para NLP, Keras Applications para modelos pré-treinados) ➢ Automação de etapas (AutoML, PyCaret, SweetViz) ➢ Manipulação de dados (Pandas, etc) ➢ Paralelismo (Spark, Databricks, dask) ➢ Plataformas com Notebooks remotos (Databricks, Sagemaker, JupyterLab)
  • 11. MLOps (B) ❖ Manutenção do ciclo de vida de uma aplicação de dados. ➢ Manter, observar e melhorar um modelo com eficácia. ➢ Traduzir modelo de dev pra prod! ❖ Responsabilidade: engenheiros de dados E cientistas! ❖ Ferramentas: ➢ Kubeflow (ML em k8s) ➢ MLflow, Weights & Biases (versionamento) ➢ Metaflow (DAGs e ML) ➢ Sagemaker/Google Dataflow + ML
  • 12. Implantação (B) ❖ Colocar um modelo em produção, adaptando-o para sua pipeline. ➢ O famoso deploy! ❖ Responsabilidade: engenheiros e cientistas de dados. ➢ Precisam trabalhar juntos! ❖ Ferramentas: ➢ Cloud em geral (AWS, GCP, Azure…) ➢ Containerização (Docker) ➢ Sistema hidráulico (Kafka, ActiveMQ, GCP PubSub, AWS Firehose/SQS) ➢ Serverless? (AWS Lambda/Batch, GCP Functions)
  • 13. Análise (A) ❖ Entender e demonstrar os resultados de seu modelo ou características de sua base de dados com gráficos e métricas. ➢ Relacionar métricas de modelo com métricas de negócio! ❖ Responsabilidade: cientistas e analistas de dados. ❖ Ferramentas: ➢ Suítes de análise de dados (Tableau, Looker, PowerBI) ➢ Dashboards (Metabase, Redash, Google Data Studio) ➢ Sabedoria do domínio de negócio
  • 14. Mas e na prática?
  • 15. Exemplo: Análise de Sentimento de Twitter ❖ Queremos acompanhar a evolução diária de sentimentos relacionados ao #BBB22 no Twitter. ❖ Que participantes estão sendo bem-recebidos? Quais ficaram mal-vistos depois de uma edição específica? ❖ Negócio quer isso pra ontem, e como temos volume não precisamos de estado da arte! ➢ Velocidade > Acurácia. ➢ Encurtamos pesquisa.
  • 16. Exemplo: Análise de Sentimento de Twitter
  • 17. Obrigado pela atenção! Desculpa se eu passei do tempo, tinha muita coisa pra falar