O documento fornece um guia sobre as etapas, competências e ferramentas essenciais para projetos de ciência de dados. Ele discute planejamento, raspagem, wrangling, pesquisa, modelagem, MLOps, implantação e análise como componentes principais de um projeto de dados, fornecendo exemplos de ferramentas para cada etapa. O documento também fornece um exemplo de como essas etapas podem ser aplicadas para um projeto de análise de sentimento de tweets sobre o Big Brother Brasil.
ASP.Net Performance – A pragmatic approach - Luis Paulino
TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdf
1. O Esqueleto de um
Projeto de Dados
Etapas, competências e ferramentas
para Cientistas de Dados
2. Introdução
Fernando Tadao Ito
Cientista de Dados faz 7 anos
Ainda procura no Google “how df join pandas”
Atualmente fazendo consultoria nos EUA
linkedin.com/f.tadao
medium.com/@f-tadao
3. O que é um Projeto de Dados?
❖ Em sua essência:
➢ Coletar dados de algum canto;
➢ Processar dados usando algum
tipo de agregação ou
enriquecimento;
➢ Entregar valor utilizando estes
dados processados.
+ O’Reilly: Foundation for Architecting Data
Projects
5. Ranking Geral
❖ S (Não dá pra ficar sem):
➢ Planejamento -> Qual o propósito do projeto?
➢ Modelagem -> Como escolher e treinar meu modelo?
❖ A (Facilita a sua vida):
➢ Wrangling -> Como pescar e descamar meus dados?
➢ Análise -> Como mostrar e avaliar o resultado final do projeto?
❖ B (Facilita a vida de todo mundo):
➢ MLOps -> Como organizar as versões e os artefatos do meu modelo?
➢ Implantação -> Como (e onde) vou executar o treinamento e inferência do meu modelo?
❖ C (Boa ferramenta no seu arsenal):
➢ Raspagem -> Como puxar dados de páginas da Internet?
➢ Pesquisa (acadêmica!) -> Como criar modelos do zero a partir de artigos?
6. Planejamento (S)
❖ Habilidade de colocar no papel um
plano que leva um dado cru à um
produto.
❖ Definir quais são as entradas e saídas de
cada parte do projeto.
❖ Responsabilidade dividida com todos da
equipe…
➢ Quanto mais know-how de cada parte,
melhor!
❖ Ferramentas:
➢ Gerenciador de Projeto (JIRA, Notion)
➢ Criação de Diagramas (diagrams.net)
➢ Saber escrever (RFC)!
7. Raspagem (C)
❖ Tirar dados da Internet usando scrapers.
❖ Opcional na maioria dos casos, mas
ajuda a criar PoCs de qualquer coisa!
❖ Responsabilidade: cientista de dados ou
engenheiros de software.
❖ Ferramentas:
➢ Framework de raspagem (Scrapy,
Puppeteer, Selenium)
➢ XPath ou CSS
➢ Maneiras de salvar dados (AWS
Firehose, GCP Dataflow)
➢ Maneiras de visualizar dados brutos
(AWS Athena, GCP BigQuery)
8. Wrangling (A)
❖ Marretar os dados até ajeitar eles.
➢ Normalização, mapeamento, limpeza e
estruturação!
❖ Responsabilidade: engenheiros e
cientistas de dados.
❖ Ferramentas:
➢ SQL x 10! (DBT, Snowflake/Snowpark)
➢ Manipulação de dados (Pandas,
Numpy)
➢ Validação de dados (Great
Expectations, Pytest)
9. Pesquisa (C)
❖ Criar o melhor modelo para a tarefa a
ser cumprida.
➢ Necessário para inovação mas opcional
para problemas do dia-a-dia.
➢ Polêmica: é preciso saber matemática
pesada para ser cientista de dados?
❖ Responsabilidade: pesquisadores de IA
ou cientistas de dados.
❖ Ferramentas:
➢ Uma boa fonte de artigos (Mendeley,
arXiv, Sci-Hub)
➢ Um framework para Deep Learning
(PyTorch, TensorFlow, Keras)
➢ Saber como usar GPU (CUDA, ROCm)
➢ Tudo relacionado a Modelagem no
próximo slide!
10. Modelagem (S)
❖ Saber criar e avaliar um modelo de dados.
➢ Pré-processamento, treinamento, avaliação de
métricas…
➢ É o toolkit básico de um cientista!
❖ Transformar dados em insights!
❖ Ferramentas:
➢ Framework pra treinamento de modelos básicos
(scikit-learn, spaCy para NLP, Keras Applications
para modelos pré-treinados)
➢ Automação de etapas (AutoML, PyCaret, SweetViz)
➢ Manipulação de dados (Pandas, etc)
➢ Paralelismo (Spark, Databricks, dask)
➢ Plataformas com Notebooks remotos (Databricks,
Sagemaker, JupyterLab)
11. MLOps (B)
❖ Manutenção do ciclo de vida de uma
aplicação de dados.
➢ Manter, observar e melhorar um modelo
com eficácia.
➢ Traduzir modelo de dev pra prod!
❖ Responsabilidade: engenheiros de
dados E cientistas!
❖ Ferramentas:
➢ Kubeflow (ML em k8s)
➢ MLflow, Weights & Biases
(versionamento)
➢ Metaflow (DAGs e ML)
➢ Sagemaker/Google Dataflow + ML
12. Implantação (B)
❖ Colocar um modelo em produção,
adaptando-o para sua pipeline.
➢ O famoso deploy!
❖ Responsabilidade: engenheiros e
cientistas de dados.
➢ Precisam trabalhar juntos!
❖ Ferramentas:
➢ Cloud em geral (AWS, GCP, Azure…)
➢ Containerização (Docker)
➢ Sistema hidráulico (Kafka, ActiveMQ,
GCP PubSub, AWS Firehose/SQS)
➢ Serverless? (AWS Lambda/Batch, GCP
Functions)
13. Análise (A)
❖ Entender e demonstrar os resultados de
seu modelo ou características de sua
base de dados com gráficos e métricas.
➢ Relacionar métricas de modelo com
métricas de negócio!
❖ Responsabilidade: cientistas e analistas
de dados.
❖ Ferramentas:
➢ Suítes de análise de dados (Tableau,
Looker, PowerBI)
➢ Dashboards (Metabase, Redash, Google
Data Studio)
➢ Sabedoria do domínio de negócio
15. Exemplo: Análise de Sentimento de Twitter
❖ Queremos acompanhar a evolução
diária de sentimentos relacionados ao
#BBB22 no Twitter.
❖ Que participantes estão sendo
bem-recebidos? Quais ficaram
mal-vistos depois de uma edição
específica?
❖ Negócio quer isso pra ontem, e como
temos volume não precisamos de estado
da arte!
➢ Velocidade > Acurácia.
➢ Encurtamos pesquisa.