3. O que é? Como faz? Para que serve?
Ciência de Dados
4. • Quem sou eu
• Contextualização
• O furacão Francês
• Tomada de Decisão Orientada por Dados
• O Processo de Ciência de Dados
• O que fazer depois disso?
• Referências
• Q & A
Plano de vôo
5. • Nasci no dia das mulheres, em 1995
• Cristã
• Engenheira de Controle e
Automação (UFSM)
• Mestranda em Ciência da
Informação (UFSC)
• Engenheira de Machine Learning
na Aquarela Advanced Analytics
• Professora na JCAVI Treinamentos
Quem sou eu
6. • Grandes investimentos em infraestrutura de negócios
• Capacidade de coletar dados
• Computadores mais potentes
• Técnicas capazes de distribuir e processar dados em
diferentes lugares ao mesmo tempo
Aplicações cada vez mais difundidas de princípios
de Ciência de Dados nos negócios.
Contextualização
7. • Aumento do interesse em métodos para extrair
informações úteis e conhecimento a partir de dados
Grandes
quantidades
de dados
Exploração para
obter vantagem
competitiva
Contextualização
8. • Marketing direcionado
• Publicidade online
• Recomendação para venda cruzada
• Classificação e negociação de crédito
• Detecção de fraude
• Gerenciamento de cadeia de fornecimento
• Precificação dinâmica
Exemplos gerais
9. • Furacão ameaçando atingir a costa da Flórida
• New York Times, 2004
• Walmart > Tecnologia preditiva
• Previsão baseada em eventos parecidos anteriores
O furacão Francês
Por que previsões poderiam
ser úteis nesse cenário?
(Hays, 2004)
10. Objetivo
• Projetar QUANTO aumentariam as vendas
• Garantir que os supermercados estivessem abastecidos
O furacão Francês
Descobrir padrões não tão óbvios:
1. Analisar dados passados de situações semelhantes
2. Demanda incomum de produtos
3. Abastecer lojas antes da chegada do furacão
(Hays, 2004)
11. E o principal produto com aumento de demanda, qual foi?
O furacão Francês
Cerveja!
12. Prática de basear as decisões na análise de dados em
vez de apenas na intuição
Tomada de Decisões Orientada por Dados
Inteligência Expandida
13. • Economistas do MIT e da Univ. da Pensilvânia
• Analisou 176 empresas negociadas na bolsa de
valores e conclui que, estatisticamente
Empresas que tomam decisões orientada a dados:
• são mais produtivas;
• têm maior e melhor utilização dos ativos,
• têm aumento do patrimônio líquido e
• têm aumento no valor de mercado.
Tomada de Decisões Orientada por Dados
(Brynjolfsson, Hitt & Kim, 2011)
16. 1. Determinar
2. Entender
3. Mapear
O Processo de Ciência de Dados
1 - Entendimento do Negócio
O que o cliente/setor da empresa quer alcançar?
Objetivos secundários, restrições, critérios de sucesso, soluções
existentes
Objetivo de Negócio Objetivo Técnico
17. O Processo de Ciência de Dados
1 - Entendimento do Negócio
Objetivo de Negócio Objetivo Técnico
Predizer valores Regressão
Predizer categorias Classificação
Predizer Preferências Sistemas de Recomendação
Descobrir grupos Clustering
19. O Processo de Ciência de Dados
2 - Preparação dos Dados
1. Identificar
2. Coletar
3. Acessar
4. Vetorizar
Fontes de dados, formatos, ER, dados relevantes, dados não disponíveis
Adquirir os dados necessários
Familiarizar-se com o dado, detectar erros, verificar hipóteses
Criar o conjunto de dados de análise
20. O Processo de Ciência de Dados
2 - Preparação dos Dados
21. O Processo de Ciência de Dados
2 - Preparação dos Dados
Tempo gasto com
preparação dos dados
Tempo gasto
preparando um modelo
23. • Estatística Descritiva
• Análise de Correlação
• Valores faltantes
• Multicolinearidade
• Normalização
• Transformações
O Processo de Ciência de Dados
3 - Exploração e Transformação dos Dados
26. O que é um modelo?
Especificação de uma relação matemática (ou probabilística)
existente entre variáveis diferentes.
Exemplos:
Modelo de Negócio, baseado em simples relações matemáticas:
lucro é o rendimento menos as despesas
Modelo de livro de receitas: baseado em tentativas e erros
Modelo do pôquer: baseado na teoria da probabilidade
O Processo de Ciência de Dados
4 - Modelagem
30. • Documentação do modelo
• Reprodutibilidade
• API? App Web?
• De quanto em quanto tempo é preciso retreinar?
O Processo de Ciência de Dados
6/7 - Implantação e Rastreamento
31. • Disponibilidade dos dados não garante a tomada de decisões
bem-sucedida
• Como uma empresa pode obter o melhor da riqueza de
dados?
A gestão deve criar uma cultura na qual a ciência
de dados e cientistas prosperem
Ciência de Dados e Estratégia de Negócios
34. Textos-base:
Data Science para Negócios e Data Science do Zero
Complementares:
Hays, C. L. (2004). What they know about you. The New York Times.
Patel, V. (2018). The Data Science Process. Disponível em:
https://pt.slideshare.net/VishalPatel321/the-data-science-process-87047657
Brynjolfsson, E., Hitt, L. M., & Kim, H. H. (2011). Strength in numbers: How does data-driven
decision making affect firm performance? Tech. rep.
Referências
35. Q & A
Luana da Silva
Engenheira de Machine Learning
● /in/luanadasilva
● github.com/silva-luana
● eca.luds@gmail.com