3. 3 / 26
Sumário
●
O que é Data Science?
●
Problemas e fatores de sucesso em projetos de
Business Analytics
●
Processos
– Data Analytics Lifecycle
●
Formação do time
......
4. 4 / 26
Ciência da
Computação
Conhecimento
do domínio
Definição: Data Science
●
É a área que reune tudo relacionado ao
tratamento, preparação e análise de dados.
●
É um guarda-chuva
de técnicas usadas
para extrair insights
e informações
dos dados.
Matemática
Estatística
Banco
de
Dados
Aprendizado
de
Máquina
Data
Science......
5. 5 / 26
FONTE: http://digitally.cognizant.com/data-science-the-new-monetization-model-for-analytics-industry-3/
Data Science x BI
......
6. 6 / 26
“Somente 27% dos projetos de Big Data Analytics tem sucesso”
Fonte: CapGemeni – Big Data Survey 2014
Data Science não acontece do nada…Data Science não acontece do nada…
......
7. 7 / 26
Alguns problemas em projetos
Dados dispersos em silos de diferentes áreas
Falta de um caso de uso de negócios claro
Ineficiência na coordenação dos times
envolvidos na análise de dados da organização
Dependência de sistemas legados para gestão
e processamento de dados
Falta de modelos de governança para analytics
Falta de patrocinador da alta gerência
Falta de habilidade em analytics e big data
Falta de clareza nas ferramentas e tecnologias
Custo das ferramentas e infraestruturas para analytics
Preocupação com segurança e privacidade de dados
Resistência a mudança na organização
......
8. 8 / 26
Alguns fatores de sucesso
✔ Roadmap
estratégico
(proposta de valor)
✔ Seleção de caso
de uso
✔ Métricas de
sucesso (Key
Performance
Indicators - KPIs)
https://www.capgemini.com/wp-content/uploads/sites/30/2015/01/Cracking-the-data-conundrum-infographic.pdf
Projeto Equipe
......
9. 9 / 26
Alguns fatores de sucesso
✔ Roadmap
estratégico
(proposta de valor)
✔ Seleção de caso
de uso
✔ Métricas de
sucesso (Key
Performance
Indicators - KPIs)
https://www.capgemini.com/wp-content/uploads/sites/30/2015/01/Cracking-the-data-conundrum-infographic.pdf
Projeto Equipe
PROCESSO
......
11. 11 / 26
Processos para Data Science
●
KDD
●
CRISP-DM
●
SEMMA
●
Data Analytics Lifecycle
......
12. 12 / 26
Knowledge Discovery in Databases (KDD)
●
Mais antiga (1996)
●
Foco na transformação de dados em informação
FONTE: FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data mining to knowledge discovery: An overview. In: Advances in
Knowledge Discovery and Data Mining, AAAI Press/The MIT Press, England, 1996, p.1-34.
......
13. 13 / 26
Cross Industry Standard Process
for Data Mining (CRISP-DM)
●
Existe desde 1996;
●
Oficializado por um consórcio
financiado pela comissão
européia em 2000, com Daimler
Chrysler (then Daimler-Benz),
SPSS (then ISL) , NCR;
(Veteranos em Data Mining)
●
Mais de 200 organizacões
contribuíram no processo.
FONTE: Chapman et al., 2000. https://www.the-modeling-agency.com/crisp-dm.pdf
......
14. 14 / 26
Sample, Explore, Modify, Model e
Assess (SEMMA)
●
Criada pela SAS
em 2008;
●
Processo que guia
um passo a passo
do software SAS
Enterprise Miner;
Fonte: http://faculty.smu.edu/tfomby/eco5385_eco6380/data/SPSS/SAS%20_%20SEMMA.pdf
https://paulovasconcellos.com.br/crisp-dm-semma-e-kdd-conheça-as-melhores-técnicas-para-exploração-de-dados-560d294547d2
......
15. 15 / 26
Data Analytics Lifecycle
●
Proposto pela EMC (2015)
●
Framework que reune
melhores práticas dos
modelos existentes:
método científico, CRISP-
DM, DELTA, Applied
information economics
approach e MadSkills.
FONTE: EMC Education (2015). Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data (1 ed.). Hoboken, New Jersey: Wiley.
......
16. 16 / 26
Data Analytics Lifecycle
Fase 1: Descoberta
●
Entender o negócio;
●
Mapear recursos: pessoas, tecnologia, dados, tempo e
prazos;
– Identificar potenciais fontes de dados;
●
Entender o problema a ser resolvido com analytics;
Pensar no problema como um desafio de analytics;
●
Identificar stakeholders e seus interesses no projeto;
●
Definir critérios de sucesso e riscos;
●
Desenvolver hipóteses iniciais a serem testadas com
dados;
......
17. 17 / 26
Data Analytics Lifecycle
Fase 1: Descoberta
●
Sugestões de recursos que podem ser usados nesta fase:
– Plano de negócios (ou BM Canvas): conhecimento do negócio,
proposta de valor e pontos chave de geração e uso de dados etc;
– Mapa estratégico: objetivos organizacionais, processos chave
etc;
– Processos organizacionais e organograma: identificar áreas
geradoras, mantenedoras e consumidoras de dados e potenciais
consumidores do resultado do analytics;
– Entrevistas: sponsor do projeto, stakeholders e especialistas no
domínio para identificar requisitos, riscos e critérios de sucesso;
– Entre outros.
......
18. 18 / 26
Data Analytics Lifecycle
Fase 2: Preparação dos Dados
●
Explorar os dados:
– Identificar bases de dados internas e externas;
– Entender os dados e formatação;
– Identificar ruídos e problemas (gaps, erros etc);
●
Usar uma sandbox para mexer nos dados sem interferir
nos dados de produção;
●
Executar ETL: Extract, Transform and Load;
– Limpeza, normalização e transformações;
– Recarregar os dados de volta;
......
19. 19 / 26
●
Sugestões de recursos que
podem ser usados nesta fase:
– Inventário de dados: para
identificar potenciais fontes
de dados;
– Dicionário de dados:
organização dos metadados
das bases de dados a serem
utilizadas com descrição dos
campos e tipos de dados;
– Entre outros.
Data Analytics Lifecycle
Fase 2: Preparação dos Dados
Ex: inventário
Ex: dicionário
......
20. 20 / 26
Data Analytics Lifecycle
Fase 3: Planejamento do Modelo
●
Identificar candidatos de modelos;
●
Avaliar as bases de dados e os objetivos do projeto, para
identificar potenciais técnicas de analytics que possam
ser aplicadas: classificação, clustering, associação etc;
– uma técnica ou um conjunto delas (encadeadas);
– ferramentas;
●
Garantir que o(s) modelo(s) escolhido(s) viabilize o
alcance dos objetivos de negócio e valide as hipóteses;
......
21. 21 / 26
Data Analytics Lifecycle
Fase 3: Planejamento do Modelo
●
Com base nos dados e nos objetivos, identificar o tipo de análise mais adequada:
– Descritiva: é visualizar os dados de forma mais dinâmica,
entendendo como se organizam e qual seu comportamento no presente;
●
Ex: quais doenças ocorrem, quais perfis de pacientes etc.
– Diagnóstica: compreender de maneira causal (Quem, Quando, Como, Onde e
Por que) todas as suas possibilidades;
●
Ex: onde no país estão ocorrendo menos vendas de plano de saúde, em quais conveniados, e
por que;
– Preditiva: “prever” o futuro, usa mineração de dados, dados estatísticos e
dados históricos para conhecer as futuras tendências;
●
Ex: os gestores dos planos de saúde podem traçar padrões de comportamento de
determinados pacientes, a partir de dados históricos e prever futuras doenças em outros
pacientes;
– Prescritiva: enquanto a análise preditiva identifica tendências futuras, a
prescritiva também traça as possíveis consequências de cada ação;
●
Ex: analisar possíveis impactos de ações sobre um grupo de risco, analisando qual a melhor
opção de gestão para eles.
......
22. 22 / 26
Data Analytics Lifecycle
Fase 4: Construção do Modelo
●
Buscar/construir/desenvolver o modelo;
●
Validar o modelo:
– Conjunto de treinamento x conjunto de teste;
– Técnica de validação:
●
Ex: Validação cruzada (K-Fold)
– Métrica de sucesso;
●
Ferramentas: R, Weka, SPSS Modeler, Matlab, Python etc.
●
Perguntas a responder:
......
23. 23 / 26
Data Analytics Lifecycle
Fase 5: Comunicar Resultados
●
Tenha uma história para contar (storytelling),
encadeando os achados;
●
Comunicar os resultados positivos e até mesmo os fracassos;
●
Verificar se os resultados são estatisticamente relevantes;
●
Mapear o valor / impacto dos resultados para o negócio;
●
Faça recomendações de lições aprendidas/melhores
práticas;
– Insights para futuras análises;
– Planos futuros de uso, evolução do modelo/análise;
......
24. 24 / 26
Data Analytics Lifecycle
Fase 6: Operacionalizar
●
Planeje um piloto do projeto, num experimento controlado, antes de
abrir para a empresa como um todo;
●
Já utilize as infraestruturas definitivas para testar a velocidade e
robustez de processamento;
......
26. 26 / 26
Bibliografia
EMC Education (2015)
Data Science and Big Data
Analytics: Discovering, Analyzing,
Visualizing and Presenting Data
(1 ed.). Hoboken, New Jersey: Wiley.
......