1. O documento discute a área de Ciência de Dados e sua aplicação em tomada de decisões nas empresas.
2. A disponibilidade em massa de dados e o baixo custo computacional tornaram a Ciência de Dados uma área em expansão.
3. A Ciência de Dados pode ser aplicada em diversas áreas como recomendação, crédito, fraude, logística e saúde para geração de insights.
2. Quem eu sou?
● CDO na CQuantt - Responsável por conduzir
projetos de Ciência de Dados e Machine
Learning
● Pesquisador na área de Deep Learning - UFG
● Community Manager do Data Hackers
#estatistica #machineLearning #spark
#python #deepLearning #tensorFlow
#bigData #analytics
/marlesson-santana-25019358/
/marlesson
Marlesson Santana - marlesson@cquantt.com
3. Cenário e transformações na sociedade...
● Na Revolução Agrícola quem tinha terra
tinha poder
● Na Revolução Industrial quem tinha os
meios de produção tinha poder
● Na Revolução da Informática quem tem
informação detém o poder
6. crescimento dos dados nos próximos anos...
O “Data Age 2025”, estudo realizado pela IDC e Seagate, aponta um
crescimento exorbitante no volume de dados em todo o mundo até 2025.
7. crescimento dos dados nos próximos anos...
Empresas como
Google, Amazon,
Facebook etc. já
estão minerando
informação nesses
dados a muito tempo.
8.
9. Data Science
“Ciência de Dados é a prática de transformar
dados brutos em insights de negócio
utilizando métodos científicos.”
10. Data Science
A área de Data Science está
em grande expansão devido
a alguns fatores:
● Disponibilidade dos
dados
● Custo computacional
11. Data Science
Empresas como Nubank,
Itaú, Ifood e Globo.com
estão com vagas
permantentes em Ciência de
Dados.
Profissionais de dados são altamente requisitados e estão em falta no
mercado.
12. Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
13. Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
https://exame.abril.com.br/pme/como-a-netflix-sabia-que-house-of-cards-seria-um-sucesso/
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
14. Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
15. Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
16. Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
17. Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
18. Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
19. Aplicações de Data Science
Dados
Diferentes fontes de
dados, interna e externas
sobre o problema.
3
Informação
Geração de insights e
previsões do problema.
2
Decisões
Decisões baseado em
dados.
1
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
22. Profissionais de Dados
● Coleta de dados
● Infraestrutura de
armazenamento
● Qualidade dos dados
#sql, #nosql, #ETL #bigdata
#python #cloud
Engenheiro de Dados Cientista de Dados
● Análise estatística e ML
● Criação de Modelos
● Visualização dos resultados
● Geração de insights
#estatística #python #r
#machinelearning #dataviz
Utiliza técnicas estatísticas
e de ML para analisar e gerar
insights e predições nos
dados
Engenheiro de
Machine Learning
● Operacionalizar modelos
● Implementar modelos
escaláveis
● Integração
#matemática #machinelearning
#cloud #MLops
23. Profissionais de Dados
Cientista de Dados
● Análise estatística e ML
● Criação de Modelos
● Visualização dos resultados
● Geração de insights
#estatística #python #r
#machinelearning #dataviz
O cientista de dados não precisa saber tudo da área de Inteligência
Artificial, apenas os métodos e algoritmos de extração de padrões nos
dados (ML).
24. Profissionais de Dados
Cientista de Dados
● Análise estatística e ML
● Criação de Modelos
● Visualização dos resultados
● Geração de insights
#estatística #python #r
#machinelearning #dataviz
O modelo é a representação matemática dos dados, a partir do modelo é
possível extrair os padrões nos dados para que esses padrões possam ser
utilizados na resolução de problemas..
25. Profissionais de Dados
Cientista de Dados
● Análise estatística e ML
● Transformação dos dados
● Visualização dos resultados
● Geração de insights
#estatística #python #r
#machinelearning #dataviz
A visualização da informação facilita o entendimento e é pré-requisito para
a tomada de decisão em qualquer projeto
26. Profissionais de Dados
Cientista de Dados
● Análise estatística e ML
● Criação de Modelos
● Visualização dos resultados
● Geração de insights
#estatística #python #r
#machinelearning #dataviz
Um cientista de dados gasta aproximadamente ~80% do tempo de uma
análise coletando, limpando e organizando dados.
27. Pipeline de Ciência de Dados
Análise de Negócio Coleta de Dados Análise dos Dados
Avaliação e
Implantação do
Insight
Toda análise precisa de
um objetivo bem
definido e uma métrica.
A análise deve ser
realizada em conjunto
com a área de negócio
para evitar a perda de
foco do analista e
facilitar a geração de
insights.
A fonte de dados pode
ser diversas, desde redes
sociais, bancos
relacionais, csv.. etc. É
importante que todos os
dados necessários para
a análise estejam
disponíveis.
Métodos estatísticos e
de Inteligência artificial
são utilizados para
extração de padrões.
Geralmente é necessário
combinar múltiplas
fontes de dados e
transformar variáveis
para extração de
padrões.
Uma análise deve servir
de base para a mudança
de processos que
geralmente visam
retorno financeiro. É
necessário validar se as
decisões tomadas
surtem efeitos reais,
abrindo portas para
outras análises.
Cientista de Dados
Engenheiro de Dados Cientista de Dados
Engenheiro de Dados Cientista de Dados Cientista de Dados
Engenheiro de ML
28. Pipeline de Ciência de Dados
Existem diferentes metodologias que podem ser utilizadas para projetos
de DS. CRISP-DM e KDD são as mais conhecidas:
CRISP-DM KDD
29. Pipeline de Ciência de Dados
Definido3
Dados coletados, com indicadores validados e orientados à cultura de dados.
Decisões pautadas em sistemas de monitoramento e BI.
O sucesso e aplicação de projetos de Ciência de Dados depende muito do
nível de maturidade em dados das empresas:
Empírico1 Ambiente caótico. Sem coleta de dados e decisões empíricas individualizadas
4
Dados coletados e enriquecidos. Geração automáticas de análises preditivas e
prescritivas. Decisões baseadas em métricas.
Otimizado
2
A maioria das empresas brasileiras. Dados coletados sem uma arquitetura de
informação orientada a dados.
Adhoc
31. Dicas para iniciantes na área
● Estude estatística e cálculo. Não existe análise de dados sem
conhecimento em estatística e não existe Machine Learning sem
cálculo.
● Aprenda uma linguagem de programação voltada à análise de
dados e machine learning como R ou Python.
● Aprenda a usar bem pelo menos uma biblioteca de machine learning
como scikit-learn, spark, H2O…
● Utilize plataformas como Kaggle, fóruns e comunidades para trocar
experiência e aprender análises públicas.
32. Dicas para iniciantes na área
● Outras ferramentas e plataformas de Dados:
○ Jupyter Notebook -https://jupyter.org/
○ scikit-learn - https://scikit-learn.org/
○ Spark - https://spark.apache.org/
○ Plataformas de ML: RapidMiner , KNIME, Weka, H2o.
○ DataViz: pandas, matplotlib, D3, seaborn
○ Cloud: Azure, GCP e AWS
33. Faça parte da maior comunidade de Dados do Brasil
https://datahackers.com.br/