O documento fornece uma visão geral da área de Ciência de Dados, discutindo como a tecnologia está transformando as profissões e a necessidade de atualização contínua. Também explica conceitos-chave da Ciência de Dados como descritivo, diagnóstico, preditivo e prescritivo e como esses conceitos são aplicados usando algoritmos e machine learning.
Detalhes internos da z14/Otimização de códigos - por Luiz Carlos Orsoni (MAFFEI)
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)
1. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
14 de Maio de 2019
Adelson Lovatto
Descomplicando a "Ciência de Dados"
Visão geral de 'Data Science' e do perfil
profissional para atuar nesta área
2. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 2
Quem nunca ouviu alguma mensagem apocalíptica, como essas?
• Muitas profissões podem
desaparecer com a ascensão de
novas tecnologias
• 30% a 40% das profissões vão
sumir nos próximos 3 a 4 anos
• ou a mais cruel de todas: “Corra
para se atualizar ou amargue o
desemprego pro resto da sua vida!”
Fontes: https://infograficos.oglobo.globo.com/economia/emprego/as-10-profissoes-em-vias-de-extincao.html
https://exame.abril.com.br/carreira/estas-profissoes-podem-acabar-ate-2030-ao-menos-para-os-humanos/
http://idgnow.com.br/ti-corporativa/2018/01/23/9-profissoes-que-podem-desaparecer-com-a-ascensao-de-novas-tecnologias/
3. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 3
Eu não sei quanto a vocês…
… mas eu me sentia um verdadeiro
dinossauro quando ouvia estas coisas!
4. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 4
Essas mensagens são exageradas?
De fato, profissões como
'Operador de
Telemarketing' tendem a
desaparecer ou reduzir
bastante, mas....
Fonte: https://oglobo.globo.com/economia/consultoria-lista-profissoes-que-devem-sumir-do-mapa-em-2025-20132143
5. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 5
Profissões como Médico e Advogado jamais deixarão de existir...
Fonte: https://www.sciencedirect.com/science/article/pii/S0895717712003421
https://www.researchgate.net/publication/306104693_Medical_Image_Analysis_by_Cognitive_Information_Systems_-_a_Review
... mas talvez passem a ter um campo de
trabalho menor. Por exemplo:
• Centros de diagnóstico por
imagem provavelmente
precisarão de menos médicos
porque parte do trabalho será
feito por sistemas cognitivos
6. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 6
Advogados também podem ter seu campo de trabalho reduzido
Fonte: http://tdtanalytics.com/predictive-analytics/text-analytics/
Uma parte do tempo dos advogados é gasta com pesquisa de:
• JURISPRUDÊNCIA: conjunto das decisões sobre
interpretações das leis feitas pelos tribunais
• PRECEDENTE: decisão anterior considerada como fonte
do direito no caso posterior
• Com o algoritmos, desenvolvidos para esta
finalidade, será possível fazer esta pesquisa de
forma mais rápida e automatizada
7. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 7
E mesmo na área de TI o avanço da tecnologia vem mudando
bastante o cenário
Com a introdução das ‘clouds’, por exemplo, a tendência é haver
uma redução nos empregos relacionados a infraestrutura de TI:
8. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 8
Sabemos da importância de ser realista e tomar conhecimento
das tendências…
gato: então qualquer caminho serve!
... mas estas mensagens nem sempre vem acompanhadas de
instruções claras sobre como endereçar o problema!
Alice: qualquer lugar serve; eu só
quero sair daqui...
Alice: qual direção devo seguir para sair daqui?
gato: isto depende de aonde você quer ir...
9. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 9
E a carreira que está mais
associada a Inteligência Artificial,
e tida como "Profissão do Futuro",
é a de Cientista de Dados
Fonte: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
E o primeiro caminho que costumamos tentar é entrar na área que
está causando toda esta preocupação: Inteligência Artificial
10. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 10
A todo momento aparecem reportagens sobre esta carreira
Fonte: https://economia.uol.com.br/empregos-e-carreiras/noticias/redacao/2019/01/02/profissoes-em-alta-ano-que-vem-tecnologia.htm
https://g1.globo.com/economia/concursos-e-emprego/noticia/2019/01/14/veja-profissoes-que-estarao-em-alta-em-2019-segundo-
empresas-de-recrutamento.ghtml
11. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 11
E acaba chamando a atenção de muita gente, apesar do nome
"cientista" geralmente estar associado a uma qualificação não
muito fácil de se obter
Data science is a profession
fundamentally based on a strong
academic background in a
quantitative discipline
Fonte: Mastering the art of data science. IBM Institute for Business Value. ibm.biz/artofdata
12. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 12
E faz todo o sentido pois entre as características importantes, de
um Cientista de Dados, estão também atributos mais "simples",
como a curiosidade intelectual
• Um Cientista de Dados precisa investigar
áreas nas quais muitas vezes não possui
conhecimento anterior
• De fato, cientistas de dados gastam cerca de
80% do tempo descobrindo e preparando
dados para análise
• É justamente onde a maioria das pessoas não
vê uma informação importante, que o
Cientista de Dados vai através de sua
curiosidade intelectual encontrar uma
conclusão relevante
“Eu não tenho
nenhum talento
especial. Sou
apenas muito
curioso.”
Albert
Einstein.
Fonte: https://www.kdnuggets.com/2018/05/simplilearn-9-must-have-skills-data-scientist.html
Curiosidade
?
??
13. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 13
Um outro atributo importante, e que também não demanda skills
técnicos mais profundos, é o "data storetelling"
Cientistas de dados precisam saber CONTAR HISTÓRIAS!
• Isto pode parecer estranho, mas de fato é fundamental explicar os
resultados da análise sem muito detalhes técnicos, de uma
maneira que pessoas leigas em Data Science possam entender
Fonte: https://en.wikipedia.org/wiki/Storytelling
https://www.kdnuggets.com/2019/03/odsc-difference-data-scientists-data-engineers.html
Pois afinal de contas quem contrata o Cientista de Dados
geralmente é uma pessoa que entende apenas do 'negócio' no
qual ela está inserida... e, portanto, ela deve receber o
resultado de uma forma que ela entenda.
Isto demanda o domínio de técnicas verbais e não-verbais de
comunicação de "Storytelling"
14. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 14
Não é que não precise de skills mais técnicos, e que a curiosidade
basta...
... mas como a gente vai ver, um
pouco mais a frente neste curso,
existe um aspecto de Data Science
que é endereçado mais pelo
'pragmatismo' do que por teorias
complexas!
“Science is about knowing,
engineering is about
doing.”
- Henry Petroski
15. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 15
E uma hipótese, que vamos explorar neste curso, é a de que um
projeto de Data Science pode ser endereçado por um time multi-
disciplinar, composto por mais de um profissional...
... e não por um profissional
único:
• uma espécie de
"unicórnio", que teria
que conhecer todas
estas disciplinas:
Matemática
Estatística
Data
Science
Negócio /
Domínio
Tecnologia da
Informação
16. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 16
Vamos pensar numa outra profissão...
• Um Piloto de Avião precisa saber mexer nos comandos da
aeronave e tem que conhecer princípios de voo, certo? Mas...
– ele precisa saber consertar o avião quando quebra?
– ele precisa saber construir um avião novo?
• De forma análoga, o que vocês acham:
– poderíamos inferir que um profissional que trabalha em Ciência de
Dados não precisa necessariamente conhecer todas as áreas
associadas a esta profissão?
17. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 17
Enfim, seja qual for a motivação... o fato é que tem muita gente se
interessando por esta carreira!
• O problema é
que...
18. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 18
E aí, no ímpeto de tentar saber mais sobre o tema, buscamos
inicialmente palestras, meetups, e cursos online sobre Ciência de
Dados...
... mas muitas vezes estes eventos não são satisfatórios para
o nosso objetivo, pois:
– ou são feitos para vender algum produto
– e/ou não esclarecem conceitos
– e/ou quando tem alguma demonstração prática,
geralmente focam em um único caso de uso (exemplo:
reconhecimento de imagem), apenas, sem demonstrar
outras aplicabilidades
e isto causa...
19. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 19
Vamos tentar então entender melhor o que é Ciência de Dados
• Se formos ao wikipedia vamos encontrar algo
parecido com isto:
– área interdisciplinar voltada para o estudo e análise de
dados, visando extrair conhecimento (insights) para
subsidiar a tomada de decisão, para que pessoas e
empresas possam atingir melhores resultados
– a ciência de dados é um campo que já existe há mais de
30 anos, mas aliada a machine learning ganhou maior
destaque nos últimos anos devido ao desenvolvimento
recente da tecnologia.
Fonte: https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados
20. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 20
Esclareceu alguma coisa? Parece bem abstrato numa primeira
pesquisa...
...e é natural que tenhamos dificuldade em definir os
termos novos que vão surgindo na área de Tecnologia
da Informação (TI):
• eu, por exemplo, era perguntado por amigos quase
no dia seguinte que surgiram termos como:
– ERP
– Green IT
– Design Thinking
– Agile / DevOps
• ... e me sentia mal se não sabia responder... uma vez que,
por trabalhar em TI, as pessoas tinham a expectativa que
eu soubesse esclarecer estes termos técnicos
21. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 21
O exemplo mais curioso foi quando me perguntaram o que era
Twitter
E a pessoa que me perguntou quase
jogou o celular dela na minha cabeça...
Eu, sem pensar muito e com absoluta convicção, respondi:
• É um alto-falante de sons agudos que a gente põe no carro!
22. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 22
Há quem diga que Cientista de Dados é apenas um termo
'moderno' para outras profissões que já existiam...
• Em um artigo na Forbes, de Gil Press, foi dito que 'ciência de
dados' era apenas um termo da moda, sem definição clara, que
simplesmente substituiu o 'analista de negócios'
• o estatístico Nate Silver disse: “... A estatística é um ramo da
ciência. Falar em 'cientista de dados' é um pouco redundante... as
pessoas, portanto, não devem evitar o termo 'estatístico'."
• E, assim por diante, vocês irão encontrar afirmações similares para
'Analista de Dados', 'Engenheiro de Dados', etc.
Fonte: https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados e https://www.amstat.org//
23. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 23
Mas o fato é que Ciência de Dados é definitivamente algo
diferente do que já existia...
Pode ser
até difícil
de
explicar...
... mas o fato é
que realmente
se diferencia
destas outras
carreiras...
24. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 24
Fonte: apresentação sobre a certificação na carreira de Cientista de Dados (IBM)
Mas afinal de contas, o que é Data Science então?
Esta figura é
complexa, mas
ajuda a entender...
25. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 25
Ou seja, através da Ciência de Dados é possível investigar e fazer
previsões de um determinado tema...
• Descritivo:
– Entender o que aconteceu
• Diagnóstico:
– Entender porque aconteceu
• Preditivo:
– Entender o que vai acontecer
• Prescritivo:
– Influenciar os resultados, através da simulação de cenários (what...
if...). Por exemplo:
• "E se concedêssemos um desconto de 5%... o quanto isto aumentaria nossas
vendas?"
• "E se déssemos um brinde... quanto aumentaria a fidelidade do cliente?"
https://www.youtube.com/watch?v=WdAULUUxDQU
SUGESTÃO: ver este commercial, da SAP, que mostra um bom exemplo de "What if..." :
26. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 26
Mas é só isto? E ainda que seja, como se faz isto?
Seguindo a proposição desta palestra:
– Nós vamos abordar de forma bem pragmática
os conceitos básicos, para tentar explicar o que
é e como funciona a Ciência de Dados
Os nerds diriam:
• Com muita matemática & estatística;
programação (Python / R); e outras
habilidades de "cientistas"
Aviso aos navegantes 'nerds' que eventualmente estejam na sala:
NÃO entraremos em detalhes técnicos e faremos o máximo
possível de analogias e metáforas para explicar de forma
simples aos "leigos" (não-técnicos)!
27. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 27
Em Data Science a gente desenvolve algoritmos para treinar o
computador, de forma que ele possa tomar decisões depois
dado
$$$
dado
dado
dado
modelo
predição
Ou seja, a máquina 'aprende' a fazer a predição a partir do modelo
28. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 28
Vamos tentar simular o processo de aprendizado do computador
com alguém da sala (ou seja, um ser humano)
• Preciso de um voluntário que não conheça notas musicais
– Alguém se habilita?
• Você vai primeiro aprender o que é:
– Uma nota musical
– Uma pausa
29. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 29
Primeiro vamos TREINAR, vendo exemplos de notas e pausas
pausasnotasisto é uma
pausa
isto é uma
nota
isto é uma
pausa
isto é uma
nota
isto é uma
pausa
isto é uma
nota
30. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 30
Agora tente descobrir o que é símbolo de nota e o que é símbolo
de pausa. Ou seja, vamos TESTAR o aprendizado!
isto é uma nota
ou uma pausa?
isto é uma nota
ou uma pausa?
isto é uma nota
ou uma pausa?
Desafio adicional
Esta na verdade é uma Clave.
Ou seja, uma nova 'categoria'
não prevista antes. Mas
falaremos disto mais tarde....
31. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 31
• Em média usa-se:
– De 70% a 80% da
massa de dados para
treinar
– E de 20 a 30% para
testar
Fonte: https://www.upwork.com/hiring/for-clients/artificial-intelligence-and-natural-language-processing-in-big-data/
De forma análoga podemos construir algoritmos que "ensinem" a
máquina a aprender o que são notas e pausas
32. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 32
É importante testar, o modelo treinado, para verificar se não
ocorre overfitting ou underfitting por exemplo
“overfitting” é quando o modelo estatístico se
ajusta tão bem ao conjunto de dados considerado
no treinamento, que se mostra ineficaz para
prever novos resultados.
33. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 33
Voltando à definição de Ciência de Dados… uma coisa que me
atrapalhou, no começo, para desvendar a Ciência de Dados, foi a
confusão que eu fazia com outros conceitos e técnicas correlatas...
Por exemplo: eu não sabia dizer, com clareza, o que
estava contido e/ou tinha intersecção com o que...
C
o
g
n
i
t
i
v
e
34. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 34
Mas percebi que esta dificuldade não era um ''privilégio" de quem
começa a estudar Data Science...
Em outras áreas também há uma certa dificuldade em se
delimitar onde começa, onde termina, e onde se cruzam
determinados conceitos:
35. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 35
Então resolvi seguir, sem me preocupar em 'classificar' as coisas,
e isto acabou me ajudando...
Mas, sem dúvidas, existe sim uma ligação muito grande com
'Aprendizado de Máquinas'.
Lembrando a definição de Ciência de Dados da Wikipedia:
Fonte: https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados
– a ciência de dados é um campo que já existe há
mais de 30 anos, mas aliada a machine learning
ganhou maior destaque nos últimos anos devido ao
desenvolvimento recente da tecnologia.
36. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 36
Podemos dizer que uma das principais origens da ciência de
dados foi KDD (Knowledge Discovery in Data)
Fonte: definição feita por Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, em 1997. Vide artigo em:
https://www.aaai.org/ojs/index.php/aimagazine/article/viewFile/1230/1131
• Uma definição resumida de KDD é:
– processo de identificar padrões
passíveis de entendimento em dados
válidos e potencialmente úteis.
• Originalmente KDD era Knowledge Discovery in Database
• Pois havia mais dados estruturados
• E depois, com o aumento exponencial de dados não
estruturados...
• ... passou a se chamar Knowledge Discovery in Data, simplesmente
37. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 37
Eu resumiria da seguinte forma:
• KDD (ou Data Science, portanto) tem a
ver com transformação:
– de dados em informação
– e/ou de informação em conhecimento
– e/ou de conhecimento em insights
– e/ou de insights em sabedoria
• Mas, para tanto, é necessário:
– 'minerar' o dado;
• o que pode envolver a coleta, preparação,
integração, discretização, etc.
– Utilizar:
• métodos: supervisionado, não supervisionado
• Modelos: regressão, árvores de decisão,
Naive-Bayes, K-means, etc
com o grande
objetivo final de
subsidiar a
tomada de decisão
38. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 38
Podemos também dividir Data Science em algumas etapas, para
facilitar o entendimento
1. O problema
– Um tema a ser investigado; questão a ser respondida; hipótese a ser testada
2. Coleta de dados
– Isto pode ser simples, se os dados já existirem, ou pode demandar algum
esforço
3. Preparação
– Por ex.: a limpeza de dados 'ruins', substituição de nulos, mudança de
formato
4. Criação de um modelo
– Modelo matemático/estatístico para testar a hipótese e fazer predições
5. Validação
– Para ver se o modelo suporta corretamente a tomada de decisão, ou se existe
um modelo mais adequado para testar a hipótese
39. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 39
Vamos analisar então alguns modelos, iniciando pela regressão
linear
• Imagine que você saiba o valor de algumas casas
Como seria possível
predizer o preço de uma
casa 'intermediária'?
Desde uma mais simples
por $ 70.000
até uma mais sofisticada
por $ 160.000
40. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 40
Colocando num plano cartesiano...
41. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 41
Plotando num gráfico teríamos a seguinte figura:
42. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 42
Neste caso seria possível usar o modelo de Regressão Linear
para predizer o preço das casas pois...
• Temos uma "resposta certa"
para cada exemplo na massa
de dados para treinamento
• Ou seja, temos uma variável
target, que é também
conhecida como "label"
• Chamamos este modelo de:
– Supervised learning
43. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 43
Ou seja, neste caso temos um conjunto de dados efetivamente
representativo, para treinar e testar o modelo
• Onde:
– m = número de casas
– x = variável de entrada (feature)
– y = variável de saída (target)
m
44. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 44
O que nos remete para à seguinte 'função de custo', para o nosso
algoritmo de aprendizagem
• Onde:
– m = número de casas
– x = variável de entrada (feature)
– y = variável de saída (target)
45. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 45
através da massa de dados para treino e testes, e usando o
algoritmo baseado na função de custo apresentada…
e isto se adequa bem para
regressão com uma variável
tamanho da
casa
preço
estimado
... representamos h
através de:
46. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 46
Em resumo poderíamos definir o fluxo mais comum de data
science desta forma
47. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 47
No entanto nem sempre o melhor modelo é aquele que
escolhemos inicialmente
Fonte: https://imarticus.org/what-is-machine-learning-and-does-it-matter/
https://www.kdnuggets.com/2018/12/essence-machine-learning.html
48. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 48
Existem diversos outros modelos que podem ser utilizados
49. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 49
Perfis profissionais para atuar em "Data Science"
• Será que precisa mesmo
ter todos os skills num
só profissional?
• Ou dá para dividir, e
montar uma equipe
multidisciplinar?
50. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 50
São necessários vários perfis profissionais para realizar projetos
de Ciência de Dados
• Engenheiro de dados:
– Responsável por tratar e preparar os dados, o que pode envolver
diversas atividades, tais como: faz queries; integrar bases de dados;
– Não tem tanto destaque, quanto o Cientista de Dados, pois atua mais
nas fases iniciais, e fica normalmente mais longe do processo final de
análise/decisão
• Analista de dados:
– faz o EDA (Exploratory Data Analysis), descobre findings/insights, e
define como apresentar os insights para a área de negócios
(Visualização)
– Demanda não só skill técnicos, de análise, como skills consultivos e
softskills (storytelling, apresentações, etc)
• Analista de domínio:
– Conhece do assunto analisado. Costuma ser chamado de Analista de
Negócio, mas prefiro chamar de Analista de Domínio, pois muitas
vezes o que está sendo analisado não é um "negócio" (por exemplo:
câncer de pele)
51. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 51
Existem várias estatísticas sobre os skills mais procurados...
Fonte: https:////www.kdnuggets.com/2018/11/most-demand-skills-data-scientists.html
52. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 52
Assim como das ferramentas mais usadas...
Fonte: https:////www.kdnuggets.com/2018/11/most-demand-skills-data-scientists.html
Notem que até o Excel é usado em alguns
projetos:
• Inclusive há um livro, que ensina a usar o
Excel para Data Science (vide referências
na parte final desta apresentação)
53. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 53
E tem esta outra pesquisa, ainda, que aponta o Excel como
segunda ferramenta mais utilizada, Segundo a "O'Reily Data
Science Survey"
Fonte: Ferramentas mais utilizadas de Data Science, segundo O’Reily Data science Survey 2015)
54. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 54
Em relação às ferramentas, inclusive, há uma disputa que lembra
outras que temos, ou já tivemos no passado (iOS vs. Android;
Windows vs. Linux; internet explorer vs. Chrome; etc)
• uma comparação que se faz é:
55. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 55
Outra estatística que já vi, certa vez, foi:
Tempo de experiência preferência
até 5 anos Python
de 6 a 15 anos "R"
mais de 15 anos SAS, SPSS modeler, etc
56. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 56
E falando em tempo de experiência... há outras estatísticas
interessantes para entendermos o perfil de um Cientista de Dados
Fonte: https://www.kdnuggets.com/2018/11/data-scientist-look-like.html
57. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 57
Mas na minha opinião, tudo vai depender do caso de uso que se
quer explorar, e da montagem da equipe
• Alguns exemplos de Casos de Uso para explorar via Ciência
de Dados:
– Propensão de um cliente voltar a comprar numa loja
• Qual é a taxa atual de recompra?
• Qual tipo de cliente tem probabilidade maior de voltar a comprar?
• Qual é o ticket médio de cada tipo destes clientes?
– Retenção de empregados
• Quantos empregados tem probabilidade maior de deixar a empresa?
• Por que eles irão sair?
• Como baixar o turnover e qual o ROI de tomar esta ação?
– Previsão de Vendas
• Quão longe estou da minha meta de vendas?
• O quanto os eventos que eu promovo afetam minhas vendas?
• Qual é a sazonalidade e a tendência de minhas vendas?
58. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 58
Na verdade "o céu é o limite" para definir os casos de uso
passíveis de se endereçar através desta técnica
Por exemplo:
• Previsão de quebra de uma máquina baseado em análise de anomalias
• Estimativa de preço de carros usados baseado com base em aspectos do
veículo
• Diagnóstico de doenças e prescrição de medicamentos
• Qualificação de oportunidades
• Previsão de fluxo de caixa
• Text Analytics (NLP)
• Classificação de risco
• Sistemas de recomendação
usado p/inúmeras finalidades. Exemplo: sentiment
analysis, onde tenta-se identificar o 'tom' e a
intenção dos usuários de fazer algo (ex: propensão
de um potencial cliente comprar um produto)
Exemplo clássico:
• Recomendação de filmes,
feita pela Netflix
Muito usado pelos bancos para
decidir se devem ou não concede
empréstimo para um cliente
59. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 59
A classificação de risco pode ser feita usando um modelo de
Regressão Logística
• Este modelo tem vários casos
de uso. Por exemplo:
– Predizer se um câncer é
maligno ou benigno baseado
nos dados do tumor
– Classificar se um email é ou
não um 'spam'
– Avaliar risco de crédito
Fonte: https://www.kdnuggets.com/2019/01/logistic-regression-concise-technical-overview.html
60. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 60
Um modelo bastante usado para fazer recomendações é o Naive-
Bayes
• Algoritmos desse tipo são
usados quando você assiste um
filme na Netflix, e recebe
recomendação de filmes
• E podem estar sendo ser usados
quando você:
– recebe a indicação de
um livro na Amazon
– está no Apple Music e
aparece aquela música
que você queria
– recebe recomendação
de Vídeos no YouTube
Principais sugestões para Fulano de Tal:
Fonte: https://www.wired.co.uk/article/netflix-data-personalisation-watching
https://towardsdatascience.com/netflix-and-chill-building-a-recommendation-system-in-excel-c69b33c914f4
https://medium.com/refraction-tech-everything/how-netflix-works-the-hugely-simplified-complex-stuff-that-happens-every-time-you-hit-play-3a40c9be254b
61. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
• para concluir, vamos ver alguns
pontos “polêmicos” relacionados
a ciência de dados…
62. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 62
Ajuda no esporte
Fonte: https://esporte.uol.com.br/futebol/ultimas-noticias/2019/01/09/como-a-estatistica-ajudou-a-fazer-3-campeoes-palmeiras-gremio-e-
athletico.htm
63. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 63
Como carros autônomos podem escolher quem não machucar?
Fonte: https://medium.com/s/story/how-should-self-driving-cars-choose-who-not-to-kill-442f2a5a1b59
• O título da matéria,
original, é ainda um
pouco mais agressivo:
– How Should Self-Driving
Cars Choose Who Not to
Kill?
64. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 64
Desafio dos 10 anos
Fonte: https://www.wired.com/story/facebook-10-year-meme-challenge/
• Seria somente uma
brincadeira? Ou um
treinamento do sistema de
reconhecimento facial?
65. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 65
Cambridge analytica
Fonte: https://www.cnn.com/style/article/christopher-wylie-fashion-cambridge-analytica/index.html
66. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
• Considerações finais
67. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 67
É importante observar que a tese, defendida nesta palestra, de
que é possível ser um Cientista de Dados sem ter todos os skills
multidisciplinares normalmente associados a esta carreira...
Fonte: https://www.kdnuggets.com/2018/12/why-shouldnt-data-science-generalist.html
https://towardsdatascience.com/gatekeeping-and-elitism-in-data-science-74cf19cd5744
Há ainda um outro aspecto curioso que notei em minhas pesquisas:
– Um Cientista de Dados "padrão", pode até se sentir ofendido quando
vê alguém dizendo que faz 'Ciência de Dados' com Excel (Vide artigo
"Gatekeeping and Elitism in Data Science", no rodapé desta página
... tem vários opositores. Por exemplo:
• Se vocês lerem o artigo "Why You Shouldn’t be a Data Science
Generalist", da Kdnuggets (vide link no rodapé desta página), verão
alguns argumentos
68. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 68
Outro ponto a considerar é que é complicado mesmo! Por menor
que seja a sua atuação técnica, nesta área, terá que lidar às
vezes com termos quase "indecifráveis"...
Fonte: https://pixelastic.github.io/pokemonorbigdata/
Tem até um jogo que
faz a gente se sentir
melhor, quando não
consegue se achar na
"sopa de letrinhas"...
• It's Pokemon or
BigData?
69. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 69
Algumas referências para quem quiser estudar Ciência de Dados
Links úteis:
– https://towardsdatascience.com/
– https://www.kdnuggets.com/
– https://www.datacamp.com/
– https://www.coursera.org/specializations/ibm-data-science-professional-certificate
– https://www.ibm.com/cloud/watson-studio
Artigos interessantes:
– https://www.dezyre.com/article/10-different-types-of-data-scientists/179
– https://www.kdnuggets.com/2018/12/build-data-science-project-from-scratch.html
Livros:
– FOREMAN, J. W. Data smart: Using Data Science to transform information into insight. Indiana: John
Wiley & Sons, 2014.
– PROWOST, F; FAWCETT, T. Data Science for business: What you need to know about data mining
and data-analytic thinking. California: O’Reilly Media, 2013, 2ª ed. (traduzido no Brasil como Data
science para negócios: o que você precisa saber sobre mineração de dados e pensamento analítico de dados
(Alta Books)
70. Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
OBRIGADO