SlideShare uma empresa Scribd logo
1 de 70
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
14 de Maio de 2019
Adelson Lovatto
Descomplicando a "Ciência de Dados"
Visão geral de 'Data Science' e do perfil
profissional para atuar nesta área
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 2
Quem nunca ouviu alguma mensagem apocalíptica, como essas?
• Muitas profissões podem
desaparecer com a ascensão de
novas tecnologias
• 30% a 40% das profissões vão
sumir nos próximos 3 a 4 anos
• ou a mais cruel de todas: “Corra
para se atualizar ou amargue o
desemprego pro resto da sua vida!”
Fontes: https://infograficos.oglobo.globo.com/economia/emprego/as-10-profissoes-em-vias-de-extincao.html
https://exame.abril.com.br/carreira/estas-profissoes-podem-acabar-ate-2030-ao-menos-para-os-humanos/
http://idgnow.com.br/ti-corporativa/2018/01/23/9-profissoes-que-podem-desaparecer-com-a-ascensao-de-novas-tecnologias/
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 3
Eu não sei quanto a vocês…
… mas eu me sentia um verdadeiro
dinossauro quando ouvia estas coisas!
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 4
Essas mensagens são exageradas?
De fato, profissões como
'Operador de
Telemarketing' tendem a
desaparecer ou reduzir
bastante, mas....
Fonte: https://oglobo.globo.com/economia/consultoria-lista-profissoes-que-devem-sumir-do-mapa-em-2025-20132143
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 5
Profissões como Médico e Advogado jamais deixarão de existir...
Fonte: https://www.sciencedirect.com/science/article/pii/S0895717712003421
https://www.researchgate.net/publication/306104693_Medical_Image_Analysis_by_Cognitive_Information_Systems_-_a_Review
... mas talvez passem a ter um campo de
trabalho menor. Por exemplo:
• Centros de diagnóstico por
imagem provavelmente
precisarão de menos médicos
porque parte do trabalho será
feito por sistemas cognitivos
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 6
Advogados também podem ter seu campo de trabalho reduzido
Fonte: http://tdtanalytics.com/predictive-analytics/text-analytics/
Uma parte do tempo dos advogados é gasta com pesquisa de:
• JURISPRUDÊNCIA: conjunto das decisões sobre
interpretações das leis feitas pelos tribunais
• PRECEDENTE: decisão anterior considerada como fonte
do direito no caso posterior
• Com o algoritmos, desenvolvidos para esta
finalidade, será possível fazer esta pesquisa de
forma mais rápida e automatizada
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 7
E mesmo na área de TI o avanço da tecnologia vem mudando
bastante o cenário
Com a introdução das ‘clouds’, por exemplo, a tendência é haver
uma redução nos empregos relacionados a infraestrutura de TI:
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 8
Sabemos da importância de ser realista e tomar conhecimento
das tendências…
gato: então qualquer caminho serve!
... mas estas mensagens nem sempre vem acompanhadas de
instruções claras sobre como endereçar o problema!
Alice: qualquer lugar serve; eu só
quero sair daqui...
Alice: qual direção devo seguir para sair daqui?
gato: isto depende de aonde você quer ir...
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 9
E a carreira que está mais
associada a Inteligência Artificial,
e tida como "Profissão do Futuro",
é a de Cientista de Dados
Fonte: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
E o primeiro caminho que costumamos tentar é entrar na área que
está causando toda esta preocupação: Inteligência Artificial
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 10
A todo momento aparecem reportagens sobre esta carreira
Fonte: https://economia.uol.com.br/empregos-e-carreiras/noticias/redacao/2019/01/02/profissoes-em-alta-ano-que-vem-tecnologia.htm
https://g1.globo.com/economia/concursos-e-emprego/noticia/2019/01/14/veja-profissoes-que-estarao-em-alta-em-2019-segundo-
empresas-de-recrutamento.ghtml
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 11
E acaba chamando a atenção de muita gente, apesar do nome
"cientista" geralmente estar associado a uma qualificação não
muito fácil de se obter
Data science is a profession
fundamentally based on a strong
academic background in a
quantitative discipline
Fonte: Mastering the art of data science. IBM Institute for Business Value. ibm.biz/artofdata
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 12
E faz todo o sentido pois entre as características importantes, de
um Cientista de Dados, estão também atributos mais "simples",
como a curiosidade intelectual
• Um Cientista de Dados precisa investigar
áreas nas quais muitas vezes não possui
conhecimento anterior
• De fato, cientistas de dados gastam cerca de
80% do tempo descobrindo e preparando
dados para análise
• É justamente onde a maioria das pessoas não
vê uma informação importante, que o
Cientista de Dados vai através de sua
curiosidade intelectual encontrar uma
conclusão relevante
“Eu não tenho
nenhum talento
especial. Sou
apenas muito
curioso.”
Albert
Einstein.
Fonte: https://www.kdnuggets.com/2018/05/simplilearn-9-must-have-skills-data-scientist.html
Curiosidade
?
??
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 13
Um outro atributo importante, e que também não demanda skills
técnicos mais profundos, é o "data storetelling"
Cientistas de dados precisam saber CONTAR HISTÓRIAS!
• Isto pode parecer estranho, mas de fato é fundamental explicar os
resultados da análise sem muito detalhes técnicos, de uma
maneira que pessoas leigas em Data Science possam entender
Fonte: https://en.wikipedia.org/wiki/Storytelling
https://www.kdnuggets.com/2019/03/odsc-difference-data-scientists-data-engineers.html
Pois afinal de contas quem contrata o Cientista de Dados
geralmente é uma pessoa que entende apenas do 'negócio' no
qual ela está inserida... e, portanto, ela deve receber o
resultado de uma forma que ela entenda.
Isto demanda o domínio de técnicas verbais e não-verbais de
comunicação de "Storytelling"
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 14
Não é que não precise de skills mais técnicos, e que a curiosidade
basta...
... mas como a gente vai ver, um
pouco mais a frente neste curso,
existe um aspecto de Data Science
que é endereçado mais pelo
'pragmatismo' do que por teorias
complexas!
“Science is about knowing,
engineering is about
doing.”
- Henry Petroski
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 15
E uma hipótese, que vamos explorar neste curso, é a de que um
projeto de Data Science pode ser endereçado por um time multi-
disciplinar, composto por mais de um profissional...
... e não por um profissional
único:
• uma espécie de
"unicórnio", que teria
que conhecer todas
estas disciplinas:
Matemática
Estatística
Data
Science
Negócio /
Domínio
Tecnologia da
Informação
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 16
Vamos pensar numa outra profissão...
• Um Piloto de Avião precisa saber mexer nos comandos da
aeronave e tem que conhecer princípios de voo, certo? Mas...
– ele precisa saber consertar o avião quando quebra?
– ele precisa saber construir um avião novo?
• De forma análoga, o que vocês acham:
– poderíamos inferir que um profissional que trabalha em Ciência de
Dados não precisa necessariamente conhecer todas as áreas
associadas a esta profissão?
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 17
Enfim, seja qual for a motivação... o fato é que tem muita gente se
interessando por esta carreira!
• O problema é
que...
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 18
E aí, no ímpeto de tentar saber mais sobre o tema, buscamos
inicialmente palestras, meetups, e cursos online sobre Ciência de
Dados...
... mas muitas vezes estes eventos não são satisfatórios para
o nosso objetivo, pois:
– ou são feitos para vender algum produto
– e/ou não esclarecem conceitos
– e/ou quando tem alguma demonstração prática,
geralmente focam em um único caso de uso (exemplo:
reconhecimento de imagem), apenas, sem demonstrar
outras aplicabilidades
e isto causa...
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 19
Vamos tentar então entender melhor o que é Ciência de Dados
• Se formos ao wikipedia vamos encontrar algo
parecido com isto:
– área interdisciplinar voltada para o estudo e análise de
dados, visando extrair conhecimento (insights) para
subsidiar a tomada de decisão, para que pessoas e
empresas possam atingir melhores resultados
– a ciência de dados é um campo que já existe há mais de
30 anos, mas aliada a machine learning ganhou maior
destaque nos últimos anos devido ao desenvolvimento
recente da tecnologia.
Fonte: https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 20
Esclareceu alguma coisa? Parece bem abstrato numa primeira
pesquisa...
...e é natural que tenhamos dificuldade em definir os
termos novos que vão surgindo na área de Tecnologia
da Informação (TI):
• eu, por exemplo, era perguntado por amigos quase
no dia seguinte que surgiram termos como:
– ERP
– Green IT
– Design Thinking
– Agile / DevOps
• ... e me sentia mal se não sabia responder... uma vez que,
por trabalhar em TI, as pessoas tinham a expectativa que
eu soubesse esclarecer estes termos técnicos
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 21
O exemplo mais curioso foi quando me perguntaram o que era
Twitter
E a pessoa que me perguntou quase
jogou o celular dela na minha cabeça...
Eu, sem pensar muito e com absoluta convicção, respondi:
• É um alto-falante de sons agudos que a gente põe no carro!
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 22
Há quem diga que Cientista de Dados é apenas um termo
'moderno' para outras profissões que já existiam...
• Em um artigo na Forbes, de Gil Press, foi dito que 'ciência de
dados' era apenas um termo da moda, sem definição clara, que
simplesmente substituiu o 'analista de negócios'
• o estatístico Nate Silver disse: “... A estatística é um ramo da
ciência. Falar em 'cientista de dados' é um pouco redundante... as
pessoas, portanto, não devem evitar o termo 'estatístico'."
• E, assim por diante, vocês irão encontrar afirmações similares para
'Analista de Dados', 'Engenheiro de Dados', etc.
Fonte: https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados e https://www.amstat.org//
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 23
Mas o fato é que Ciência de Dados é definitivamente algo
diferente do que já existia...
Pode ser
até difícil
de
explicar...
... mas o fato é
que realmente
se diferencia
destas outras
carreiras...
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 24
Fonte: apresentação sobre a certificação na carreira de Cientista de Dados (IBM)
Mas afinal de contas, o que é Data Science então?
Esta figura é
complexa, mas
ajuda a entender...
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 25
Ou seja, através da Ciência de Dados é possível investigar e fazer
previsões de um determinado tema...
• Descritivo:
– Entender o que aconteceu
• Diagnóstico:
– Entender porque aconteceu
• Preditivo:
– Entender o que vai acontecer
• Prescritivo:
– Influenciar os resultados, através da simulação de cenários (what...
if...). Por exemplo:
• "E se concedêssemos um desconto de 5%... o quanto isto aumentaria nossas
vendas?"
• "E se déssemos um brinde... quanto aumentaria a fidelidade do cliente?"
https://www.youtube.com/watch?v=WdAULUUxDQU
SUGESTÃO: ver este commercial, da SAP, que mostra um bom exemplo de "What if..." :
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 26
Mas é só isto? E ainda que seja, como se faz isto?
Seguindo a proposição desta palestra:
– Nós vamos abordar de forma bem pragmática
os conceitos básicos, para tentar explicar o que
é e como funciona a Ciência de Dados
Os nerds diriam:
• Com muita matemática & estatística;
programação (Python / R); e outras
habilidades de "cientistas"
Aviso aos navegantes 'nerds' que eventualmente estejam na sala:
NÃO entraremos em detalhes técnicos e faremos o máximo
possível de analogias e metáforas para explicar de forma
simples aos "leigos" (não-técnicos)!
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 27
Em Data Science a gente desenvolve algoritmos para treinar o
computador, de forma que ele possa tomar decisões depois
dado
$$$
dado
dado
dado
modelo
predição
Ou seja, a máquina 'aprende' a fazer a predição a partir do modelo
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 28
Vamos tentar simular o processo de aprendizado do computador
com alguém da sala (ou seja, um ser humano)
• Preciso de um voluntário que não conheça notas musicais
– Alguém se habilita?
• Você vai primeiro aprender o que é:
– Uma nota musical
– Uma pausa
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 29
Primeiro vamos TREINAR, vendo exemplos de notas e pausas
pausasnotasisto é uma
pausa
isto é uma
nota
isto é uma
pausa
isto é uma
nota
isto é uma
pausa
isto é uma
nota
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 30
Agora tente descobrir o que é símbolo de nota e o que é símbolo
de pausa. Ou seja, vamos TESTAR o aprendizado!
isto é uma nota
ou uma pausa?
isto é uma nota
ou uma pausa?
isto é uma nota
ou uma pausa?
Desafio adicional
Esta na verdade é uma Clave.
Ou seja, uma nova 'categoria'
não prevista antes. Mas
falaremos disto mais tarde....
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 31
• Em média usa-se:
– De 70% a 80% da
massa de dados para
treinar
– E de 20 a 30% para
testar
Fonte: https://www.upwork.com/hiring/for-clients/artificial-intelligence-and-natural-language-processing-in-big-data/
De forma análoga podemos construir algoritmos que "ensinem" a
máquina a aprender o que são notas e pausas
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 32
É importante testar, o modelo treinado, para verificar se não
ocorre overfitting ou underfitting por exemplo
“overfitting” é quando o modelo estatístico se
ajusta tão bem ao conjunto de dados considerado
no treinamento, que se mostra ineficaz para
prever novos resultados.
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 33
Voltando à definição de Ciência de Dados… uma coisa que me
atrapalhou, no começo, para desvendar a Ciência de Dados, foi a
confusão que eu fazia com outros conceitos e técnicas correlatas...
Por exemplo: eu não sabia dizer, com clareza, o que
estava contido e/ou tinha intersecção com o que...
C
o
g
n
i
t
i
v
e
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 34
Mas percebi que esta dificuldade não era um ''privilégio" de quem
começa a estudar Data Science...
Em outras áreas também há uma certa dificuldade em se
delimitar onde começa, onde termina, e onde se cruzam
determinados conceitos:
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 35
Então resolvi seguir, sem me preocupar em 'classificar' as coisas,
e isto acabou me ajudando...
Mas, sem dúvidas, existe sim uma ligação muito grande com
'Aprendizado de Máquinas'.
Lembrando a definição de Ciência de Dados da Wikipedia:
Fonte: https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados
– a ciência de dados é um campo que já existe há
mais de 30 anos, mas aliada a machine learning
ganhou maior destaque nos últimos anos devido ao
desenvolvimento recente da tecnologia.
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 36
Podemos dizer que uma das principais origens da ciência de
dados foi KDD (Knowledge Discovery in Data)
Fonte: definição feita por Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, em 1997. Vide artigo em:
https://www.aaai.org/ojs/index.php/aimagazine/article/viewFile/1230/1131
• Uma definição resumida de KDD é:
– processo de identificar padrões
passíveis de entendimento em dados
válidos e potencialmente úteis.
• Originalmente KDD era Knowledge Discovery in Database
• Pois havia mais dados estruturados
• E depois, com o aumento exponencial de dados não
estruturados...
• ... passou a se chamar Knowledge Discovery in Data, simplesmente
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 37
Eu resumiria da seguinte forma:
• KDD (ou Data Science, portanto) tem a
ver com transformação:
– de dados em informação
– e/ou de informação em conhecimento
– e/ou de conhecimento em insights
– e/ou de insights em sabedoria
• Mas, para tanto, é necessário:
– 'minerar' o dado;
• o que pode envolver a coleta, preparação,
integração, discretização, etc.
– Utilizar:
• métodos: supervisionado, não supervisionado
• Modelos: regressão, árvores de decisão,
Naive-Bayes, K-means, etc
com o grande
objetivo final de
subsidiar a
tomada de decisão
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 38
Podemos também dividir Data Science em algumas etapas, para
facilitar o entendimento
1. O problema
– Um tema a ser investigado; questão a ser respondida; hipótese a ser testada
2. Coleta de dados
– Isto pode ser simples, se os dados já existirem, ou pode demandar algum
esforço
3. Preparação
– Por ex.: a limpeza de dados 'ruins', substituição de nulos, mudança de
formato
4. Criação de um modelo
– Modelo matemático/estatístico para testar a hipótese e fazer predições
5. Validação
– Para ver se o modelo suporta corretamente a tomada de decisão, ou se existe
um modelo mais adequado para testar a hipótese
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 39
Vamos analisar então alguns modelos, iniciando pela regressão
linear
• Imagine que você saiba o valor de algumas casas
Como seria possível
predizer o preço de uma
casa 'intermediária'?
Desde uma mais simples
por $ 70.000
até uma mais sofisticada
por $ 160.000
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 40
Colocando num plano cartesiano...
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 41
Plotando num gráfico teríamos a seguinte figura:
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 42
Neste caso seria possível usar o modelo de Regressão Linear
para predizer o preço das casas pois...
• Temos uma "resposta certa"
para cada exemplo na massa
de dados para treinamento
• Ou seja, temos uma variável
target, que é também
conhecida como "label"
• Chamamos este modelo de:
– Supervised learning
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 43
Ou seja, neste caso temos um conjunto de dados efetivamente
representativo, para treinar e testar o modelo
• Onde:
– m = número de casas
– x = variável de entrada (feature)
– y = variável de saída (target)
m
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 44
O que nos remete para à seguinte 'função de custo', para o nosso
algoritmo de aprendizagem
• Onde:
– m = número de casas
– x = variável de entrada (feature)
– y = variável de saída (target)
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 45
através da massa de dados para treino e testes, e usando o
algoritmo baseado na função de custo apresentada…
e isto se adequa bem para
regressão com uma variável
tamanho da
casa
preço
estimado
... representamos h
através de:
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 46
Em resumo poderíamos definir o fluxo mais comum de data
science desta forma
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 47
No entanto nem sempre o melhor modelo é aquele que
escolhemos inicialmente
Fonte: https://imarticus.org/what-is-machine-learning-and-does-it-matter/
https://www.kdnuggets.com/2018/12/essence-machine-learning.html
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 48
Existem diversos outros modelos que podem ser utilizados
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 49
Perfis profissionais para atuar em "Data Science"
• Será que precisa mesmo
ter todos os skills num
só profissional?
• Ou dá para dividir, e
montar uma equipe
multidisciplinar?
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 50
São necessários vários perfis profissionais para realizar projetos
de Ciência de Dados
• Engenheiro de dados:
– Responsável por tratar e preparar os dados, o que pode envolver
diversas atividades, tais como: faz queries; integrar bases de dados;
– Não tem tanto destaque, quanto o Cientista de Dados, pois atua mais
nas fases iniciais, e fica normalmente mais longe do processo final de
análise/decisão
• Analista de dados:
– faz o EDA (Exploratory Data Analysis), descobre findings/insights, e
define como apresentar os insights para a área de negócios
(Visualização)
– Demanda não só skill técnicos, de análise, como skills consultivos e
softskills (storytelling, apresentações, etc)
• Analista de domínio:
– Conhece do assunto analisado. Costuma ser chamado de Analista de
Negócio, mas prefiro chamar de Analista de Domínio, pois muitas
vezes o que está sendo analisado não é um "negócio" (por exemplo:
câncer de pele)
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 51
Existem várias estatísticas sobre os skills mais procurados...
Fonte: https:////www.kdnuggets.com/2018/11/most-demand-skills-data-scientists.html
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 52
Assim como das ferramentas mais usadas...
Fonte: https:////www.kdnuggets.com/2018/11/most-demand-skills-data-scientists.html
Notem que até o Excel é usado em alguns
projetos:
• Inclusive há um livro, que ensina a usar o
Excel para Data Science (vide referências
na parte final desta apresentação)
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 53
E tem esta outra pesquisa, ainda, que aponta o Excel como
segunda ferramenta mais utilizada, Segundo a "O'Reily Data
Science Survey"
Fonte: Ferramentas mais utilizadas de Data Science, segundo O’Reily Data science Survey 2015)
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 54
Em relação às ferramentas, inclusive, há uma disputa que lembra
outras que temos, ou já tivemos no passado (iOS vs. Android;
Windows vs. Linux; internet explorer vs. Chrome; etc)
• uma comparação que se faz é:
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 55
Outra estatística que já vi, certa vez, foi:
Tempo de experiência preferência
até 5 anos Python
de 6 a 15 anos "R"
mais de 15 anos SAS, SPSS modeler, etc
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 56
E falando em tempo de experiência... há outras estatísticas
interessantes para entendermos o perfil de um Cientista de Dados
Fonte: https://www.kdnuggets.com/2018/11/data-scientist-look-like.html
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 57
Mas na minha opinião, tudo vai depender do caso de uso que se
quer explorar, e da montagem da equipe
• Alguns exemplos de Casos de Uso para explorar via Ciência
de Dados:
– Propensão de um cliente voltar a comprar numa loja
• Qual é a taxa atual de recompra?
• Qual tipo de cliente tem probabilidade maior de voltar a comprar?
• Qual é o ticket médio de cada tipo destes clientes?
– Retenção de empregados
• Quantos empregados tem probabilidade maior de deixar a empresa?
• Por que eles irão sair?
• Como baixar o turnover e qual o ROI de tomar esta ação?
– Previsão de Vendas
• Quão longe estou da minha meta de vendas?
• O quanto os eventos que eu promovo afetam minhas vendas?
• Qual é a sazonalidade e a tendência de minhas vendas?
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 58
Na verdade "o céu é o limite" para definir os casos de uso
passíveis de se endereçar através desta técnica
Por exemplo:
• Previsão de quebra de uma máquina baseado em análise de anomalias
• Estimativa de preço de carros usados baseado com base em aspectos do
veículo
• Diagnóstico de doenças e prescrição de medicamentos
• Qualificação de oportunidades
• Previsão de fluxo de caixa
• Text Analytics (NLP)
• Classificação de risco
• Sistemas de recomendação
usado p/inúmeras finalidades. Exemplo: sentiment
analysis, onde tenta-se identificar o 'tom' e a
intenção dos usuários de fazer algo (ex: propensão
de um potencial cliente comprar um produto)
Exemplo clássico:
• Recomendação de filmes,
feita pela Netflix
Muito usado pelos bancos para
decidir se devem ou não concede
empréstimo para um cliente
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 59
A classificação de risco pode ser feita usando um modelo de
Regressão Logística
• Este modelo tem vários casos
de uso. Por exemplo:
– Predizer se um câncer é
maligno ou benigno baseado
nos dados do tumor
– Classificar se um email é ou
não um 'spam'
– Avaliar risco de crédito
Fonte: https://www.kdnuggets.com/2019/01/logistic-regression-concise-technical-overview.html
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 60
Um modelo bastante usado para fazer recomendações é o Naive-
Bayes
• Algoritmos desse tipo são
usados quando você assiste um
filme na Netflix, e recebe
recomendação de filmes
• E podem estar sendo ser usados
quando você:
– recebe a indicação de
um livro na Amazon
– está no Apple Music e
aparece aquela música
que você queria
– recebe recomendação
de Vídeos no YouTube
Principais sugestões para Fulano de Tal:
Fonte: https://www.wired.co.uk/article/netflix-data-personalisation-watching
https://towardsdatascience.com/netflix-and-chill-building-a-recommendation-system-in-excel-c69b33c914f4
https://medium.com/refraction-tech-everything/how-netflix-works-the-hugely-simplified-complex-stuff-that-happens-every-time-you-hit-play-3a40c9be254b
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
• para concluir, vamos ver alguns
pontos “polêmicos” relacionados
a ciência de dados…
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 62
Ajuda no esporte
Fonte: https://esporte.uol.com.br/futebol/ultimas-noticias/2019/01/09/como-a-estatistica-ajudou-a-fazer-3-campeoes-palmeiras-gremio-e-
athletico.htm
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 63
Como carros autônomos podem escolher quem não machucar?
Fonte: https://medium.com/s/story/how-should-self-driving-cars-choose-who-not-to-kill-442f2a5a1b59
• O título da matéria,
original, é ainda um
pouco mais agressivo:
– How Should Self-Driving
Cars Choose Who Not to
Kill?
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 64
Desafio dos 10 anos
Fonte: https://www.wired.com/story/facebook-10-year-meme-challenge/
• Seria somente uma
brincadeira? Ou um
treinamento do sistema de
reconhecimento facial?
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 65
Cambridge analytica
Fonte: https://www.cnn.com/style/article/christopher-wylie-fashion-cambridge-analytica/index.html
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
• Considerações finais
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 67
É importante observar que a tese, defendida nesta palestra, de
que é possível ser um Cientista de Dados sem ter todos os skills
multidisciplinares normalmente associados a esta carreira...
Fonte: https://www.kdnuggets.com/2018/12/why-shouldnt-data-science-generalist.html
https://towardsdatascience.com/gatekeeping-and-elitism-in-data-science-74cf19cd5744
Há ainda um outro aspecto curioso que notei em minhas pesquisas:
– Um Cientista de Dados "padrão", pode até se sentir ofendido quando
vê alguém dizendo que faz 'Ciência de Dados' com Excel (Vide artigo
"Gatekeeping and Elitism in Data Science", no rodapé desta página
... tem vários opositores. Por exemplo:
• Se vocês lerem o artigo "Why You Shouldn’t be a Data Science
Generalist", da Kdnuggets (vide link no rodapé desta página), verão
alguns argumentos
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 68
Outro ponto a considerar é que é complicado mesmo! Por menor
que seja a sua atuação técnica, nesta área, terá que lidar às
vezes com termos quase "indecifráveis"...
Fonte: https://pixelastic.github.io/pokemonorbigdata/
Tem até um jogo que
faz a gente se sentir
melhor, quando não
consegue se achar na
"sopa de letrinhas"...
• It's Pokemon or
BigData?
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil. 69
Algumas referências para quem quiser estudar Ciência de Dados
Links úteis:
– https://towardsdatascience.com/
– https://www.kdnuggets.com/
– https://www.datacamp.com/
– https://www.coursera.org/specializations/ibm-data-science-professional-certificate
– https://www.ibm.com/cloud/watson-studio
Artigos interessantes:
– https://www.dezyre.com/article/10-different-types-of-data-scientists/179
– https://www.kdnuggets.com/2018/12/build-data-science-project-from-scratch.html
Livros:
– FOREMAN, J. W. Data smart: Using Data Science to transform information into insight. Indiana: John
Wiley & Sons, 2014.
– PROWOST, F; FAWCETT, T. Data Science for business: What you need to know about data mining
and data-analytic thinking. California: O’Reilly Media, 2013, 2ª ed. (traduzido no Brasil como Data
science para negócios: o que você precisa saber sobre mineração de dados e pensamento analítico de dados
(Alta Books)
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
OBRIGADO

Mais conteúdo relacionado

Semelhante a Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)

A06 paper - perfil business intelligence - por onde, como e quando começar
A06   paper - perfil business intelligence - por onde, como e quando começarA06   paper - perfil business intelligence - por onde, como e quando começar
A06 paper - perfil business intelligence - por onde, como e quando começarMarcelo Krug
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência ArtificialJoão Gabriel Lima
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
2ª edicao redinfo, a sua revista eletrônica de computação
2ª edicao redinfo, a sua revista eletrônica de computação2ª edicao redinfo, a sua revista eletrônica de computação
2ª edicao redinfo, a sua revista eletrônica de computaçãoFernando Nogueira
 
Mercado, carreiras e escolhas no mercado de T.I
Mercado, carreiras e escolhas no mercado de T.IMercado, carreiras e escolhas no mercado de T.I
Mercado, carreiras e escolhas no mercado de T.IDaniel Marcos
 
Palestra 'Algumas tendências em TI' para estudantes de Matemática
Palestra 'Algumas tendências em TI' para estudantes de MatemáticaPalestra 'Algumas tendências em TI' para estudantes de Matemática
Palestra 'Algumas tendências em TI' para estudantes de MatemáticaVivaldo Jose Breternitz
 
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações FaBIana Ravanêda Vercezes
 
O Futuro da Engenharia sob a Ótica da Ciência, Tecnologia e Inovação
O Futuro da Engenharia sob a Ótica da Ciência, Tecnologia e InovaçãoO Futuro da Engenharia sob a Ótica da Ciência, Tecnologia e Inovação
O Futuro da Engenharia sob a Ótica da Ciência, Tecnologia e InovaçãoThomas Buck
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Diego Nogare
 
Inteligência Artificial e o Ensino da Informática.pdf
Inteligência Artificial  e o Ensino da Informática.pdfInteligência Artificial  e o Ensino da Informática.pdf
Inteligência Artificial e o Ensino da Informática.pdfFernanda Ledesma
 
Trabalho tecnologia da informação, TI
Trabalho tecnologia da informação, TITrabalho tecnologia da informação, TI
Trabalho tecnologia da informação, TIDANILLO RIBEIRO CUNHA
 
Data science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticasData science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticasMarlesson Santana
 
Profissionais de TI: Desafios e Oportunidades
Profissionais de TI:  Desafios e OportunidadesProfissionais de TI:  Desafios e Oportunidades
Profissionais de TI: Desafios e OportunidadesJairo Junior
 
Plural » marx, você estava certo!
Plural » marx, você estava certo!Plural » marx, você estava certo!
Plural » marx, você estava certo!Reginaldo Camargo
 
Segredos do google.up.by. www.pererecadowns.blogspot.com.br(1)
Segredos do google.up.by. www.pererecadowns.blogspot.com.br(1)Segredos do google.up.by. www.pererecadowns.blogspot.com.br(1)
Segredos do google.up.by. www.pererecadowns.blogspot.com.br(1)Gusttavo Nascimento
 
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...André Ribeiro
 

Semelhante a Descomplicando a Ciência de Dados por Adelson Lovatto (IBM) (20)

A06 paper - perfil business intelligence - por onde, como e quando começar
A06   paper - perfil business intelligence - por onde, como e quando começarA06   paper - perfil business intelligence - por onde, como e quando começar
A06 paper - perfil business intelligence - por onde, como e quando começar
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência Artificial
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
2ª edicao redinfo, a sua revista eletrônica de computação
2ª edicao redinfo, a sua revista eletrônica de computação2ª edicao redinfo, a sua revista eletrônica de computação
2ª edicao redinfo, a sua revista eletrônica de computação
 
Mercado, carreiras e escolhas no mercado de T.I
Mercado, carreiras e escolhas no mercado de T.IMercado, carreiras e escolhas no mercado de T.I
Mercado, carreiras e escolhas no mercado de T.I
 
Palestra 'Algumas tendências em TI' para estudantes de Matemática
Palestra 'Algumas tendências em TI' para estudantes de MatemáticaPalestra 'Algumas tendências em TI' para estudantes de Matemática
Palestra 'Algumas tendências em TI' para estudantes de Matemática
 
A Era da Informação e Invoção
A Era da Informação e InvoçãoA Era da Informação e Invoção
A Era da Informação e Invoção
 
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
 
O Futuro da Engenharia sob a Ótica da Ciência, Tecnologia e Inovação
O Futuro da Engenharia sob a Ótica da Ciência, Tecnologia e InovaçãoO Futuro da Engenharia sob a Ótica da Ciência, Tecnologia e Inovação
O Futuro da Engenharia sob a Ótica da Ciência, Tecnologia e Inovação
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
 
Inteligência Artificial e o Ensino da Informática.pdf
Inteligência Artificial  e o Ensino da Informática.pdfInteligência Artificial  e o Ensino da Informática.pdf
Inteligência Artificial e o Ensino da Informática.pdf
 
A.I Inteligência Artificial
A.I Inteligência ArtificialA.I Inteligência Artificial
A.I Inteligência Artificial
 
Segredos google
Segredos googleSegredos google
Segredos google
 
Trabalho tecnologia da informação, TI
Trabalho tecnologia da informação, TITrabalho tecnologia da informação, TI
Trabalho tecnologia da informação, TI
 
Data science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticasData science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticas
 
Profissionais de TI: Desafios e Oportunidades
Profissionais de TI:  Desafios e OportunidadesProfissionais de TI:  Desafios e Oportunidades
Profissionais de TI: Desafios e Oportunidades
 
Plural » marx, você estava certo!
Plural » marx, você estava certo!Plural » marx, você estava certo!
Plural » marx, você estava certo!
 
Segredos do google.up.by. www.pererecadowns.blogspot.com.br(1)
Segredos do google.up.by. www.pererecadowns.blogspot.com.br(1)Segredos do google.up.by. www.pererecadowns.blogspot.com.br(1)
Segredos do google.up.by. www.pererecadowns.blogspot.com.br(1)
 
Informatica
InformaticaInformatica
Informatica
 
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...
Direito à Privacidade na Sociedade da informação: Desafios e Impactos na Era ...
 

Mais de Joao Galdino Mello de Souza

Enterprise computing for modern business workloads por Lívio Sousa (IBM)
Enterprise computing for modern business workloads por Lívio Sousa (IBM)Enterprise computing for modern business workloads por Lívio Sousa (IBM)
Enterprise computing for modern business workloads por Lívio Sousa (IBM)Joao Galdino Mello de Souza
 
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)Joao Galdino Mello de Souza
 
Scaling Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...
Scaling  Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...Scaling  Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...
Scaling Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...Joao Galdino Mello de Souza
 
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)Joao Galdino Mello de Souza
 
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...Joao Galdino Mello de Souza
 
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)Joao Galdino Mello de Souza
 
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...Joao Galdino Mello de Souza
 
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)Joao Galdino Mello de Souza
 
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)Joao Galdino Mello de Souza
 
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)Joao Galdino Mello de Souza
 
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)Joao Galdino Mello de Souza
 
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...Joao Galdino Mello de Souza
 
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)Joao Galdino Mello de Souza
 
Pervasive Encryption por Eugênio Fernandes (IBM)
Pervasive Encryption por Eugênio Fernandes (IBM)Pervasive Encryption por Eugênio Fernandes (IBM)
Pervasive Encryption por Eugênio Fernandes (IBM)Joao Galdino Mello de Souza
 
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)Joao Galdino Mello de Souza
 
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...Joao Galdino Mello de Souza
 
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)Joao Galdino Mello de Souza
 
Lei geral de proteção de dados por Kleber Silva e Ricardo Navarro (Pise4)
Lei geral de proteção de dados por Kleber Silva  e Ricardo Navarro (Pise4)Lei geral de proteção de dados por Kleber Silva  e Ricardo Navarro (Pise4)
Lei geral de proteção de dados por Kleber Silva e Ricardo Navarro (Pise4)Joao Galdino Mello de Souza
 
Detalhes internos da z14/Otimização de códigos - por Luiz Carlos Orsoni (MAFFEI)
Detalhes internos da z14/Otimização de códigos - por Luiz Carlos Orsoni (MAFFEI)Detalhes internos da z14/Otimização de códigos - por Luiz Carlos Orsoni (MAFFEI)
Detalhes internos da z14/Otimização de códigos - por Luiz Carlos Orsoni (MAFFEI)Joao Galdino Mello de Souza
 

Mais de Joao Galdino Mello de Souza (20)

Explorando a API Rest Jira Cloud
Explorando a API Rest Jira CloudExplorando a API Rest Jira Cloud
Explorando a API Rest Jira Cloud
 
Enterprise computing for modern business workloads por Lívio Sousa (IBM)
Enterprise computing for modern business workloads por Lívio Sousa (IBM)Enterprise computing for modern business workloads por Lívio Sousa (IBM)
Enterprise computing for modern business workloads por Lívio Sousa (IBM)
 
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI) e Fernando Ferreira (IBM)
 
Scaling Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...
Scaling  Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...Scaling  Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...
Scaling Multi-cloud with Infrastructure as Code por André Rocha Agostinho (S...
 
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)
Alta Disponibilidade SQL Server por Marcus Vinicius Bittencourt (O Boticário)
 
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...
Cloud no Banco Votorantim por Marcus Vinícius de Aguiar Magalhaes (Banco Voto...
 
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)
Pré-Anúncio z/OS 2.4 por Alvaro Salla (MAFFEI)
 
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...
Consumo de CPU, Distorções e Redução de custo de SW por Maria Isabel Soutello...
 
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)
Qualidade no desenvolvimento de Sistemas por Anderson Augustinho (Celepar)
 
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)
Assets Tokenization: Novas Linhas de negócio por Lívio Sousa (IBM)
 
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)
Intelligent Edge e Intelligent Cloud por Vivian Heinrichs (Softline)
 
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)
Evolução da eficiência operacional no mainframe por Emerson Castelano (Eccox)
 
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...
Gestão de Capacidade, desempenho e custos no ambiente mainframe zOS: Um caso ...
 
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)
Eletricidade e Eletrônica 1.01 por Luiz Carlos Orsoni (MAFFEI)
 
Pervasive Encryption por Eugênio Fernandes (IBM)
Pervasive Encryption por Eugênio Fernandes (IBM)Pervasive Encryption por Eugênio Fernandes (IBM)
Pervasive Encryption por Eugênio Fernandes (IBM)
 
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)
Minimizar RNI ambiente CICS por Milton Ferraraccio (Eccox Technology)
 
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...
Scaling Multi-Cloud with Infrastructure as a Code por André Rocha Agostinho (...
 
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)
Como obter o melhor do Z por Gustavo Fernandes Araujo (Itau Unibanco)
 
Lei geral de proteção de dados por Kleber Silva e Ricardo Navarro (Pise4)
Lei geral de proteção de dados por Kleber Silva  e Ricardo Navarro (Pise4)Lei geral de proteção de dados por Kleber Silva  e Ricardo Navarro (Pise4)
Lei geral de proteção de dados por Kleber Silva e Ricardo Navarro (Pise4)
 
Detalhes internos da z14/Otimização de códigos - por Luiz Carlos Orsoni (MAFFEI)
Detalhes internos da z14/Otimização de códigos - por Luiz Carlos Orsoni (MAFFEI)Detalhes internos da z14/Otimização de códigos - por Luiz Carlos Orsoni (MAFFEI)
Detalhes internos da z14/Otimização de códigos - por Luiz Carlos Orsoni (MAFFEI)
 

Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)

  • 1. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 14 de Maio de 2019 Adelson Lovatto Descomplicando a "Ciência de Dados" Visão geral de 'Data Science' e do perfil profissional para atuar nesta área
  • 2. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 2 Quem nunca ouviu alguma mensagem apocalíptica, como essas? • Muitas profissões podem desaparecer com a ascensão de novas tecnologias • 30% a 40% das profissões vão sumir nos próximos 3 a 4 anos • ou a mais cruel de todas: “Corra para se atualizar ou amargue o desemprego pro resto da sua vida!” Fontes: https://infograficos.oglobo.globo.com/economia/emprego/as-10-profissoes-em-vias-de-extincao.html https://exame.abril.com.br/carreira/estas-profissoes-podem-acabar-ate-2030-ao-menos-para-os-humanos/ http://idgnow.com.br/ti-corporativa/2018/01/23/9-profissoes-que-podem-desaparecer-com-a-ascensao-de-novas-tecnologias/
  • 3. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 3 Eu não sei quanto a vocês… … mas eu me sentia um verdadeiro dinossauro quando ouvia estas coisas!
  • 4. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 4 Essas mensagens são exageradas? De fato, profissões como 'Operador de Telemarketing' tendem a desaparecer ou reduzir bastante, mas.... Fonte: https://oglobo.globo.com/economia/consultoria-lista-profissoes-que-devem-sumir-do-mapa-em-2025-20132143
  • 5. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 5 Profissões como Médico e Advogado jamais deixarão de existir... Fonte: https://www.sciencedirect.com/science/article/pii/S0895717712003421 https://www.researchgate.net/publication/306104693_Medical_Image_Analysis_by_Cognitive_Information_Systems_-_a_Review ... mas talvez passem a ter um campo de trabalho menor. Por exemplo: • Centros de diagnóstico por imagem provavelmente precisarão de menos médicos porque parte do trabalho será feito por sistemas cognitivos
  • 6. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 6 Advogados também podem ter seu campo de trabalho reduzido Fonte: http://tdtanalytics.com/predictive-analytics/text-analytics/ Uma parte do tempo dos advogados é gasta com pesquisa de: • JURISPRUDÊNCIA: conjunto das decisões sobre interpretações das leis feitas pelos tribunais • PRECEDENTE: decisão anterior considerada como fonte do direito no caso posterior • Com o algoritmos, desenvolvidos para esta finalidade, será possível fazer esta pesquisa de forma mais rápida e automatizada
  • 7. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 7 E mesmo na área de TI o avanço da tecnologia vem mudando bastante o cenário Com a introdução das ‘clouds’, por exemplo, a tendência é haver uma redução nos empregos relacionados a infraestrutura de TI:
  • 8. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 8 Sabemos da importância de ser realista e tomar conhecimento das tendências… gato: então qualquer caminho serve! ... mas estas mensagens nem sempre vem acompanhadas de instruções claras sobre como endereçar o problema! Alice: qualquer lugar serve; eu só quero sair daqui... Alice: qual direção devo seguir para sair daqui? gato: isto depende de aonde você quer ir...
  • 9. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 9 E a carreira que está mais associada a Inteligência Artificial, e tida como "Profissão do Futuro", é a de Cientista de Dados Fonte: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century E o primeiro caminho que costumamos tentar é entrar na área que está causando toda esta preocupação: Inteligência Artificial
  • 10. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 10 A todo momento aparecem reportagens sobre esta carreira Fonte: https://economia.uol.com.br/empregos-e-carreiras/noticias/redacao/2019/01/02/profissoes-em-alta-ano-que-vem-tecnologia.htm https://g1.globo.com/economia/concursos-e-emprego/noticia/2019/01/14/veja-profissoes-que-estarao-em-alta-em-2019-segundo- empresas-de-recrutamento.ghtml
  • 11. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 11 E acaba chamando a atenção de muita gente, apesar do nome "cientista" geralmente estar associado a uma qualificação não muito fácil de se obter Data science is a profession fundamentally based on a strong academic background in a quantitative discipline Fonte: Mastering the art of data science. IBM Institute for Business Value. ibm.biz/artofdata
  • 12. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 12 E faz todo o sentido pois entre as características importantes, de um Cientista de Dados, estão também atributos mais "simples", como a curiosidade intelectual • Um Cientista de Dados precisa investigar áreas nas quais muitas vezes não possui conhecimento anterior • De fato, cientistas de dados gastam cerca de 80% do tempo descobrindo e preparando dados para análise • É justamente onde a maioria das pessoas não vê uma informação importante, que o Cientista de Dados vai através de sua curiosidade intelectual encontrar uma conclusão relevante “Eu não tenho nenhum talento especial. Sou apenas muito curioso.” Albert Einstein. Fonte: https://www.kdnuggets.com/2018/05/simplilearn-9-must-have-skills-data-scientist.html Curiosidade ? ??
  • 13. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 13 Um outro atributo importante, e que também não demanda skills técnicos mais profundos, é o "data storetelling" Cientistas de dados precisam saber CONTAR HISTÓRIAS! • Isto pode parecer estranho, mas de fato é fundamental explicar os resultados da análise sem muito detalhes técnicos, de uma maneira que pessoas leigas em Data Science possam entender Fonte: https://en.wikipedia.org/wiki/Storytelling https://www.kdnuggets.com/2019/03/odsc-difference-data-scientists-data-engineers.html Pois afinal de contas quem contrata o Cientista de Dados geralmente é uma pessoa que entende apenas do 'negócio' no qual ela está inserida... e, portanto, ela deve receber o resultado de uma forma que ela entenda. Isto demanda o domínio de técnicas verbais e não-verbais de comunicação de "Storytelling"
  • 14. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 14 Não é que não precise de skills mais técnicos, e que a curiosidade basta... ... mas como a gente vai ver, um pouco mais a frente neste curso, existe um aspecto de Data Science que é endereçado mais pelo 'pragmatismo' do que por teorias complexas! “Science is about knowing, engineering is about doing.” - Henry Petroski
  • 15. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 15 E uma hipótese, que vamos explorar neste curso, é a de que um projeto de Data Science pode ser endereçado por um time multi- disciplinar, composto por mais de um profissional... ... e não por um profissional único: • uma espécie de "unicórnio", que teria que conhecer todas estas disciplinas: Matemática Estatística Data Science Negócio / Domínio Tecnologia da Informação
  • 16. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 16 Vamos pensar numa outra profissão... • Um Piloto de Avião precisa saber mexer nos comandos da aeronave e tem que conhecer princípios de voo, certo? Mas... – ele precisa saber consertar o avião quando quebra? – ele precisa saber construir um avião novo? • De forma análoga, o que vocês acham: – poderíamos inferir que um profissional que trabalha em Ciência de Dados não precisa necessariamente conhecer todas as áreas associadas a esta profissão?
  • 17. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 17 Enfim, seja qual for a motivação... o fato é que tem muita gente se interessando por esta carreira! • O problema é que...
  • 18. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 18 E aí, no ímpeto de tentar saber mais sobre o tema, buscamos inicialmente palestras, meetups, e cursos online sobre Ciência de Dados... ... mas muitas vezes estes eventos não são satisfatórios para o nosso objetivo, pois: – ou são feitos para vender algum produto – e/ou não esclarecem conceitos – e/ou quando tem alguma demonstração prática, geralmente focam em um único caso de uso (exemplo: reconhecimento de imagem), apenas, sem demonstrar outras aplicabilidades e isto causa...
  • 19. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 19 Vamos tentar então entender melhor o que é Ciência de Dados • Se formos ao wikipedia vamos encontrar algo parecido com isto: – área interdisciplinar voltada para o estudo e análise de dados, visando extrair conhecimento (insights) para subsidiar a tomada de decisão, para que pessoas e empresas possam atingir melhores resultados – a ciência de dados é um campo que já existe há mais de 30 anos, mas aliada a machine learning ganhou maior destaque nos últimos anos devido ao desenvolvimento recente da tecnologia. Fonte: https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados
  • 20. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 20 Esclareceu alguma coisa? Parece bem abstrato numa primeira pesquisa... ...e é natural que tenhamos dificuldade em definir os termos novos que vão surgindo na área de Tecnologia da Informação (TI): • eu, por exemplo, era perguntado por amigos quase no dia seguinte que surgiram termos como: – ERP – Green IT – Design Thinking – Agile / DevOps • ... e me sentia mal se não sabia responder... uma vez que, por trabalhar em TI, as pessoas tinham a expectativa que eu soubesse esclarecer estes termos técnicos
  • 21. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 21 O exemplo mais curioso foi quando me perguntaram o que era Twitter E a pessoa que me perguntou quase jogou o celular dela na minha cabeça... Eu, sem pensar muito e com absoluta convicção, respondi: • É um alto-falante de sons agudos que a gente põe no carro!
  • 22. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 22 Há quem diga que Cientista de Dados é apenas um termo 'moderno' para outras profissões que já existiam... • Em um artigo na Forbes, de Gil Press, foi dito que 'ciência de dados' era apenas um termo da moda, sem definição clara, que simplesmente substituiu o 'analista de negócios' • o estatístico Nate Silver disse: “... A estatística é um ramo da ciência. Falar em 'cientista de dados' é um pouco redundante... as pessoas, portanto, não devem evitar o termo 'estatístico'." • E, assim por diante, vocês irão encontrar afirmações similares para 'Analista de Dados', 'Engenheiro de Dados', etc. Fonte: https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados e https://www.amstat.org//
  • 23. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 23 Mas o fato é que Ciência de Dados é definitivamente algo diferente do que já existia... Pode ser até difícil de explicar... ... mas o fato é que realmente se diferencia destas outras carreiras...
  • 24. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 24 Fonte: apresentação sobre a certificação na carreira de Cientista de Dados (IBM) Mas afinal de contas, o que é Data Science então? Esta figura é complexa, mas ajuda a entender...
  • 25. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 25 Ou seja, através da Ciência de Dados é possível investigar e fazer previsões de um determinado tema... • Descritivo: – Entender o que aconteceu • Diagnóstico: – Entender porque aconteceu • Preditivo: – Entender o que vai acontecer • Prescritivo: – Influenciar os resultados, através da simulação de cenários (what... if...). Por exemplo: • "E se concedêssemos um desconto de 5%... o quanto isto aumentaria nossas vendas?" • "E se déssemos um brinde... quanto aumentaria a fidelidade do cliente?" https://www.youtube.com/watch?v=WdAULUUxDQU SUGESTÃO: ver este commercial, da SAP, que mostra um bom exemplo de "What if..." :
  • 26. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 26 Mas é só isto? E ainda que seja, como se faz isto? Seguindo a proposição desta palestra: – Nós vamos abordar de forma bem pragmática os conceitos básicos, para tentar explicar o que é e como funciona a Ciência de Dados Os nerds diriam: • Com muita matemática & estatística; programação (Python / R); e outras habilidades de "cientistas" Aviso aos navegantes 'nerds' que eventualmente estejam na sala: NÃO entraremos em detalhes técnicos e faremos o máximo possível de analogias e metáforas para explicar de forma simples aos "leigos" (não-técnicos)!
  • 27. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 27 Em Data Science a gente desenvolve algoritmos para treinar o computador, de forma que ele possa tomar decisões depois dado $$$ dado dado dado modelo predição Ou seja, a máquina 'aprende' a fazer a predição a partir do modelo
  • 28. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 28 Vamos tentar simular o processo de aprendizado do computador com alguém da sala (ou seja, um ser humano) • Preciso de um voluntário que não conheça notas musicais – Alguém se habilita? • Você vai primeiro aprender o que é: – Uma nota musical – Uma pausa
  • 29. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 29 Primeiro vamos TREINAR, vendo exemplos de notas e pausas pausasnotasisto é uma pausa isto é uma nota isto é uma pausa isto é uma nota isto é uma pausa isto é uma nota
  • 30. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 30 Agora tente descobrir o que é símbolo de nota e o que é símbolo de pausa. Ou seja, vamos TESTAR o aprendizado! isto é uma nota ou uma pausa? isto é uma nota ou uma pausa? isto é uma nota ou uma pausa? Desafio adicional Esta na verdade é uma Clave. Ou seja, uma nova 'categoria' não prevista antes. Mas falaremos disto mais tarde....
  • 31. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 31 • Em média usa-se: – De 70% a 80% da massa de dados para treinar – E de 20 a 30% para testar Fonte: https://www.upwork.com/hiring/for-clients/artificial-intelligence-and-natural-language-processing-in-big-data/ De forma análoga podemos construir algoritmos que "ensinem" a máquina a aprender o que são notas e pausas
  • 32. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 32 É importante testar, o modelo treinado, para verificar se não ocorre overfitting ou underfitting por exemplo “overfitting” é quando o modelo estatístico se ajusta tão bem ao conjunto de dados considerado no treinamento, que se mostra ineficaz para prever novos resultados.
  • 33. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 33 Voltando à definição de Ciência de Dados… uma coisa que me atrapalhou, no começo, para desvendar a Ciência de Dados, foi a confusão que eu fazia com outros conceitos e técnicas correlatas... Por exemplo: eu não sabia dizer, com clareza, o que estava contido e/ou tinha intersecção com o que... C o g n i t i v e
  • 34. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 34 Mas percebi que esta dificuldade não era um ''privilégio" de quem começa a estudar Data Science... Em outras áreas também há uma certa dificuldade em se delimitar onde começa, onde termina, e onde se cruzam determinados conceitos:
  • 35. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 35 Então resolvi seguir, sem me preocupar em 'classificar' as coisas, e isto acabou me ajudando... Mas, sem dúvidas, existe sim uma ligação muito grande com 'Aprendizado de Máquinas'. Lembrando a definição de Ciência de Dados da Wikipedia: Fonte: https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados – a ciência de dados é um campo que já existe há mais de 30 anos, mas aliada a machine learning ganhou maior destaque nos últimos anos devido ao desenvolvimento recente da tecnologia.
  • 36. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 36 Podemos dizer que uma das principais origens da ciência de dados foi KDD (Knowledge Discovery in Data) Fonte: definição feita por Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, em 1997. Vide artigo em: https://www.aaai.org/ojs/index.php/aimagazine/article/viewFile/1230/1131 • Uma definição resumida de KDD é: – processo de identificar padrões passíveis de entendimento em dados válidos e potencialmente úteis. • Originalmente KDD era Knowledge Discovery in Database • Pois havia mais dados estruturados • E depois, com o aumento exponencial de dados não estruturados... • ... passou a se chamar Knowledge Discovery in Data, simplesmente
  • 37. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 37 Eu resumiria da seguinte forma: • KDD (ou Data Science, portanto) tem a ver com transformação: – de dados em informação – e/ou de informação em conhecimento – e/ou de conhecimento em insights – e/ou de insights em sabedoria • Mas, para tanto, é necessário: – 'minerar' o dado; • o que pode envolver a coleta, preparação, integração, discretização, etc. – Utilizar: • métodos: supervisionado, não supervisionado • Modelos: regressão, árvores de decisão, Naive-Bayes, K-means, etc com o grande objetivo final de subsidiar a tomada de decisão
  • 38. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 38 Podemos também dividir Data Science em algumas etapas, para facilitar o entendimento 1. O problema – Um tema a ser investigado; questão a ser respondida; hipótese a ser testada 2. Coleta de dados – Isto pode ser simples, se os dados já existirem, ou pode demandar algum esforço 3. Preparação – Por ex.: a limpeza de dados 'ruins', substituição de nulos, mudança de formato 4. Criação de um modelo – Modelo matemático/estatístico para testar a hipótese e fazer predições 5. Validação – Para ver se o modelo suporta corretamente a tomada de decisão, ou se existe um modelo mais adequado para testar a hipótese
  • 39. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 39 Vamos analisar então alguns modelos, iniciando pela regressão linear • Imagine que você saiba o valor de algumas casas Como seria possível predizer o preço de uma casa 'intermediária'? Desde uma mais simples por $ 70.000 até uma mais sofisticada por $ 160.000
  • 40. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 40 Colocando num plano cartesiano...
  • 41. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 41 Plotando num gráfico teríamos a seguinte figura:
  • 42. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 42 Neste caso seria possível usar o modelo de Regressão Linear para predizer o preço das casas pois... • Temos uma "resposta certa" para cada exemplo na massa de dados para treinamento • Ou seja, temos uma variável target, que é também conhecida como "label" • Chamamos este modelo de: – Supervised learning
  • 43. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 43 Ou seja, neste caso temos um conjunto de dados efetivamente representativo, para treinar e testar o modelo • Onde: – m = número de casas – x = variável de entrada (feature) – y = variável de saída (target) m
  • 44. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 44 O que nos remete para à seguinte 'função de custo', para o nosso algoritmo de aprendizagem • Onde: – m = número de casas – x = variável de entrada (feature) – y = variável de saída (target)
  • 45. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 45 através da massa de dados para treino e testes, e usando o algoritmo baseado na função de custo apresentada… e isto se adequa bem para regressão com uma variável tamanho da casa preço estimado ... representamos h através de:
  • 46. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 46 Em resumo poderíamos definir o fluxo mais comum de data science desta forma
  • 47. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 47 No entanto nem sempre o melhor modelo é aquele que escolhemos inicialmente Fonte: https://imarticus.org/what-is-machine-learning-and-does-it-matter/ https://www.kdnuggets.com/2018/12/essence-machine-learning.html
  • 48. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 48 Existem diversos outros modelos que podem ser utilizados
  • 49. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 49 Perfis profissionais para atuar em "Data Science" • Será que precisa mesmo ter todos os skills num só profissional? • Ou dá para dividir, e montar uma equipe multidisciplinar?
  • 50. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 50 São necessários vários perfis profissionais para realizar projetos de Ciência de Dados • Engenheiro de dados: – Responsável por tratar e preparar os dados, o que pode envolver diversas atividades, tais como: faz queries; integrar bases de dados; – Não tem tanto destaque, quanto o Cientista de Dados, pois atua mais nas fases iniciais, e fica normalmente mais longe do processo final de análise/decisão • Analista de dados: – faz o EDA (Exploratory Data Analysis), descobre findings/insights, e define como apresentar os insights para a área de negócios (Visualização) – Demanda não só skill técnicos, de análise, como skills consultivos e softskills (storytelling, apresentações, etc) • Analista de domínio: – Conhece do assunto analisado. Costuma ser chamado de Analista de Negócio, mas prefiro chamar de Analista de Domínio, pois muitas vezes o que está sendo analisado não é um "negócio" (por exemplo: câncer de pele)
  • 51. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 51 Existem várias estatísticas sobre os skills mais procurados... Fonte: https:////www.kdnuggets.com/2018/11/most-demand-skills-data-scientists.html
  • 52. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 52 Assim como das ferramentas mais usadas... Fonte: https:////www.kdnuggets.com/2018/11/most-demand-skills-data-scientists.html Notem que até o Excel é usado em alguns projetos: • Inclusive há um livro, que ensina a usar o Excel para Data Science (vide referências na parte final desta apresentação)
  • 53. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 53 E tem esta outra pesquisa, ainda, que aponta o Excel como segunda ferramenta mais utilizada, Segundo a "O'Reily Data Science Survey" Fonte: Ferramentas mais utilizadas de Data Science, segundo O’Reily Data science Survey 2015)
  • 54. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 54 Em relação às ferramentas, inclusive, há uma disputa que lembra outras que temos, ou já tivemos no passado (iOS vs. Android; Windows vs. Linux; internet explorer vs. Chrome; etc) • uma comparação que se faz é:
  • 55. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 55 Outra estatística que já vi, certa vez, foi: Tempo de experiência preferência até 5 anos Python de 6 a 15 anos "R" mais de 15 anos SAS, SPSS modeler, etc
  • 56. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 56 E falando em tempo de experiência... há outras estatísticas interessantes para entendermos o perfil de um Cientista de Dados Fonte: https://www.kdnuggets.com/2018/11/data-scientist-look-like.html
  • 57. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 57 Mas na minha opinião, tudo vai depender do caso de uso que se quer explorar, e da montagem da equipe • Alguns exemplos de Casos de Uso para explorar via Ciência de Dados: – Propensão de um cliente voltar a comprar numa loja • Qual é a taxa atual de recompra? • Qual tipo de cliente tem probabilidade maior de voltar a comprar? • Qual é o ticket médio de cada tipo destes clientes? – Retenção de empregados • Quantos empregados tem probabilidade maior de deixar a empresa? • Por que eles irão sair? • Como baixar o turnover e qual o ROI de tomar esta ação? – Previsão de Vendas • Quão longe estou da minha meta de vendas? • O quanto os eventos que eu promovo afetam minhas vendas? • Qual é a sazonalidade e a tendência de minhas vendas?
  • 58. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 58 Na verdade "o céu é o limite" para definir os casos de uso passíveis de se endereçar através desta técnica Por exemplo: • Previsão de quebra de uma máquina baseado em análise de anomalias • Estimativa de preço de carros usados baseado com base em aspectos do veículo • Diagnóstico de doenças e prescrição de medicamentos • Qualificação de oportunidades • Previsão de fluxo de caixa • Text Analytics (NLP) • Classificação de risco • Sistemas de recomendação usado p/inúmeras finalidades. Exemplo: sentiment analysis, onde tenta-se identificar o 'tom' e a intenção dos usuários de fazer algo (ex: propensão de um potencial cliente comprar um produto) Exemplo clássico: • Recomendação de filmes, feita pela Netflix Muito usado pelos bancos para decidir se devem ou não concede empréstimo para um cliente
  • 59. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 59 A classificação de risco pode ser feita usando um modelo de Regressão Logística • Este modelo tem vários casos de uso. Por exemplo: – Predizer se um câncer é maligno ou benigno baseado nos dados do tumor – Classificar se um email é ou não um 'spam' – Avaliar risco de crédito Fonte: https://www.kdnuggets.com/2019/01/logistic-regression-concise-technical-overview.html
  • 60. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 60 Um modelo bastante usado para fazer recomendações é o Naive- Bayes • Algoritmos desse tipo são usados quando você assiste um filme na Netflix, e recebe recomendação de filmes • E podem estar sendo ser usados quando você: – recebe a indicação de um livro na Amazon – está no Apple Music e aparece aquela música que você queria – recebe recomendação de Vídeos no YouTube Principais sugestões para Fulano de Tal: Fonte: https://www.wired.co.uk/article/netflix-data-personalisation-watching https://towardsdatascience.com/netflix-and-chill-building-a-recommendation-system-in-excel-c69b33c914f4 https://medium.com/refraction-tech-everything/how-netflix-works-the-hugely-simplified-complex-stuff-that-happens-every-time-you-hit-play-3a40c9be254b
  • 61. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. • para concluir, vamos ver alguns pontos “polêmicos” relacionados a ciência de dados…
  • 62. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 62 Ajuda no esporte Fonte: https://esporte.uol.com.br/futebol/ultimas-noticias/2019/01/09/como-a-estatistica-ajudou-a-fazer-3-campeoes-palmeiras-gremio-e- athletico.htm
  • 63. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 63 Como carros autônomos podem escolher quem não machucar? Fonte: https://medium.com/s/story/how-should-self-driving-cars-choose-who-not-to-kill-442f2a5a1b59 • O título da matéria, original, é ainda um pouco mais agressivo: – How Should Self-Driving Cars Choose Who Not to Kill?
  • 64. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 64 Desafio dos 10 anos Fonte: https://www.wired.com/story/facebook-10-year-meme-challenge/ • Seria somente uma brincadeira? Ou um treinamento do sistema de reconhecimento facial?
  • 65. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 65 Cambridge analytica Fonte: https://www.cnn.com/style/article/christopher-wylie-fashion-cambridge-analytica/index.html
  • 66. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. • Considerações finais
  • 67. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 67 É importante observar que a tese, defendida nesta palestra, de que é possível ser um Cientista de Dados sem ter todos os skills multidisciplinares normalmente associados a esta carreira... Fonte: https://www.kdnuggets.com/2018/12/why-shouldnt-data-science-generalist.html https://towardsdatascience.com/gatekeeping-and-elitism-in-data-science-74cf19cd5744 Há ainda um outro aspecto curioso que notei em minhas pesquisas: – Um Cientista de Dados "padrão", pode até se sentir ofendido quando vê alguém dizendo que faz 'Ciência de Dados' com Excel (Vide artigo "Gatekeeping and Elitism in Data Science", no rodapé desta página ... tem vários opositores. Por exemplo: • Se vocês lerem o artigo "Why You Shouldn’t be a Data Science Generalist", da Kdnuggets (vide link no rodapé desta página), verão alguns argumentos
  • 68. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 68 Outro ponto a considerar é que é complicado mesmo! Por menor que seja a sua atuação técnica, nesta área, terá que lidar às vezes com termos quase "indecifráveis"... Fonte: https://pixelastic.github.io/pokemonorbigdata/ Tem até um jogo que faz a gente se sentir melhor, quando não consegue se achar na "sopa de letrinhas"... • It's Pokemon or BigData?
  • 69. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. 69 Algumas referências para quem quiser estudar Ciência de Dados Links úteis: – https://towardsdatascience.com/ – https://www.kdnuggets.com/ – https://www.datacamp.com/ – https://www.coursera.org/specializations/ibm-data-science-professional-certificate – https://www.ibm.com/cloud/watson-studio Artigos interessantes: – https://www.dezyre.com/article/10-different-types-of-data-scientists/179 – https://www.kdnuggets.com/2018/12/build-data-science-project-from-scratch.html Livros: – FOREMAN, J. W. Data smart: Using Data Science to transform information into insight. Indiana: John Wiley & Sons, 2014. – PROWOST, F; FAWCETT, T. Data Science for business: What you need to know about data mining and data-analytic thinking. California: O’Reilly Media, 2013, 2ª ed. (traduzido no Brasil como Data science para negócios: o que você precisa saber sobre mineração de dados e pensamento analítico de dados (Alta Books)
  • 70. Proibida cópia ou divulgação sem permissão escrita do CMG Brasil. OBRIGADO