Muito
além dos
dados:
Como os Cientistas de Dados estão
dominando o mercado global
Sobre
Diego Cardoso Alves - Linkedin: diegocardosoalves
Engenheiro da Computação pela Unifei-MG
Mestrando em Engenharia da Computação pela Unicamp
Engenheiro de Software no Instituto de Pesquisas Eldorado
Desenvolvedor Android e entusiasta de Ciência de Dados
Artigo publicado na IEEE Services 2016 - San Francisco
USA
O que essa palestra NÃO vai ser
★ Não será uma palestra técnica
★ Não será uma palestra motivacional
★ Você não vai sair daqui um Cientista de Dados
O que essa palestra vai ser
★ O que é um Cientista de Dados e qual sua importância
★ Cases envolvendo Ciência de Dados
★ As habilidades esperadas de um Cientista de Dados
★ Onde procurar recursos para ir em busca dessas habilidades
Cientista de Dados
Pessoa que é melhor em estatística que qualquer engenheiro de
software e melhor em engenharia de software do que qualquer
estatístico.
Cientista de Dados
Cientista de Dados é um
profissional híbrido, um
cientista da computação
com habilidades de
programação , extração e
gerenciamento de dados
juntamente com um
estatístico que sabe como
dar sentido a informações
supostamente não
relacionadas.
Rotina de um Cientista de Dados
Encontrar Problema Buscar Dados
Limpar e Explorar
Dados
Comunicar
Resultados
Validar Hipótese
Estabelecer
Hipótese
Hipótese
Incorreta
Volume de dados
Total de dados
sendo capturados
e gravados pelas
indústrias dobra
a cada 1.2 anos.
A Google sozinha
processa em
média 40 mil
queries por
segundo.
A cada minuto
são enviados 204
milhões de
emails.
A cada minuto
são gerados 1.8
milhões de likes
no Facebook e
enviados 278 mil
tweets.
Se você gravasse
todo conteúdo
criado em 1 dia
em DVD’s, você
poderia empilhá-
los e alcançar a
lua. Obs: 2 vezes.
Youtube recebe
100 horas de
vídeo a cada
minuto.
Volume de dados
Filtragem de dados
Desafios
Dados não
estruturados
Processamento
necessário
Visualização da
informação
Privacidade de
dados
Importância
Maior precisão
Decisões com
mais confiança
Maior eficiência operacional
Redução de custos
Redução de riscos
Mudança de mercado
Novas correlações
Tendências de negócios no local
Prevenção de doenças
Detecção de fraudes
Combate à criminalidade
Recomendações personalizadas
Cases de Ciência de dados
Alemanha, Copa do Mundo
● 12 jogadores
● Parceria SAP e
Alemanha
● Análise de dados dos
jogadores, performance
dos times e estratégias
● Difícil tarefa de analisar
dados aparentemente
não relacionados
Starbucks vs Consumidor vs Local
● Análise de localidade
● Análise de preferências
do consumidor
● Estudo de tráfego das
ruas
● Possibilidade de abrir
nova Starbucks próxima
à uma existente.
Apostadores
● Análise de apostas de jogos.
● Informações sobre histórico das equipes, resultados de jogos, colocações na tabela,
jogadores, momentos das partidas que determinados pontos ocorrem.
○ Número muito grande de informações e conexões entre as mesmas.
○ Dados sendo atualizados em tempo real.
● Bons modelos trazem chance de retorno nas apostas maior do que zero.
● Normalmente, empresas de apostas punem ou banem usuários que criam bons modelos
de predição de resultados.
● 25% dos americanos possuem múltiplas
doenças crônicas.
● Pessoas com múltiplas doenças crônicas tem
risco maior de mortalidade e de má-qualidade
de vida.
● Philips tem investido cada vez mais na coleta
de dados sobre as pessoas e do ambiente.
● Dados detalhados obtidos em tempo real
(paciente e ambiente) dão uma visão completa
sobre o estado do paciente e permite ao
médico dar um melhor diagnóstico.
Philips HealthCare
Rede de hotéis utiliza Data Science para
aumentar reservas
Rede de hotéis utiliza Data Science para
aumentar reservas
● Informações de clima
● Informações de cancelamentos de
vôos
● Hora do dia
● Localização de hotéis e aeroportos
● Condições de tráfego
Seguradoras
● Análise de fraude de clientes em tempo real
● Mais informações sobre as pessoas e conexões do que antigamente
● Diversas fontes de informações
● Perda financeira para a seguradora muito menor
Spotify
● Milhões de usuários
● Análise de preferências
do consumidor
● Recomendação de
playlists e lançamentos
● Predição dos
ganhadores do Grammy
Awards.
○ 4 de 6 ganhadores
Netflix
● “Existem 33 milhões de
diferentes versões do Netflix.”
● Comportamento de uso para
cada usuário.
● Recomendação de filmes e
séries baseado no histórico e
correlação entre usuários.
● Predição das atividades
futuras dos usuários.
Netflix
● Quando você pausa e retorna.
● Quais dias você assiste.
● Quais horários você assiste.
● Onde você assiste.
● Quando você para de assistir a
uma série.
● Tempo que leva para procura
de um filme e qual o
comportamento nesta
procura.
● Melhores categorias que você
gosta de assistir.
• Interesse em determinar em qual estágio da gravidez estavam seus clientes.
• Dependendo do estágio, determinados itens são mais procurados do que outros.
• Uma semana de gravidez faz diferença, ou seja, precisão é importante.
• Modelos para obter um melhor retorno com cupons de desconto.
• Grande número de dados tanto estruturados quanto não estruturados.
• Pró: Entregar ofertas altamente direcionadas.
• Contra: “Minha filha recebeu isso pelo correio! Ela ainda está no segundo grau, e vocês ficam
enviando para ela cupons para roupas de bebê e berços?!?!”
• A filha estava realmente grávida, mas o pai não sabia.
Quais habilidades para um Cientista de
dados ?
E onde posso encontrá-las ?
Habilidades
Habilidades:
Programação
Linguagens
Linguagem feita para estatísticos.
Amplamente usada no meio
acadêmico.
Forte no mercado, recebe grandes
investimentos.
Diversas bibliotecas estatísticas
prontas, facilita parte da análise
R
Linguagens
Versátil e fácil de aprender.
Comunidade muito forte de
bibliotecas gerais.
Fácil para análise e produção.
Python
Linguagens - Recursos
Aprendendo R com R | Udacity + Facebook -
Data analysis with R | R-bloggers Data Camp -
Intro to R | Coursera - R Programming | R-
Cookbook
Especialização Python ( Universidade de
Michigan) | Python (CodeAcademy) | Python
Class (Google) | Codewars, Codility,
HackerRank
R
Python
Banco de Dados
Grande disponibilidade de SGBD.
PostgreSQL, MongoDB, MySQL, etc
SQL vs NoSQL
Databases | SQL Tutorial
Aquisição e Limpeza de dados
80% do processo é gasto entre
aquisição e limpeza de dados
Inconsistência de dados é algo comum
Sem dados não há Ciência de Dados
Model Building and Validation | Cleaning data in R | Data Mining
Machine Learning
Permite criar modelos complexos e poderosos.
Sistemas de recomendação, Aprendizado
Dinâmico.
Redes Neurais, KNN, Máquinas de vetor suporte.
Intro to Machine Learning | Supervised ML | Unsupervised ML |
Machine Learning especialization | Machine Learning
Algoritmos
Eficiência faz diferença !
Saber implementar algoritmos paralelizáveis.
Algoritmos parte I e II (Princeton) | Algoritmos I e II (Stanford) |
Especialização (UC San Diego)
Habilidades:
Estatística & Matemática
Distribuição e Otimização
Saber qual distribuição representa melhor o problema.
Fatoração matricial.
Autovalores e autovetores.
Métodos para minimizar uma função específica.
MIT - Linear Algebra | Convex Otimization | Intro to Statistics
Visualização de Dados
Comunicação de resultados.
Representação mais que duas dimensões.
Representação de diversas variavéis.
Udacity - Data Visualization and D3.js | Flowing Data
Visualização de Dados
Conhecimento de Domínio
Mercado Financeiro
Saúde
Ecologia
Marketing
Logística
Psicologia
PolíticaBiologia
Esportes
Correlação não é Causalidade !
Faço graduação, como ter tempo?
Adapte seu currículo !
Concluindo
Um cientista de dados é um generalista, não um especialista
Muitas habilidades não triviais para estudar.
Inúmeras oportunidades de criar impacto.
Extremamente desafiador, muito divertido.
É preciso ir além do comum !
Dúvidas?
Obrigado!
Contato: diegocardalves@gmail.com

Palestra Ciência de Dados

  • 1.
    Muito além dos dados: Como osCientistas de Dados estão dominando o mercado global
  • 2.
    Sobre Diego Cardoso Alves- Linkedin: diegocardosoalves Engenheiro da Computação pela Unifei-MG Mestrando em Engenharia da Computação pela Unicamp Engenheiro de Software no Instituto de Pesquisas Eldorado Desenvolvedor Android e entusiasta de Ciência de Dados Artigo publicado na IEEE Services 2016 - San Francisco USA
  • 3.
    O que essapalestra NÃO vai ser ★ Não será uma palestra técnica ★ Não será uma palestra motivacional ★ Você não vai sair daqui um Cientista de Dados
  • 4.
    O que essapalestra vai ser ★ O que é um Cientista de Dados e qual sua importância ★ Cases envolvendo Ciência de Dados ★ As habilidades esperadas de um Cientista de Dados ★ Onde procurar recursos para ir em busca dessas habilidades
  • 5.
    Cientista de Dados Pessoaque é melhor em estatística que qualquer engenheiro de software e melhor em engenharia de software do que qualquer estatístico.
  • 6.
    Cientista de Dados Cientistade Dados é um profissional híbrido, um cientista da computação com habilidades de programação , extração e gerenciamento de dados juntamente com um estatístico que sabe como dar sentido a informações supostamente não relacionadas.
  • 7.
    Rotina de umCientista de Dados Encontrar Problema Buscar Dados Limpar e Explorar Dados Comunicar Resultados Validar Hipótese Estabelecer Hipótese Hipótese Incorreta
  • 8.
    Volume de dados Totalde dados sendo capturados e gravados pelas indústrias dobra a cada 1.2 anos. A Google sozinha processa em média 40 mil queries por segundo. A cada minuto são enviados 204 milhões de emails. A cada minuto são gerados 1.8 milhões de likes no Facebook e enviados 278 mil tweets. Se você gravasse todo conteúdo criado em 1 dia em DVD’s, você poderia empilhá- los e alcançar a lua. Obs: 2 vezes. Youtube recebe 100 horas de vídeo a cada minuto.
  • 9.
  • 10.
  • 11.
  • 12.
    Importância Maior precisão Decisões com maisconfiança Maior eficiência operacional Redução de custos Redução de riscos
  • 13.
    Mudança de mercado Novascorrelações Tendências de negócios no local Prevenção de doenças Detecção de fraudes Combate à criminalidade Recomendações personalizadas
  • 14.
  • 15.
    Alemanha, Copa doMundo ● 12 jogadores ● Parceria SAP e Alemanha ● Análise de dados dos jogadores, performance dos times e estratégias ● Difícil tarefa de analisar dados aparentemente não relacionados
  • 16.
    Starbucks vs Consumidorvs Local ● Análise de localidade ● Análise de preferências do consumidor ● Estudo de tráfego das ruas ● Possibilidade de abrir nova Starbucks próxima à uma existente.
  • 17.
    Apostadores ● Análise deapostas de jogos. ● Informações sobre histórico das equipes, resultados de jogos, colocações na tabela, jogadores, momentos das partidas que determinados pontos ocorrem. ○ Número muito grande de informações e conexões entre as mesmas. ○ Dados sendo atualizados em tempo real. ● Bons modelos trazem chance de retorno nas apostas maior do que zero. ● Normalmente, empresas de apostas punem ou banem usuários que criam bons modelos de predição de resultados.
  • 18.
    ● 25% dosamericanos possuem múltiplas doenças crônicas. ● Pessoas com múltiplas doenças crônicas tem risco maior de mortalidade e de má-qualidade de vida. ● Philips tem investido cada vez mais na coleta de dados sobre as pessoas e do ambiente. ● Dados detalhados obtidos em tempo real (paciente e ambiente) dão uma visão completa sobre o estado do paciente e permite ao médico dar um melhor diagnóstico. Philips HealthCare
  • 19.
    Rede de hotéisutiliza Data Science para aumentar reservas
  • 20.
    Rede de hotéisutiliza Data Science para aumentar reservas ● Informações de clima ● Informações de cancelamentos de vôos ● Hora do dia ● Localização de hotéis e aeroportos ● Condições de tráfego
  • 21.
    Seguradoras ● Análise defraude de clientes em tempo real ● Mais informações sobre as pessoas e conexões do que antigamente ● Diversas fontes de informações ● Perda financeira para a seguradora muito menor
  • 22.
    Spotify ● Milhões deusuários ● Análise de preferências do consumidor ● Recomendação de playlists e lançamentos ● Predição dos ganhadores do Grammy Awards. ○ 4 de 6 ganhadores
  • 23.
    Netflix ● “Existem 33milhões de diferentes versões do Netflix.” ● Comportamento de uso para cada usuário. ● Recomendação de filmes e séries baseado no histórico e correlação entre usuários. ● Predição das atividades futuras dos usuários.
  • 24.
    Netflix ● Quando vocêpausa e retorna. ● Quais dias você assiste. ● Quais horários você assiste. ● Onde você assiste. ● Quando você para de assistir a uma série. ● Tempo que leva para procura de um filme e qual o comportamento nesta procura. ● Melhores categorias que você gosta de assistir.
  • 25.
    • Interesse emdeterminar em qual estágio da gravidez estavam seus clientes. • Dependendo do estágio, determinados itens são mais procurados do que outros. • Uma semana de gravidez faz diferença, ou seja, precisão é importante. • Modelos para obter um melhor retorno com cupons de desconto. • Grande número de dados tanto estruturados quanto não estruturados. • Pró: Entregar ofertas altamente direcionadas. • Contra: “Minha filha recebeu isso pelo correio! Ela ainda está no segundo grau, e vocês ficam enviando para ela cupons para roupas de bebê e berços?!?!” • A filha estava realmente grávida, mas o pai não sabia.
  • 27.
    Quais habilidades paraum Cientista de dados ? E onde posso encontrá-las ?
  • 28.
  • 29.
  • 30.
    Linguagens Linguagem feita paraestatísticos. Amplamente usada no meio acadêmico. Forte no mercado, recebe grandes investimentos. Diversas bibliotecas estatísticas prontas, facilita parte da análise R
  • 31.
    Linguagens Versátil e fácilde aprender. Comunidade muito forte de bibliotecas gerais. Fácil para análise e produção. Python
  • 32.
    Linguagens - Recursos AprendendoR com R | Udacity + Facebook - Data analysis with R | R-bloggers Data Camp - Intro to R | Coursera - R Programming | R- Cookbook Especialização Python ( Universidade de Michigan) | Python (CodeAcademy) | Python Class (Google) | Codewars, Codility, HackerRank R Python
  • 33.
    Banco de Dados Grandedisponibilidade de SGBD. PostgreSQL, MongoDB, MySQL, etc SQL vs NoSQL Databases | SQL Tutorial
  • 34.
    Aquisição e Limpezade dados 80% do processo é gasto entre aquisição e limpeza de dados Inconsistência de dados é algo comum Sem dados não há Ciência de Dados Model Building and Validation | Cleaning data in R | Data Mining
  • 35.
    Machine Learning Permite criarmodelos complexos e poderosos. Sistemas de recomendação, Aprendizado Dinâmico. Redes Neurais, KNN, Máquinas de vetor suporte. Intro to Machine Learning | Supervised ML | Unsupervised ML | Machine Learning especialization | Machine Learning
  • 36.
    Algoritmos Eficiência faz diferença! Saber implementar algoritmos paralelizáveis. Algoritmos parte I e II (Princeton) | Algoritmos I e II (Stanford) | Especialização (UC San Diego)
  • 37.
  • 38.
    Distribuição e Otimização Saberqual distribuição representa melhor o problema. Fatoração matricial. Autovalores e autovetores. Métodos para minimizar uma função específica. MIT - Linear Algebra | Convex Otimization | Intro to Statistics
  • 39.
    Visualização de Dados Comunicaçãode resultados. Representação mais que duas dimensões. Representação de diversas variavéis. Udacity - Data Visualization and D3.js | Flowing Data
  • 40.
    Visualização de Dados Conhecimentode Domínio Mercado Financeiro Saúde Ecologia Marketing Logística Psicologia PolíticaBiologia Esportes
  • 41.
    Correlação não éCausalidade !
  • 42.
    Faço graduação, comoter tempo? Adapte seu currículo !
  • 43.
    Concluindo Um cientista dedados é um generalista, não um especialista Muitas habilidades não triviais para estudar. Inúmeras oportunidades de criar impacto. Extremamente desafiador, muito divertido. É preciso ir além do comum !
  • 44.
  • 45.