SlideShare uma empresa Scribd logo
1 de 45
Muito
além dos
dados:
Como os Cientistas de Dados estão
dominando o mercado global
Sobre
Diego Cardoso Alves - Linkedin: diegocardosoalves
Engenheiro da Computação pela Unifei-MG
Mestrando em Engenharia da Computação pela Unicamp
Engenheiro de Software no Instituto de Pesquisas Eldorado
Desenvolvedor Android e entusiasta de Ciência de Dados
Artigo publicado na IEEE Services 2016 - San Francisco
USA
O que essa palestra NÃO vai ser
★ Não será uma palestra técnica
★ Não será uma palestra motivacional
★ Você não vai sair daqui um Cientista de Dados
O que essa palestra vai ser
★ O que é um Cientista de Dados e qual sua importância
★ Cases envolvendo Ciência de Dados
★ As habilidades esperadas de um Cientista de Dados
★ Onde procurar recursos para ir em busca dessas habilidades
Cientista de Dados
Pessoa que é melhor em estatística que qualquer engenheiro de
software e melhor em engenharia de software do que qualquer
estatístico.
Cientista de Dados
Cientista de Dados é um
profissional híbrido, um
cientista da computação
com habilidades de
programação , extração e
gerenciamento de dados
juntamente com um
estatístico que sabe como
dar sentido a informações
supostamente não
relacionadas.
Rotina de um Cientista de Dados
Encontrar Problema Buscar Dados
Limpar e Explorar
Dados
Comunicar
Resultados
Validar Hipótese
Estabelecer
Hipótese
Hipótese
Incorreta
Volume de dados
Total de dados
sendo capturados
e gravados pelas
indústrias dobra
a cada 1.2 anos.
A Google sozinha
processa em
média 40 mil
queries por
segundo.
A cada minuto
são enviados 204
milhões de
emails.
A cada minuto
são gerados 1.8
milhões de likes
no Facebook e
enviados 278 mil
tweets.
Se você gravasse
todo conteúdo
criado em 1 dia
em DVD’s, você
poderia empilhá-
los e alcançar a
lua. Obs: 2 vezes.
Youtube recebe
100 horas de
vídeo a cada
minuto.
Volume de dados
Filtragem de dados
Desafios
Dados não
estruturados
Processamento
necessário
Visualização da
informação
Privacidade de
dados
Importância
Maior precisão
Decisões com
mais confiança
Maior eficiência operacional
Redução de custos
Redução de riscos
Mudança de mercado
Novas correlações
Tendências de negócios no local
Prevenção de doenças
Detecção de fraudes
Combate à criminalidade
Recomendações personalizadas
Cases de Ciência de dados
Alemanha, Copa do Mundo
● 12 jogadores
● Parceria SAP e
Alemanha
● Análise de dados dos
jogadores, performance
dos times e estratégias
● Difícil tarefa de analisar
dados aparentemente
não relacionados
Starbucks vs Consumidor vs Local
● Análise de localidade
● Análise de preferências
do consumidor
● Estudo de tráfego das
ruas
● Possibilidade de abrir
nova Starbucks próxima
à uma existente.
Apostadores
● Análise de apostas de jogos.
● Informações sobre histórico das equipes, resultados de jogos, colocações na tabela,
jogadores, momentos das partidas que determinados pontos ocorrem.
○ Número muito grande de informações e conexões entre as mesmas.
○ Dados sendo atualizados em tempo real.
● Bons modelos trazem chance de retorno nas apostas maior do que zero.
● Normalmente, empresas de apostas punem ou banem usuários que criam bons modelos
de predição de resultados.
● 25% dos americanos possuem múltiplas
doenças crônicas.
● Pessoas com múltiplas doenças crônicas tem
risco maior de mortalidade e de má-qualidade
de vida.
● Philips tem investido cada vez mais na coleta
de dados sobre as pessoas e do ambiente.
● Dados detalhados obtidos em tempo real
(paciente e ambiente) dão uma visão completa
sobre o estado do paciente e permite ao
médico dar um melhor diagnóstico.
Philips HealthCare
Rede de hotéis utiliza Data Science para
aumentar reservas
Rede de hotéis utiliza Data Science para
aumentar reservas
● Informações de clima
● Informações de cancelamentos de
vôos
● Hora do dia
● Localização de hotéis e aeroportos
● Condições de tráfego
Seguradoras
● Análise de fraude de clientes em tempo real
● Mais informações sobre as pessoas e conexões do que antigamente
● Diversas fontes de informações
● Perda financeira para a seguradora muito menor
Spotify
● Milhões de usuários
● Análise de preferências
do consumidor
● Recomendação de
playlists e lançamentos
● Predição dos
ganhadores do Grammy
Awards.
○ 4 de 6 ganhadores
Netflix
● “Existem 33 milhões de
diferentes versões do Netflix.”
● Comportamento de uso para
cada usuário.
● Recomendação de filmes e
séries baseado no histórico e
correlação entre usuários.
● Predição das atividades
futuras dos usuários.
Netflix
● Quando você pausa e retorna.
● Quais dias você assiste.
● Quais horários você assiste.
● Onde você assiste.
● Quando você para de assistir a
uma série.
● Tempo que leva para procura
de um filme e qual o
comportamento nesta
procura.
● Melhores categorias que você
gosta de assistir.
• Interesse em determinar em qual estágio da gravidez estavam seus clientes.
• Dependendo do estágio, determinados itens são mais procurados do que outros.
• Uma semana de gravidez faz diferença, ou seja, precisão é importante.
• Modelos para obter um melhor retorno com cupons de desconto.
• Grande número de dados tanto estruturados quanto não estruturados.
• Pró: Entregar ofertas altamente direcionadas.
• Contra: “Minha filha recebeu isso pelo correio! Ela ainda está no segundo grau, e vocês ficam
enviando para ela cupons para roupas de bebê e berços?!?!”
• A filha estava realmente grávida, mas o pai não sabia.
Quais habilidades para um Cientista de
dados ?
E onde posso encontrá-las ?
Habilidades
Habilidades:
Programação
Linguagens
Linguagem feita para estatísticos.
Amplamente usada no meio
acadêmico.
Forte no mercado, recebe grandes
investimentos.
Diversas bibliotecas estatísticas
prontas, facilita parte da análise
R
Linguagens
Versátil e fácil de aprender.
Comunidade muito forte de
bibliotecas gerais.
Fácil para análise e produção.
Python
Linguagens - Recursos
Aprendendo R com R | Udacity + Facebook -
Data analysis with R | R-bloggers Data Camp -
Intro to R | Coursera - R Programming | R-
Cookbook
Especialização Python ( Universidade de
Michigan) | Python (CodeAcademy) | Python
Class (Google) | Codewars, Codility,
HackerRank
R
Python
Banco de Dados
Grande disponibilidade de SGBD.
PostgreSQL, MongoDB, MySQL, etc
SQL vs NoSQL
Databases | SQL Tutorial
Aquisição e Limpeza de dados
80% do processo é gasto entre
aquisição e limpeza de dados
Inconsistência de dados é algo comum
Sem dados não há Ciência de Dados
Model Building and Validation | Cleaning data in R | Data Mining
Machine Learning
Permite criar modelos complexos e poderosos.
Sistemas de recomendação, Aprendizado
Dinâmico.
Redes Neurais, KNN, Máquinas de vetor suporte.
Intro to Machine Learning | Supervised ML | Unsupervised ML |
Machine Learning especialization | Machine Learning
Algoritmos
Eficiência faz diferença !
Saber implementar algoritmos paralelizáveis.
Algoritmos parte I e II (Princeton) | Algoritmos I e II (Stanford) |
Especialização (UC San Diego)
Habilidades:
Estatística & Matemática
Distribuição e Otimização
Saber qual distribuição representa melhor o problema.
Fatoração matricial.
Autovalores e autovetores.
Métodos para minimizar uma função específica.
MIT - Linear Algebra | Convex Otimization | Intro to Statistics
Visualização de Dados
Comunicação de resultados.
Representação mais que duas dimensões.
Representação de diversas variavéis.
Udacity - Data Visualization and D3.js | Flowing Data
Visualização de Dados
Conhecimento de Domínio
Mercado Financeiro
Saúde
Ecologia
Marketing
Logística
Psicologia
PolíticaBiologia
Esportes
Correlação não é Causalidade !
Faço graduação, como ter tempo?
Adapte seu currículo !
Concluindo
Um cientista de dados é um generalista, não um especialista
Muitas habilidades não triviais para estudar.
Inúmeras oportunidades de criar impacto.
Extremamente desafiador, muito divertido.
É preciso ir além do comum !
Dúvidas?
Obrigado!
Contato: diegocardalves@gmail.com

Mais conteúdo relacionado

Mais procurados

Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
1.Introdução Banco de Dados
1.Introdução Banco de Dados1.Introdução Banco de Dados
1.Introdução Banco de Dadosvini_campos
 
Fundamentos de sistemas de informação
Fundamentos de sistemas de informaçãoFundamentos de sistemas de informação
Fundamentos de sistemas de informaçãoLeonardo Melo Santos
 
LGPD - LEI GERAL DE PROTEÇÃO DE DADOS - SGPD - SISTEMA DE GESTÃO DE PROTEÇÃO ...
LGPD - LEI GERAL DE PROTEÇÃO DE DADOS - SGPD - SISTEMA DE GESTÃO DE PROTEÇÃO ...LGPD - LEI GERAL DE PROTEÇÃO DE DADOS - SGPD - SISTEMA DE GESTÃO DE PROTEÇÃO ...
LGPD - LEI GERAL DE PROTEÇÃO DE DADOS - SGPD - SISTEMA DE GESTÃO DE PROTEÇÃO ...Wellington Monaco
 
08 modelo conceitual_fisico_logico_er
08 modelo conceitual_fisico_logico_er08 modelo conceitual_fisico_logico_er
08 modelo conceitual_fisico_logico_erWalter Alves Pereira
 
Banco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - ApresentaçãoBanco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - ApresentaçãoLeinylson Fontinele
 
Mer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoMer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoRademaker Siena
 
Introdução à Sistemas de Informação
Introdução à Sistemas de InformaçãoIntrodução à Sistemas de Informação
Introdução à Sistemas de InformaçãoÁlvaro Farias Pinheiro
 
Banco de Dados - Introdução - Projeto de Banco de Dados - DER
Banco de Dados - Introdução - Projeto de Banco de Dados - DERBanco de Dados - Introdução - Projeto de Banco de Dados - DER
Banco de Dados - Introdução - Projeto de Banco de Dados - DERRangel Javier
 
Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02thomasdacosta
 
Ihc2016.2 aula 1 introdução a ihc
Ihc2016.2 aula 1 introdução a ihcIhc2016.2 aula 1 introdução a ihc
Ihc2016.2 aula 1 introdução a ihcTicianne Darin
 
Banco de Dados (parte 01)
Banco de Dados (parte 01)Banco de Dados (parte 01)
Banco de Dados (parte 01)Alex Camargo
 
Aula 1 - Introdução ao Conteúdo de Banco de Dados
Aula 1 - Introdução ao Conteúdo de Banco de DadosAula 1 - Introdução ao Conteúdo de Banco de Dados
Aula 1 - Introdução ao Conteúdo de Banco de DadosHenrique Nunweiler
 
Design Thinking | Mapa da empatia atualizado
Design Thinking | Mapa da empatia atualizadoDesign Thinking | Mapa da empatia atualizado
Design Thinking | Mapa da empatia atualizadoColaborativismo
 

Mais procurados (20)

Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
1.Introdução Banco de Dados
1.Introdução Banco de Dados1.Introdução Banco de Dados
1.Introdução Banco de Dados
 
Fundamentos de sistemas de informação
Fundamentos de sistemas de informaçãoFundamentos de sistemas de informação
Fundamentos de sistemas de informação
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
LGPD - LEI GERAL DE PROTEÇÃO DE DADOS - SGPD - SISTEMA DE GESTÃO DE PROTEÇÃO ...
LGPD - LEI GERAL DE PROTEÇÃO DE DADOS - SGPD - SISTEMA DE GESTÃO DE PROTEÇÃO ...LGPD - LEI GERAL DE PROTEÇÃO DE DADOS - SGPD - SISTEMA DE GESTÃO DE PROTEÇÃO ...
LGPD - LEI GERAL DE PROTEÇÃO DE DADOS - SGPD - SISTEMA DE GESTÃO DE PROTEÇÃO ...
 
08 modelo conceitual_fisico_logico_er
08 modelo conceitual_fisico_logico_er08 modelo conceitual_fisico_logico_er
08 modelo conceitual_fisico_logico_er
 
Banco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - ApresentaçãoBanco de Dados II Aula 01 - Apresentação
Banco de Dados II Aula 01 - Apresentação
 
Data science
Data scienceData science
Data science
 
Mer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoMer - Modelo Entidade Relacionamento
Mer - Modelo Entidade Relacionamento
 
Introdução à Sistemas de Informação
Introdução à Sistemas de InformaçãoIntrodução à Sistemas de Informação
Introdução à Sistemas de Informação
 
Banco de Dados - Introdução - Projeto de Banco de Dados - DER
Banco de Dados - Introdução - Projeto de Banco de Dados - DERBanco de Dados - Introdução - Projeto de Banco de Dados - DER
Banco de Dados - Introdução - Projeto de Banco de Dados - DER
 
Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02Estrutura de Dados - Aula 02
Estrutura de Dados - Aula 02
 
Big data
Big dataBig data
Big data
 
Ihc2016.2 aula 1 introdução a ihc
Ihc2016.2 aula 1 introdução a ihcIhc2016.2 aula 1 introdução a ihc
Ihc2016.2 aula 1 introdução a ihc
 
Banco de Dados (parte 01)
Banco de Dados (parte 01)Banco de Dados (parte 01)
Banco de Dados (parte 01)
 
Aula 1 - Introdução ao Conteúdo de Banco de Dados
Aula 1 - Introdução ao Conteúdo de Banco de DadosAula 1 - Introdução ao Conteúdo de Banco de Dados
Aula 1 - Introdução ao Conteúdo de Banco de Dados
 
Qué es la ciencia de datos.pdf
Qué es la ciencia de datos.pdfQué es la ciencia de datos.pdf
Qué es la ciencia de datos.pdf
 
Tipos de dados em MySQL
Tipos de dados em MySQLTipos de dados em MySQL
Tipos de dados em MySQL
 
Design Thinking | Mapa da empatia atualizado
Design Thinking | Mapa da empatia atualizadoDesign Thinking | Mapa da empatia atualizado
Design Thinking | Mapa da empatia atualizado
 
Introduction to data science
Introduction to data scienceIntroduction to data science
Introduction to data science
 

Semelhante a Palestra Ciência de Dados

Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Big data muito alem dos dados
Big data muito alem dos dadosBig data muito alem dos dados
Big data muito alem dos dadoscardoso80
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 
First Big Data Week
First Big Data Week First Big Data Week
First Big Data Week Hélio Silva
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...tdc-globalcode
 
Demonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoDemonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoRafa Spoladore
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCRenan Moreira de Oliveira
 
Data Science Qmeeting 2018
Data Science Qmeeting 2018Data Science Qmeeting 2018
Data Science Qmeeting 2018Roberto Oliveira
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de DadosJoão Pedro Albino
 
Ciencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeCiencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeJohn Lemos Forman
 
Introdução à Neo4j
Introdução à Neo4j Introdução à Neo4j
Introdução à Neo4j Neo4j
 
Análise de Dados: Padrões no Consumo de Conteúdo
Análise de Dados: Padrões no Consumo de ConteúdoAnálise de Dados: Padrões no Consumo de Conteúdo
Análise de Dados: Padrões no Consumo de ConteúdoRafa Spoladore
 

Semelhante a Palestra Ciência de Dados (20)

Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Data Science For Dummies From a Dummy
Data Science For Dummies From a DummyData Science For Dummies From a Dummy
Data Science For Dummies From a Dummy
 
Big data muito alem dos dados
Big data muito alem dos dadosBig data muito alem dos dados
Big data muito alem dos dados
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
First Big Data Week
First Big Data Week First Big Data Week
First Big Data Week
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...
 
Reclame_Aqui
Reclame_AquiReclame_Aqui
Reclame_Aqui
 
Demonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoDemonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismo
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDC
 
Data Science Qmeeting 2018
Data Science Qmeeting 2018Data Science Qmeeting 2018
Data Science Qmeeting 2018
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de Dados
 
Ciencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeCiencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividade
 
Introdução à Neo4j
Introdução à Neo4j Introdução à Neo4j
Introdução à Neo4j
 
Análise de Dados: Padrões no Consumo de Conteúdo
Análise de Dados: Padrões no Consumo de ConteúdoAnálise de Dados: Padrões no Consumo de Conteúdo
Análise de Dados: Padrões no Consumo de Conteúdo
 

Palestra Ciência de Dados

  • 1. Muito além dos dados: Como os Cientistas de Dados estão dominando o mercado global
  • 2. Sobre Diego Cardoso Alves - Linkedin: diegocardosoalves Engenheiro da Computação pela Unifei-MG Mestrando em Engenharia da Computação pela Unicamp Engenheiro de Software no Instituto de Pesquisas Eldorado Desenvolvedor Android e entusiasta de Ciência de Dados Artigo publicado na IEEE Services 2016 - San Francisco USA
  • 3. O que essa palestra NÃO vai ser ★ Não será uma palestra técnica ★ Não será uma palestra motivacional ★ Você não vai sair daqui um Cientista de Dados
  • 4. O que essa palestra vai ser ★ O que é um Cientista de Dados e qual sua importância ★ Cases envolvendo Ciência de Dados ★ As habilidades esperadas de um Cientista de Dados ★ Onde procurar recursos para ir em busca dessas habilidades
  • 5. Cientista de Dados Pessoa que é melhor em estatística que qualquer engenheiro de software e melhor em engenharia de software do que qualquer estatístico.
  • 6. Cientista de Dados Cientista de Dados é um profissional híbrido, um cientista da computação com habilidades de programação , extração e gerenciamento de dados juntamente com um estatístico que sabe como dar sentido a informações supostamente não relacionadas.
  • 7. Rotina de um Cientista de Dados Encontrar Problema Buscar Dados Limpar e Explorar Dados Comunicar Resultados Validar Hipótese Estabelecer Hipótese Hipótese Incorreta
  • 8. Volume de dados Total de dados sendo capturados e gravados pelas indústrias dobra a cada 1.2 anos. A Google sozinha processa em média 40 mil queries por segundo. A cada minuto são enviados 204 milhões de emails. A cada minuto são gerados 1.8 milhões de likes no Facebook e enviados 278 mil tweets. Se você gravasse todo conteúdo criado em 1 dia em DVD’s, você poderia empilhá- los e alcançar a lua. Obs: 2 vezes. Youtube recebe 100 horas de vídeo a cada minuto.
  • 12. Importância Maior precisão Decisões com mais confiança Maior eficiência operacional Redução de custos Redução de riscos
  • 13. Mudança de mercado Novas correlações Tendências de negócios no local Prevenção de doenças Detecção de fraudes Combate à criminalidade Recomendações personalizadas
  • 14. Cases de Ciência de dados
  • 15. Alemanha, Copa do Mundo ● 12 jogadores ● Parceria SAP e Alemanha ● Análise de dados dos jogadores, performance dos times e estratégias ● Difícil tarefa de analisar dados aparentemente não relacionados
  • 16. Starbucks vs Consumidor vs Local ● Análise de localidade ● Análise de preferências do consumidor ● Estudo de tráfego das ruas ● Possibilidade de abrir nova Starbucks próxima à uma existente.
  • 17. Apostadores ● Análise de apostas de jogos. ● Informações sobre histórico das equipes, resultados de jogos, colocações na tabela, jogadores, momentos das partidas que determinados pontos ocorrem. ○ Número muito grande de informações e conexões entre as mesmas. ○ Dados sendo atualizados em tempo real. ● Bons modelos trazem chance de retorno nas apostas maior do que zero. ● Normalmente, empresas de apostas punem ou banem usuários que criam bons modelos de predição de resultados.
  • 18. ● 25% dos americanos possuem múltiplas doenças crônicas. ● Pessoas com múltiplas doenças crônicas tem risco maior de mortalidade e de má-qualidade de vida. ● Philips tem investido cada vez mais na coleta de dados sobre as pessoas e do ambiente. ● Dados detalhados obtidos em tempo real (paciente e ambiente) dão uma visão completa sobre o estado do paciente e permite ao médico dar um melhor diagnóstico. Philips HealthCare
  • 19. Rede de hotéis utiliza Data Science para aumentar reservas
  • 20. Rede de hotéis utiliza Data Science para aumentar reservas ● Informações de clima ● Informações de cancelamentos de vôos ● Hora do dia ● Localização de hotéis e aeroportos ● Condições de tráfego
  • 21. Seguradoras ● Análise de fraude de clientes em tempo real ● Mais informações sobre as pessoas e conexões do que antigamente ● Diversas fontes de informações ● Perda financeira para a seguradora muito menor
  • 22. Spotify ● Milhões de usuários ● Análise de preferências do consumidor ● Recomendação de playlists e lançamentos ● Predição dos ganhadores do Grammy Awards. ○ 4 de 6 ganhadores
  • 23. Netflix ● “Existem 33 milhões de diferentes versões do Netflix.” ● Comportamento de uso para cada usuário. ● Recomendação de filmes e séries baseado no histórico e correlação entre usuários. ● Predição das atividades futuras dos usuários.
  • 24. Netflix ● Quando você pausa e retorna. ● Quais dias você assiste. ● Quais horários você assiste. ● Onde você assiste. ● Quando você para de assistir a uma série. ● Tempo que leva para procura de um filme e qual o comportamento nesta procura. ● Melhores categorias que você gosta de assistir.
  • 25. • Interesse em determinar em qual estágio da gravidez estavam seus clientes. • Dependendo do estágio, determinados itens são mais procurados do que outros. • Uma semana de gravidez faz diferença, ou seja, precisão é importante. • Modelos para obter um melhor retorno com cupons de desconto. • Grande número de dados tanto estruturados quanto não estruturados. • Pró: Entregar ofertas altamente direcionadas. • Contra: “Minha filha recebeu isso pelo correio! Ela ainda está no segundo grau, e vocês ficam enviando para ela cupons para roupas de bebê e berços?!?!” • A filha estava realmente grávida, mas o pai não sabia.
  • 26.
  • 27. Quais habilidades para um Cientista de dados ? E onde posso encontrá-las ?
  • 30. Linguagens Linguagem feita para estatísticos. Amplamente usada no meio acadêmico. Forte no mercado, recebe grandes investimentos. Diversas bibliotecas estatísticas prontas, facilita parte da análise R
  • 31. Linguagens Versátil e fácil de aprender. Comunidade muito forte de bibliotecas gerais. Fácil para análise e produção. Python
  • 32. Linguagens - Recursos Aprendendo R com R | Udacity + Facebook - Data analysis with R | R-bloggers Data Camp - Intro to R | Coursera - R Programming | R- Cookbook Especialização Python ( Universidade de Michigan) | Python (CodeAcademy) | Python Class (Google) | Codewars, Codility, HackerRank R Python
  • 33. Banco de Dados Grande disponibilidade de SGBD. PostgreSQL, MongoDB, MySQL, etc SQL vs NoSQL Databases | SQL Tutorial
  • 34. Aquisição e Limpeza de dados 80% do processo é gasto entre aquisição e limpeza de dados Inconsistência de dados é algo comum Sem dados não há Ciência de Dados Model Building and Validation | Cleaning data in R | Data Mining
  • 35. Machine Learning Permite criar modelos complexos e poderosos. Sistemas de recomendação, Aprendizado Dinâmico. Redes Neurais, KNN, Máquinas de vetor suporte. Intro to Machine Learning | Supervised ML | Unsupervised ML | Machine Learning especialization | Machine Learning
  • 36. Algoritmos Eficiência faz diferença ! Saber implementar algoritmos paralelizáveis. Algoritmos parte I e II (Princeton) | Algoritmos I e II (Stanford) | Especialização (UC San Diego)
  • 38. Distribuição e Otimização Saber qual distribuição representa melhor o problema. Fatoração matricial. Autovalores e autovetores. Métodos para minimizar uma função específica. MIT - Linear Algebra | Convex Otimization | Intro to Statistics
  • 39. Visualização de Dados Comunicação de resultados. Representação mais que duas dimensões. Representação de diversas variavéis. Udacity - Data Visualization and D3.js | Flowing Data
  • 40. Visualização de Dados Conhecimento de Domínio Mercado Financeiro Saúde Ecologia Marketing Logística Psicologia PolíticaBiologia Esportes
  • 41. Correlação não é Causalidade !
  • 42. Faço graduação, como ter tempo? Adapte seu currículo !
  • 43. Concluindo Um cientista de dados é um generalista, não um especialista Muitas habilidades não triviais para estudar. Inúmeras oportunidades de criar impacto. Extremamente desafiador, muito divertido. É preciso ir além do comum !