SlideShare uma empresa Scribd logo
1 de 34
Baixar para ler offline
Ciência de Dados:
a revolução na tomada de decisões
Quem eu sou?
● CDO na CQuantt - Responsável por conduzir
projetos de Ciência de Dados e Machine
Learning
● Pesquisador na área de Deep Learning - UFG
● Community Manager do Data Hackers
#estatistica #machineLearning #spark
#python #deepLearning #tensorFlow
#bigData #analytics
/marlesson-santana-25019358/
/marlesson
Marlesson Santana - marlesson@cquantt.com
Cenário e transformações na sociedade...
● Na Revolução Agrícola quem tinha terra
tinha poder
● Na Revolução Industrial quem tinha os
meios de produção tinha poder
● Na Revolução da Informática quem tem
informação detém o poder
O dado é o novo petróleo...
… em 2018 a cada 60 segundos:
crescimento dos dados nos próximos anos...
O “Data Age 2025”, estudo realizado pela IDC e Seagate, aponta um
crescimento exorbitante no volume de dados em todo o mundo até 2025.
crescimento dos dados nos próximos anos...
Empresas como
Google, Amazon,
Facebook etc. já
estão minerando
informação nesses
dados a muito tempo.
Data Science
“Ciência de Dados é a prática de transformar
dados brutos em insights de negócio
utilizando métodos científicos.”
Data Science
A área de Data Science está
em grande expansão devido
a alguns fatores:
● Disponibilidade dos
dados
● Custo computacional
Data Science
Empresas como Nubank,
Itaú, Ifood e Globo.com
estão com vagas
permantentes em Ciência de
Dados.
Profissionais de dados são altamente requisitados e estão em falta no
mercado.
Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
https://exame.abril.com.br/pme/como-a-netflix-sabia-que-house-of-cards-seria-um-sucesso/
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
Aplicações de Data Science
● Sistemas de Recomendação
● Análise de Crédito
● Identificação de Fraudes
● Marketing Direcionado
● Logística
● Saúde
● ...
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
Aplicações de Data Science
Dados
Diferentes fontes de
dados, interna e externas
sobre o problema.
3
Informação
Geração de insights e
previsões do problema.
2
Decisões
Decisões baseado em
dados.
1
A área de Data Science é transversal dentro de qualquer empresa e atende
todas os setores (financeiro, logístico, comunicação..).
Profissionais de Dados
“Qual o perfil do profissional que trabalha
com dados?”
Profissionais de Dados
Profissionais de Dados
● Coleta de dados
● Infraestrutura de
armazenamento
● Qualidade dos dados
#sql, #nosql, #ETL #bigdata
#python #cloud
Engenheiro de Dados Cientista de Dados
● Análise estatística e ML
● Criação de Modelos
● Visualização dos resultados
● Geração de insights
#estatística #python #r
#machinelearning #dataviz
Utiliza técnicas estatísticas
e de ML para analisar e gerar
insights e predições nos
dados
Engenheiro de
Machine Learning
● Operacionalizar modelos
● Implementar modelos
escaláveis
● Integração
#matemática #machinelearning
#cloud #MLops
Profissionais de Dados
Cientista de Dados
● Análise estatística e ML
● Criação de Modelos
● Visualização dos resultados
● Geração de insights
#estatística #python #r
#machinelearning #dataviz
O cientista de dados não precisa saber tudo da área de Inteligência
Artificial, apenas os métodos e algoritmos de extração de padrões nos
dados (ML).
Profissionais de Dados
Cientista de Dados
● Análise estatística e ML
● Criação de Modelos
● Visualização dos resultados
● Geração de insights
#estatística #python #r
#machinelearning #dataviz
O modelo é a representação matemática dos dados, a partir do modelo é
possível extrair os padrões nos dados para que esses padrões possam ser
utilizados na resolução de problemas..
Profissionais de Dados
Cientista de Dados
● Análise estatística e ML
● Transformação dos dados
● Visualização dos resultados
● Geração de insights
#estatística #python #r
#machinelearning #dataviz
A visualização da informação facilita o entendimento e é pré-requisito para
a tomada de decisão em qualquer projeto
Profissionais de Dados
Cientista de Dados
● Análise estatística e ML
● Criação de Modelos
● Visualização dos resultados
● Geração de insights
#estatística #python #r
#machinelearning #dataviz
Um cientista de dados gasta aproximadamente ~80% do tempo de uma
análise coletando, limpando e organizando dados.
Pipeline de Ciência de Dados
Análise de Negócio Coleta de Dados Análise dos Dados
Avaliação e
Implantação do
Insight
Toda análise precisa de
um objetivo bem
definido e uma métrica.
A análise deve ser
realizada em conjunto
com a área de negócio
para evitar a perda de
foco do analista e
facilitar a geração de
insights.
A fonte de dados pode
ser diversas, desde redes
sociais, bancos
relacionais, csv.. etc. É
importante que todos os
dados necessários para
a análise estejam
disponíveis.
Métodos estatísticos e
de Inteligência artificial
são utilizados para
extração de padrões.
Geralmente é necessário
combinar múltiplas
fontes de dados e
transformar variáveis
para extração de
padrões.
Uma análise deve servir
de base para a mudança
de processos que
geralmente visam
retorno financeiro. É
necessário validar se as
decisões tomadas
surtem efeitos reais,
abrindo portas para
outras análises.
Cientista de Dados
Engenheiro de Dados Cientista de Dados
Engenheiro de Dados Cientista de Dados Cientista de Dados
Engenheiro de ML
Pipeline de Ciência de Dados
Existem diferentes metodologias que podem ser utilizadas para projetos
de DS. CRISP-DM e KDD são as mais conhecidas:
CRISP-DM KDD
Pipeline de Ciência de Dados
Definido3
Dados coletados, com indicadores validados e orientados à cultura de dados.
Decisões pautadas em sistemas de monitoramento e BI.
O sucesso e aplicação de projetos de Ciência de Dados depende muito do
nível de maturidade em dados das empresas:
Empírico1 Ambiente caótico. Sem coleta de dados e decisões empíricas individualizadas
4
Dados coletados e enriquecidos. Geração automáticas de análises preditivas e
prescritivas. Decisões baseadas em métricas.
Otimizado
2
A maioria das empresas brasileiras. Dados coletados sem uma arquitetura de
informação orientada a dados.
Adhoc
Como se tornar um profissional de dados?
Dicas para iniciantes na área
● Estude estatística e cálculo. Não existe análise de dados sem
conhecimento em estatística e não existe Machine Learning sem
cálculo.
● Aprenda uma linguagem de programação voltada à análise de
dados e machine learning como R ou Python.
● Aprenda a usar bem pelo menos uma biblioteca de machine learning
como scikit-learn, spark, H2O…
● Utilize plataformas como Kaggle, fóruns e comunidades para trocar
experiência e aprender análises públicas.
Dicas para iniciantes na área
● Outras ferramentas e plataformas de Dados:
○ Jupyter Notebook -https://jupyter.org/
○ scikit-learn - https://scikit-learn.org/
○ Spark - https://spark.apache.org/
○ Plataformas de ML: RapidMiner , KNIME, Weka, H2o.
○ DataViz: pandas, matplotlib, D3, seaborn
○ Cloud: Azure, GCP e AWS
Faça parte da maior comunidade de Dados do Brasil
https://datahackers.com.br/
Dúvidas

Mais conteúdo relacionado

Mais procurados

Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Banco de Dados I - Aula 05 - Banco de Dados Relacional (Modelo Conceitual)
Banco de Dados I - Aula 05 - Banco de Dados Relacional (Modelo Conceitual)Banco de Dados I - Aula 05 - Banco de Dados Relacional (Modelo Conceitual)
Banco de Dados I - Aula 05 - Banco de Dados Relacional (Modelo Conceitual)Leinylson Fontinele
 
Aula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosAula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosRafael Albani
 
Dicas básicas sobre LGPD - Lei Geral de Proteção de Dados Pessoais
Dicas básicas sobre LGPD - Lei Geral de Proteção de Dados PessoaisDicas básicas sobre LGPD - Lei Geral de Proteção de Dados Pessoais
Dicas básicas sobre LGPD - Lei Geral de Proteção de Dados PessoaisRosalia Ometto
 
Aula - Introdução a Engenharia de Software
Aula - Introdução a Engenharia de SoftwareAula - Introdução a Engenharia de Software
Aula - Introdução a Engenharia de SoftwareCloves da Rocha
 
Conscientização sobre a Segurança da Informação
Conscientização sobre a Segurança da InformaçãoConscientização sobre a Segurança da Informação
Conscientização sobre a Segurança da InformaçãoJean Israel B. Feijó
 
Introdução à Sistemas de Informação
Introdução à Sistemas de InformaçãoIntrodução à Sistemas de Informação
Introdução à Sistemas de InformaçãoÁlvaro Farias Pinheiro
 
Por que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BIPor que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BILeonardo Karpinski
 
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)Marcus Araújo
 
Plano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da InformaçãoPlano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da InformaçãoHelio Rebouças
 
Desenhando Componentes de Software com UML
Desenhando Componentes de Software com UMLDesenhando Componentes de Software com UML
Desenhando Componentes de Software com UMLRildo (@rildosan) Santos
 

Mais procurados (20)

Big data
Big dataBig data
Big data
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 
Internet das Coisas
Internet das CoisasInternet das Coisas
Internet das Coisas
 
Banco de dados
Banco de dadosBanco de dados
Banco de dados
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 
Governança de TI - Aula02 - Conceitos em Governanca corporativa
Governança de TI - Aula02 - Conceitos em Governanca corporativaGovernança de TI - Aula02 - Conceitos em Governanca corporativa
Governança de TI - Aula02 - Conceitos em Governanca corporativa
 
Banco de Dados I - Aula 05 - Banco de Dados Relacional (Modelo Conceitual)
Banco de Dados I - Aula 05 - Banco de Dados Relacional (Modelo Conceitual)Banco de Dados I - Aula 05 - Banco de Dados Relacional (Modelo Conceitual)
Banco de Dados I - Aula 05 - Banco de Dados Relacional (Modelo Conceitual)
 
Banco De Dados
Banco De DadosBanco De Dados
Banco De Dados
 
Aula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosAula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de Dados
 
Big Data
Big DataBig Data
Big Data
 
Dicas básicas sobre LGPD - Lei Geral de Proteção de Dados Pessoais
Dicas básicas sobre LGPD - Lei Geral de Proteção de Dados PessoaisDicas básicas sobre LGPD - Lei Geral de Proteção de Dados Pessoais
Dicas básicas sobre LGPD - Lei Geral de Proteção de Dados Pessoais
 
Aula 6 - Cardinalidade
Aula 6 - CardinalidadeAula 6 - Cardinalidade
Aula 6 - Cardinalidade
 
Aula - Introdução a Engenharia de Software
Aula - Introdução a Engenharia de SoftwareAula - Introdução a Engenharia de Software
Aula - Introdução a Engenharia de Software
 
Conscientização sobre a Segurança da Informação
Conscientização sobre a Segurança da InformaçãoConscientização sobre a Segurança da Informação
Conscientização sobre a Segurança da Informação
 
Introdução à Sistemas de Informação
Introdução à Sistemas de InformaçãoIntrodução à Sistemas de Informação
Introdução à Sistemas de Informação
 
Por que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BIPor que o Microsoft Power BI? Um breve overview sobre BI
Por que o Microsoft Power BI? Um breve overview sobre BI
 
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)
 
Plano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da InformaçãoPlano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da Informação
 
Desenhando Componentes de Software com UML
Desenhando Componentes de Software com UMLDesenhando Componentes de Software com UML
Desenhando Componentes de Software com UML
 

Semelhante a Ciência de Dados: a revolução na tomada de decisões

Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 
Ciencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeCiencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeJohn Lemos Forman
 
Tome Decisões + Inteligentes!
Tome Decisões + Inteligentes!Tome Decisões + Inteligentes!
Tome Decisões + Inteligentes!Leonardo Couto
 
Wiseminer data intelligence 2015 01
Wiseminer data intelligence 2015 01Wiseminer data intelligence 2015 01
Wiseminer data intelligence 2015 01Leonardo Couto
 
Transforme Dados em Vantagem Competitiva
Transforme Dados em Vantagem CompetitivaTransforme Dados em Vantagem Competitiva
Transforme Dados em Vantagem CompetitivaLeonardo Couto
 
Data Science - Big Data - Data Driven
Data Science - Big Data - Data DrivenData Science - Big Data - Data Driven
Data Science - Big Data - Data DrivenDaniela Brauner
 
Wiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data PreparationWiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data PreparationLeonardo Couto
 
Wiseminer Data Blending, Data Preparation & Analytics
Wiseminer Data Blending, Data Preparation & AnalyticsWiseminer Data Blending, Data Preparation & Analytics
Wiseminer Data Blending, Data Preparation & AnalyticsLeonardo Couto
 
13 11-26 construindo uma estrategia de big data para telecom - sas - luiz pires
13 11-26 construindo uma estrategia de big data para telecom - sas - luiz pires13 11-26 construindo uma estrategia de big data para telecom - sas - luiz pires
13 11-26 construindo uma estrategia de big data para telecom - sas - luiz piresCarvalho Comunicação
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
CIO Global Summit Rio - Desmitificando big data
CIO Global Summit Rio -  Desmitificando big dataCIO Global Summit Rio -  Desmitificando big data
CIO Global Summit Rio - Desmitificando big dataCezar Taurion
 
Capitulo-01-Ciencia-de-Dados-Conceitos-Básicos.pptx
Capitulo-01-Ciencia-de-Dados-Conceitos-Básicos.pptxCapitulo-01-Ciencia-de-Dados-Conceitos-Básicos.pptx
Capitulo-01-Ciencia-de-Dados-Conceitos-Básicos.pptxVitorFaust
 
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações FaBIana Ravanêda Vercezes
 
Big data em 1h: conceitos, aplicações e o que vem por aí
Big data em 1h: conceitos, aplicações e o que vem por aíBig data em 1h: conceitos, aplicações e o que vem por aí
Big data em 1h: conceitos, aplicações e o que vem por aíAllexandre Sampaio
 

Semelhante a Ciência de Dados: a revolução na tomada de decisões (20)

Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
Ciencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividadeCiencia de dados na pratica, com transparencia e produtividade
Ciencia de dados na pratica, com transparencia e produtividade
 
Tome Decisões + Inteligentes!
Tome Decisões + Inteligentes!Tome Decisões + Inteligentes!
Tome Decisões + Inteligentes!
 
Wiseminer data intelligence 2015 01
Wiseminer data intelligence 2015 01Wiseminer data intelligence 2015 01
Wiseminer data intelligence 2015 01
 
Transforme Dados em Vantagem Competitiva
Transforme Dados em Vantagem CompetitivaTransforme Dados em Vantagem Competitiva
Transforme Dados em Vantagem Competitiva
 
Dutra (2)
Dutra (2)Dutra (2)
Dutra (2)
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
Data Science - Big Data - Data Driven
Data Science - Big Data - Data DrivenData Science - Big Data - Data Driven
Data Science - Big Data - Data Driven
 
Wiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data PreparationWiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data Preparation
 
Data Science For Dummies From a Dummy
Data Science For Dummies From a DummyData Science For Dummies From a Dummy
Data Science For Dummies From a Dummy
 
Wiseminer Data Blending, Data Preparation & Analytics
Wiseminer Data Blending, Data Preparation & AnalyticsWiseminer Data Blending, Data Preparation & Analytics
Wiseminer Data Blending, Data Preparation & Analytics
 
13 11-26 construindo uma estrategia de big data para telecom - sas - luiz pires
13 11-26 construindo uma estrategia de big data para telecom - sas - luiz pires13 11-26 construindo uma estrategia de big data para telecom - sas - luiz pires
13 11-26 construindo uma estrategia de big data para telecom - sas - luiz pires
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
CIO Global Summit Rio - Desmitificando big data
CIO Global Summit Rio -  Desmitificando big dataCIO Global Summit Rio -  Desmitificando big data
CIO Global Summit Rio - Desmitificando big data
 
Capitulo-01-Ciencia-de-Dados-Conceitos-Básicos.pptx
Capitulo-01-Ciencia-de-Dados-Conceitos-Básicos.pptxCapitulo-01-Ciencia-de-Dados-Conceitos-Básicos.pptx
Capitulo-01-Ciencia-de-Dados-Conceitos-Básicos.pptx
 
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
Ciência de Dados: tudo sobre a área que está mudando o futuro das organizações
 
Big data em 1h: conceitos, aplicações e o que vem por aí
Big data em 1h: conceitos, aplicações e o que vem por aíBig data em 1h: conceitos, aplicações e o que vem por aí
Big data em 1h: conceitos, aplicações e o que vem por aí
 

Mais de Marlesson Santana

UFG - Topic Modeling in Text
UFG - Topic Modeling in TextUFG - Topic Modeling in Text
UFG - Topic Modeling in TextMarlesson Santana
 
Data science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticasData science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticasMarlesson Santana
 
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?Marlesson Santana
 
Campus Party - Sistemas de Recomendação
Campus Party - Sistemas de RecomendaçãoCampus Party - Sistemas de Recomendação
Campus Party - Sistemas de RecomendaçãoMarlesson Santana
 
Machine Learning: Do Notebook ao modelo em produção
Machine Learning: Do Notebook ao modelo em produçãoMachine Learning: Do Notebook ao modelo em produção
Machine Learning: Do Notebook ao modelo em produçãoMarlesson Santana
 
Deep Learning para Sistemas de Recomendação
Deep Learning para Sistemas de RecomendaçãoDeep Learning para Sistemas de Recomendação
Deep Learning para Sistemas de RecomendaçãoMarlesson Santana
 
Training deep auto encoders for collaborative filtering
Training deep auto encoders for collaborative filteringTraining deep auto encoders for collaborative filtering
Training deep auto encoders for collaborative filteringMarlesson Santana
 
DDC - workshop deep learning
DDC -  workshop deep learningDDC -  workshop deep learning
DDC - workshop deep learningMarlesson Santana
 
Introdução a Redes Neurais Recorrentes
Introdução a Redes Neurais RecorrentesIntrodução a Redes Neurais Recorrentes
Introdução a Redes Neurais RecorrentesMarlesson Santana
 
Mineração de Dados em Redes Sociais
Mineração de Dados em Redes SociaisMineração de Dados em Redes Sociais
Mineração de Dados em Redes SociaisMarlesson Santana
 

Mais de Marlesson Santana (10)

UFG - Topic Modeling in Text
UFG - Topic Modeling in TextUFG - Topic Modeling in Text
UFG - Topic Modeling in Text
 
Data science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticasData science com python - frameworks e melhores práticas
Data science com python - frameworks e melhores práticas
 
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
 
Campus Party - Sistemas de Recomendação
Campus Party - Sistemas de RecomendaçãoCampus Party - Sistemas de Recomendação
Campus Party - Sistemas de Recomendação
 
Machine Learning: Do Notebook ao modelo em produção
Machine Learning: Do Notebook ao modelo em produçãoMachine Learning: Do Notebook ao modelo em produção
Machine Learning: Do Notebook ao modelo em produção
 
Deep Learning para Sistemas de Recomendação
Deep Learning para Sistemas de RecomendaçãoDeep Learning para Sistemas de Recomendação
Deep Learning para Sistemas de Recomendação
 
Training deep auto encoders for collaborative filtering
Training deep auto encoders for collaborative filteringTraining deep auto encoders for collaborative filtering
Training deep auto encoders for collaborative filtering
 
DDC - workshop deep learning
DDC -  workshop deep learningDDC -  workshop deep learning
DDC - workshop deep learning
 
Introdução a Redes Neurais Recorrentes
Introdução a Redes Neurais RecorrentesIntrodução a Redes Neurais Recorrentes
Introdução a Redes Neurais Recorrentes
 
Mineração de Dados em Redes Sociais
Mineração de Dados em Redes SociaisMineração de Dados em Redes Sociais
Mineração de Dados em Redes Sociais
 

Ciência de Dados: a revolução na tomada de decisões

  • 1. Ciência de Dados: a revolução na tomada de decisões
  • 2. Quem eu sou? ● CDO na CQuantt - Responsável por conduzir projetos de Ciência de Dados e Machine Learning ● Pesquisador na área de Deep Learning - UFG ● Community Manager do Data Hackers #estatistica #machineLearning #spark #python #deepLearning #tensorFlow #bigData #analytics /marlesson-santana-25019358/ /marlesson Marlesson Santana - marlesson@cquantt.com
  • 3. Cenário e transformações na sociedade... ● Na Revolução Agrícola quem tinha terra tinha poder ● Na Revolução Industrial quem tinha os meios de produção tinha poder ● Na Revolução da Informática quem tem informação detém o poder
  • 4. O dado é o novo petróleo...
  • 5. … em 2018 a cada 60 segundos:
  • 6. crescimento dos dados nos próximos anos... O “Data Age 2025”, estudo realizado pela IDC e Seagate, aponta um crescimento exorbitante no volume de dados em todo o mundo até 2025.
  • 7. crescimento dos dados nos próximos anos... Empresas como Google, Amazon, Facebook etc. já estão minerando informação nesses dados a muito tempo.
  • 8.
  • 9. Data Science “Ciência de Dados é a prática de transformar dados brutos em insights de negócio utilizando métodos científicos.”
  • 10. Data Science A área de Data Science está em grande expansão devido a alguns fatores: ● Disponibilidade dos dados ● Custo computacional
  • 11. Data Science Empresas como Nubank, Itaú, Ifood e Globo.com estão com vagas permantentes em Ciência de Dados. Profissionais de dados são altamente requisitados e estão em falta no mercado.
  • 12. Aplicações de Data Science ● Sistemas de Recomendação ● Análise de Crédito ● Identificação de Fraudes ● Marketing Direcionado ● Logística ● Saúde ● ... A área de Data Science é transversal dentro de qualquer empresa e atende todas os setores (financeiro, logístico, comunicação..).
  • 13. Aplicações de Data Science ● Sistemas de Recomendação ● Análise de Crédito ● Identificação de Fraudes ● Marketing Direcionado ● Logística ● Saúde ● ... https://exame.abril.com.br/pme/como-a-netflix-sabia-que-house-of-cards-seria-um-sucesso/ A área de Data Science é transversal dentro de qualquer empresa e atende todas os setores (financeiro, logístico, comunicação..).
  • 14. Aplicações de Data Science ● Sistemas de Recomendação ● Análise de Crédito ● Identificação de Fraudes ● Marketing Direcionado ● Logística ● Saúde ● ... A área de Data Science é transversal dentro de qualquer empresa e atende todas os setores (financeiro, logístico, comunicação..).
  • 15. Aplicações de Data Science ● Sistemas de Recomendação ● Análise de Crédito ● Identificação de Fraudes ● Marketing Direcionado ● Logística ● Saúde ● ... A área de Data Science é transversal dentro de qualquer empresa e atende todas os setores (financeiro, logístico, comunicação..).
  • 16. Aplicações de Data Science ● Sistemas de Recomendação ● Análise de Crédito ● Identificação de Fraudes ● Marketing Direcionado ● Logística ● Saúde ● ... A área de Data Science é transversal dentro de qualquer empresa e atende todas os setores (financeiro, logístico, comunicação..).
  • 17. Aplicações de Data Science ● Sistemas de Recomendação ● Análise de Crédito ● Identificação de Fraudes ● Marketing Direcionado ● Logística ● Saúde ● ... A área de Data Science é transversal dentro de qualquer empresa e atende todas os setores (financeiro, logístico, comunicação..).
  • 18. Aplicações de Data Science ● Sistemas de Recomendação ● Análise de Crédito ● Identificação de Fraudes ● Marketing Direcionado ● Logística ● Saúde ● ... A área de Data Science é transversal dentro de qualquer empresa e atende todas os setores (financeiro, logístico, comunicação..).
  • 19. Aplicações de Data Science Dados Diferentes fontes de dados, interna e externas sobre o problema. 3 Informação Geração de insights e previsões do problema. 2 Decisões Decisões baseado em dados. 1 A área de Data Science é transversal dentro de qualquer empresa e atende todas os setores (financeiro, logístico, comunicação..).
  • 20. Profissionais de Dados “Qual o perfil do profissional que trabalha com dados?”
  • 22. Profissionais de Dados ● Coleta de dados ● Infraestrutura de armazenamento ● Qualidade dos dados #sql, #nosql, #ETL #bigdata #python #cloud Engenheiro de Dados Cientista de Dados ● Análise estatística e ML ● Criação de Modelos ● Visualização dos resultados ● Geração de insights #estatística #python #r #machinelearning #dataviz Utiliza técnicas estatísticas e de ML para analisar e gerar insights e predições nos dados Engenheiro de Machine Learning ● Operacionalizar modelos ● Implementar modelos escaláveis ● Integração #matemática #machinelearning #cloud #MLops
  • 23. Profissionais de Dados Cientista de Dados ● Análise estatística e ML ● Criação de Modelos ● Visualização dos resultados ● Geração de insights #estatística #python #r #machinelearning #dataviz O cientista de dados não precisa saber tudo da área de Inteligência Artificial, apenas os métodos e algoritmos de extração de padrões nos dados (ML).
  • 24. Profissionais de Dados Cientista de Dados ● Análise estatística e ML ● Criação de Modelos ● Visualização dos resultados ● Geração de insights #estatística #python #r #machinelearning #dataviz O modelo é a representação matemática dos dados, a partir do modelo é possível extrair os padrões nos dados para que esses padrões possam ser utilizados na resolução de problemas..
  • 25. Profissionais de Dados Cientista de Dados ● Análise estatística e ML ● Transformação dos dados ● Visualização dos resultados ● Geração de insights #estatística #python #r #machinelearning #dataviz A visualização da informação facilita o entendimento e é pré-requisito para a tomada de decisão em qualquer projeto
  • 26. Profissionais de Dados Cientista de Dados ● Análise estatística e ML ● Criação de Modelos ● Visualização dos resultados ● Geração de insights #estatística #python #r #machinelearning #dataviz Um cientista de dados gasta aproximadamente ~80% do tempo de uma análise coletando, limpando e organizando dados.
  • 27. Pipeline de Ciência de Dados Análise de Negócio Coleta de Dados Análise dos Dados Avaliação e Implantação do Insight Toda análise precisa de um objetivo bem definido e uma métrica. A análise deve ser realizada em conjunto com a área de negócio para evitar a perda de foco do analista e facilitar a geração de insights. A fonte de dados pode ser diversas, desde redes sociais, bancos relacionais, csv.. etc. É importante que todos os dados necessários para a análise estejam disponíveis. Métodos estatísticos e de Inteligência artificial são utilizados para extração de padrões. Geralmente é necessário combinar múltiplas fontes de dados e transformar variáveis para extração de padrões. Uma análise deve servir de base para a mudança de processos que geralmente visam retorno financeiro. É necessário validar se as decisões tomadas surtem efeitos reais, abrindo portas para outras análises. Cientista de Dados Engenheiro de Dados Cientista de Dados Engenheiro de Dados Cientista de Dados Cientista de Dados Engenheiro de ML
  • 28. Pipeline de Ciência de Dados Existem diferentes metodologias que podem ser utilizadas para projetos de DS. CRISP-DM e KDD são as mais conhecidas: CRISP-DM KDD
  • 29. Pipeline de Ciência de Dados Definido3 Dados coletados, com indicadores validados e orientados à cultura de dados. Decisões pautadas em sistemas de monitoramento e BI. O sucesso e aplicação de projetos de Ciência de Dados depende muito do nível de maturidade em dados das empresas: Empírico1 Ambiente caótico. Sem coleta de dados e decisões empíricas individualizadas 4 Dados coletados e enriquecidos. Geração automáticas de análises preditivas e prescritivas. Decisões baseadas em métricas. Otimizado 2 A maioria das empresas brasileiras. Dados coletados sem uma arquitetura de informação orientada a dados. Adhoc
  • 30. Como se tornar um profissional de dados?
  • 31. Dicas para iniciantes na área ● Estude estatística e cálculo. Não existe análise de dados sem conhecimento em estatística e não existe Machine Learning sem cálculo. ● Aprenda uma linguagem de programação voltada à análise de dados e machine learning como R ou Python. ● Aprenda a usar bem pelo menos uma biblioteca de machine learning como scikit-learn, spark, H2O… ● Utilize plataformas como Kaggle, fóruns e comunidades para trocar experiência e aprender análises públicas.
  • 32. Dicas para iniciantes na área ● Outras ferramentas e plataformas de Dados: ○ Jupyter Notebook -https://jupyter.org/ ○ scikit-learn - https://scikit-learn.org/ ○ Spark - https://spark.apache.org/ ○ Plataformas de ML: RapidMiner , KNIME, Weka, H2o. ○ DataViz: pandas, matplotlib, D3, seaborn ○ Cloud: Azure, GCP e AWS
  • 33. Faça parte da maior comunidade de Dados do Brasil https://datahackers.com.br/