SlideShare uma empresa Scribd logo
1 de 27
SQL Saturday #488
Dia a dia do
Cientista de Dados
Diego Nogare
Data Scients @ NGR Solutions
www.diegonogare.net
Patrocinadores
MVP Data Platform | 2008
Chapter Leader | SQL Saturday
Regional Mentor | Board Advisor
Data Scients @ NGR Solutions
Diego Nogare
Agenda
Inteligência
Artificial
Análise
Preditiva
Aprendizado
de Máquinas
Big Data
Business
Analytics
Data
Science
Do que é esta palestra?!
Porque investir em Data Science?
Desafios Técnicos
 Péssima qualidade dos dados
 Dados sujos
 “Valores Nulos”
 Tipos de dados inadequados
Data
Science
Engenharia
dos Dados
Métodos
Científicos
Matemática
Estatística
Computação
Avançada
Visualização
Pensamento
fora da Caixa
Experiência
no Business
Identificar
as Origem
Extrair
Limpar
Refinar
Criar um
Algoritmo
Analisar uma
Amostragem
Tomar
Decisão
1. Identificação do Problema
2. Coleta e limpeza de dados
3. Desenvolvimento do
Modelo Preditivo
4. Publicação do Modelo
5. Monitoramento da
performance
Algoritmos
Classificação
Regressão
Clusterização
Detecção de
Anomalias
Classificadores Binários
ACURACY (ACURÁCIA):
Quantidade classificada como Positivos e Negativos corretamente
(True Positive + True Negative) /
((True Positive + False Negative) +(False Positive + True Negative))
Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75 = 0.9333
PRECISION (PRECISÃO):
Quantidade classificada corretamente
True Positive / (True Positive + False Positive)
Com nossos números: (16) / (16 + 5) => 16 / 21 = 0.7619
RECALL:
Quantidade classificada como Positivo corretamente
True Positive / (True Positive + False Negative)
Com nossos números: 16 / (16+0) => 16 / 16 = 1
F1 SCORE:
Média harmônica entre Precisão e Recall
(2* True Positive) / (2* True Positive + False Positive + False Negative)
Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648
2* Precision*Recall / (Precision + Recall)
Com nossos números: 2*(0,76*1)/(0,76+1) => 1,52 / 1,76 = 0.8636
ROC
Area under the
ROC curve =
AUC
0.5(𝑟𝑎𝑛𝑑𝑜𝑚𝑚𝑜𝑑𝑒𝑙)<𝐴𝑈𝐶<1(𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑚𝑜𝑑𝑒𝑙)
ROC = Receiver Operating Characteristic
ROC
Area under the
ROC curve =
AUC
0.5(𝑟𝑎𝑛𝑑𝑜𝑚𝑚𝑜𝑑𝑒𝑙)<𝐴𝑈𝐶<1(𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑚𝑜𝑑𝑒𝑙)
ROC = Receiver Operating Characteristic
30times
2
conferências
25jogadoers
US$ 3,5
Bilhões em
contratos
64Jogares
1 All Star
Game
http://deadspin.com/2014-payrolls-and-salaries-for-every-mlb-team-1551868969
CC Sabathia – New York Yankees ($24,285,714)
Cluster
Cluster
Regressão (Linear)
Fronteira de Decisão
ℎ𝜃 𝑥 = 𝑔(𝜃0 + 𝜃1x1 + 𝜃2x2)
ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃1x1 +
𝜃2x2 + 𝜃3x1
2 + 𝜃4x2
2 )
Função Linear
Função Quadrática
ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃1x1 + 𝜃2x2
+ 𝜃3x1
2 + 𝜃4x2
2
+ 𝜃5x1
3 + 𝜃6x2
3
+ 𝜃7x1
4 + 𝜃8x2
4)
Função elevada à quarta potência
http://www.livrosdonogare.com.br
Dúvidas?
Obrigado
Diego Nogare
Data Scients @ NGR Solutions
www.diegonogare.net

Mais conteúdo relacionado

Destaque

Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...
Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...
Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...Diego Nogare
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Diego Nogare
 

Destaque (7)

Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...
Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...
Mini-Curso: Introdução à Big Data e Data Science - Aula 11 - SQL 2016 + BigDa...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...
Mini-Curso: Introdução à Big Data e Data Science - Aula 8 - Introdução ao Azu...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...
Mini-Curso: Introdução à Big Data e Data Science - Aula 5 - Onde usamos Data ...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...
Mini-Curso: Introdução à Big Data e Data Science - Aula 4 - O que é Data Scie...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
 

Semelhante a SQL Saturday #488: Dia a dia do Cientista de Dados

O que você precisa saber sobre testes unitários
O que você precisa saber sobre testes unitáriosO que você precisa saber sobre testes unitários
O que você precisa saber sobre testes unitáriosFilipe M. Silva
 
Business Intelligence, Data Visualization and Data Science
Business Intelligence, Data Visualization and Data ScienceBusiness Intelligence, Data Visualization and Data Science
Business Intelligence, Data Visualization and Data ScienceDiego Nogare
 
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...Automação de BackOffice de uma grande corporação financeira usando Visão Comp...
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...FranciscoBrunodeSous
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningDevCamp Campinas
 
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...Automação de BackOffice de uma grande corporação financeira usando Visão Comp...
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...Antonio Carlos da Silva Senra Filho
 
Aula 7 - MASP - ferramentas da qualidade - 2019-1
Aula 7   - MASP -  ferramentas da qualidade - 2019-1Aula 7   - MASP -  ferramentas da qualidade - 2019-1
Aula 7 - MASP - ferramentas da qualidade - 2019-1IFMG
 
TDC2016SP - SparkMLlib Machine Learning na Prática
TDC2016SP -  SparkMLlib Machine Learning na PráticaTDC2016SP -  SparkMLlib Machine Learning na Prática
TDC2016SP - SparkMLlib Machine Learning na Práticatdc-globalcode
 
Apresentação da minha defesa de dissertação de mestrado
Apresentação da minha defesa de dissertação de mestradoApresentação da minha defesa de dissertação de mestrado
Apresentação da minha defesa de dissertação de mestradorobsonf
 
Criando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningCriando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningDiego Nogare
 
Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Rodrigo Dornel
 
IPT defesa Wagner F Canto v6
IPT defesa Wagner F Canto v6IPT defesa Wagner F Canto v6
IPT defesa Wagner F Canto v6wfcanto
 
Atividade pratica supervisionada construção de algoritimo
Atividade pratica supervisionada  construção de algoritimoAtividade pratica supervisionada  construção de algoritimo
Atividade pratica supervisionada construção de algoritimoFelipe Dias Guimarães
 
Treinamento Six Sigma LG Electronics
Treinamento Six Sigma LG ElectronicsTreinamento Six Sigma LG Electronics
Treinamento Six Sigma LG Electronicsejedelmal
 
Ferramentas da qualidade 2.pptx
Ferramentas da qualidade  2.pptxFerramentas da qualidade  2.pptx
Ferramentas da qualidade 2.pptxMidoriPitanga2
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 

Semelhante a SQL Saturday #488: Dia a dia do Cientista de Dados (20)

O que você precisa saber sobre testes unitários
O que você precisa saber sobre testes unitáriosO que você precisa saber sobre testes unitários
O que você precisa saber sobre testes unitários
 
Business Intelligence, Data Visualization and Data Science
Business Intelligence, Data Visualization and Data ScienceBusiness Intelligence, Data Visualization and Data Science
Business Intelligence, Data Visualization and Data Science
 
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...Automação de BackOffice de uma grande corporação financeira usando Visão Comp...
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
 
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...Automação de BackOffice de uma grande corporação financeira usando Visão Comp...
Automação de BackOffice de uma grande corporação financeira usando Visão Comp...
 
Aula 7 - MASP - ferramentas da qualidade - 2019-1
Aula 7   - MASP -  ferramentas da qualidade - 2019-1Aula 7   - MASP -  ferramentas da qualidade - 2019-1
Aula 7 - MASP - ferramentas da qualidade - 2019-1
 
TDC2016SP - SparkMLlib Machine Learning na Prática
TDC2016SP -  SparkMLlib Machine Learning na PráticaTDC2016SP -  SparkMLlib Machine Learning na Prática
TDC2016SP - SparkMLlib Machine Learning na Prática
 
seissigmatrad.pdf
seissigmatrad.pdfseissigmatrad.pdf
seissigmatrad.pdf
 
Apresentação da minha defesa de dissertação de mestrado
Apresentação da minha defesa de dissertação de mestradoApresentação da minha defesa de dissertação de mestrado
Apresentação da minha defesa de dissertação de mestrado
 
Criando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningCriando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine Learning
 
Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Mineração com sql server 2008 r2
Mineração com sql server 2008 r2
 
IPT defesa Wagner F Canto v6
IPT defesa Wagner F Canto v6IPT defesa Wagner F Canto v6
IPT defesa Wagner F Canto v6
 
Atividade pratica supervisionada construção de algoritimo
Atividade pratica supervisionada  construção de algoritimoAtividade pratica supervisionada  construção de algoritimo
Atividade pratica supervisionada construção de algoritimo
 
Mmq
MmqMmq
Mmq
 
Treinamento Six Sigma LG Electronics
Treinamento Six Sigma LG ElectronicsTreinamento Six Sigma LG Electronics
Treinamento Six Sigma LG Electronics
 
Ferramentas da qualidade 2.pptx
Ferramentas da qualidade  2.pptxFerramentas da qualidade  2.pptx
Ferramentas da qualidade 2.pptx
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Data science
Data scienceData science
Data science
 
Algoritmo Genetico
Algoritmo GeneticoAlgoritmo Genetico
Algoritmo Genetico
 

Mais de Diego Nogare

Build your first spark big data environment in azure
Build your first spark big data environment in azureBuild your first spark big data environment in azure
Build your first spark big data environment in azureDiego Nogare
 
ABC da Aprendizagem de Máquinas
ABC da Aprendizagem de MáquinasABC da Aprendizagem de Máquinas
ABC da Aprendizagem de MáquinasDiego Nogare
 
Real Time Analytics - do Machine Learning ao Power BI
Real Time Analytics - do Machine Learning ao Power BIReal Time Analytics - do Machine Learning ao Power BI
Real Time Analytics - do Machine Learning ao Power BIDiego Nogare
 
Real Time Analytics in Industry 4.0
Real Time Analytics in Industry 4.0Real Time Analytics in Industry 4.0
Real Time Analytics in Industry 4.0Diego Nogare
 
Real Time Analytics e Machine Learning
Real Time Analytics e Machine Learning Real Time Analytics e Machine Learning
Real Time Analytics e Machine Learning Diego Nogare
 
Análise preditiva com consumo de dados em tempo real
Análise preditiva com consumo de dados em tempo realAnálise preditiva com consumo de dados em tempo real
Análise preditiva com consumo de dados em tempo realDiego Nogare
 
The Art of Machine Learning & Predictive Intelligence
The Art of Machine Learning & Predictive IntelligenceThe Art of Machine Learning & Predictive Intelligence
The Art of Machine Learning & Predictive IntelligenceDiego Nogare
 
Real Time Analytics na Industria 4.0
Real Time Analytics na Industria 4.0Real Time Analytics na Industria 4.0
Real Time Analytics na Industria 4.0Diego Nogare
 
Big Data: Tomando Decisões
Big Data: Tomando DecisõesBig Data: Tomando Decisões
Big Data: Tomando DecisõesDiego Nogare
 
Integrando Azure Machine Learning na prática
Integrando Azure Machine Learning na práticaIntegrando Azure Machine Learning na prática
Integrando Azure Machine Learning na práticaDiego Nogare
 
Criando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningCriando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningDiego Nogare
 
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business Intelligence
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business IntelligenceTechEd Brasil 2015 - Novidades do SQL Server 2016 para Business Intelligence
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business IntelligenceDiego Nogare
 
Codificando Night Week - Benefícios de Conhecer Business Intelligence com SQL...
Codificando Night Week - Benefícios de Conhecer Business Intelligence com SQL...Codificando Night Week - Benefícios de Conhecer Business Intelligence com SQL...
Codificando Night Week - Benefícios de Conhecer Business Intelligence com SQL...Diego Nogare
 

Mais de Diego Nogare (13)

Build your first spark big data environment in azure
Build your first spark big data environment in azureBuild your first spark big data environment in azure
Build your first spark big data environment in azure
 
ABC da Aprendizagem de Máquinas
ABC da Aprendizagem de MáquinasABC da Aprendizagem de Máquinas
ABC da Aprendizagem de Máquinas
 
Real Time Analytics - do Machine Learning ao Power BI
Real Time Analytics - do Machine Learning ao Power BIReal Time Analytics - do Machine Learning ao Power BI
Real Time Analytics - do Machine Learning ao Power BI
 
Real Time Analytics in Industry 4.0
Real Time Analytics in Industry 4.0Real Time Analytics in Industry 4.0
Real Time Analytics in Industry 4.0
 
Real Time Analytics e Machine Learning
Real Time Analytics e Machine Learning Real Time Analytics e Machine Learning
Real Time Analytics e Machine Learning
 
Análise preditiva com consumo de dados em tempo real
Análise preditiva com consumo de dados em tempo realAnálise preditiva com consumo de dados em tempo real
Análise preditiva com consumo de dados em tempo real
 
The Art of Machine Learning & Predictive Intelligence
The Art of Machine Learning & Predictive IntelligenceThe Art of Machine Learning & Predictive Intelligence
The Art of Machine Learning & Predictive Intelligence
 
Real Time Analytics na Industria 4.0
Real Time Analytics na Industria 4.0Real Time Analytics na Industria 4.0
Real Time Analytics na Industria 4.0
 
Big Data: Tomando Decisões
Big Data: Tomando DecisõesBig Data: Tomando Decisões
Big Data: Tomando Decisões
 
Integrando Azure Machine Learning na prática
Integrando Azure Machine Learning na práticaIntegrando Azure Machine Learning na prática
Integrando Azure Machine Learning na prática
 
Criando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningCriando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine Learning
 
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business Intelligence
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business IntelligenceTechEd Brasil 2015 - Novidades do SQL Server 2016 para Business Intelligence
TechEd Brasil 2015 - Novidades do SQL Server 2016 para Business Intelligence
 
Codificando Night Week - Benefícios de Conhecer Business Intelligence com SQL...
Codificando Night Week - Benefícios de Conhecer Business Intelligence com SQL...Codificando Night Week - Benefícios de Conhecer Business Intelligence com SQL...
Codificando Night Week - Benefícios de Conhecer Business Intelligence com SQL...
 

SQL Saturday #488: Dia a dia do Cientista de Dados