Big Data &
Data Science
Diego Nogare
Cientista de Dados
@DiegoNogare
DO QUE É ESTA PALESTRA?
Inteligência
Artificial
Análise
Preditiva
Aprendizado
de Máquinas
Big Data
Business
Analytics
Data Science
APRENDIZADO DE MÁQUINAS?!
Aprendizado Supervisionado
Aprendizado Semi-Supervisionado
Aprendizado Não Supervisionado
ALGORITMOS
Regressão
Classificação
Cluster
Detecção de
Anomalias
SUPERVISIONADO Classificadores
CLASSIFICADORES BINÁRIOS
CLASSIFICADORES BINÁRIOS
ACURACY (ACURÁCIA):
Quantidade classificada como Positivos e Negativos corretamente
(True Positive + True Negative) /
((True Positive + False Negative) +(False Positive + True Negative))
Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75
= 0.9333
CLASSIFICADORES BINÁRIOS
PRECISION (PRECISÃO):
Quantidade classificada corretamente
True Positive / (True Positive + False Positive)
Com nossos números: (16) / (16 + 5) => 16 / 21 =
0.7619
CLASSIFICADORES BINÁRIOS
RECALL:
Quantidade classificada como Positivo corretamente
True Positive / (True Positive + False Negative)
Com nossos números: 16 / (16+0) => 16 / 16 = 1
CLASSIFICADORES BINÁRIOS
F1 SCORE:
Média harmônica entre Precisão e Recall
Precisão: True Positive / (True Positive + False Positive)
Recall: True Positive / (True Positive + False Negative)
(2* True Positive) / (2* True Positive + False Positive + False
Negative)
Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648
2* Precision*Recall / (Precision + Recall)
Com nossos números: 2*(0,76*1)/(0,76+1) => 1,52 / 1,76 = 0.8636
CLASSIFICADORES BINÁRIOS
30times
2
conferências
25jogadoers
US$ 3,5
Bilhões em
contratos
64Jogares
1 All Star
Game
http://deadspin.com/2014-payrolls-and-salaries-for-every-mlb-team-1551868969
COMO É
SEU
ALMOÇO?
Fronteira de Decisão
ℎ𝜃 𝑥 = 𝑔(𝜃0 + 𝜃1x1 + 𝜃2x2)
ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃1x1 +
𝜃2x2 + 𝜃3x1
2 + 𝜃4x2
2 )
Função Linear
Função Quadrática
ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃1x1 + 𝜃2x2
+ 𝜃3x1
2 + 𝜃4x2
2
+ 𝜃5x1
3 + 𝜃6x2
3
+ 𝜃7x1
4 + 𝜃8x2
4)
Função elevada à quarta potência
SEMI SUPERVISIONADO Google
https://www.google.com/selfdrivingcar/
NÃO SUPERVISIONADO Cluster
K-MEANS CLUSTER
Todos os dados são plotados no gráfico
Os pontos representam os indivíduos analisados, mas não estão
separados em grupos, todos fazem parte do mesmo grupo. Ao
informar a quantidade de centróides, as interções começam até o
momento de convergir e encontrar os K grupos.
Os pontos representam os dados de treinos, neste caso o dataset
K-MEANS CLUSTER
Centróides iniciais em posições aleatórias
Ao iniciar o algoritmo, os K pontos (chamados de centróides) são
plotados aleatoriamente no plano e possuem um ponto de partida
para iniciar o algoritmo.
K-MEANS CLUSTER
Com base nos pontos e centros, inicia-se o algoritmo
Os centróides são re-calculados a cada interação, calculando a
média da distância entre cada ponto e a posição do centróide. Então,
com base neste resultado o centróide muda de lugar ficando mais ao
centro de seus pontos (elementos).
K-MEANS CLUSTER
Alteração dos pontos e centros
Enquanto a distância for recalculada e elementos mudarem de
centro, o algoritmo continua executando.
Reparem que os elementos marcados mudaram de centro.
K-MEANS CLUSTER
Posição final depois de uma interação.
K-MEANS CLUSTER
Com base nos pontos e centros, inicia-se o algoritmo
Mais uma interação e re-calculo das distâncias, e com isso, mais
uma vez a movimentação dos centróides.
Posição inicial (amarelo) do centróide seguindo para uma próxima
posição (vermelho e azul).
K-MEANS CLUSTER
Quando parar?
No momento que os centróides não recebem nenhum elemento novo
em seu grupo significa que eles convergiram para uma posição
satisfatória, e criou os grupos necessários.
K-MEANS CLUSTER
Ponto satisfatório
Ao encontrar o ponto satisfatório, o algoritmo para de executar e
mantém os elementos conectados com seus centróides.
Depois da interação não houve mudança de elementos.
K-MEANS CLUSTER
K-MEANS CLUSTER
K-MEANS CLUSTER
K-MEANS CLUSTER
Dieta e Saúde
O QUE
CONSEGUIMOS
COM ISSO?
Mais de 5 milhões de downloads
500 mil usuários únicos mensais
Mais de 1 milhão de quilos perdidos em 2014
Diego Nogare
@DiegoNogare
http://www.DiegoNogare.net
OBRIGADO:)

Big Data e Data Science - GBG - Google Business Group