Aprendizado de Máquinas com Azure Machine
Learning e R
Apresentação
Diego é Autor dos livros “Do Banco de Dados Relacional à Tomada de Decisão“ e
“SQL Server além do Conceito: Blog post Collection”. Líder do grupo de usuários
Codificando .NET, Microsoft Most Valuable Professional [MVP] em SQL Server desde
2008. Junto ao PASS (Professional Association for SQL Server) é voluntário como
Regional Mentor, é Chapter Leader em São Paulo e Board Advisor para a região da
América Latina. Trabalhou no time de SQL Server na Microsoft, no Brasil, engajado
no lançamento do SQL Server 2012. É palestrante em eventos oficiais da Microsoft,
Codificando .NET, INETA BR e PASS, mantém o site: www.diegonogare.net
Email: nogare@ngrsolutions.com.br
Skype: DiegoNogare
Linkedin profile: https://www.linkedin.com/in/diegonogare
Blog: http://www.diegonogare.net
Twitter: @DiegoNogare
Aprendizado de Máquinas com Azure Machine Learning e R
 Aprendizado de Máquinas
o Supervisionado (Usando Azure Machine Learning)
o Não Supervisionado (Usando R)
SUPERVISIONADO
Classificação Binária
Classificadores Binários
ACURACY (ACURÁCIA):
Quantidade classificada como Positivos e Negativos corretamente
(True Positive + True Negative) /
((True Positive + False Negative) +(False Positive + True Negative))
Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75 = 0.9333
Classificadores Binários
Classificadores Binários
PRECISION (PRECISÃO):
Quantidade classificada corretamente
True Positive / (True Positive + False Positive)
Com nossos números: (16) / (16 + 5) => 16 / 21 = 0.7619
Classificadores Binários
RECALL:
Quantidade classificada como Positivo corretamente
True Positive / (True Positive + False Negative)
Com nossos números: 16 / (16+0) => 16 / 16 = 1
Classificadores Binários
F1 SCORE:
Média harmônica entre Precisão e Recall
Precisão: True Positive / (True Positive + False Positive)
Recall: True Positive / (True Positive + False Negative)
(2* True Positive) / (2* True Positive + False Positive + False Negative)
Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648
2* Precision*Recall / (Precision + Recall)
Com nossos números: 2*(0,76*1)/(0,76+1) => 1,52 / 1,76 = 0.8636
Classificadores Binários
30times
2
conferências
25jogadoers
US$ 3,5
Bilhões em
contratos
64Jogares
1 All Star
Game
http://deadspin.com/2014-payrolls-and-salaries-for-every-mlb-team-1551868969
NÃO SUPERVISIONADO
Cluster
K-Means Cluster
Todos os dados são plotados no gráfico
Os pontos representam os indivíduos analisados, mas não estão separados em
grupos, todos fazem parte do mesmo grupo. Ao informar a quantidade de
centróides, as interções começam até o momento de convergir e encontrar os K
grupos.
Os pontos representam os dados de treinos, neste caso o dataset
K-Means Cluster
Centróides iniciais em posições aleatórias
Ao iniciar o algoritmo, os K pontos (chamados de centróides) são plotados
aleatoriamente no plano e possuem um ponto de partida para iniciar o algoritmo.
K-Means Cluster
Com base nos pontos e centros, inicia-se o algoritmo
Os centróides são re-calculados a cada interação, calculando a média da distância
entre cada ponto e a posição do centróide. Então, com base neste resultado o
centróide muda de lugar ficando mais ao centro de seus pontos (elementos).
K-Means Cluster
Alteração dos pontos e centros
Enquanto a distância for recalculada e elementos mudarem de centro, o algoritmo
continua executando.
Reparem que os elementos marcados mudaram de centro.
K-Means Cluster
Posição final depois de uma interação.
K-Means Cluster
Com base nos pontos e centros, inicia-se o algoritmo
Mais uma interação e re-calculo das distâncias, e com isso, mais uma vez a
movimentação dos centróides.
Posição inicial (amarelo) do centróide seguindo para uma próxima posição
(vermelho e azul).
K-Means Cluster
Quando parar?
No momento que os centróides não recebem nenhum elemento novo em seu grupo
significa que eles convergiram para uma posição satisfatória, e criou os grupos
necessários.
K-Means Cluster
Ponto satisfatório
Ao encontrar o ponto satisfatório, o algoritmo para de executar e mantém os
elementos conectados com seus centróides.
Depois da interação não houve mudança de elementos.
K-Means Cluster
K-Means Cluster
Referências
 Coursera
o Machine Learning: https://www.coursera.org/learn/machine-learning
o Data Science Specialization: https://www.coursera.org/specializations/jhudatascience
 K-Means em Stanford: http://stanford.edu/~cpiech/cs221/handouts/kmeans.html
 UCI Machine Learning Repository: http://archive.ics.uci.edu/ml/datasets.html
 Blog: http://www.diegonogare.net
Diego Nogare
@DiegoNogare
http://www.DiegoNogare.net
Obrigado:)

Aprendizado de Máquina com Azure Machine Learning e R

  • 1.
    Aprendizado de Máquinascom Azure Machine Learning e R
  • 2.
    Apresentação Diego é Autordos livros “Do Banco de Dados Relacional à Tomada de Decisão“ e “SQL Server além do Conceito: Blog post Collection”. Líder do grupo de usuários Codificando .NET, Microsoft Most Valuable Professional [MVP] em SQL Server desde 2008. Junto ao PASS (Professional Association for SQL Server) é voluntário como Regional Mentor, é Chapter Leader em São Paulo e Board Advisor para a região da América Latina. Trabalhou no time de SQL Server na Microsoft, no Brasil, engajado no lançamento do SQL Server 2012. É palestrante em eventos oficiais da Microsoft, Codificando .NET, INETA BR e PASS, mantém o site: www.diegonogare.net Email: nogare@ngrsolutions.com.br Skype: DiegoNogare Linkedin profile: https://www.linkedin.com/in/diegonogare Blog: http://www.diegonogare.net Twitter: @DiegoNogare
  • 3.
    Aprendizado de Máquinascom Azure Machine Learning e R  Aprendizado de Máquinas o Supervisionado (Usando Azure Machine Learning) o Não Supervisionado (Usando R)
  • 4.
  • 5.
  • 6.
    ACURACY (ACURÁCIA): Quantidade classificadacomo Positivos e Negativos corretamente (True Positive + True Negative) / ((True Positive + False Negative) +(False Positive + True Negative)) Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75 = 0.9333 Classificadores Binários
  • 7.
    Classificadores Binários PRECISION (PRECISÃO): Quantidadeclassificada corretamente True Positive / (True Positive + False Positive) Com nossos números: (16) / (16 + 5) => 16 / 21 = 0.7619
  • 8.
    Classificadores Binários RECALL: Quantidade classificadacomo Positivo corretamente True Positive / (True Positive + False Negative) Com nossos números: 16 / (16+0) => 16 / 16 = 1
  • 9.
    Classificadores Binários F1 SCORE: Médiaharmônica entre Precisão e Recall Precisão: True Positive / (True Positive + False Positive) Recall: True Positive / (True Positive + False Negative) (2* True Positive) / (2* True Positive + False Positive + False Negative) Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648 2* Precision*Recall / (Precision + Recall) Com nossos números: 2*(0,76*1)/(0,76+1) => 1,52 / 1,76 = 0.8636
  • 10.
  • 11.
    30times 2 conferências 25jogadoers US$ 3,5 Bilhões em contratos 64Jogares 1All Star Game http://deadspin.com/2014-payrolls-and-salaries-for-every-mlb-team-1551868969
  • 12.
  • 13.
    K-Means Cluster Todos osdados são plotados no gráfico Os pontos representam os indivíduos analisados, mas não estão separados em grupos, todos fazem parte do mesmo grupo. Ao informar a quantidade de centróides, as interções começam até o momento de convergir e encontrar os K grupos. Os pontos representam os dados de treinos, neste caso o dataset
  • 14.
    K-Means Cluster Centróides iniciaisem posições aleatórias Ao iniciar o algoritmo, os K pontos (chamados de centróides) são plotados aleatoriamente no plano e possuem um ponto de partida para iniciar o algoritmo.
  • 15.
    K-Means Cluster Com basenos pontos e centros, inicia-se o algoritmo Os centróides são re-calculados a cada interação, calculando a média da distância entre cada ponto e a posição do centróide. Então, com base neste resultado o centróide muda de lugar ficando mais ao centro de seus pontos (elementos).
  • 16.
    K-Means Cluster Alteração dospontos e centros Enquanto a distância for recalculada e elementos mudarem de centro, o algoritmo continua executando. Reparem que os elementos marcados mudaram de centro.
  • 17.
    K-Means Cluster Posição finaldepois de uma interação.
  • 18.
    K-Means Cluster Com basenos pontos e centros, inicia-se o algoritmo Mais uma interação e re-calculo das distâncias, e com isso, mais uma vez a movimentação dos centróides. Posição inicial (amarelo) do centróide seguindo para uma próxima posição (vermelho e azul).
  • 19.
    K-Means Cluster Quando parar? Nomomento que os centróides não recebem nenhum elemento novo em seu grupo significa que eles convergiram para uma posição satisfatória, e criou os grupos necessários.
  • 20.
    K-Means Cluster Ponto satisfatório Aoencontrar o ponto satisfatório, o algoritmo para de executar e mantém os elementos conectados com seus centróides. Depois da interação não houve mudança de elementos.
  • 21.
  • 22.
  • 23.
    Referências  Coursera o MachineLearning: https://www.coursera.org/learn/machine-learning o Data Science Specialization: https://www.coursera.org/specializations/jhudatascience  K-Means em Stanford: http://stanford.edu/~cpiech/cs221/handouts/kmeans.html  UCI Machine Learning Repository: http://archive.ics.uci.edu/ml/datasets.html  Blog: http://www.diegonogare.net
  • 24.