Aprendizado de Máquinas com Azure Machine Learning e R

1.770 visualizações

Publicada em

Veja esta sessão de "Aprendizado de Máquinas com Azure Machine Learning e R" com o MVP em SQL Server Diego Nogare, onde são apresentados recursos de aprendizado de máquinas supervisionado e não supervisionados, tanto com Azure Machine Learning quanto com R

Publicada em: Tecnologia

Aprendizado de Máquinas com Azure Machine Learning e R

  1. 1. Aprendizado de Máquinas com Azure Machine Learning e R Diego Nogare @DiegoNogare www.diegonogare.net
  2. 2. Diego Nogare?
  3. 3. Do que é esta palestra? Inteligência Artificial Análise Preditiva Aprendizado de Máquinas Big Data Business Analytics Data Science
  4. 4. Algoritmos Regressão Classificação Cluster Detecção de Anomalias
  5. 5. Classificadores Binários
  6. 6. Classificadores Binários ACURACY (ACURÁCIA): Quantidade classificada como Positivos e Negativos corretamente (True Positive + True Negative) / ((True Positive + False Negative) +(False Positive + True Negative)) Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75 = 0.9333
  7. 7. Classificadores Binários PRECISION (PRECISÃO): Quantidade classificada corretamente True Positive / (True Positive + False Positive) Com nossos números: (16) / (16 + 5) => 16 / 21 = 0.7619
  8. 8. Classificadores Binários RECALL: Quantidade classificada como Positivo corretamente True Positive / (True Positive + False Negative) Com nossos números: 16 / (16+0) => 16 / 16 = 1
  9. 9. Classificadores Binários F1 SCORE: Média harmônica entre Precisão e Recall Precisão: True Positive / (True Positive + False Positive) Recall: True Positive / (True Positive + False Negative) (2* True Positive) / (2* True Positive + False Positive + False Negative) Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648 2* Precision*Recall / (Precision + Recall) Com nossos números: 2*(0,76*1)/(0,76+1) => 1,52 / 1,76 = 0.8636 F1- Score – harmonic mean of Precision and Recall 2. precision .recall /(precision+recall)
  10. 10. ROC Area under the ROC curve = AUC 0.5(𝑟𝑎𝑛𝑑𝑜𝑚𝑚𝑜𝑑𝑒𝑙)<𝐴𝑈𝐶<1(𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑚𝑜𝑑𝑒𝑙)
  11. 11. ROC Area under the ROC curve = AUC 0.5(𝑟𝑎𝑛𝑑𝑜𝑚𝑚𝑜𝑑𝑒𝑙)<𝐴𝑈𝐶<1(𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑚𝑜𝑑𝑒𝑙)
  12. 12. Métricas de Performance Curva ROC (Receiver Operating Characteristic) – 1.0: Predição Perfeita – 0.9: Predição Excelente – 0.8: Predição Boa – 0.7: Predição Medíocre – 0.6: Predição Porca – 0.5: Predição Aleatória – <0.5: Tem alguma coisa errada!
  13. 13. Classificadores Binários
  14. 14. 30times 2 conferências 25jogadoers US$ 3,5 Bilhões em contratos 64Jogares 1 All Star Game http://deadspin.com/2014-payrolls-and-salaries-for-every-mlb-team-1551868969
  15. 15. Algoritmos Regressão Classificação Cluster Detecção de Anomalias
  16. 16. K-Means Cluster Todos os dados são plotados no gráfico Os pontos representam os indivíduos analisados, mas não estão separados em grupos, todos fazem parte do mesmo grupo. Ao informar a quantidade de centróides, as interções começam até o momento de convergir e encontrar os K grupos. Os pontos representam os dados de treinos, neste caso o dataset
  17. 17. K-Means Cluster Centróides iniciais em posições aleatórias Ao iniciar o algoritmo, os K pontos (chamados de centróides) são plotados aleatoriamente no plano e possuem um ponto de partida para iniciar o algoritmo. As cruzes representam os centróides, e a linha tracejada é a borda de separação entre os centróides, fazendo com que esse grupo seja dividido entre os individuos da parte de cima desta linha, e da parte de baixo.
  18. 18. K-Means Cluster Com base nos pontos e centros, inicia-se o algoritmo Os centróides são re-calculados a cada interação, calculando a média da distância entre cada ponto e a posição do centróide. Então, com base neste resultado o centróide muda de lugar ficando mais ao centro de seus pontos (elementos). Posição inicial (amarelo) do centróide seguindo para uma próxima posição (vermelho e azul).
  19. 19. K-Means Cluster Alteração dos pontos e centros Enquanto a distância for recalculada e elementos mudarem de centro, o algoritmo continua executando. Reparem que os elementos marcados mudaram de centro.
  20. 20. K-Means Cluster Posição final depois de uma interação.
  21. 21. K-Means Cluster Com base nos pontos e centros, inicia-se o algoritmo Mais uma interação e re-calculo das distâncias, e com isso, mais uma vez a movimentação dos centróides. Posição inicial (amarelo) do centróide seguindo para uma próxima posição (vermelho e azul).
  22. 22. K-Means Cluster Quando parar? No momento que os centróides não recebem nenhum elemento novo em seu grupo significa que eles convergiram para uma posição satisfatória, e criou os grupos necessários. Enquanto a média da distância calculada ainda alterar pontos entre os grupos, o algoritmo continua interagindo e re-calculando os centróides.
  23. 23. K-Means Cluster Ponto satisfatório Ao encontrar o ponto satisfatório, o algoritmo para de executar e mantém os elementos conectados com seus centróides. Depois da interação não houve mudança de elementos.
  24. 24. K-Means Cluster Quantos centróides usar? Existe uma linha de pesquisa que usa esta representação de elbow (cotovelo) para definir uma quantidade razoavel de centróides. Esta técnica condiz em encontrar o platô e então utilizar valores anteriores. Quando utilizar um valor que esteja estagnado no platô, o resultado não terá tanta relevância e impacto para o agrupamento.
  25. 25. K-Means Cluster
  26. 26. K-Means Cluster
  27. 27. K-Means Cluster
  28. 28. K-Means Cluster
  29. 29. K-Means Cluster
  30. 30. K-Means Cluster
  31. 31. K-Means Cluster
  32. 32. K-Means Cluster
  33. 33. K-Means Cluster
  34. 34. K-Means Cluster
  35. 35. Diego Nogare @DiegoNogare http://www.DiegoNogare.net Obrigado!

×