Big Data e Data Science - GBG - Google Business Group

2.305 visualizações

Publicada em

Nesta palestra falo sobre os tipos de aprendizados de máquinas (supervisionado, semi-supervisionado e não supervisinado) e os possíveis resultados reais obtidos com cada um destes tipos de classificadores para se trabalhar com Machine Learning.

Publicada em: Tecnologia
  • Seja o primeiro a comentar

Big Data e Data Science - GBG - Google Business Group

  1. 1. Big Data & Data Science Diego Nogare Cientista de Dados @DiegoNogare
  2. 2. DO QUE É ESTA PALESTRA? Inteligência Artificial Análise Preditiva Aprendizado de Máquinas Big Data Business Analytics Data Science
  3. 3. APRENDIZADO DE MÁQUINAS?! Aprendizado Supervisionado Aprendizado Semi-Supervisionado Aprendizado Não Supervisionado
  4. 4. ALGORITMOS Regressão Classificação Cluster Detecção de Anomalias
  5. 5. SUPERVISIONADO Classificadores
  6. 6. CLASSIFICADORES BINÁRIOS
  7. 7. CLASSIFICADORES BINÁRIOS ACURACY (ACURÁCIA): Quantidade classificada como Positivos e Negativos corretamente (True Positive + True Negative) / ((True Positive + False Negative) +(False Positive + True Negative)) Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75 = 0.9333
  8. 8. CLASSIFICADORES BINÁRIOS PRECISION (PRECISÃO): Quantidade classificada corretamente True Positive / (True Positive + False Positive) Com nossos números: (16) / (16 + 5) => 16 / 21 = 0.7619
  9. 9. CLASSIFICADORES BINÁRIOS RECALL: Quantidade classificada como Positivo corretamente True Positive / (True Positive + False Negative) Com nossos números: 16 / (16+0) => 16 / 16 = 1
  10. 10. CLASSIFICADORES BINÁRIOS F1 SCORE: Média harmônica entre Precisão e Recall Precisão: True Positive / (True Positive + False Positive) Recall: True Positive / (True Positive + False Negative) (2* True Positive) / (2* True Positive + False Positive + False Negative) Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648 2* Precision*Recall / (Precision + Recall) Com nossos números: 2*(0,76*1)/(0,76+1) => 1,52 / 1,76 = 0.8636
  11. 11. CLASSIFICADORES BINÁRIOS
  12. 12. 30times 2 conferências 25jogadoers US$ 3,5 Bilhões em contratos 64Jogares 1 All Star Game http://deadspin.com/2014-payrolls-and-salaries-for-every-mlb-team-1551868969
  13. 13. COMO É SEU ALMOÇO?
  14. 14. Fronteira de Decisão ℎ𝜃 𝑥 = 𝑔(𝜃0 + 𝜃1x1 + 𝜃2x2) ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃1x1 + 𝜃2x2 + 𝜃3x1 2 + 𝜃4x2 2 ) Função Linear Função Quadrática ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃1x1 + 𝜃2x2 + 𝜃3x1 2 + 𝜃4x2 2 + 𝜃5x1 3 + 𝜃6x2 3 + 𝜃7x1 4 + 𝜃8x2 4) Função elevada à quarta potência
  15. 15. SEMI SUPERVISIONADO Google
  16. 16. https://www.google.com/selfdrivingcar/
  17. 17. NÃO SUPERVISIONADO Cluster
  18. 18. K-MEANS CLUSTER Todos os dados são plotados no gráfico Os pontos representam os indivíduos analisados, mas não estão separados em grupos, todos fazem parte do mesmo grupo. Ao informar a quantidade de centróides, as interções começam até o momento de convergir e encontrar os K grupos. Os pontos representam os dados de treinos, neste caso o dataset
  19. 19. K-MEANS CLUSTER Centróides iniciais em posições aleatórias Ao iniciar o algoritmo, os K pontos (chamados de centróides) são plotados aleatoriamente no plano e possuem um ponto de partida para iniciar o algoritmo.
  20. 20. K-MEANS CLUSTER Com base nos pontos e centros, inicia-se o algoritmo Os centróides são re-calculados a cada interação, calculando a média da distância entre cada ponto e a posição do centróide. Então, com base neste resultado o centróide muda de lugar ficando mais ao centro de seus pontos (elementos).
  21. 21. K-MEANS CLUSTER Alteração dos pontos e centros Enquanto a distância for recalculada e elementos mudarem de centro, o algoritmo continua executando. Reparem que os elementos marcados mudaram de centro.
  22. 22. K-MEANS CLUSTER Posição final depois de uma interação.
  23. 23. K-MEANS CLUSTER Com base nos pontos e centros, inicia-se o algoritmo Mais uma interação e re-calculo das distâncias, e com isso, mais uma vez a movimentação dos centróides. Posição inicial (amarelo) do centróide seguindo para uma próxima posição (vermelho e azul).
  24. 24. K-MEANS CLUSTER Quando parar? No momento que os centróides não recebem nenhum elemento novo em seu grupo significa que eles convergiram para uma posição satisfatória, e criou os grupos necessários.
  25. 25. K-MEANS CLUSTER Ponto satisfatório Ao encontrar o ponto satisfatório, o algoritmo para de executar e mantém os elementos conectados com seus centróides. Depois da interação não houve mudança de elementos.
  26. 26. K-MEANS CLUSTER
  27. 27. K-MEANS CLUSTER
  28. 28. K-MEANS CLUSTER
  29. 29. K-MEANS CLUSTER
  30. 30. Dieta e Saúde O QUE CONSEGUIMOS COM ISSO?
  31. 31. Mais de 5 milhões de downloads 500 mil usuários únicos mensais Mais de 1 milhão de quilos perdidos em 2014
  32. 32. Diego Nogare @DiegoNogare http://www.DiegoNogare.net OBRIGADO:)

×