Business Intelligence, Data Visualization and Data Science

3.258 visualizações

Publicada em

Palestra de Business Intelligence, Data Visualization and Data Science para o PASS Chapter #SQLManiacs de São Paulo. Cobre assuntos como SQL Server, Analysis Services, Integration Services, Datazen, PowerBI, Azure Machine Learning, Linguagem R

Publicada em: Tecnologia
0 comentários
6 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
3.258
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1.612
Ações
Compartilhamentos
0
Downloads
1
Comentários
0
Gostaram
6
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Business Intelligence, Data Visualization and Data Science

  1. 1. Business Intelligence, Dataviz e Data Science SQL Maniacs Chapter Meeting Diego Nogare SQL Server MVP www.diegonogare.net
  2. 2. Diego Nogare?
  3. 3. PASS Community News August 2015
  4. 4. Planning on attending PASS Summit 2015? Start saving today! • The world’s largest gathering of SQL Server & BI professionals • Take your SQL Server skills to the next level by learning from the world’s top SQL Server experts, in over 190 technical sessions • Over 5000 registrations, representing 2000 companies, from 52 countries, ready to network & learn Save $150 right now using discount code LCCOMPRX86
  5. 5. Whatever your data passion – there’s a Virtual Chapter for you! 5 www.sqlpass.org/vc
  6. 6. Select Virtual Chapter Meetings more events and info at sqlpass.org/events VIRTUAL CHAPTER MEETING TOPIC DBA Fundamentals and Women in Technology Aug 18 11:00-12:00 (UTC-06:00) Moving from Profiler to Extended Events presented by Jes Borland In Memory Aug 18 16:00-17:00 (UTC 00:00) Inside xVelocity in-memory engine for PowerPivot, Power BI and Analysis Services Tabular presented by Marco Russo Global Spanish Aug 19 12:00-13:00 (UTC-05:00) Introducción a Data Science presented by Jose L. Rivera Virtualization Aug 19 12:00-13:00 (UTC-05:00) Questions & Answers presented with David Klee Global Russian Aug 19 15:00-16:30 (UTC+03:00) Внутри Оптимизатора Запросов: Агрегация presented by Dmitry Pilyugin Global Chinese Aug 20 20:00-21:30 (UTC-06:00) New Features in SQL 2016 with Lindsey Allen Business Analytics Aug 26 15:00-16:00 (UTC-05:00) Power BI, Mission Possible! Presented by Reza rad Application Development Aug 27 16:00-17:00 (UTC 00:00) Entity Framework Database Performance Anti-Patterns presented by Russ Thomas
  7. 7. Upcoming SQLSaturdays North America International • Aug 22 Louisville • Aug 29 El Paso • Aug 29 Oklahoma City • Sep 12 Las Vegas • Sep 19 San Diego • Sep 26 Spartanburg • Aug 18 Malaysia • Aug 22 Guatemala • Aug 29 Oslo • Sep 5 Gothenburg • Sep 5 Johannesburg • Sept 5 Paris • Sept 12 Bogota • Sep 26 São Paulo Visit www.sqlsaturday.com to register for a event near you!
  8. 8. 8 Volunteering Opportunities PASS would not exist without passionate, dedicated, and hardworking volunteers from around the globe. Volunteer today!! For local opportunities please visit volunteer.sqlpass.org For PASS HQ related activities, please update the “MyVolunteering” section of your MyPASS profile.
  9. 9. 9 PASSion Award 2015 The highest of PASS accolades presented yearly to an outstanding volunteer. Nominations for the 2015 PASSion Award are now open. Email PASSionAward@sqlpass.org to submit a nomination. For more information visit http://www.sqlpass.org/Community /Volunteers/PASSionAward.aspx
  10. 10. Stay Involved! • Sign up for a free membership today at sqlpass.org • Linked In: http://www.sqlpass.org/linkedin • Facebook: http://www.sqlpass.org/facebook • Twitter: @SQLPASS • PASS: http://www.sqlpass.org
  11. 11. Agenda  Business Intelligence  SSIS – SQL Server Integration Services  SSAS – SQL Server Analysis Services  Dataviz (Data Visualization)  Datazen  PowerBI  Data Science  Azure Machine Learning  R 1 1
  12. 12. Business Intelligence
  13. 13. SQL Server Integration Services http://www.dbbest.com/blog/wp-content/uploads/2012/12/ETL_input_output.jpg
  14. 14. SQL Server Analysis Services
  15. 15. SQL Server Analysis Services Tamanho Cor
  16. 16. SQL Server Analysis Services Tamanho Cor Camiseta Bermuda Calça Azul Amarela Vermelha Preta PP MP G 4 62 3 2 15 8 9 64 0 7 42 3
  17. 17. SQL Server Analysis Services Camiseta Bermuda Calça Azul Amarela Vermelha Preta PP MP G Bermuda Azul P Camiseta Preta G Calça Amarela M 1
  18. 18. 4 62 3 2 15 8 9 64 0 7 42 3 Azul = 55
  19. 19. 4 62 3 2 15 8 9 64 0 7 42 3 Calça = 66
  20. 20. Data Visualization
  21. 21. Datazen 2 3
  22. 22. PowerBI 2 4
  23. 23. 2 5 PowerBI
  24. 24. Data Science
  25. 25. Algoritmos Regressão Classificação Cluster Detecção de Anomalias
  26. 26. Fronteira de Decisão ℎ𝜃 𝑥 = 𝑔(𝜃0 + 𝜃1x1 + 𝜃2x2) ℎθ(𝑥) = 𝑔(𝜃00 + 𝜃1x1 + 𝜃2x2 + 𝜃3x1 2 + 𝜃4x2 2 ) Função Linear Função Quadrática
  27. 27. Classificadores Binários
  28. 28. Classificadores Binários ACURACY (ACURÁCIA): Quantidade classificada como Positivos e Negativos corretamente (True Positive + True Negative) / ((True Positive + False Negative) +(False Positive + True Negative)) Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75 = 0.9333
  29. 29. Classificadores Binários PRECISION (PRECISÃO): Quantidade classificada corretamente True Positive / (True Positive + False Positive) Com nossos números: (16) / (16 + 5) => 16 / 21 = 0.7619
  30. 30. Classificadores Binários RECALL: Quantidade classificada como Positivo corretamente True Positive / (True Positive + False Negative) Com nossos números: 16 / (16+0) => 16 / 16 = 1
  31. 31. Classificadores Binários F1 SCORE: Média harmônica entre Precisão e Recall Precisão: True Positive / (True Positive + False Positive) Recall: True Positive / (True Positive + False Negative) (2* True Positive) / (2* True Positive + False Positive + False Negative) Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648 2* Precision*Recall / (Precision + Recall) Com nossos números: 2*(0,76*1)/(0,76+1) => 1,52 / 1,76 = 0.8636 F1- Score – harmonic mean of Precision and Recall 2. precision .recall /(precision+recall)
  32. 32. ROC Area under the ROC curve = AUC 0.5(𝑟𝑎𝑛𝑑𝑜𝑚𝑚𝑜𝑑𝑒𝑙)<𝐴𝑈𝐶<1(𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑚𝑜𝑑𝑒𝑙)
  33. 33. ROC Area under the ROC curve = AUC 0.5(𝑟𝑎𝑛𝑑𝑜𝑚𝑚𝑜𝑑𝑒𝑙)<𝐴𝑈𝐶<1(𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑚𝑜𝑑𝑒𝑙)
  34. 34. Métricas de Performance Curva ROC (Receiver Operating Characteristic) – 1.0: Predição Perfeita – 0.9: Predição Excelente – 0.8: Predição Boa – 0.7: Predição Medíocre – 0.6: Predição Porca – 0.5: Predição Aleatória – <0.5: Tem alguma coisa errada!
  35. 35. Classificadores Binários
  36. 36. 30times 2 conferências 25jogadoers US$ 3,5 Bilhões em contratos 64Jogares 1 All Star Game http://deadspin.com/2014-payrolls-and-salaries-for-every-mlb-team-1551868969
  37. 37. K-Means Cluster Todos os dados são plotados no gráfico Os pontos representam os indivíduos analisados, mas não estão separados em grupos, todos fazem parte do mesmo grupo. Ao informar a quantidade de centróides, as interções começam até o momento de convergir e encontrar os K grupos. Os pontos representam os dados de treinos, neste caso o dataset
  38. 38. K-Means Cluster Centróides iniciais em posições aleatórias Ao iniciar o algoritmo, os K pontos (chamados de centróides) são plotados aleatoriamente no plano e possuem um ponto de partida para iniciar o algoritmo. As cruzes representam os centróides, e a linha tracejada é a borda de separação entre os centróides, fazendo com que esse grupo seja dividido entre os individuos da parte de cima desta linha, e da parte de baixo.
  39. 39. K-Means Cluster Com base nos pontos e centros, inicia-se o algoritmo Os centróides são re-calculados a cada interação, calculando a média da distância entre cada ponto e a posição do centróide. Então, com base neste resultado o centróide muda de lugar ficando mais ao centro de seus pontos (elementos). Posição inicial (amarelo) do centróide seguindo para uma próxima posição (vermelho e azul).
  40. 40. K-Means Cluster Alteração dos pontos e centros Enquanto a distância for recalculada e elementos mudarem de centro, o algoritmo continua executando. Reparem que os elementos marcados mudaram de centro.
  41. 41. K-Means Cluster Posição final depois de uma interação.
  42. 42. K-Means Cluster Com base nos pontos e centros, inicia-se o algoritmo Mais uma interação e re-calculo das distâncias, e com isso, mais uma vez a movimentação dos centróides. Posição inicial (amarelo) do centróide seguindo para uma próxima posição (vermelho e azul).
  43. 43. K-Means Cluster Quando parar? No momento que os centróides não recebem nenhum elemento novo em seu grupo significa que eles convergiram para uma posição satisfatória, e criou os grupos necessários. Enquanto a média da distância calculada ainda alterar pontos entre os grupos, o algoritmo continua interagindo e re-calculando os centróides.
  44. 44. K-Means Cluster Ponto satisfatório Ao encontrar o ponto satisfatório, o algoritmo para de executar e mantém os elementos conectados com seus centróides. Depois da interação não houve mudança de elementos.
  45. 45. K-Means Cluster Quantos centróides usar? Existe uma linha de pesquisa que usa esta representação de elbow (cotovelo) para definir uma quantidade razoavel de centróides. Esta técnica condiz em encontrar o platô e então utilizar valores anteriores. Quando utilizar um valor que esteja estagnado no platô, o resultado não terá tanta relevância e impacto para o agrupamento.
  46. 46. K-Means Cluster
  47. 47. K-Means Cluster
  48. 48. K-Means Cluster
  49. 49. K-Means Cluster
  50. 50. K-Means Cluster
  51. 51. K-Means Cluster
  52. 52. K-Means Cluster
  53. 53. K-Means Cluster
  54. 54. K-Means Cluster
  55. 55. K-Means Cluster
  56. 56. Multidimensional Vs. Tabular DAX – Data Analysis eXpressions MDX – MultiDimensinal eXpressions DMX – Data Mining eXtensions
  57. 57. Quer aprender mais sobre BI?
  58. 58. Do Banco de Dados Relacional à Tomada de Decisão http://www.ngrsolutions.com.br/course/bi
  59. 59. Obrigado! Diego Nogare SQL Server MVP www.diegonogare.net

×