Business Intelligence & Data Mining - Knowledge Discovery in Databases

1.295 visualizações

Publicada em

Business Intelligence & Data Mining - Knowledge Discovery in Databases. K-Means e Random Forest no R.

Publicada em: Dados e análise
0 comentários
6 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.295
No SlideShare
0
A partir de incorporações
0
Número de incorporações
84
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
6
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Business Intelligence & Data Mining - Knowledge Discovery in Databases

  1. 1. Business Intelligence Prof. Leandro Guerra E-mail: leandro.guerra@artedosdados.com.br @leandro_war artedosdados.com.br Knowledge Discovery in Databases fb.com/artedosdados
  2. 2. 2
  3. 3. 3 Business Intelligence Nível de Maturidade MATURIDADE I N T E L L I G E N C E O que aconteceu? Por quê aconteceu? O que acontecerá? Dashboards Scorecards Relatórios OLAP Queries Ad Hoc Predição Data Mining Relembrar é viver...
  4. 4. 4 Business Intelligence CRISP-DM Ele é constituído de seis etapas • Entendimento do Negócio • Entendimento dos Dados • Preparação dos Dados • Modelagem • Avaliação • Entrega Relembrar é viver...
  5. 5. 5 Business Intelligence & Data Mining *Introduction to KDD and data mining - http://www.mimuw.edu.pl/~son/datamining/DM/1-intro.pdf
  6. 6. 6 KDD Knowledge Discovery in Databases *Etapas dos processo de KDD (Fayyad et. al. 1996) “É o processo de descobrir conhecimento útil de uma ou mais bases de dados. É um processo amplamente utilizado, que inclui preparação dos dados, hieginação, seleção e técnicas de data mining para encontrar padrões que possam ser interpretados e transformado em conhecimento, auxiliando o processo de tomada de decisão”
  7. 7. 7 KDD Etapas *Etapas dos processo de KDD - "From Data Mining to Knowledge Discovery: An Overview" (Fayyad et. al. 1996) 1 – Entendimento do Negócio 2 – Entendimento e escolha dos dados 3 – Data cleaning e pré-processamento • Tratamento de outliers • Tratamento de missings 4 – Featuring Engineering e Feature Selection 5 – Escolha da tarefa de data mining • Classificação • Regressão • Agrupamento (Clustering) • Associação 6 – Escolha do algoritmo 7 – Execução 8 – Interpretação dos resultados 9 - Entrega
  8. 8. 8 KDD Etapa 5 – Escolha da tarefa de data mining Exemplo: Customer Churn Valor da Fatura # Reclamações No Churn No Churn No Churn No Churn No Churn No Churn No Churn Churn Churn Churn ChurnChurn Churn Churn Churn Churn No Churn
  9. 9. 9 KDD Etapa 5 – Escolha da tarefa de data mining Exemplo: Regressão Linear Valor da Fatura # Reclamações No Churn No Churn No Churn No Churn No Churn No Churn No Churn Churn Churn Churn ChurnChurn Churn Churn Churn Churn No Churn
  10. 10. 10 KDD Etapa 5 – Escolha da tarefa de data mining Exemplo: Classificação Linear Valor da Fatura # Reclamações No Churn No Churn No Churn No Churn No Churn No Churn No Churn Churn Churn Churn ChurnChurn Churn Churn Churn Churn No Churn
  11. 11. 11 KDD Etapa 5 – Escolha da tarefa de data mining Exemplo: Classificação Não-Linear Valor da Fatura # Reclamações No Churn No Churn No Churn No Churn No Churn No Churn No Churn Churn Churn Churn ChurnChurn Churn Churn Churn Churn No Churn
  12. 12. 12 KDD Etapa 5 – Escolha da tarefa de data mining Exemplo: Clustering – K-Means Valor da Fatura # Reclamações No Churn No Churn No Churn No Churn No Churn No Churn No Churn Churn Churn Churn ChurnChurn Churn Churn Churn Churn No Churn Baixo Churn Médio Churn Alto Churn
  13. 13. 13 Clustering no R K-Means – Demonstração do Algoritmo *http://en.wikipedia.org/wiki/K-means_clustering
  14. 14. 14 Clustering no R K-Means
  15. 15. 15 Clustering no R K-Means
  16. 16. 16 Clustering no R K-Means
  17. 17. 17 Clustering no R K-Means
  18. 18. 18 Clustering no R Dendograma
  19. 19. 19 Clustering no R Dendograma
  20. 20. 20 Clustering no R Dendograma
  21. 21. 21 Voltando ao Kaggle… Otto Group Product Classification Challenge
  22. 22. 22 Voltando ao Kaggle… Otto Group Product Classification Challenge
  23. 23. 23 Por onde começar? Árvore de Decisão?
  24. 24. 24 Random Forest Uma floresta? Base de treinamento (Z Variáveis e Classes) Seleção aleatória de X variáveis (com X << Z) Seleção aleatória de X variáveis (com X << Z) Um árvore é calculada Random Forest Número de árvores é determinado pelo usuário *David Roberts, University of Alberta - http://www.ualberta.ca/~drr3/random-forest.html
  25. 25. 25 Random forest Decision Trees Ensemble
  26. 26. 26 Random forest Observações Prós Contras
  27. 27. 27 Business Intelligence

×