PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL 
FACULDADE DE INFORMÁTICA - FACIN 
CART 
Classification and Regressi...
CART no Data Mining 
✓ Classificação 
✓ Regressão 
❏ Descoberta de Regras de Associação 
❏ Descoberta de Padrões Sequencia...
Classificação 
É a técnica de aprendizado sobre um conjunto 
de dados f que mapeia atributos x para alguma 
classe y já pr...
Classificação
Árvores de Decisão
Árvores de Decisão
CART 
É um algoritmo não paramétrico. Possui grande 
capacidade de pesquisa de relações entre os dados, 
prevendo o tratam...
CART 
É um algoritmo não paramétrico. Possui grande 
capacidade de pesquisa de relações entre os dados, 
prevendo o tratam...
CART 
● Indução pela abordagem top-down 
● Se baseia em um arquivo de treinamento de dados 
● Constrói uma árvore de decis...
CART é Recursivo 
O processo é aplicado 
recursivamente a cada um 
dos subconjuntos assim 
gerados, até que não seja 
poss...
CART 
Métodos de classificação 
e regressão baseados em 
particões binárias 
recursivas de uma 
amostra.
CART 
● Define o conjunto de regras para dividir cada 
nó da árvore. 
● Decidir quando a árvore está completa. 
● Associar...
CART 
● Calcula as melhores divisões. (Gini) 
● Uma vez encontrada a melhor divisão, 
repete-se o processo de procura para...
CART 
● Depois que todos os nós terminais foram 
encontrados, é definida a árvore como 
maximal, ou seja, a árvore de tama...
CART 
Após encontrar a árvore maximal, começa-se a podar 
alguns ramos da mesma árvore de modo a aumentar o 
poder de gene...
Algoritmo 
MakeTree(Training Data T) 
Partition(T); 
Partition(Data S) 
if (all points in S are in the same class)) then r...
CART (Parallel) 
Parallel Decision Tree Algorithm Based on 
Combination - Li Wenlong, Xing Changzheng 
A Streaming Paralle...
Classification (Parallel) 
SHAFER,J.,A GRAWAL,R., AND MEHTA, M. 1996. 
SPRINT: A scalable parallel classifier for data min...
Cart using MatlabMPI * 
1 - Supomos que o tamanho do dataset é N e o 
número de processadores é P. 
2 - O processador Rank...
Cart using MatlabMPI 
3 - Os outros processadores 
-Fazem o cálculo de todos os 
atributos 
-Enviam os resultados 
4 - Ran...
Cart using MatlabMPI 
5 - Rank-0 
-Se todos os nodos pertencerem a 
mesma classe, encerra o processamento. 
-Se não, envia...
Cart using MatlabMPI 
6 - Outros processadores 
-Dividem os dados entre direita e 
esquerda com o melhor atributo 
Etapas ...
Cart - Classification and Regression Tree
Próximos SlideShares
Carregando em…5
×

Cart - Classification and Regression Tree

387 visualizações

Publicada em

Cart - Classification and Regression Tree

Publicada em: Dados e análise
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
387
No SlideShare
0
A partir de incorporações
0
Número de incorporações
5
Ações
Compartilhamentos
0
Downloads
12
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Cart - Classification and Regression Tree

  1. 1. PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL FACULDADE DE INFORMÁTICA - FACIN CART Classification and Regression Tree Cleverson Ledur
  2. 2. CART no Data Mining ✓ Classificação ✓ Regressão ❏ Descoberta de Regras de Associação ❏ Descoberta de Padrões Sequenciais ❏ Agrupamento (clustering) ❏ Detecção de Anomalias
  3. 3. Classificação É a técnica de aprendizado sobre um conjunto de dados f que mapeia atributos x para alguma classe y já predefinida. (TAM,2006) Ex: Classificação de animais (temperatura corpo, pele, pelos, pernas, hiberna) = Mammal, reptile, fish, amphibian...
  4. 4. Classificação
  5. 5. Árvores de Decisão
  6. 6. Árvores de Decisão
  7. 7. CART É um algoritmo não paramétrico. Possui grande capacidade de pesquisa de relações entre os dados, prevendo o tratamento de variáveis dependentes discretas, através da classificação, ou de variáveis contínuas, pela regressão. Apresentado por Leo Breiman, Jerome Friedman, Richard Oslen e Charles Stone apud [FON 94], em 1984.
  8. 8. CART É um algoritmo não paramétrico. Possui grande capacidade de pesquisa de relações entre os dados, prevendo o tratamento de variáveis dependentes discretas, através da classificação, ou de variáveis contínuas, pela regressão. não presumem que a estrutura de um modelo é fixa. Tipicamente, o modelo cresce no sentido de acomodar a complexidade dos dados. Apresentado por Leo Breiman, Jerome Friedman, Richard Oslen e Charles Stone apud [FON 94], em 1984.
  9. 9. CART ● Indução pela abordagem top-down ● Se baseia em um arquivo de treinamento de dados ● Constrói uma árvore de decisão ○ Particiona em duas ligações cada nodo. ○ Separa os registros de cada partição ● Atributo a ser particionado = gera grupos com a menor diversidade
  10. 10. CART é Recursivo O processo é aplicado recursivamente a cada um dos subconjuntos assim gerados, até que não seja possível ou necessário efetuar mais nenhuma partição, sendo cada registro do conjunto de treinamento atribuído a alguma folha da AD.
  11. 11. CART Métodos de classificação e regressão baseados em particões binárias recursivas de uma amostra.
  12. 12. CART ● Define o conjunto de regras para dividir cada nó da árvore. ● Decidir quando a árvore está completa. ● Associar cada nó terminal a uma classe ou a um valor preditivo no caso da regressão.
  13. 13. CART ● Calcula as melhores divisões. (Gini) ● Uma vez encontrada a melhor divisão, repete-se o processo de procura para cada nó filho, continuamente até que a divisão seja impossível ou interrompida.
  14. 14. CART ● Depois que todos os nós terminais foram encontrados, é definida a árvore como maximal, ou seja, a árvore de tamanho máximo.
  15. 15. CART Após encontrar a árvore maximal, começa-se a podar alguns ramos da mesma árvore de modo a aumentar o poder de generalização. Algumas sub-árvores, obtidas através da poda de alguns ramos desta árvore, são examinadas testando taxas de erros e a melhor delas é escolhida.
  16. 16. Algoritmo MakeTree(Training Data T) Partition(T); Partition(Data S) if (all points in S are in the same class)) then return; evaluate splits for each attribute A Use best split found to partition S into S¹ and S²; Partition(S¹); Partition(S²);
  17. 17. CART (Parallel) Parallel Decision Tree Algorithm Based on Combination - Li Wenlong, Xing Changzheng A Streaming Parallel Decision Tree Algorithm - Yael Ben-Haim, Elad Tom-Tov HC-CART: A Parallel System Implementation of Data Mining Classification and Regression Tree Algorithm on a Multi-FPGA System - Grigorios Chrysos, at al.
  18. 18. Classification (Parallel) SHAFER,J.,A GRAWAL,R., AND MEHTA, M. 1996. SPRINT: A scalable parallel classifier for data mining. In Proceedings of the 22nd International Conference on Very Large Databases. 544–555 MEHTA,M.,A GRAWAL,R.,AND RISSANEN, J. 1996. SLIQ: A fast scalable classifier for data mining. In Advances in Database Technology. Springer, 18–32
  19. 19. Cart using MatlabMPI * 1 - Supomos que o tamanho do dataset é N e o número de processadores é P. 2 - O processador Rank-0 -faz a leitura do dataset. -distribui o dataset dividido igualmente entre os processadores http://www.ll.mit.edu/HPEC/agendas/proc03/pdfs/khot.pdf
  20. 20. Cart using MatlabMPI 3 - Os outros processadores -Fazem o cálculo de todos os atributos -Enviam os resultados 4 - Rank-0 -Recebe os cálculos -Escolhe a melhor divisão
  21. 21. Cart using MatlabMPI 5 - Rank-0 -Se todos os nodos pertencerem a mesma classe, encerra o processamento. -Se não, envia a melhor divisão para todos os processadores
  22. 22. Cart using MatlabMPI 6 - Outros processadores -Dividem os dados entre direita e esquerda com o melhor atributo Etapas 3-6 são repedidas.

×