Identifica¸˜o de spam utilizando
ca
Random Forest
Fabr´ J. Barth
ıcio
Falculdade BandTec e VAGAS Tecnologia

Junho de 2013
Aprendizado de ´rvores de decis˜o
a
a

Identifica¸˜o de spam utilizando Random Forest —
ca

Aprendizado de ´rvores de decis...
Caracter´
ısticas
• Representa¸˜o de ´rvore de decis˜o:
ca
a
a
cada nodo interno testa um atributo;
cada aresta correponde...
Algoritmo ID3
• O algoritmo ID3 cria uma ´rvore de uma maneira
a
top-down come¸ando com a seguinte pergunta:
c
Qual atribu...
Entrada: Conjunto de Exemplos E.
´
Sa´
ıda: Arvore de Decis˜o (Hip´tese h).
a
o
1 Se todos os exemplos tem o mesmo resulta...
Exemplo de classifica¸˜o de Spam usando
ca
J48
O objetivo deste exerc´ ´ demonstrar a cria¸˜o de um
ıcio e
ca
modelo predit...
Aprendizado de florestas de ´rvores de
a
decis˜o
a

Identifica¸˜o de spam utilizando Random Forest —
ca

Aprendizado de flore...
Exemplo de classifica¸˜o de Spam usando
ca
RandomForest
http://rpubs.com/fbarth/classificacaoSpamRandomForest

Identifica¸˜o ...
Material de consulta
• Tom Mitchell. Machine Learning, 1997. (Cap´
ıtulo 3)
• Russel e Norvig. Inteligˆncia Artificial, 2a....
• Yanchang Zhao. R and Data Mining: Examples and
Case Studies. (Cap´
ıtulo 4): http://cran.rproject.org/doc/contrib/Zhao R...
• Package ’randomForest’. http://cran.rproject.org/web/packages/randomForest/randomForest.pdf.
Acessado em 14 de junho de ...
Próximos SlideShares
Carregando em…5
×

Web Data Mining com R: identificação de spam utilizando Random Forest

466 visualizações

Publicada em

Web Data Mining com R: identificação de spam utilizando Random Forest

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
466
No SlideShare
0
A partir de incorporações
0
Número de incorporações
9
Ações
Compartilhamentos
0
Downloads
7
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Web Data Mining com R: identificação de spam utilizando Random Forest

  1. 1. Identifica¸˜o de spam utilizando ca Random Forest Fabr´ J. Barth ıcio Falculdade BandTec e VAGAS Tecnologia Junho de 2013
  2. 2. Aprendizado de ´rvores de decis˜o a a Identifica¸˜o de spam utilizando Random Forest — ca Aprendizado de ´rvores de decis˜o a a 2
  3. 3. Caracter´ ısticas • Representa¸˜o de ´rvore de decis˜o: ca a a cada nodo interno testa um atributo; cada aresta correponde a um valor de atributo; cada nodo folha retorna uma classifica¸˜o. ca Identifica¸˜o de spam utilizando Random Forest — ca Caracter´ ısticas 3
  4. 4. Algoritmo ID3 • O algoritmo ID3 cria uma ´rvore de uma maneira a top-down come¸ando com a seguinte pergunta: c Qual atributo deve ser testado na raiz da ´rvore? a • Para responder esta quest˜o, cada atributo do a conjunto de treinamento ´ avaliado usando um teste e estat´ ıstico para determinar qu˜o bem o atributo a (sozinho) classifica os exemplos de treinamento. Identifica¸˜o de spam utilizando Random Forest — ca Algoritmo ID3 4
  5. 5. Entrada: Conjunto de Exemplos E. ´ Sa´ ıda: Arvore de Decis˜o (Hip´tese h). a o 1 Se todos os exemplos tem o mesmo resultado para a fun¸˜o ca sendo aprendida, retorna um nodo folha com este valor; 2 Cria um nodo de decis˜o N e escolhe o melhor atributo A a para este nodo; 3 Para cada valor V poss´ para A: ıvel 3.1 cria uma aresta em N para o valor V ; 3.2 cria um subconjunto EV de exemplos onde A = V ; 3.3 liga a aresta com o nodo que retorna da aplica¸˜o do ca algoritmo considerando os exemplos EV . 4 Os passos 1, 2 e 3 s˜o aplicados recursivamente para cada a novo subconjunto de exemplos de treinamento. Identifica¸˜o de spam utilizando Random Forest — ca 5
  6. 6. Exemplo de classifica¸˜o de Spam usando ca J48 O objetivo deste exerc´ ´ demonstrar a cria¸˜o de um ıcio e ca modelo preditivo no formato de ´rvore de decis˜o para a a identificar spam. Para tanto, ser´ utilizado o dataset a disponibilizado em http://archive.ics.uci.edu/ml/datasets/Spambase. http://rpubs.com/fbarth/classificacaoSpamJ48 Identifica¸˜o de spam utilizando Random Forest — ca Exemplo de classifica¸˜o de Spam usando J48 ca 6
  7. 7. Aprendizado de florestas de ´rvores de a decis˜o a Identifica¸˜o de spam utilizando Random Forest — ca Aprendizado de florestas de ´rvores de decis˜o a a 7
  8. 8. Exemplo de classifica¸˜o de Spam usando ca RandomForest http://rpubs.com/fbarth/classificacaoSpamRandomForest Identifica¸˜o de spam utilizando Random Forest — ca Exemplo de classifica¸˜o de Spam usando RandomForest ca 8
  9. 9. Material de consulta • Tom Mitchell. Machine Learning, 1997. (Cap´ ıtulo 3) • Russel e Norvig. Inteligˆncia Artificial, 2a. edi¸˜o, e ca cap´ ıtulo 18. • Weka no R: http://cran.rproject.org/web/packages/RWeka/RWeka.pdf. Identifica¸˜o de spam utilizando Random Forest — ca Material de consulta 9
  10. 10. • Yanchang Zhao. R and Data Mining: Examples and Case Studies. (Cap´ ıtulo 4): http://cran.rproject.org/doc/contrib/Zhao R and data mining.pdf • Exemplo de uso de algoritmos indutores de ´rvore de a decis˜o. http://rpubs.com/fbarth/arvoreDecisao. a Acesso em 14 de junho de 2013. Identifica¸˜o de spam utilizando Random Forest — ca Material de consulta 10
  11. 11. • Package ’randomForest’. http://cran.rproject.org/web/packages/randomForest/randomForest.pdf. Acessado em 14 de junho de 2013. • Breiman, Leo (2001). ”Random Forests”. Machine Learning 45 (1): 5-32. • H. Costa, F. Benevenuto, L. Merschmann. Detecting Tip Spam in Location-based Social Networks. In Proceedings of the ACM Symposium on Applied Computing (SAC’13). http://homepages.dcc.ufmg.br/ fabricio/download/sac2013.pdf Identifica¸˜o de spam utilizando Random Forest — ca Material de consulta 11

×