Identifica¸˜o de spam utilizando
ca
Random Forest
Fabr´ J. Barth
ıcio
Falculdade BandTec e VAGAS Tecnologia

Junho de 2013
Aprendizado de ´rvores de decis˜o
a
a

Identifica¸˜o de spam utilizando Random Forest —
ca

Aprendizado de ´rvores de decis˜o
a
a

2
Caracter´
ısticas
• Representa¸˜o de ´rvore de decis˜o:
ca
a
a
cada nodo interno testa um atributo;
cada aresta correponde a um valor de atributo;
cada nodo folha retorna uma classifica¸˜o.
ca

Identifica¸˜o de spam utilizando Random Forest —
ca

Caracter´
ısticas

3
Algoritmo ID3
• O algoritmo ID3 cria uma ´rvore de uma maneira
a
top-down come¸ando com a seguinte pergunta:
c
Qual atributo deve ser testado na raiz da ´rvore?
a
• Para responder esta quest˜o, cada atributo do
a
conjunto de treinamento ´ avaliado usando um teste
e
estat´
ıstico para determinar qu˜o bem o atributo
a
(sozinho) classifica os exemplos de treinamento.

Identifica¸˜o de spam utilizando Random Forest —
ca

Algoritmo ID3

4
Entrada: Conjunto de Exemplos E.
´
Sa´
ıda: Arvore de Decis˜o (Hip´tese h).
a
o
1 Se todos os exemplos tem o mesmo resultado para a fun¸˜o
ca
sendo aprendida, retorna um nodo folha com este valor;
2 Cria um nodo de decis˜o N e escolhe o melhor atributo A
a
para este nodo;
3 Para cada valor V poss´ para A:
ıvel
3.1 cria uma aresta em N para o valor V ;
3.2 cria um subconjunto EV de exemplos onde A = V ;
3.3 liga a aresta com o nodo que retorna da aplica¸˜o do
ca
algoritmo considerando os exemplos EV .
4 Os passos 1, 2 e 3 s˜o aplicados recursivamente para cada
a
novo subconjunto de exemplos de treinamento.

Identifica¸˜o de spam utilizando Random Forest —
ca

5
Exemplo de classifica¸˜o de Spam usando
ca
J48
O objetivo deste exerc´ ´ demonstrar a cria¸˜o de um
ıcio e
ca
modelo preditivo no formato de ´rvore de decis˜o para
a
a
identificar spam. Para tanto, ser´ utilizado o dataset
a
disponibilizado em
http://archive.ics.uci.edu/ml/datasets/Spambase.
http://rpubs.com/fbarth/classificacaoSpamJ48

Identifica¸˜o de spam utilizando Random Forest —
ca

Exemplo de classifica¸˜o de Spam usando J48
ca

6
Aprendizado de florestas de ´rvores de
a
decis˜o
a

Identifica¸˜o de spam utilizando Random Forest —
ca

Aprendizado de florestas de ´rvores de decis˜o
a
a

7
Exemplo de classifica¸˜o de Spam usando
ca
RandomForest
http://rpubs.com/fbarth/classificacaoSpamRandomForest

Identifica¸˜o de spam utilizando Random Forest —
ca

Exemplo de classifica¸˜o de Spam usando RandomForest
ca

8
Material de consulta
• Tom Mitchell. Machine Learning, 1997. (Cap´
ıtulo 3)
• Russel e Norvig. Inteligˆncia Artificial, 2a. edi¸˜o,
e
ca
cap´
ıtulo 18.
• Weka no R: http://cran.rproject.org/web/packages/RWeka/RWeka.pdf.

Identifica¸˜o de spam utilizando Random Forest —
ca

Material de consulta

9
• Yanchang Zhao. R and Data Mining: Examples and
Case Studies. (Cap´
ıtulo 4): http://cran.rproject.org/doc/contrib/Zhao R and data mining.pdf
• Exemplo de uso de algoritmos indutores de ´rvore de
a
decis˜o. http://rpubs.com/fbarth/arvoreDecisao.
a
Acesso em 14 de junho de 2013.

Identifica¸˜o de spam utilizando Random Forest —
ca

Material de consulta

10
• Package ’randomForest’. http://cran.rproject.org/web/packages/randomForest/randomForest.pdf.
Acessado em 14 de junho de 2013.
• Breiman, Leo (2001). ”Random Forests”. Machine
Learning 45 (1): 5-32.
• H. Costa, F. Benevenuto, L. Merschmann. Detecting
Tip Spam in Location-based Social Networks. In
Proceedings of the ACM Symposium on Applied
Computing (SAC’13).
http://homepages.dcc.ufmg.br/ fabricio/download/sac2013.pdf

Identifica¸˜o de spam utilizando Random Forest —
ca

Material de consulta

11

Web Data Mining com R: identificação de spam utilizando Random Forest

  • 1.
    Identifica¸˜o de spamutilizando ca Random Forest Fabr´ J. Barth ıcio Falculdade BandTec e VAGAS Tecnologia Junho de 2013
  • 2.
    Aprendizado de ´rvoresde decis˜o a a Identifica¸˜o de spam utilizando Random Forest — ca Aprendizado de ´rvores de decis˜o a a 2
  • 3.
    Caracter´ ısticas • Representa¸˜o de´rvore de decis˜o: ca a a cada nodo interno testa um atributo; cada aresta correponde a um valor de atributo; cada nodo folha retorna uma classifica¸˜o. ca Identifica¸˜o de spam utilizando Random Forest — ca Caracter´ ısticas 3
  • 4.
    Algoritmo ID3 • Oalgoritmo ID3 cria uma ´rvore de uma maneira a top-down come¸ando com a seguinte pergunta: c Qual atributo deve ser testado na raiz da ´rvore? a • Para responder esta quest˜o, cada atributo do a conjunto de treinamento ´ avaliado usando um teste e estat´ ıstico para determinar qu˜o bem o atributo a (sozinho) classifica os exemplos de treinamento. Identifica¸˜o de spam utilizando Random Forest — ca Algoritmo ID3 4
  • 5.
    Entrada: Conjunto deExemplos E. ´ Sa´ ıda: Arvore de Decis˜o (Hip´tese h). a o 1 Se todos os exemplos tem o mesmo resultado para a fun¸˜o ca sendo aprendida, retorna um nodo folha com este valor; 2 Cria um nodo de decis˜o N e escolhe o melhor atributo A a para este nodo; 3 Para cada valor V poss´ para A: ıvel 3.1 cria uma aresta em N para o valor V ; 3.2 cria um subconjunto EV de exemplos onde A = V ; 3.3 liga a aresta com o nodo que retorna da aplica¸˜o do ca algoritmo considerando os exemplos EV . 4 Os passos 1, 2 e 3 s˜o aplicados recursivamente para cada a novo subconjunto de exemplos de treinamento. Identifica¸˜o de spam utilizando Random Forest — ca 5
  • 6.
    Exemplo de classifica¸˜ode Spam usando ca J48 O objetivo deste exerc´ ´ demonstrar a cria¸˜o de um ıcio e ca modelo preditivo no formato de ´rvore de decis˜o para a a identificar spam. Para tanto, ser´ utilizado o dataset a disponibilizado em http://archive.ics.uci.edu/ml/datasets/Spambase. http://rpubs.com/fbarth/classificacaoSpamJ48 Identifica¸˜o de spam utilizando Random Forest — ca Exemplo de classifica¸˜o de Spam usando J48 ca 6
  • 7.
    Aprendizado de florestasde ´rvores de a decis˜o a Identifica¸˜o de spam utilizando Random Forest — ca Aprendizado de florestas de ´rvores de decis˜o a a 7
  • 8.
    Exemplo de classifica¸˜ode Spam usando ca RandomForest http://rpubs.com/fbarth/classificacaoSpamRandomForest Identifica¸˜o de spam utilizando Random Forest — ca Exemplo de classifica¸˜o de Spam usando RandomForest ca 8
  • 9.
    Material de consulta •Tom Mitchell. Machine Learning, 1997. (Cap´ ıtulo 3) • Russel e Norvig. Inteligˆncia Artificial, 2a. edi¸˜o, e ca cap´ ıtulo 18. • Weka no R: http://cran.rproject.org/web/packages/RWeka/RWeka.pdf. Identifica¸˜o de spam utilizando Random Forest — ca Material de consulta 9
  • 10.
    • Yanchang Zhao.R and Data Mining: Examples and Case Studies. (Cap´ ıtulo 4): http://cran.rproject.org/doc/contrib/Zhao R and data mining.pdf • Exemplo de uso de algoritmos indutores de ´rvore de a decis˜o. http://rpubs.com/fbarth/arvoreDecisao. a Acesso em 14 de junho de 2013. Identifica¸˜o de spam utilizando Random Forest — ca Material de consulta 10
  • 11.
    • Package ’randomForest’.http://cran.rproject.org/web/packages/randomForest/randomForest.pdf. Acessado em 14 de junho de 2013. • Breiman, Leo (2001). ”Random Forests”. Machine Learning 45 (1): 5-32. • H. Costa, F. Benevenuto, L. Merschmann. Detecting Tip Spam in Location-based Social Networks. In Proceedings of the ACM Symposium on Applied Computing (SAC’13). http://homepages.dcc.ufmg.br/ fabricio/download/sac2013.pdf Identifica¸˜o de spam utilizando Random Forest — ca Material de consulta 11