MINERAÇÃO DE DADOSSPAM FILTER2012Sistemas de Suporte à DecisãoJoão Ferreira | Ernesto Barbosa | André Morgado
Índice    • Spam         • Definição    • Parser         • Dificuldades         • Características         • Atributos cons...
SPAMJoão Ferreira | Ernesto Barbosa | André Morgado
Spam - Definição  • Spam não é mais do que uma mensagem de correio    eletrónico não solicitada.  • A principal motivação ...
PARSERJoão Ferreira | Ernesto Barbosa | André Morgado
Dificuldades  • Como efetuar um Parser  • Quais atributos são necessários analisar  • Que regras aplicar a cada um para va...
Características  • O nosso parser utiliza expressões regulares para retirar dos    emails a informação que nós achamos nec...
Características  • Após avaliar todas as regras, ele posteriormente gera o   dataset de treino.  • Em seguida, utilizando ...
Atributos considerados  • Message-ID  • From  • To  • Bcc  • Cc  • Número de total de contatos  • Número de contatos não r...
Regras  • No nosso projeto para considerarmos os emails como spam   tinham de ter algumas das seguintes características:  ...
Fluxo de Sistema                                           Emails    João Ferreira | Ernesto Barbosa | André Morgado
RESULTADOSJoão Ferreira | Ernesto Barbosa | André Morgado
J48      João Ferreira | Ernesto Barbosa | André Morgado
AdaBoostM1 + J48   João Ferreira | Ernesto Barbosa | André Morgado
Bagging + J48    João Ferreira | Ernesto Barbosa | André Morgado
NaiveBayes   João Ferreira | Ernesto Barbosa | André Morgado
Bagging + NaiveBayes    João Ferreira | Ernesto Barbosa | André Morgado
AdaBoostM1 + NaiveBayes   João Ferreira | Ernesto Barbosa | André Morgado
Regras   • Estas foram as regras de associação que o WEKA conseguiu retirar do       nosso dataset:         • To = true an...
Part       João Ferreira | Ernesto Barbosa | André Morgado
Conclusões  • Foi um trabalho desafiante e interessante.  • Decidir quais os atributos a considerar foi maior problema    ...
MINERAÇÃO DE DADOSSPAM FILTER2012Sistemas de Suporte à DecisãoJoão Ferreira | Ernesto Barbosa | André Morgado
Próximos SlideShares
Carregando em…5
×

Apresentação Spam Filter

185 visualizações

Publicada em

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
185
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
3
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Apresentação Spam Filter

  1. 1. MINERAÇÃO DE DADOSSPAM FILTER2012Sistemas de Suporte à DecisãoJoão Ferreira | Ernesto Barbosa | André Morgado
  2. 2. Índice • Spam • Definição • Parser • Dificuldades • Características • Atributos considerados • Regras • Fluxo • Resultados • J48 • Naive Bayes • Regras de Associação • Conclusões João Ferreira | Ernesto Barbosa | André Morgado
  3. 3. SPAMJoão Ferreira | Ernesto Barbosa | André Morgado
  4. 4. Spam - Definição • Spam não é mais do que uma mensagem de correio eletrónico não solicitada. • A principal motivação para a prática do spamming é o baixo custo associado ao envio de mensagens eletrônicas. João Ferreira | Ernesto Barbosa | André Morgado
  5. 5. PARSERJoão Ferreira | Ernesto Barbosa | André Morgado
  6. 6. Dificuldades • Como efetuar um Parser • Quais atributos são necessários analisar • Que regras aplicar a cada um para validar se é ou não spam • Como criar o dataset para ser analisado no WEKA João Ferreira | Ernesto Barbosa | André Morgado
  7. 7. Características • O nosso parser utiliza expressões regulares para retirar dos emails a informação que nós achamos necessária. • Após retirar a informação, testa se a informação está conforme algumas regras que definimos. • Cada regra que não seja satisfeita, implica uma penalização para esse email. • Existe um valor máximo que um email não pode ultrapassar, de modo a evitar ser considerado spam. João Ferreira | Ernesto Barbosa | André Morgado
  8. 8. Características • Após avaliar todas as regras, ele posteriormente gera o dataset de treino. • Em seguida, utilizando o weka, classifica as instâncias de um dataset de teste, segundo o que aprendeu. • Todas as novas instâncias, são depois adicionadas ao dataset de treino. João Ferreira | Ernesto Barbosa | André Morgado
  9. 9. Atributos considerados • Message-ID • From • To • Bcc • Cc • Número de total de contatos • Número de contatos não repetidos • Html João Ferreira | Ernesto Barbosa | André Morgado
  10. 10. Regras • No nosso projeto para considerarmos os emails como spam tinham de ter algumas das seguintes características: • !To && (Bcc || Cc) • Message-ID • #To >10 || #Cc >10 • Body == HTML • #Total Contactos > Contactos • Assunto = “viagra”, “medicamentos”, “meds”, “porno” • Assunto = “ ” • From = “no-reply” João Ferreira | Ernesto Barbosa | André Morgado
  11. 11. Fluxo de Sistema Emails João Ferreira | Ernesto Barbosa | André Morgado
  12. 12. RESULTADOSJoão Ferreira | Ernesto Barbosa | André Morgado
  13. 13. J48 João Ferreira | Ernesto Barbosa | André Morgado
  14. 14. AdaBoostM1 + J48 João Ferreira | Ernesto Barbosa | André Morgado
  15. 15. Bagging + J48 João Ferreira | Ernesto Barbosa | André Morgado
  16. 16. NaiveBayes João Ferreira | Ernesto Barbosa | André Morgado
  17. 17. Bagging + NaiveBayes João Ferreira | Ernesto Barbosa | André Morgado
  18. 18. AdaBoostM1 + NaiveBayes João Ferreira | Ernesto Barbosa | André Morgado
  19. 19. Regras • Estas foram as regras de associação que o WEKA conseguiu retirar do nosso dataset: • To = true and #Contacts <= 7 -> Ham (108.0 / 8.0) • Cc = false : Spam (17.0) • To = false : Spam (8.0) • #Contacts <= 25 : Ham (3.0) • :Spam (2.0) João Ferreira | Ernesto Barbosa | André Morgado
  20. 20. Part João Ferreira | Ernesto Barbosa | André Morgado
  21. 21. Conclusões • Foi um trabalho desafiante e interessante. • Decidir quais os atributos a considerar foi maior problema na realização deste trabalho. • Parser adaptado a um determinado formato de email. • Regras de associação fracas devido ao seu pouco suporte. João Ferreira | Ernesto Barbosa | André Morgado
  22. 22. MINERAÇÃO DE DADOSSPAM FILTER2012Sistemas de Suporte à DecisãoJoão Ferreira | Ernesto Barbosa | André Morgado

×