Projeto de Aplicação Mineração de Dados - 2/2009 DCC/UFMG Humberto Mossri de Almeida Vitor Campos de Oliveira
Datasets <ul><li>LETOR: A Benchmark Collection for Research on  Learning to Rank for Information Retrieval </li></ul><ul><...
Datasets <ul><li>Cada dataset possui um conjunto de consultas e documentos </li></ul><ul><li>Para cada par consulta/docume...
Hipóteses    Técnicas <ul><li>Quais são os atributos mais representativos para determinar se um documento é ou não releva...
Seleção de Atributos - OHSUMED <ul><li>Top 5 atributos </li></ul>=== Attribute Selection on all input data ===  Search Met...
Seleção de Atributos – TD2003 <ul><li>Top 5 atributos </li></ul>=== Attribute Selection on all input data ===  Search Meth...
Seleção de Atributos – TD2004 <ul><li>Top 5 atributos </li></ul>=== Attribute Selection on all input data ===  Search Meth...
Redução de dimensionalidade <ul><li>Tempo de execução do a priori no conjunto total: ~36 horas </li></ul><ul><li>Aplicação...
A priori - OHSUMED <ul><li>16140 instâncias </li></ul><ul><ul><li>11303 documentos não-relevantes </li></ul></ul><ul><ul><...
A priori - OHSUMED <ul><li>Exemplo de regra </li></ul><ul><ul><li>F8='(-inf-0.405122]'  and  F11='(-inf-4.529456]'  and  F...
A priori - TD2003 <ul><li>345321 instâncias </li></ul><ul><ul><li>344548 documentos não-relevantes </li></ul></ul><ul><ul>...
A priori - TD2003 (cont.) <ul><li>Exemplo de regra </li></ul><ul><ul><li>F13='(-inf-6.076134]' and F22='(-inf-5.689462]' a...
A priori - TD2003 (cont.) <ul><li>BM25 do título presente em 34% das regras </li></ul><ul><li>BM25 do anchor presente em 3...
A priori - TD2004 <ul><li>222389 instâncias </li></ul><ul><ul><li>221115 documentos não-relevantes </li></ul></ul><ul><ul>...
A priori - TD2004 (cont.) <ul><li>Exemplo de regra </li></ul><ul><ul><li>F6='(9.637136-inf)' and F12='(-inf-3.69977]'  and...
A priori - TD2004 (cont.) <ul><li>TF do anchor presente em 48% das regras </li></ul><ul><li>TF*IDF do anchor presente em 4...
Agrupamento de Consultas <ul><li>Análise visual  </li></ul><ul><ul><li>Geração dos centróides para cada consulta </li></ul...
Agrupamento de Consultas <ul><li>MQ2007 </li></ul><ul><ul><li>5 folds </li></ul></ul>
Agrupamento de Consultas <ul><li>MQ2008 </li></ul><ul><ul><li>5 folds </li></ul></ul>
Próximos SlideShares
Carregando em…5
×

Apresentação do Projeto de Aplicação

364 visualizações

Publicada em

Apresentação do Projeto de Aplicação da disciplina de Mineração de Dados (UFMG)

Publicada em: Tecnologia, Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
364
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Apresentação do Projeto de Aplicação

  1. 1. Projeto de Aplicação Mineração de Dados - 2/2009 DCC/UFMG Humberto Mossri de Almeida Vitor Campos de Oliveira
  2. 2. Datasets <ul><li>LETOR: A Benchmark Collection for Research on Learning to Rank for Information Retrieval </li></ul><ul><ul><li>LETOR 4.0 </li></ul></ul><ul><ul><ul><li>MQ2007 e MQ2008 </li></ul></ul></ul><ul><ul><li>LETOR 3.0 </li></ul></ul><ul><ul><ul><li>OHSUMED </li></ul></ul></ul><ul><ul><ul><li>TD2003 e TD2004 </li></ul></ul></ul><ul><ul><ul><li>HP2003 e HP2004 </li></ul></ul></ul><ul><ul><ul><li>NP2003 e NP2004 </li></ul></ul></ul>
  3. 3. Datasets <ul><li>Cada dataset possui um conjunto de consultas e documentos </li></ul><ul><li>Para cada par consulta/documento existe </li></ul><ul><ul><li>Um vetor de features (45, 46 ou 64) </li></ul></ul><ul><ul><ul><li>Ex: TF-IDF, BM25, PageRank, IDF do título, TF da URL etc. </li></ul></ul></ul><ul><ul><li>O julgamento de relevância </li></ul></ul><ul><ul><ul><li>Ex: relevante, parcialmente relevante, irrelevante </li></ul></ul></ul><ul><li>Exemplo </li></ul><ul><ul><li>0 qid:1 1:1.000000 2:1.000000 3:0.833333 4:0.871264 5:0 6:0 7:0 8:0.941842 9:1.000000 10:1.000000 11:1.000000 12:1.000000 13:1.000000 14:1.000000 15:1.000000 16:1.000000 17:1.000000 18:0.719697 19:0.729351 20:0 21:0 22:0 23:0.811565 24:1.000000 25:0.972730 26:1.000000 27:1.000000 28:0.922374 29:0.946654 30:0.938888 31:1.000000 32:1.000000 33:0.711276 34:0.722202 35:0 36:0 37:0 38:0.798002 39:1.000000 40:1.000000 41:1.000000 42:1.000000 43:0.959134 44:0.963919 45:0.971425 #docid = 244338 </li></ul></ul>
  4. 4. Hipóteses  Técnicas <ul><li>Quais são os atributos mais representativos para determinar se um documento é ou não relevante para uma consulta? </li></ul><ul><ul><li>Seleção de Atributos (Feature Selection) </li></ul></ul><ul><li>Quais as regras de associação que determinam com maior confiança se um documento é o não é relevante? </li></ul><ul><ul><li>Mineração de padrões frequentes  A priori </li></ul></ul><ul><li>Existem grupos de consultas semelhantes? É possível identificar clusters de consultas? </li></ul><ul><ul><li>Análise visual plotando 2 componentes principais (PCA) </li></ul></ul>
  5. 5. Seleção de Atributos - OHSUMED <ul><li>Top 5 atributos </li></ul>=== Attribute Selection on all input data === Search Method: Attribute ranking. Attribute Evaluator (supervised, Class (nominal): 46 relevance): Chi-squared Ranking Filter Ranked attributes: 3386.8539 F7 – IDF do título 3322.2472 F21 – log(IDF) do abstract 3303.8184 F20 – IDF do abstract 3303.202 F35 – IDF do título + abstract 3257.4267 F22 – IDF-like do abstract
  6. 6. Seleção de Atributos – TD2003 <ul><li>Top 5 atributos </li></ul>=== Attribute Selection on all input data === Search Method: Attribute ranking. Attribute Evaluator (supervised, Class (nominal): 65 relevance): Chi-squared Ranking Filter Ranked attributes: 12081.4959 F43 - hyperlink 10015.5158 F12 – TF-IDF do anchor text 9080.2944 F23 – BM25 do título 8433.3378 F2 - TF do anchor text 8137.3983 F22 – BM25 do anchor text
  7. 7. Seleção de Atributos – TD2004 <ul><li>Top 5 atributos </li></ul>=== Attribute Selection on all input data === Search Method: Attribute ranking. Attribute Evaluator (supervised, Class (nominal): 46 relevance): Chi-squared Ranking Filter Ranked attributes: 8639.1968 F32 – LMIR.DIR do anchor text 6964.0177 F33 – LMIR.DIR do título 6625.516 F13 – TF-IDF do título 6247.8854 F12 – TF-IDF do anchor text 6144.2743 F38 – LMIR.JM do título
  8. 8. Redução de dimensionalidade <ul><li>Tempo de execução do a priori no conjunto total: ~36 horas </li></ul><ul><li>Aplicação do método Chi-Square em cada conjunto de dataset para redução de dimensionalidade (seleção de atributos) </li></ul><ul><li>Novos datasets com 21 atributos (incluindo a informação de relevância  classe) </li></ul>
  9. 9. A priori - OHSUMED <ul><li>16140 instâncias </li></ul><ul><ul><li>11303 documentos não-relevantes </li></ul></ul><ul><ul><li>4837 documentos relevantes </li></ul></ul><ul><li>A priori </li></ul><ul><ul><li>1000 regras geradas para documentos não-relevantes, confiança máxima encontrada de 82% e suporte mínimo de 20%. </li></ul></ul>
  10. 10. A priori - OHSUMED <ul><li>Exemplo de regra </li></ul><ul><ul><li>F8='(-inf-0.405122]' and F11='(-inf-4.529456]' and F38='(-inf-0.118165]‘  relevance=0 </li></ul></ul><ul><ul><ul><li>confiança: 0.82 </li></ul></ul></ul>
  11. 11. A priori - TD2003 <ul><li>345321 instâncias </li></ul><ul><ul><li>344548 documentos não-relevantes </li></ul></ul><ul><ul><li>743 documentos relevantes </li></ul></ul><ul><li>A priori </li></ul><ul><ul><li>1000 regras geradas para documentos não-relevantes, com confiânça 100% e suporte mínimo de 20%. </li></ul></ul>
  12. 12. A priori - TD2003 (cont.) <ul><li>Exemplo de regra </li></ul><ul><ul><li>F13='(-inf-6.076134]' and F22='(-inf-5.689462]' and F37='(-inf--17.115832]' and F49='(-inf-0.000943]'  relevance=0 </li></ul></ul><ul><ul><ul><li>confiança: 1.0 </li></ul></ul></ul>
  13. 13. A priori - TD2003 (cont.) <ul><li>BM25 do título presente em 34% das regras </li></ul><ul><li>BM25 do anchor presente em 38% das regras </li></ul><ul><li>LMIR.ABS do anchor presente em 46% das regras </li></ul><ul><li>LMIR.JR do anchor presente em 49% das regras </li></ul>
  14. 14. A priori - TD2004 <ul><li>222389 instâncias </li></ul><ul><ul><li>221115 documentos não-relevantes </li></ul></ul><ul><ul><li>1274 documentos relevantes </li></ul></ul><ul><li>A priori </li></ul><ul><ul><li>1000 regras geradas para documentos não-relevantes, com confiança 100% e suporte mínimo de 10% </li></ul></ul>
  15. 15. A priori - TD2004 (cont.) <ul><li>Exemplo de regra </li></ul><ul><ul><li>F6='(9.637136-inf)' and F12='(-inf-3.69977]' and F23='(-inf-5.137418]' and F52='(-inf-0.348137]'  relevance=0 </li></ul></ul><ul><ul><ul><li>confiança: 1.0 </li></ul></ul></ul>
  16. 16. A priori - TD2004 (cont.) <ul><li>TF do anchor presente em 48% das regras </li></ul><ul><li>TF*IDF do anchor presente em 48% das regras </li></ul><ul><li>BM25 do anchor presente em 48% das regras </li></ul><ul><li>LMIR.JM do título presente em 48% das regras </li></ul>
  17. 17. Agrupamento de Consultas <ul><li>Análise visual </li></ul><ul><ul><li>Geração dos centróides para cada consulta </li></ul></ul><ul><ul><li>Descoberta dos 2 primeiros componentes principais, usando PCA </li></ul></ul><ul><ul><li>Plotagem de gráfico para análise visual </li></ul></ul><ul><li>Datasets </li></ul><ul><ul><li>MQ2007 </li></ul></ul><ul><ul><ul><li>1700 consultas </li></ul></ul></ul><ul><ul><li>MQ2008 </li></ul></ul><ul><ul><ul><li>800 consultas </li></ul></ul></ul>
  18. 18. Agrupamento de Consultas <ul><li>MQ2007 </li></ul><ul><ul><li>5 folds </li></ul></ul>
  19. 19. Agrupamento de Consultas <ul><li>MQ2008 </li></ul><ul><ul><li>5 folds </li></ul></ul>

×