Seleção de Features para Ranking

407 visualizações

Publicada em

Publicada em: Negócios, Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
407
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
3
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Seleção de Features para Ranking

  1. 1. Seleção de Features para Ranking Cristiano Nascimento <crist@dcc.ufmg.br> 15 de dezembro de 2009 Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  2. 2. Contexto Ranking em máquinas de busca Recuperar documentos relevantes para uma consulta Colocar documentos relevantes no topo do ranking Abordagens Clássicas utilizam poucas evidências para fazer ranking Tendência atual de pesquisa Utilização de várias evidências Aprendizagem de máquina Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  3. 3. Aprendizagem de Máquina para Ranking Por quê? Disponibilidade de várias evidências Difícil construir funções manualmente ou por meios determinísticos Espaço de busca muito grande para métodos exaustivos Exemplo: conjunto de evidências (funções): f, g, h, l operações: +,-,/,* possíveis combinações: (f+g)*(h+l), (h*g*l)/f, ... Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  4. 4. O problema Aprendizagem de Máquina: utilização de um conjunto de treinamento geração do conjunto de evidências para cada documento Como reduzir o esforço e os custos computacionais? Neste trabalho abordaremos a redução do número de features utilizadas As métricas utilizadas em classicação de texto também podem ser aplicadas à tarefa de ranking? É possível utilizar métricas que considerem informações do problema de ranking? Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  5. 5. Base de Dados: LETOR 3.0 Benchmark para Learning to Rank: Possuí diversas coleções (em Gov e OHSUMED) Utilizada em diversos trabalhos Resultados de baselines disponíveis na Web Métricas de avaliação utilizadas amplamente Disponível em: http://research.microsoft.com/en- us/um/beijing/projects/letor Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  6. 6. Algumas Features da LETOR 3.0 Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  7. 7. Exemplo de entradas da LETOR 3.0 Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  8. 8. Seleção de Features Métricas utilizadas em classicação: InfoGain Chi-Square Métricas de avaliação de ranking: Mean Average Precision (MAP) NDCG Funcionamento: Faça um ranking de acordo com o valor da métrica Escolha as top-k features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  9. 9. MAP x # de Features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  10. 10. NDCG x # de Features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  11. 11. Comentários e Conclusões No presente trabalho: Exploramos a seleção de features para ranking Métricas de classicação = poucas evidências Métrica baseada em NDCG obteve a melhor ecácia É possível reduzir o esforço sem perder a qualidade Trabalhos Futuros: Implementar seleção aleatória de evidências Utilizar outras técnicas de seleção de evidências Utilizar outras bases de dados Utilizar outros algoritmos de L2R Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  12. 12. Obrigado! =) Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking

×