Introduc)on	  to	  Informa)on	  Retrieval	     	  	                            	  	         Ordenação	  e	  Recuperação	  ...
 	                                     	  	  Resumo	  da	  aula	  de	  hoje	     §  Feedback	  de	  relevância	  interaGv...
 	                 	  	  Agenda	  ❶    MoGvação	  ❷    Feedback	  de	  relevância:	  Básico	  ❸    Feedback	  de	  relevân...
 	                 	  	  Agenda	  ❶    MoGvação	  ❷    Feedback	  de	  relevância:	  Básico	  ❸    Feedback	  de	  relevân...
 	                                             	  	  Como	  podemos	  melhorar	  o	  recall	  em	  uma	  busca?	    §  Pr...
 	                                      	  	  Opção	  para	  melhorar	  o	  recall	     §  Local:	  Fazer	  uma	  análise...
 	                 	  	  Agenda	  ❶    MoGvação	  ❷    Feedback	  de	  relevância:	  Básico	  ❸    Feedback	  de	  relevân...
 	                                     	  	  Feedback	  de	  relevância:	  Ideia	  básica	    §  O	  usuário	  realiza	  ...
 	                                          	  	  Feedback	  de	  relevância	    §  Isso	  pode	  ser	  feito	  de	  form...
 	                 	  	  Agenda	  ❶    MoGvação	  ❷    Feedback	  de	  relevância:	  Básico	  ❸    Feedback	  de	  relevân...
 	                                                                         	  	  	  	  Conceito	  chave	  para	  feedback	...
 	     	  	  	  	  Centroíde:	  Exemplo	                                                      12	  
 	                                                       	  	  Algoritmo	  de	  Rocchio’	    §  O	  algoritmo	  de	  Rocc...
 	                             	  	  Algoritmo	  de	  Rocchio’	     §  O	  vetor	  de	  consulta	  óGmo	  é:	     	     §...
 	                                                                                              	  	         Calcular	  o	...
 	                                         	  	   Algoritmo	  de	  Rocchio’	  ilustrado	  	  	  	  	  	  	  	  	  	  	  	 ...
 	                                                          	  	   Algoritmo de Rocchio’ ilustrado	  	  	  	  	  	  	  	  ...
 	                                                  	  	   Algoritmo de Rocchio’ ilustrado	  	  	  	  	  	  	  	  	  	  	 ...
 	             	  	  Algoritmo de Rocchio’ ilustrado                                             19	  
 	                                                                     	  	   Algoritmo de Rocchio’ ilustrado	  	  	  	  	...
 	                     	  	   Algoritmo de Rocchio’ ilustrado	  Adicionar	  a	  diferença	  ao	  vetor	  	  	  	  	  	  	 ...
 	     	  	   Algoritmo de Rocchio’ ilustrado	  	  	  	  	  	  	  	  	  	  	  …	  para	  obter	  	                        ...
 	                                                               	  	   Algoritmo de Rocchio’ ilustrado	  	  	  	  	  	  	...
 	                                                               	  	   Algoritmo de Rocchio’ ilustrado	  	  	  	  	  	  	...
 	                                         	  	  Terminologia	    §  Usamos	  o	  nome	  Rocchio’	  para	  a	  versão	  t...
 	                                         	  	  Algoritmo	  de	  Rocchio	  1971	  (SMART)	     Usado	  na	  práGca:	     ...
 	                                                	  	  Feedback	  de	  relevância	  PosiGvo	  vs.	  negaGvo	    §  Feedb...
 	                                        	  	  Suposição	  sobre	  o	  feedback	  de	  relevância	    §  Quando	  o	  fe...
 	                                         	  	  Violação	  de	  S1	     §  Suposição	  S1:	  O	  usuário	  conhece	  os	...
 	                                            	  	  Violação	  de	  S2	     §  Suposição	  S2:	  Documentos	  relevantes	...
 	                                        	  	  Avaliação	  do	  feedback	  de	  relevância	    §  UGlizar	  uma	  das	  ...
 	                                        	  	  Avaliação	  do	  feedback	  de	  relevância	    §  Uma	  avaliação	  just...
 	                 	  	  Agenda	  ❶    MoGvação	  ❷    Feedback	  de	  relevância:	  Básico	  ❸    Feedback	  de	  relevân...
 	                                         	  	  Expansão	  de	  consulta	    §  Expansão	  de	  consulta	  é	  uma	  out...
 	                   	  	  Exemplo	  de	  Expansão	  de	  Consulta	                                                       ...
 	                                 	  	  Tipos	  de	  feedback	  do	  usuário	     §  O	  usuário	  dá	  feedback	  sobre...
 	                                     	  	  Tipos	  de	  expansão	  de	  consulta	     §  Thesaurus	  manual	  (manGdo	 ...
 	                                    	  	  Expansão	  de	  consultas	  baseada	  em	  thesaurus	    §  Para	  cada	  ter...
 	                    	  	  Exemplo	  de	  thesaurus	  manual:	  PubMed	                                                  ...
 	                                              	  	  Thesaurus	  gerado	  automaGcamente	    §  TentaGva	  de	  gerar	  ...
Próximos SlideShares
Carregando em…5
×

Feedback de relevância e expansão de consulta

911 visualizações

Publicada em

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
911
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
49
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Feedback de relevância e expansão de consulta

  1. 1. Introduc)on  to  Informa)on  Retrieval           Ordenação  e  Recuperação  de  Dados   Aula  10:     Feedback  de  Relevância  e  Expansão  de   Consulta   Alexandre  Duarte   alexandre@di.ufpb.br     1  
  2. 2.        Resumo  da  aula  de  hoje   §  Feedback  de  relevância  interaGvo:  melhorar  a  qualidade   dos  resultados  iniciais  informando  o  sistema  sobre  a   relevância  dos  resultados  retornados   §  Expansão  de  consulta:  melhorar  os  resultados  das   consultas  adicionando  sinônimos  e  termos  relacionados  à   consulta   2  
  3. 3.        Agenda  ❶  MoGvação  ❷  Feedback  de  relevância:  Básico  ❸  Feedback  de  relevância:  Detalhes  ❹  Expansão  de  consultas   3  
  4. 4.        Agenda  ❶  MoGvação  ❷  Feedback  de  relevância:  Básico  ❸  Feedback  de  relevância:  Detalhes  ❹  Expansão  de  consultas   4  
  5. 5.        Como  podemos  melhorar  o  recall  em  uma  busca?   §  Principal  assunto  de  hoje:  duas  formas  de  aumentar  o   recall:  feedback  de  relevância  e  expansão  de  consulta   §  Como  exemplo  cosidere  a  consulta  q:  [aeronave]  .  .  .   §  .  .  .  e  o  documento  d  contendo  avião,  mas  não  contendo   “aeronave”   §  Um  sistema  simples  não  retornará  d  para  a  consulta  q.   §  Mesmo  que  d  seja  o  documento  mais  relevante  para  q!   §  Queremos  mudar  isso:   §  Retornar  documentos  relevantes  mesmo  que  não  haja   nenhum  termo  em  comum  com  a  consulta  original   5  
  6. 6.        Opção  para  melhorar  o  recall   §  Local:  Fazer  uma  análise  “local”,  sob  demanda  da  consulta   do  usuário   §  Principal  método:  feedback  de  relevância   §  Parte  1   §  Global:  Fazer  uma  análise  global  para  produzir  um   thesaurus   §  Usar  thesaurus  para  expansão  de  consultas   §  Parte  2   6  
  7. 7.        Agenda  ❶  MoGvação  ❷  Feedback  de  relevância:  Básico  ❸  Feedback  de  relevância:  Detalhes  ❹  Expansão  de  consultas   7  
  8. 8.        Feedback  de  relevância:  Ideia  básica   §  O  usuário  realiza  uma  consulta  simples.   §  O  mecanismo  de  busca  retorna  um  conjunto  de   documentos.   §  O  usuário  marca  alguns  documentos  como  relevantes  e   outros  como  não  relevantes.   §  O  mecanismo  de  busca  calcula  uma  nova  representação   para  a  necessidade  de  informação.  Espera-­‐se  que  seja   melhor  do  que  a  inicial.   §  O  mecanismo  realiza  a  mesma  busca  novamente  e  retorna   novos  resultados.   §  Novos  resultados  têm  melhor  recall   8  
  9. 9.        Feedback  de  relevância   §  Isso  pode  ser  feito  de  forma  iteraGva:  várias  rodadas  de   feedback.   §  Usaremos  o  termo  recuperação  ad  hoc  para  nos  referir  a   recuperação  sem  feedback  de  relevância   9  
  10. 10.        Agenda  ❶  MoGvação  ❷  Feedback  de  relevância:  Básico  ❸  Feedback  de  relevância:  Detalhes  ❹  Expansão  de  consultas   10  
  11. 11.            Conceito  chave  para  feedback  de  relevância:  Centroíde   §  O  centroíde  é  o  centro  de  massa  de  um  conjunto  de   pontos.   §  Lembre-­‐se  que  representamos  documentos  como  em  um   espaço.   §  Portanto:  podemos  calcular  o  centroide  de  um  conjunto  de   documentos.   §  Definição:       onde  D  é  um  conjunto  de  documentos  e                                          é  o  vetor  que   uGlizamos  para  representar  um  documento  d.   11  
  12. 12.            Centroíde:  Exemplo   12  
  13. 13.        Algoritmo  de  Rocchio’   §  O  algoritmo  de  Rocchio’  implementa  o  feedback  de   relevância  em  um  modelo  de  espaço  vetorial.   §  Ele  escolhe  a  consulta                    que  maximiza  a  seguinte   equação        Dr  :  conjunto  de  documentos  relevantes;  Dnr  :  conjunto  de   documentos  não  relevantes   §  ObjeGvo:  qopt    é  o  vetor  que  separa  documentos  relevantes   de  documentos  não  relevantes  de  forma  máxima   13  
  14. 14.        Algoritmo  de  Rocchio’   §  O  vetor  de  consulta  óGmo  é:     §  Movemos  o  centroíde  dos  documentos  relevantes  pela   diferença  dos  dois  centroídes.   14  
  15. 15.         Calcular  o  vetor  de  Rocchio’                                                                                                    círculos:  documentos  relevantes,  Xs:  documentos  não  relevantes     15  
  16. 16.         Algoritmo  de  Rocchio’  ilustrado                                :  centroíde  dos  documentos  relevantes   16  
  17. 17.         Algoritmo de Rocchio’ ilustrado                                não  separa  os  documentos  relevantes  dos  não  relevantes.   17  
  18. 18.         Algoritmo de Rocchio’ ilustrado                                centroíde  dos  documentos  não  relevantes.   18  
  19. 19.        Algoritmo de Rocchio’ ilustrado 19  
  20. 20.         Algoritmo de Rocchio’ ilustrado                                  -­‐                            Diferença  entre  os  dois  vetores   20  
  21. 21.         Algoritmo de Rocchio’ ilustrado  Adicionar  a  diferença  ao  vetor                      …   21  
  22. 22.         Algoritmo de Rocchio’ ilustrado                      …  para  obter     22  
  23. 23.         Algoritmo de Rocchio’ ilustrado                                    separa  os  documentos  relevantes  dos  não  relevantes  perfeitamente.   23  
  24. 24.         Algoritmo de Rocchio’ ilustrado                                    separa  os  documentos  relevantes  dos  não  relevantes  perfeitamente.   24  
  25. 25.        Terminologia   §  Usamos  o  nome  Rocchio’  para  a  versão  teórica  e  mais  bem   ilustrada  do  algoritmo.   §  A  implementação  que  é  atualmente  uGlizada  na  maioria   dos  casos  é  denominada  SMART  –  usaremos  o  nome   Rocchio,  sem  o  ‘  ,  para  esta  versão.   25  
  26. 26.        Algoritmo  de  Rocchio  1971  (SMART)   Usado  na  práGca:    qm:  vetor  de  consulta  modificado;  q0:  vetor  de  consulta   original;  Dr  e  Dnr  :  conjuntos  de  documentos  sabidamente   relevantes  e  não  relevantes;  α,  β,  e  γ:  pesos   §  A  nova  consulta  se  move  em  direção  aos  documentos   relevantes  e  para  longe  dos  documentos  não  relevantes.   §  Tradeoff  entre  α  e  β/γ:  se  temos  muitos  documentos   julgados  queremos  uma  relação  β/γ  maior.   26  
  27. 27.        Feedback  de  relevância  PosiGvo  vs.  negaGvo   §  Feedback  posiGvo  é  mais  valioso  que  feedback  negaGvo   §  Por  exemplo,  setar  β  =  0.75  e  γ  =  0.25  para  dar  maior  peso   ao  feedback  posiGvo.   §  Vários  sistemas  só  permitem  feedback  posiGvo.   27  
  28. 28.        Suposição  sobre  o  feedback  de  relevância   §  Quando  o  feedback  de  relevância  consegue  melhorar  o   recall?   §  Suposição  S1:  O  usuário  conhece  os  termos  na  coleção  o   suficiente  para  realizar  uma  consulta  inicial.   §  Suposição  S2:  Documentos  documentos  contém  termos   similares  (permiGndo  que  o  usuário  possa  “pular”  de  um   documento  relevante  para  outro  dando  o  feedback  sobre   sua  relevância).   28  
  29. 29.        Violação  de  S1   §  Suposição  S1:  O  usuário  conhece  os  termos  na  coleção  o   suficiente  para  realizar  uma  consulta  inicial.   §  Violação:  Desvio  entre  o  vocabulário  do  usuário  e  o   vocabulário  da  coleção   §  Exemplo:  cosmonauta  /  astronauta   29  
  30. 30.        Violação  de  S2   §  Suposição  S2:  Documentos  relevantes  são  similares.   §  Exemplo  de  violação:  [contradições  políGcas   governamentais]   §  Vários  “protóGpos“  não  relacionados   §  Subsídios  para  plantadores  de  tabaco  vs.  campanhas  anG-­‐ fumo   §  Ajuda  a  países  em  desenvolvimento  vs.  altos  impostos  de   importação  para  países  em  desenvolvimento   §  Feedback  de  relevância  para  documentos  sobre  tabaco  não   vai  ajudar  na  localização  de  documentos  relevantes  sobre   países  em  desenvolvimento.   30  
  31. 31.        Avaliação  do  feedback  de  relevância   §  UGlizar  uma  das  métricas  de  avaliação  que  vimos  na  úlGma   aula,  ex.,  precisão  nos  top  10:  P@10   §  Calcular  P@10  para  a  consulta  original  q0   §  Calcular  P@10  para  uma  consulta  q1  modificada  pelo   feedback  de  relevância   §  Na  maioria  dos  casos:  q1  é  espetacularmente  melhor  que   q0!   §  Esta  avaliação  seria  justa?   31  
  32. 32.        Avaliação  do  feedback  de  relevância   §  Uma  avaliação  justa  deve  considerar  a  coleção  residual:  os   documentos  ainda  não  julgados  pelo  usuário.   §  Estudos  mostraram  que  o  feedback  de  relevância  pode  ser   avaliado  dessa  maneira  com  sucesso.   §  Conclusão  empírica,  uma  rodada  de  feedback  de  relevância   é  geralmente  muito  úGl.  Uma  segunda  rodada  tem  efeito   marginal  nos  resultados.   32  
  33. 33.        Agenda  ❶  MoGvação  ❷  Feedback  de  relevância:  Básico  ❸  Feedback  de  relevância:  Detalhes  ❹  Expansão  de  consultas   33  
  34. 34.        Expansão  de  consulta   §  Expansão  de  consulta  é  uma  outra  forma  de    aumentar  o   recall.   §  Usamos  a  expressão  “expansão  de  consulta  global”  para   nos  referir  a  “métodos  globais  para  expansão  de   consultas”.   §  Na  expansão  de  consulta  global,  as  consultas  são   modificadas  com  base  em  algum  recurso  global,  de  forma   independente  da  consulta.   §  Principal  informação  uGlizada:  (quasi-­‐)sinônimos   §  Uma  base  da  de  dados  que  armazena  (quasi-­‐)sinônimos  é   chamado  thesaurus.   §  Veremos  dois  Gpos  de  thesauri:  criados  manualmente  e   criados  automaGcamente.   34  
  35. 35.        Exemplo  de  Expansão  de  Consulta   35  
  36. 36.        Tipos  de  feedback  do  usuário   §  O  usuário  dá  feedback  sobre  os  documentos.   §  Mais  comum  em  feedback  de  relevância   §  O  usuário  dá  feedback  em  palavras  ou  frases.   §  Mais  comum  em  expansão  de  consultas   36  
  37. 37.        Tipos  de  expansão  de  consulta   §  Thesaurus  manual  (manGdo  pelos  editores,  ex.,  PubMed)   §  Thesaurus  derivado  automaGcamente  (ex.,  baseado  em   esta•sGcas  de  co-­‐ocorrência)   §  Baseado  em  mineração  de  logs  de  equivalência  de   consultas  (comum  na  web,  como  no  exemplo  do  carro)   37  
  38. 38.        Expansão  de  consultas  baseada  em  thesaurus   §  Para  cada  termo  t  da  consulta,  expandir  a  consulta   com  palavras  listadas  no  thesaurus  como   semanGcamente  relacionadas  a  t.   §  Geralmente  aumenta  o  recall   §  Pode  diminuir  significaGvamente  a  precisão   §  Usado  largamente  em  ferramentas  de  busca   especializadas  para  ciências  e  engenharia   §  É  muito  caro  criar  e  manter  um  thesaurus   manualmente.   38  
  39. 39.        Exemplo  de  thesaurus  manual:  PubMed   39  
  40. 40.        Thesaurus  gerado  automaGcamente   §  TentaGva  de  gerar  um  thesaurus  automaGcamente   analisando  a  distribuição  das  palavras  nos  documentos   §  Noção  fundamental:  similaridade  entre  duas  palavras   §  Definição  1:  Duas  palavras  são  similares  se  co-­‐ocorrem  com   palavras  similares.   §  “carro”  ≈  “motocicleta”  porque  ambas  ocorrem  com   “estrada”,  “gasolina”  e  “placa”,  então  devem  ser  similares.   §  Definição  2:  Duas  palavras  são  similares  se  ocorrem  em   uma  dada  relação  gramaGcal  com  as  mesmas  palavras.   §  Você  pode  plantar,  descascar,  comer,    etc,  maçãs  e  peras,   portanto  maçãs  e  peras  devem  ser  similares.   §  Co-­‐ocorrência  é  mais  robusta,  relação  gramaGcal  tem   maior  precisão.   40  

×