SlideShare uma empresa Scribd logo
1 de 35
Centro de Informática – Universidade Federal da Paraíba




              Ordenação e Recuperação de Dados
               Aula 6: Classificação e Ponderação




                Prof. Alexandre Duarte - http://alexandre.ci.ufpb.br
                                                                       1   1
Agenda

❶   Revisão

❷   Por que recuperação com classificação?

❸   Frequência de Termos

❹   Classificação tf-idf



                                             2
Agenda

❶   Revisão

❷   Por que recuperação com classificação?

❸   Frequência de Termos

❹   Classificação tf-idf



                                             3
Dicionário com uma string única




                                  4
Codificando as diferenças




                            5
Codificação de tamanho variável

  Dedicar 1 bit (mais significativo) para ser o bit de continuação
   c.
  Se o valor couber em 7 bits, codifique-o e set o bit c = 1.
  Senão: set c = 0, codifique os 7 bits mais significativos e use
   bytes adicionais para codificar o restante dos bits segundo o
   mesmo algoritmo.




                                                                 6
Compressão da Reuters
   Estrutura de dados                          Tamanho em MB
   dicionário, estrutura fixa                            11.2
   dictionário, ponteiroes para string                    7.6
   ∼, com blocos, k = 4                                   7.1
   ∼, com blocos & codificação de prefixo                 5.9
   coleção (texto, xml etc)                           3600.0
   coleção (texto)                                      960.0
   matriz de incidência T/D                          40,000.0
   postings, sem compressão (32-bits)                   400.0
   postings, sem compressão (20 bits)                   250.0
   postings, codificação de tamanho variável            116.0



                                                                7
Aula de hoje

  Classificando resultados de buscas: porque isto é importante
   (em constrate a simplesmente apresentar os resultados de
   forma não-ordenada como ocorre com a busca booleana)
  Frequência de Termos: Este é o ingrediente chave na
   classificação.
  Classificação Tf-idf: esquema de classificação mais conhecido




                                                               8
Agenda

❶   Revisão

❷   Por que recuperação com classificação?

❸   Frequência de Termos

❹   Classificação tf-idf



                                             9
Recuperação classificada
   Até agora todas as nossas consultas foram Booleanas.
       O documento atende a consulta ou não
   Isso é bom para usuários especialistas com entendimento preciso de suas
    necessidades e do conteúdo da coleção de documentos.
   Também é bom para aplicações: Aplicações podem consumir facilmente
    1000s de resultados.
   Mas não é interessante para a maioria dos usuários
   A maioria dos usuários não é capaz de escrever consultas booleanas . . .
       . . . podem até ser, mas eles consideram ser algo muito trabalhoso.
   A maioria dos usuários não quer ter que processar 1000s de resultados
    manualmente.
   Isto é particularmente verdadeiro para pesquisas na web.

                                                                               10
Problemas da pesquisa Booleana: 8 ou 80

   Consultas booleanas geralmente resultam em um número
    muito pequeno de resultados (=0) ou em um número muito
    grande de resultados (1000s).
   Consulta 1 (conjunção booleana): [standard user dlink 650]
      → 200,000 hits
   Consulta 2 (conjunção booleana): [standard user dlink 650 no
    card found]
      → 0 hits
   Utilizar pesquisas booleanas requer habilidade para produzir
    consultas que recuperem um número gerenciavel de
    resultados.
                                                               11
8 ou 80: Isso não é problema para a consulta
com classificação


   Com classificação, um grande número de resultados não é um
    problema para o usuário.
   Basta mostrar apenas os 10 melhores resultados, por
    exemplo
   Não sobrecarregar o usuário
   Premissa: o algorítmo de classificação funciona: Resultados
    mais relevantes têm melhor classificação que resultados
    menos relevantes.


                                                             12
Scoring como base da recuperação com
classificação


  Queremos atribuir uma melhor classificação aos documentos
   que são mais em relação aos documentos que são menos
   relevantes.
  Como podemos fazer essa classificação dos documentos de
   uma coleção em relação a uma determinada consulta?
  Atribuir um score a cada par consulta-documento.
  Este score mede o quão bem um determinado documento
   atende uma determinada consulta.


                                                          13
Score de pares Consulta-documento

    Como calculamos o valor de um par consulta-documento?
    Comecemos com consultas de um único termo.
    Se o termo não aparece no documento: o score deve ser 0.
    Quanto mais frequente o termo no documento maior o score
    Veremos algumas alternativas para fazer essa contabilização.




                                                               14
Tentativa 1: Coeficiente de Jaccard
   Uma medida comum para a sobreposição de dois conjuntos
   Sejam A e B dois conjuntos
   O coeficiente de Jaccard para A e B vale:




   JACCARD (A, A) = 1
   JACCARD (A, B) = 0 if A ∩ B = 0
   A e B não precisam ter o mesmo tamanho.
   Sempre atribui um valor entre 0 e 1.

                                                             15
Coeficiente de Jaccard: Exemplo

   Qual é o score consulta-documento que o Coeficiente de
    Jaccard retorna para:
      Consulta: “ides of March”
      Documento “Caesar died in March”
      JACCARD(c, d) = 1/6




                                                             16
Problemas com o coeficiente de Jaccard

  Ele não considera a frequência do termo (quantas ocorrências
   o termo tem).
  Termos raros são mais informativos que termos frequentes.
   Jaccard não considera essa informação.
  Precisamos de mecanismos mais sofisticados!




                                                            17
Agenda

❶   Revisão

❷   Por que recuperação com classificação?

❸   Frequência de Termos

❹   Classificação tf-idf



                                             18
Matriz de incidências Termo-Documento
            Anthony Julius         The     Hamlet       Othello       Macbeth
            and       Caesar       Tempest                            ...
            Cleopatra
ANTHONY            1           1         0          0             0         1
BRUTUS             1           1         0          1             0         0
CAESAR             1           1         0          1             1         1
CALPURNIA          0           1         0          0             0         0
CLEOPATRA          1           0         0          0             0         0
MERCY              1           0         1          1             1         1
WORSER             1           0         1          1             1         0
...

  Cada documento é representado por um vetor binário ∈ {0, 1}|V|.


                                                                           19
Matriz de incidências Termo-Documento
            Anthony Julius      The     Hamlet       Othello       Macbeth
            and       Caesar    Tempest                            ...
            Cleopatra
ANTHONY          157       73         0          0             0         1
BRUTUS             4      157         0          2             0         0
CAESAR           232      227         0          2             1         0
CALPURNIA          0       10         0          0             0         0
CLEOPATRA         57        0         0          0             0         0
MERCY              2        0         3          8             5         8
WORSER             2        0         1          1             1         5
...

Agora cada documento é representado por um vetor de contagem
∈ N|V|.

                                                                        20
Modelo da sacola de palavras

  Nós não consideramos a ordem das palavras em um
   documento.
  John is quicker than Mary e Mary is quicker than John são
   representadas da mesma forma.
  Isto é chamado de modelo da sacola de palavras.
  De certa forma estamos dando um passo para trás: índices
   posicionais são capazes de distinguir entre estes dois
   documentos.
  Veremos como recuperar a informação posicional ainda
   neste curso.
  Por enquanto: modelo da sacola de palavras
                                                               21
Frequência de termos tf
  A frequencia de um termo t em um documento d, tft,d é
   definida como o número de vezes que t ocorre em d.
  Queremos utilizar o tf no cálculo dos scores de pares
   consulta-documento.
  Como fazer isso?
  Não podemos utilizar indiscriminadamente o tf pois:
     Um documento com tf = 10 ocorrências de um
       determinado termo é mais relevante que um outro
       documento com tf = 1 ocorrências do mesmo termo.
     Mas não 10 vezes mais relevante.
     A relevância não cresce de forma proporcional a
       frequência de termos.
                                                           22
Ponderação de frequências por Log
   O peso da frequência de um termo t em um documento d é
    definido como



   tft,d → wt,d :
    0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, etc.
   O score de um par consulta-documento pode então ser
    calculado pela soma dos pesos dos termos t que estão tanto
    na consulta quanto no documento
   tf-matching-score(q, d) = t∈q∩d (1 + log tft,d )
   O score será 0 se nenhum dos termos da consulta estiver
    presente no documento.
                                                             23
Exercícios

   Calcular o Coeficiente de Jaccard e o Score tf para os
    seguintes pares de consultas-documentos.
   c: [information on cars] d: “all you’ve ever wanted to know
    about cars”
   c: [information on cars] d: “information on trucks,
    information on planes, information on trains”
   c: [red cars and red trucks] d: “cops stop red cars more
    often”




                                                                  24
Agenda

❶   Revisão

❷   Por que recuperação com classificação?

❸   Frequência de Termos

❹   Classificação tf-idf



                                             25
Frequêcia no documento vs. frequência na
coleção

  Além da frequência do termo em um documento. . .
  . . .queremos utilizar também a frequência do termo na
   coleção para ponderação e classificação.




                                                            26
Peso desejado para termos raros

  Termos raros são mais informativos que termos frequentes.
  Considere um termo na consulta que é raro na coleção
   (e.g., ARACHNOCENTRIC).
  Um documento que contém este termo tem uma
   probabilidade muito grande de ser relevante para a
   consulta.
  → Queremos atribuir pesos maiores para termos raros.




                                                               27
Peso desejado para termos raros
  Termos frequêntes são menos informativos que termos
   raros.
  Considere um termo na consulta que é frequente na
   coleção (e.g., GOOD, INCREASE, LINE).
  Um documento contendo estes termos tem mais chances
   de ser relevante que um documento que não os contém . . .
  . . . porém, palavras como GOOD, INCREASE e LINE não são
   bons indicadores de relevância.
  →Queremos pesos positivos para termos frequentes como
   GOOD, INCREASE e LINE, . . .
  . . . mas menores que os pesos de termos raros.
                                                               28
Frequência em documentos

  Queremos pesos maiores para termos raros como
   ARACHNOCENTRIC.
  Queremos pesos menores (positivos) para termos
   frequêntes como GOOD, INCREASE e LINE.
  Usaremos a frequência em documentos para considerar
   este aspecto no cálculo dos scores.
  A frequência em documentos é o número de documentos
   na coleção nos quais o termo ocorre.




                                                         29
Ponderação idf
  dft é a frequência em documentos, o número de documentos nos quais
   t ocorre.
  dft é uma medida inversa de quão informativo é o termo t.
  Definimos o peso idf de um termo t como segue:



   (N é o número de documentos na coleção.)
  idft é uma medida de quão informativo um determinado termo é.
  Utilizamos [log N/dft ] ao invés [N/dft ] para “suavizar” o efeito do idf
  Note que utilizamos uma transformação logarítmica tanto para a
   frequêcia do termo quanto para a frequência em documento.



                                                                               30
Exemplos para o idf
   Calcule o idft usando a formula

    termo                     dft     idft
    calpurnia                  1        6
    animal                   100        4
    sunday                 1000         3
    fly                   10,000        2
    under                100,000        1
    the                1,000,000        0




                                             31
Efeitos do idf na classificação

   O idf afeta a classificação de documentos para consultas
    com pelo menos dois termo.
   Por exemplo, para consultas com “arachnocentric line”, a
    ponderação do idf aumenta o peso relativo de
    ARACHNOCENTRIC e diminui o peso relativo de LINE.
   O idf tem pouco efeito na classificação de consultas com
    um único termo.




                                                               32
Frequência na coleção vs. Frequência em
documento
   palavra           Frequência na   Frequência em documento
                           coleção
   INSURANCE                10440                       3997
   TRY                      10422                       8760
   Frequência na coleção de t: número de termos t na coleção
   Frequência em documento de t: número de documentos
    onde t ocorre
   Qual palavra representa um melhor termo de busca (e,
    portanto, deve ter um maior peso)?
   Este exemplo sugere que df (e idf) é melhor para
    ponderação do cf (e “icf”).

                                                               33
Ponderação tf-idf
   O tf-idf de um termo é o produto do seus pesos tf e idf.



   Este é o esquema de ponderação mais conhecido na área
    de recuperação da informação
   Note: o “-” em tf-idf é um hífen e não um sinal de menos!
   Nomes alternativos: tf.idf, tf x idf




                                                                34
Sumário: tf-idf

   Atribua um peso tf-idf para cada termo t em cada
    documento d:

   O peso tf-idf . . .
       . . . aumenta com o número de ocorrências do termo em um
        documento. (frequência de termo)
       . . . aumenta com a raridade do termo na coleção. (inverso da
        frequência em documento)




                                                                    35

Mais conteúdo relacionado

Semelhante a Classificação e Ponderação

Modelo de Espaço Vetorial
Modelo de Espaço VetorialModelo de Espaço Vetorial
Modelo de Espaço Vetorial
Alexandre Duarte
 
1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)
Eric Novais SIlva
 
1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd
UNIP - Universidade Paulista
 
2008 helio2anoaula01
2008 helio2anoaula012008 helio2anoaula01
2008 helio2anoaula01
Evandro Alves
 
Avaliação de Sistemas de Recuperação da Informação
Avaliação de Sistemas de Recuperação da InformaçãoAvaliação de Sistemas de Recuperação da Informação
Avaliação de Sistemas de Recuperação da Informação
Alexandre Duarte
 
Cálculo Numérico
Cálculo NuméricoCálculo Numérico
Cálculo Numérico
Sandro Lima
 
Apresentação sobre Excel - Conteúdo básico
Apresentação sobre Excel - Conteúdo básicoApresentação sobre Excel - Conteúdo básico
Apresentação sobre Excel - Conteúdo básico
ssuser906f55
 
Banco de dados_-_volume_4_v10
Banco de dados_-_volume_4_v10Banco de dados_-_volume_4_v10
Banco de dados_-_volume_4_v10
CLEAN LOURENÇO
 

Semelhante a Classificação e Ponderação (20)

Modelo de Espaço Vetorial
Modelo de Espaço VetorialModelo de Espaço Vetorial
Modelo de Espaço Vetorial
 
ArqOrgCom.ppt
ArqOrgCom.pptArqOrgCom.ppt
ArqOrgCom.ppt
 
Arq orgcom (1)
Arq orgcom (1)Arq orgcom (1)
Arq orgcom (1)
 
Banco de Dados Relacional Estendido
Banco de Dados Relacional EstendidoBanco de Dados Relacional Estendido
Banco de Dados Relacional Estendido
 
1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)
 
1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd1 estatistica aplicadagestaoempresarial_060355140_cd
1 estatistica aplicadagestaoempresarial_060355140_cd
 
Tabela de conversao
Tabela de conversaoTabela de conversao
Tabela de conversao
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitter
 
2008 helio2anoaula01
2008 helio2anoaula012008 helio2anoaula01
2008 helio2anoaula01
 
Aula 1
Aula 1Aula 1
Aula 1
 
Avaliação de Sistemas de Recuperação da Informação
Avaliação de Sistemas de Recuperação da InformaçãoAvaliação de Sistemas de Recuperação da Informação
Avaliação de Sistemas de Recuperação da Informação
 
Algoritmos_de_Ordenacao.ppt
Algoritmos_de_Ordenacao.pptAlgoritmos_de_Ordenacao.ppt
Algoritmos_de_Ordenacao.ppt
 
ferramentas_da_qualidade-apresentação1.ppt
ferramentas_da_qualidade-apresentação1.pptferramentas_da_qualidade-apresentação1.ppt
ferramentas_da_qualidade-apresentação1.ppt
 
44735d01
44735d0144735d01
44735d01
 
Cálculo Numérico
Cálculo NuméricoCálculo Numérico
Cálculo Numérico
 
Apresentação sobre Excel - Conteúdo básico
Apresentação sobre Excel - Conteúdo básicoApresentação sobre Excel - Conteúdo básico
Apresentação sobre Excel - Conteúdo básico
 
Banco de dados_-_volume_4_v10
Banco de dados_-_volume_4_v10Banco de dados_-_volume_4_v10
Banco de dados_-_volume_4_v10
 
Notação científica
Notação científicaNotação científica
Notação científica
 
Introdução à analise e complexidade de algoritmos
Introdução à analise e complexidade de algoritmosIntrodução à analise e complexidade de algoritmos
Introdução à analise e complexidade de algoritmos
 
PHP Conference 2017: Como melhorar seu código com Laravel Collections
PHP Conference 2017: Como melhorar seu código com Laravel CollectionsPHP Conference 2017: Como melhorar seu código com Laravel Collections
PHP Conference 2017: Como melhorar seu código com Laravel Collections
 

Mais de Alexandre Duarte

Mais de Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 

Último

1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
aulasgege
 
4 ano atividade fonema e letra 08.03-1.pdf
4 ano atividade fonema e letra 08.03-1.pdf4 ano atividade fonema e letra 08.03-1.pdf
4 ano atividade fonema e letra 08.03-1.pdf
LindinhaSilva1
 
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...
GisellySobral
 

Último (20)

UFCD_8291_Preparação e confeção de peixes e mariscos_índice.pdf
UFCD_8291_Preparação e confeção de peixes e mariscos_índice.pdfUFCD_8291_Preparação e confeção de peixes e mariscos_índice.pdf
UFCD_8291_Preparação e confeção de peixes e mariscos_índice.pdf
 
Poema - Maio Laranja
Poema - Maio Laranja Poema - Maio Laranja
Poema - Maio Laranja
 
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
1. Aula de sociologia - 1º Ano - Émile Durkheim.pdf
 
4 ano atividade fonema e letra 08.03-1.pdf
4 ano atividade fonema e letra 08.03-1.pdf4 ano atividade fonema e letra 08.03-1.pdf
4 ano atividade fonema e letra 08.03-1.pdf
 
Poema - Aedes Aegypt.
Poema - Aedes Aegypt.Poema - Aedes Aegypt.
Poema - Aedes Aegypt.
 
ROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdf
ROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdfROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdf
ROTINA DE ESTUDO-APOSTILA ESTUDO ORIENTADO.pdf
 
425416820-Testes-7º-Ano-Leandro-Rei-Da-Heliria-Com-Solucoes.pdf
425416820-Testes-7º-Ano-Leandro-Rei-Da-Heliria-Com-Solucoes.pdf425416820-Testes-7º-Ano-Leandro-Rei-Da-Heliria-Com-Solucoes.pdf
425416820-Testes-7º-Ano-Leandro-Rei-Da-Heliria-Com-Solucoes.pdf
 
Modelos de Inteligencia Emocional segundo diversos autores
Modelos de Inteligencia Emocional segundo diversos autoresModelos de Inteligencia Emocional segundo diversos autores
Modelos de Inteligencia Emocional segundo diversos autores
 
Acróstico - Maio Laranja
Acróstico  - Maio Laranja Acróstico  - Maio Laranja
Acróstico - Maio Laranja
 
Slides Lição 8, CPAD, Confessando e Abandonando o Pecado.pptx
Slides Lição 8, CPAD, Confessando e Abandonando o Pecado.pptxSlides Lição 8, CPAD, Confessando e Abandonando o Pecado.pptx
Slides Lição 8, CPAD, Confessando e Abandonando o Pecado.pptx
 
UFCD_10659_Ficheiros de recursos educativos_índice .pdf
UFCD_10659_Ficheiros de recursos educativos_índice .pdfUFCD_10659_Ficheiros de recursos educativos_índice .pdf
UFCD_10659_Ficheiros de recursos educativos_índice .pdf
 
Peça de teatro infantil: A cigarra e as formigas
Peça de teatro infantil: A cigarra e as formigasPeça de teatro infantil: A cigarra e as formigas
Peça de teatro infantil: A cigarra e as formigas
 
Química-ensino médio ESTEQUIOMETRIA.pptx
Química-ensino médio ESTEQUIOMETRIA.pptxQuímica-ensino médio ESTEQUIOMETRIA.pptx
Química-ensino médio ESTEQUIOMETRIA.pptx
 
Nós Propomos! Sertã 2024 - Geografia C - 12º ano
Nós Propomos! Sertã 2024 - Geografia C - 12º anoNós Propomos! Sertã 2024 - Geografia C - 12º ano
Nós Propomos! Sertã 2024 - Geografia C - 12º ano
 
Aparatologia na estética - Cavitação, radiofrequência e lipolaser.pdf
Aparatologia na estética - Cavitação, radiofrequência e lipolaser.pdfAparatologia na estética - Cavitação, radiofrequência e lipolaser.pdf
Aparatologia na estética - Cavitação, radiofrequência e lipolaser.pdf
 
EB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptx
EB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptxEB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptx
EB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptx
 
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...
 
Formação T.2 do Modulo I da Formação HTML & CSS
Formação T.2 do Modulo I da Formação HTML & CSSFormação T.2 do Modulo I da Formação HTML & CSS
Formação T.2 do Modulo I da Formação HTML & CSS
 
Tema de redação - A prática do catfish e seus perigos.pdf
Tema de redação - A prática do catfish e seus perigos.pdfTema de redação - A prática do catfish e seus perigos.pdf
Tema de redação - A prática do catfish e seus perigos.pdf
 
As teorias de Lamarck e Darwin para alunos de 8ano.ppt
As teorias de Lamarck e Darwin para alunos de 8ano.pptAs teorias de Lamarck e Darwin para alunos de 8ano.ppt
As teorias de Lamarck e Darwin para alunos de 8ano.ppt
 

Classificação e Ponderação

  • 1. Centro de Informática – Universidade Federal da Paraíba Ordenação e Recuperação de Dados Aula 6: Classificação e Ponderação Prof. Alexandre Duarte - http://alexandre.ci.ufpb.br 1 1
  • 2. Agenda ❶ Revisão ❷ Por que recuperação com classificação? ❸ Frequência de Termos ❹ Classificação tf-idf 2
  • 3. Agenda ❶ Revisão ❷ Por que recuperação com classificação? ❸ Frequência de Termos ❹ Classificação tf-idf 3
  • 4. Dicionário com uma string única 4
  • 6. Codificação de tamanho variável  Dedicar 1 bit (mais significativo) para ser o bit de continuação c.  Se o valor couber em 7 bits, codifique-o e set o bit c = 1.  Senão: set c = 0, codifique os 7 bits mais significativos e use bytes adicionais para codificar o restante dos bits segundo o mesmo algoritmo. 6
  • 7. Compressão da Reuters Estrutura de dados Tamanho em MB dicionário, estrutura fixa 11.2 dictionário, ponteiroes para string 7.6 ∼, com blocos, k = 4 7.1 ∼, com blocos & codificação de prefixo 5.9 coleção (texto, xml etc) 3600.0 coleção (texto) 960.0 matriz de incidência T/D 40,000.0 postings, sem compressão (32-bits) 400.0 postings, sem compressão (20 bits) 250.0 postings, codificação de tamanho variável 116.0 7
  • 8. Aula de hoje  Classificando resultados de buscas: porque isto é importante (em constrate a simplesmente apresentar os resultados de forma não-ordenada como ocorre com a busca booleana)  Frequência de Termos: Este é o ingrediente chave na classificação.  Classificação Tf-idf: esquema de classificação mais conhecido 8
  • 9. Agenda ❶ Revisão ❷ Por que recuperação com classificação? ❸ Frequência de Termos ❹ Classificação tf-idf 9
  • 10. Recuperação classificada  Até agora todas as nossas consultas foram Booleanas.  O documento atende a consulta ou não  Isso é bom para usuários especialistas com entendimento preciso de suas necessidades e do conteúdo da coleção de documentos.  Também é bom para aplicações: Aplicações podem consumir facilmente 1000s de resultados.  Mas não é interessante para a maioria dos usuários  A maioria dos usuários não é capaz de escrever consultas booleanas . . .  . . . podem até ser, mas eles consideram ser algo muito trabalhoso.  A maioria dos usuários não quer ter que processar 1000s de resultados manualmente.  Isto é particularmente verdadeiro para pesquisas na web. 10
  • 11. Problemas da pesquisa Booleana: 8 ou 80  Consultas booleanas geralmente resultam em um número muito pequeno de resultados (=0) ou em um número muito grande de resultados (1000s).  Consulta 1 (conjunção booleana): [standard user dlink 650]  → 200,000 hits  Consulta 2 (conjunção booleana): [standard user dlink 650 no card found]  → 0 hits  Utilizar pesquisas booleanas requer habilidade para produzir consultas que recuperem um número gerenciavel de resultados. 11
  • 12. 8 ou 80: Isso não é problema para a consulta com classificação  Com classificação, um grande número de resultados não é um problema para o usuário.  Basta mostrar apenas os 10 melhores resultados, por exemplo  Não sobrecarregar o usuário  Premissa: o algorítmo de classificação funciona: Resultados mais relevantes têm melhor classificação que resultados menos relevantes. 12
  • 13. Scoring como base da recuperação com classificação  Queremos atribuir uma melhor classificação aos documentos que são mais em relação aos documentos que são menos relevantes.  Como podemos fazer essa classificação dos documentos de uma coleção em relação a uma determinada consulta?  Atribuir um score a cada par consulta-documento.  Este score mede o quão bem um determinado documento atende uma determinada consulta. 13
  • 14. Score de pares Consulta-documento  Como calculamos o valor de um par consulta-documento?  Comecemos com consultas de um único termo.  Se o termo não aparece no documento: o score deve ser 0.  Quanto mais frequente o termo no documento maior o score  Veremos algumas alternativas para fazer essa contabilização. 14
  • 15. Tentativa 1: Coeficiente de Jaccard  Uma medida comum para a sobreposição de dois conjuntos  Sejam A e B dois conjuntos  O coeficiente de Jaccard para A e B vale:  JACCARD (A, A) = 1  JACCARD (A, B) = 0 if A ∩ B = 0  A e B não precisam ter o mesmo tamanho.  Sempre atribui um valor entre 0 e 1. 15
  • 16. Coeficiente de Jaccard: Exemplo  Qual é o score consulta-documento que o Coeficiente de Jaccard retorna para:  Consulta: “ides of March”  Documento “Caesar died in March”  JACCARD(c, d) = 1/6 16
  • 17. Problemas com o coeficiente de Jaccard  Ele não considera a frequência do termo (quantas ocorrências o termo tem).  Termos raros são mais informativos que termos frequentes. Jaccard não considera essa informação.  Precisamos de mecanismos mais sofisticados! 17
  • 18. Agenda ❶ Revisão ❷ Por que recuperação com classificação? ❸ Frequência de Termos ❹ Classificação tf-idf 18
  • 19. Matriz de incidências Termo-Documento Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest ... Cleopatra ANTHONY 1 1 0 0 0 1 BRUTUS 1 1 0 1 0 0 CAESAR 1 1 0 1 1 1 CALPURNIA 0 1 0 0 0 0 CLEOPATRA 1 0 0 0 0 0 MERCY 1 0 1 1 1 1 WORSER 1 0 1 1 1 0 ... Cada documento é representado por um vetor binário ∈ {0, 1}|V|. 19
  • 20. Matriz de incidências Termo-Documento Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest ... Cleopatra ANTHONY 157 73 0 0 0 1 BRUTUS 4 157 0 2 0 0 CAESAR 232 227 0 2 1 0 CALPURNIA 0 10 0 0 0 0 CLEOPATRA 57 0 0 0 0 0 MERCY 2 0 3 8 5 8 WORSER 2 0 1 1 1 5 ... Agora cada documento é representado por um vetor de contagem ∈ N|V|. 20
  • 21. Modelo da sacola de palavras  Nós não consideramos a ordem das palavras em um documento.  John is quicker than Mary e Mary is quicker than John são representadas da mesma forma.  Isto é chamado de modelo da sacola de palavras.  De certa forma estamos dando um passo para trás: índices posicionais são capazes de distinguir entre estes dois documentos.  Veremos como recuperar a informação posicional ainda neste curso.  Por enquanto: modelo da sacola de palavras 21
  • 22. Frequência de termos tf  A frequencia de um termo t em um documento d, tft,d é definida como o número de vezes que t ocorre em d.  Queremos utilizar o tf no cálculo dos scores de pares consulta-documento.  Como fazer isso?  Não podemos utilizar indiscriminadamente o tf pois:  Um documento com tf = 10 ocorrências de um determinado termo é mais relevante que um outro documento com tf = 1 ocorrências do mesmo termo.  Mas não 10 vezes mais relevante.  A relevância não cresce de forma proporcional a frequência de termos. 22
  • 23. Ponderação de frequências por Log  O peso da frequência de um termo t em um documento d é definido como  tft,d → wt,d : 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, etc.  O score de um par consulta-documento pode então ser calculado pela soma dos pesos dos termos t que estão tanto na consulta quanto no documento  tf-matching-score(q, d) = t∈q∩d (1 + log tft,d )  O score será 0 se nenhum dos termos da consulta estiver presente no documento. 23
  • 24. Exercícios  Calcular o Coeficiente de Jaccard e o Score tf para os seguintes pares de consultas-documentos.  c: [information on cars] d: “all you’ve ever wanted to know about cars”  c: [information on cars] d: “information on trucks, information on planes, information on trains”  c: [red cars and red trucks] d: “cops stop red cars more often” 24
  • 25. Agenda ❶ Revisão ❷ Por que recuperação com classificação? ❸ Frequência de Termos ❹ Classificação tf-idf 25
  • 26. Frequêcia no documento vs. frequência na coleção  Além da frequência do termo em um documento. . .  . . .queremos utilizar também a frequência do termo na coleção para ponderação e classificação. 26
  • 27. Peso desejado para termos raros  Termos raros são mais informativos que termos frequentes.  Considere um termo na consulta que é raro na coleção (e.g., ARACHNOCENTRIC).  Um documento que contém este termo tem uma probabilidade muito grande de ser relevante para a consulta.  → Queremos atribuir pesos maiores para termos raros. 27
  • 28. Peso desejado para termos raros  Termos frequêntes são menos informativos que termos raros.  Considere um termo na consulta que é frequente na coleção (e.g., GOOD, INCREASE, LINE).  Um documento contendo estes termos tem mais chances de ser relevante que um documento que não os contém . . .  . . . porém, palavras como GOOD, INCREASE e LINE não são bons indicadores de relevância.  →Queremos pesos positivos para termos frequentes como GOOD, INCREASE e LINE, . . .  . . . mas menores que os pesos de termos raros. 28
  • 29. Frequência em documentos  Queremos pesos maiores para termos raros como ARACHNOCENTRIC.  Queremos pesos menores (positivos) para termos frequêntes como GOOD, INCREASE e LINE.  Usaremos a frequência em documentos para considerar este aspecto no cálculo dos scores.  A frequência em documentos é o número de documentos na coleção nos quais o termo ocorre. 29
  • 30. Ponderação idf  dft é a frequência em documentos, o número de documentos nos quais t ocorre.  dft é uma medida inversa de quão informativo é o termo t.  Definimos o peso idf de um termo t como segue: (N é o número de documentos na coleção.)  idft é uma medida de quão informativo um determinado termo é.  Utilizamos [log N/dft ] ao invés [N/dft ] para “suavizar” o efeito do idf  Note que utilizamos uma transformação logarítmica tanto para a frequêcia do termo quanto para a frequência em documento. 30
  • 31. Exemplos para o idf  Calcule o idft usando a formula termo dft idft calpurnia 1 6 animal 100 4 sunday 1000 3 fly 10,000 2 under 100,000 1 the 1,000,000 0 31
  • 32. Efeitos do idf na classificação  O idf afeta a classificação de documentos para consultas com pelo menos dois termo.  Por exemplo, para consultas com “arachnocentric line”, a ponderação do idf aumenta o peso relativo de ARACHNOCENTRIC e diminui o peso relativo de LINE.  O idf tem pouco efeito na classificação de consultas com um único termo. 32
  • 33. Frequência na coleção vs. Frequência em documento palavra Frequência na Frequência em documento coleção INSURANCE 10440 3997 TRY 10422 8760  Frequência na coleção de t: número de termos t na coleção  Frequência em documento de t: número de documentos onde t ocorre  Qual palavra representa um melhor termo de busca (e, portanto, deve ter um maior peso)?  Este exemplo sugere que df (e idf) é melhor para ponderação do cf (e “icf”). 33
  • 34. Ponderação tf-idf  O tf-idf de um termo é o produto do seus pesos tf e idf.  Este é o esquema de ponderação mais conhecido na área de recuperação da informação  Note: o “-” em tf-idf é um hífen e não um sinal de menos!  Nomes alternativos: tf.idf, tf x idf 34
  • 35. Sumário: tf-idf  Atribua um peso tf-idf para cada termo t em cada documento d:  O peso tf-idf . . .  . . . aumenta com o número de ocorrências do termo em um documento. (frequência de termo)  . . . aumenta com a raridade do termo na coleção. (inverso da frequência em documento) 35