Redes Bayesianas para Recuperação de Informação Estruturada Carlos Estombelo (estombelo @ gmail.com) Adolfo Neto (adolfo.u...
Roteiro <ul><li>Motivação </li></ul><ul><li>Objetivo </li></ul><ul><li>Proposta dos Autores do Artigo </li></ul><ul><li>Pr...
Motivação <ul><li>Busca </li></ul><ul><ul><li>Temos uma coleção de documentos estruturados e uma consulta </li></ul></ul><...
Motivação: Busca <ul><li>Por exemplo, temos uma coleção de documentos estruturados sobre doenças tropicais </li></ul><ul><...
Objetivo <ul><li>Implementar um sistema de recuperação de informação em coleções de documentos estruturados utilizando red...
Atividade Inicial <ul><li>Estudar abordagens que utilizem redes bayesianas na implementação de sistemas de consultas em co...
Artigo Estudado <ul><li>A Bayesian Framework for XML Information Retrieval: Searching and Learning with the INEX Collectio...
Proposta dos Autores do Artigo <ul><li>Framework genérico (adaptável a diferentes tipos de documentos estruturados e coleç...
Siglas <ul><li>BN = Bayesian Network = Rede Bayesiana </li></ul><ul><li>INEX = Initiative for the Evaluation of XML Retrie...
EPSIR <ul><li>Experimental Platform for Structured Information Retrieval </li></ul><ul><li>Sistema implementado por Benjam...
Fases do Desenvolvimento do EPSIR Algoritmo de Aprendizagem Consultas Avaliadas do INEX 2003 Tabelas de Parâmetros da Rede...
Escala bidimensional INEX <ul><li>Exaustividade (Ex): descreve o grau que o documento DISCUTE o tópico requisitado </li></...
Aprendizagem com Redes Bayesianas <ul><li>Treinar Redes Bayesianas para Recuperação de Informação Estruturada (RIE/SIR) é ...
Aprendizagem com Redes Bayesianas <ul><li>Dificuldades </li></ul><ul><ul><li>Heterogeneidade no conjunto de dados: </li></...
Aprendizagem com Redes Bayesianas <ul><li>Dificuldades </li></ul><ul><ul><li>A fase de treinamento exige uma rotulação coe...
Aprendizagem com Redes Bayesianas <ul><li>Treinar a BN é uma aplicação não-standard de aprendizagem de máquina  </li></ul>...
Aprendizagem com Redes Bayesianas Na figura vemos a independência na rede bayesiana: conhecendo a relevância de um periódi...
Aprendizagem com Redes Bayesianas Na figura vemos um pedaço de uma rede bayesiana utilizada para representar uma consulta ...
Aprendizagem com Redes Bayesianas No modelo a probabilidade que o elemento X esteja no estado {I, B, E} depende somente do...
Aprendizagem com Redes Bayesianas <ul><li>O treinamento de uma BN é geralmente feito maximizando a probabilidade do modelo...
Aprendizagem com Redes Bayesianas <ul><li>Neste trabalho, para cada consulta, o conjunto de variáveis com evidência consis...
Aprendizagem com Redes Bayesianas <ul><li>O algoritmo permite o aprendizado das probabilidades condicionais: a probabilida...
Aprendizagem com Redes Bayesianas <ul><li>Proposta dos Autores - usar outro critério de treinamento: a entropia cruzada (C...
Mapeamento <ul><li>Mapeando a escala de relevância do INEX para a distribuição de probabilidade dos estados da BN: </li></...
O Algoritmo de Treinamento <ul><li>O critério de treinamento é a  entropia cruzada  entre os valores das variáveis alvo (c...
O Algoritmo de Treinamento <ul><li>Normalizamos a contribuição de cada consulta fazendo: </li></ul><ul><ul><li>Peso(q) = (...
O Algoritmo de Treinamento <ul><li>O conjunto de variáveis X j  corresponde ao conjunto de doxels com uma avaliação conhec...
O Algoritmo de Treinamento <ul><li>A minimização de  Q( Θ ) pode ser efetuada via  gradient descent  (descida em gradiente...
O Algoritmo de Treinamento <ul><li>A fórmula de atualização para o parâmetro  θ  é: </li></ul>
O Algoritmo de Treinamento <ul><li>Onde: </li></ul><ul><ul><li>ϵ  é  a taxa de aprendizagem </li></ul></ul><ul><ul><li>As ...
O Algoritmo de Treinamento <ul><li>Onde: </li></ul><ul><ul><li>Esta contribuição é modulada pelo termo de erro  </li></ul>...
O Algoritmo de Treinamento <ul><li>A implementação do algoritmo segue diretamente da fórmula anterior: </li></ul><ul><ul><...
O Algoritmo de Treinamento <ul><li>Treinar um nó apenas exige o conhecimento dos valores dos seus ancestrais, o que leva a...
Experimentos <ul><li>30 consultas do INEX 2003 divididas em dois conjuntos (A e B) de 15 consultas cada </li></ul><ul><li>...
Experimentos <ul><li>Isto significa que o erro rapidamente chega a um mínimo, depois de aproximadamente 1000 iterações.  <...
Problemas Encontrados na Abordagem dos Autores do Artigo <ul><li>Depende de uma coleção de documentos estruturados avaliad...
Problemas Encontrados na Abordagem dos Autores do Artigo <ul><li>A coleção INEX 2007 é diferente da coleção INEX 2003, na ...
Nossa Proposta <ul><li>Estudar com profundidade a abordagem EPSIR </li></ul><ul><li>Implementar uma versão adaptada ao INE...
Outros artigos <ul><li>Classificação: </li></ul><ul><ul><li>A Belief Networks-Based Generative Model for Structured Docume...
Outros artigos <ul><li>Classificação: </li></ul><ul><ul><li>Outro artigo: </li></ul></ul><ul><ul><ul><li>Bayesian network ...
Outros artigos <ul><li>Linking: </li></ul><ul><ul><li>Collaborative Knowledge Management: Evaluation of Automated Link Dis...
 
FIM!
Slides Extras
Aprendizagem com Redes Bayesianas com EM <ul><li>Para o treinamento de ML com este modelo, cada variável X deve tomar um e...
Aprendizagem com Redes Bayesianas com EM <ul><li>Porém, para estes experimentos diferentes, o desempenho medido com “highl...
Aprendizagem com Redes Bayesianas com EM <ul><li>A distribuição de probabilidade alvo é apenas uma aproximação bastante cr...
O Algoritmo de Treinamento <ul><li>Diferentes  algoritmos de gradiente  poderiam ter sido utilizados.  </li></ul><ul><li>P...
O Algoritmo de Treinamento <ul><li>Foi usado o algoritmo de Armijo que encontra o maior epsilon ϵ para o qual: </li></ul><...
Próximos SlideShares
Carregando em…5
×

Redes Bayesianas para Recuperação de Informação Estruturada

1.904 visualizações

Publicada em

Redes Bayesianas para Recuperação de Informação Estruturada, Adolfo Neto e Carlos Estombelo

Publicada em: Tecnologia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Redes Bayesianas para Recuperação de Informação Estruturada

  1. 1. Redes Bayesianas para Recuperação de Informação Estruturada Carlos Estombelo (estombelo @ gmail.com) Adolfo Neto (adolfo.usp @ gmail.com) Projeto Tidia-Ae (FAPESP) Laboratório de Informática em Saúde e ImagCom (LISI) Departamento de Física e Matemática (DFM) Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto (FFCLRP) USP – Ribeirão Preto Ribeirão Preto, 21 de setembro de 2007
  2. 2. Roteiro <ul><li>Motivação </li></ul><ul><li>Objetivo </li></ul><ul><li>Proposta dos Autores do Artigo </li></ul><ul><li>Problemas Encontrados na Abordagem dos Autores do Artigo </li></ul><ul><li>Nossa Proposta </li></ul><ul><li>Outros Artigos </li></ul>
  3. 3. Motivação <ul><li>Busca </li></ul><ul><ul><li>Temos uma coleção de documentos estruturados e uma consulta </li></ul></ul><ul><ul><li>Queremos encontrar as partes de documentos na coleção que satisfazem a consulta </li></ul></ul><ul><ul><li>Queremos uma lista ordenada (por relevância em relação à consulta) de partes de documentos </li></ul></ul><ul><li>Classificação </li></ul><ul><ul><li>Categorizar documentos estruturados </li></ul></ul><ul><li>Linking </li></ul><ul><ul><li>Estabelecer ligações entre partes de documentos estruturados </li></ul></ul>
  4. 4. Motivação: Busca <ul><li>Por exemplo, temos uma coleção de documentos estruturados sobre doenças tropicais </li></ul><ul><li>Fazemos a consulta “mosquito da dengue” </li></ul><ul><li>Queremos que o sistema retorne algo como: </li></ul><ul><ul><li>Doc[345]/Sec[3]/P[1] 0,91 </li></ul></ul><ul><ul><li>Doc[378]/Sec[5] 0,855 </li></ul></ul><ul><ul><li>Doc[345]/Sec[3]/P[3] 0,745 </li></ul></ul><ul><ul><li>Doc[387] 0,65 </li></ul></ul>
  5. 5. Objetivo <ul><li>Implementar um sistema de recuperação de informação em coleções de documentos estruturados utilizando redes bayesianas </li></ul><ul><li>Por que Redes Bayesianas? São bastante utilizadas em Aprendizagem de Máquina . </li></ul>
  6. 6. Atividade Inicial <ul><li>Estudar abordagens que utilizem redes bayesianas na implementação de sistemas de consultas em coleções de documentos estruturados </li></ul><ul><ul><li>Descobrir como é representada a coleção de documentos </li></ul></ul><ul><ul><li>Entender como é construída a rede bayesiana </li></ul></ul><ul><ul><ul><li>Ler os artigos e olhar o código-fonte das aplicações disponíveis </li></ul></ul></ul>
  7. 7. Artigo Estudado <ul><li>A Bayesian Framework for XML Information Retrieval: Searching and Learning with the INEX Collection </li></ul><ul><li>Information Retrieval, Springer (Qualis A) </li></ul><ul><li>Volume 8, Number 4 / December, 2005 </li></ul><ul><li>Benjamin Piwowarski e Patrick Gallinari </li></ul><ul><li>http://www.springerlink.com/content/gn25xp4p35j88205 </li></ul>
  8. 8. Proposta dos Autores do Artigo <ul><li>Framework genérico (adaptável a diferentes tipos de documentos estruturados e coleções)‏ </li></ul><ul><li>Modelo que permita considerar diferentes tarefas de accesso a informação em um único formalismo </li></ul><ul><li>Modelo que permita executar sofisticadas inferências </li></ul><ul><ul><li>Falta de informação </li></ul></ul><ul><ul><li>Existe incerteza </li></ul></ul><ul><li>Parâmetros do modelo aprendidos a partir dos dados. </li></ul><ul><li>FOCO: treinamento da RB estruturada usando como critério de treinamento a entropia cruzada. </li></ul><ul><li>Recuperação de Informação distribuída </li></ul>
  9. 9. Siglas <ul><li>BN = Bayesian Network = Rede Bayesiana </li></ul><ul><li>INEX = Initiative for the Evaluation of XML Retrieval = Iniciativa para a Avaliação da Recuperação em XML </li></ul><ul><li>ML = Maximum Likelihood = Máxima Verossimilhança </li></ul><ul><li>EM = Expectation/Estimation Maximization = Maximização de Expectativa/Esperança </li></ul><ul><li>CE = Cross Entropy = Entropia Cruzada </li></ul><ul><li>DOXEL = Document Element = Elemento de Documento </li></ul>
  10. 10. EPSIR <ul><li>Experimental Platform for Structured Information Retrieval </li></ul><ul><li>Sistema implementado por Benjamin Piwowarski </li></ul><ul><li>Implementação em C/C++ </li></ul><ul><li>Define linguagem de scripts para obter maior flexibilidade </li></ul><ul><li>Utiliza a base de documentos avaliados do INEX 2003 </li></ul>
  11. 11. Fases do Desenvolvimento do EPSIR Algoritmo de Aprendizagem Consultas Avaliadas do INEX 2003 Tabelas de Parâmetros da Rede Bayesiana do EPSIR Consulta Qualquer EPSIR RP hs e ERR TREINAMENTO: EXECUÇÃO: Consultas Avaliadas do INEX 2003 EPSIR Lista pontuada de doxels AVALIAÇÃO DE DESEMPENHO:
  12. 12. Escala bidimensional INEX <ul><li>Exaustividade (Ex): descreve o grau que o documento DISCUTE o tópico requisitado </li></ul><ul><li>Especificidade (Sp): descreve o grau que o documento FOCA sobre o tópico requisitado. </li></ul>
  13. 13. Aprendizagem com Redes Bayesianas <ul><li>Treinar Redes Bayesianas para Recuperação de Informação Estruturada (RIE/SIR) é uma tarefa desafiadora de aprendizagem de máquina. </li></ul>
  14. 14. Aprendizagem com Redes Bayesianas <ul><li>Dificuldades </li></ul><ul><ul><li>Heterogeneidade no conjunto de dados: </li></ul></ul><ul><ul><ul><li>grande variabilidade no conteúdo e comprimento dos dóxeis </li></ul></ul></ul><ul><ul><ul><li>a quantidade de exemplos de treinamento na base de dados do INEX é relativamente pequena com relação a esta variabilidade (30 consultas) </li></ul></ul></ul>
  15. 15. Aprendizagem com Redes Bayesianas <ul><li>Dificuldades </li></ul><ul><ul><li>A fase de treinamento exige uma rotulação coerente do conjunto de dados </li></ul></ul><ul><ul><ul><li>A avaliação de consultas para o INEX é uma tarefa tediosa e não trivial </li></ul></ul></ul><ul><ul><ul><li>As avaliações do INEX 2003 não são completas, coerentes e homogêneas </li></ul></ul></ul><ul><ul><ul><li>Elas podem levar a julgamentos contraditórios </li></ul></ul></ul><ul><ul><li>Ranking é uma tarefa mais difícil do que classificação uma vez que os valores relativos dos scores são importantes </li></ul></ul>
  16. 16. Aprendizagem com Redes Bayesianas <ul><li>Treinar a BN é uma aplicação não-standard de aprendizagem de máquina </li></ul><ul><li>Tal situação geralmente exige experimentos extensivos com diferentes modelos e bastante tuning com os parâmetros de aprendizagem antes de encontrar uma solução apropriada </li></ul>
  17. 17. Aprendizagem com Redes Bayesianas Na figura vemos a independência na rede bayesiana: conhecendo a relevância de um periódico, a relevância da coleção de periódicos não tem nenhuma influência na relevância dos artigos deste periódico. Sejam X e Y independentes dado Z então: P(X|Y,Z) = P(X|Z). Isto quer dizer que se o objetivo é saber a probabilidade de X então tanto faz o valor de Y se você ja sabe o valor de Z. No caso deste trabalho seria: P(Xi | pai(Xi))‏
  18. 18. Aprendizagem com Redes Bayesianas Na figura vemos um pedaço de uma rede bayesiana utilizada para representar uma consulta sobre uma base de documentos. Os nós “Baseline model i for Nj (Mi)” representam a relevância dos nós relativamente a uma consulta usando um modelo como o Okapi.
  19. 19. Aprendizagem com Redes Bayesianas No modelo a probabilidade que o elemento X esteja no estado {I, B, E} depende somente do estado de seu pai e do resultados dos modelos baseline (R, -R)‏ Tabela de probabilidades condicionais associadas ao nó X [Parâmetros a serem aprendidos] Para reduzir ou limitar o número de parâmetros livres, os doxel se agrupam em categorias e estes doxel utilizaram a mesma tabela de probabilidades condicionais
  20. 20. Aprendizagem com Redes Bayesianas <ul><li>O treinamento de uma BN é geralmente feito maximizando a probabilidade do modelo em relação a um conjunto de treinamento. </li></ul><ul><li>Diferentes algoritmos podem ser utilizados para isso. </li></ul><ul><li>Um dos mais populares é o algoritmo EM (Estimation-Maximisation) - Dempster e outros, 1977 </li></ul><ul><li>Learning Probabilistic Networks, PJ Krause, 1998, faz uma revisão dos algoritmos de treinamento para BNs </li></ul>
  21. 21. Aprendizagem com Redes Bayesianas <ul><li>Neste trabalho, para cada consulta, o conjunto de variáveis com evidência consiste de todas as variáveis associadas a nós com um julgamento de relevância. </li></ul><ul><li>Todos os outros estados de variáveis são desconhecidos ou escondidos na terminologia de BNs. </li></ul><ul><li>Métodos iterativos como EM têm que ser usados para treinamento. </li></ul>
  22. 22. Aprendizagem com Redes Bayesianas <ul><li>O algoritmo permite o aprendizado das probabilidades condicionais: a probabilidade dos dados aumenta regularmente com as iterações do EM </li></ul><ul><li>Porém, experimentos feitos com maximum likelihood EM no INEX levaram a resultados desapontadores. </li></ul>
  23. 23. Aprendizagem com Redes Bayesianas <ul><li>Proposta dos Autores - usar outro critério de treinamento: a entropia cruzada (CE) entre uma distribuição alvo e a distribuição aprendida pela BN </li></ul><ul><li>Este critério permitiu atingir uma performance mais satisfatória, o que foi promissor </li></ul><ul><li>Reflete mais aproximadamente o objetivo de aprendizagem para SIR, e permite um treinamento mais rápido do que o algoritmo EM </li></ul><ul><li>Para aprender as probabilidades condicionais dos nós com CE, um mapeamento precisa ser definido entre uma avaliação e seu valor de variável associada ao nó. </li></ul>
  24. 24. Mapeamento <ul><li>Mapeando a escala de relevância do INEX para a distribuição de probabilidade dos estados da BN: </li></ul>1 0 0 Ex 0 Sp 0 0.5 0.5 0 Ex 1 Sp 1 0.5 0.25 0.25 Ex 1 Sp 2 0.5 0 0.5 Ex 1 Sp 3 0.25 0.75 0 Ex 2 Sp 1 0.25 0.375 0.375 Ex 2 Sp 2 0.25 0 0.75 Ex 2 Sp 3 0 1 0 Ex 3 Sp 1 0 0.5 0.5 Ex 3 Sp 2 0 0 1 Ex 3 Sp 3 I B E P(X=...)
  25. 25. O Algoritmo de Treinamento <ul><li>O critério de treinamento é a entropia cruzada entre os valores das variáveis alvo (como definidos pelo mapeamento anterior) e os valores calculados pela BN: </li></ul><ul><li>Q( Θ )=- Σ q peso(q) Σ j Σ vj ℇ V P T (X j =v j |q)logP Θ (X j =v j |q) </li></ul><ul><li>Onde P Θ é a probabilidade a ser estimada </li></ul><ul><li>E P T é a distribuição alvo </li></ul>
  26. 26. O Algoritmo de Treinamento <ul><li>Normalizamos a contribuição de cada consulta fazendo: </li></ul><ul><ul><li>Peso(q) = (quantidade de nós acessados) -1 </li></ul></ul><ul><li>A somatória de q é sobre o conjunto de todas as consultas de treinamento </li></ul><ul><li>A somatória de j é sobre o conjunto de todas as variáveis X j com uma distribuição de probabilidade conhecida P T (X j =v j |q) para v j ℇ V. </li></ul>
  27. 27. O Algoritmo de Treinamento <ul><li>O conjunto de variáveis X j corresponde ao conjunto de doxels com uma avaliação conhecida no conjunto de documentos de treinamento. </li></ul><ul><li>Comparado à ML, este critério fornece uma aproximação melhor da distribuição desejada nos diferentes nós e neste sentido está mais próximo do objetivo de aprendizagem para SIR. </li></ul>
  28. 28. O Algoritmo de Treinamento <ul><li>A minimização de Q( Θ ) pode ser efetuada via gradient descent (descida em gradiente ou gradiente descendente) </li></ul><ul><li>A derivada de erro com relação ao parâmetro θ é: </li></ul>onde as somatórias são as mesmas da fórmula de Q( Θ ) .
  29. 29. O Algoritmo de Treinamento <ul><li>A fórmula de atualização para o parâmetro θ é: </li></ul>
  30. 30. O Algoritmo de Treinamento <ul><li>Onde: </li></ul><ul><ul><li>ϵ é a taxa de aprendizagem </li></ul></ul><ul><ul><li>As primeiras somatórias sobre q, j e v são as mesmas </li></ul></ul><ul><ul><li>Na segunda somatória ( l ∈ anc(j)), para cada valor v j de variável X j com avaliação conhecida, somamos todas as contribuições, com relação a um dado parâmetro θ , dos seus pares ancestrais (X l , pai X pa(l) ) onde X l é um ancestral de X j . </li></ul></ul>
  31. 31. O Algoritmo de Treinamento <ul><li>Onde: </li></ul><ul><ul><li>Esta contribuição é modulada pelo termo de erro </li></ul></ul><ul><ul><li>e pela probabilidade de que X j esteja no estado v j se seus ancestrais X l e X pa(l) estiverem respectivamente nos estados v l e v pa(l) . </li></ul></ul>
  32. 32. O Algoritmo de Treinamento <ul><li>A implementação do algoritmo segue diretamente da fórmula anterior: </li></ul><ul><ul><li>Loop nas consultas </li></ul></ul><ul><ul><li>Loop em cada nó da BN para o qual temos uma avaliação para a consulta </li></ul></ul><ul><ul><li>Loop nos valores diferentes da variável anterior </li></ul></ul><ul><ul><li>… </li></ul></ul><ul><li>Todos os parâmetros são atualizados em paralelo </li></ul>
  33. 33. O Algoritmo de Treinamento <ul><li>Treinar um nó apenas exige o conhecimento dos valores dos seus ancestrais, o que leva a um algoritmo de treinamento muito mais rápido do que o EM. </li></ul><ul><li>A razão é que o critério de CE é definido apenas para as variáveis para as quais existe uma avaliação. </li></ul>
  34. 34. Experimentos <ul><li>30 consultas do INEX 2003 divididas em dois conjuntos (A e B) de 15 consultas cada </li></ul><ul><li>Cada conjunto foi usado alternadamente para treinamento e teste: treinamento foi feito com A e teste com B, e vice-versa. </li></ul><ul><li>Em todos os experimentos a curva de erro para CE claramente diminuiu tanto para treinamento como para teste, significando que o algoritmo de fato otimiza de forma efetiva o critério de CE. </li></ul>
  35. 35. Experimentos <ul><li>Isto significa que o erro rapidamente chega a um mínimo, depois de aproximadamente 1000 iterações. </li></ul>
  36. 36. Problemas Encontrados na Abordagem dos Autores do Artigo <ul><li>Depende de uma coleção de documentos estruturados avaliada (INEX) </li></ul><ul><li>Esta coleção não é de livre acesso </li></ul><ul><li>Não existe uma medida padrão de performance do SRI devido a que não existe um objetivo bem definido na aprendizagem. </li></ul><ul><li>A quantidade de exemplos de treinamento na base de dados do INEX é relativamente pequena com relação a esta variabilidade (30 consultas)‏ </li></ul>
  37. 37. Problemas Encontrados na Abordagem dos Autores do Artigo <ul><li>A coleção INEX 2007 é diferente da coleção INEX 2003, na INEX 2007 não tem mais a exaustividade, somente existe a escala de especificidade e após o usuário avaliar o documento com o sistema de avaliação, este calcula um valor entre 0 e 1 para esta especifidade com relação ao documento. </li></ul>
  38. 38. Nossa Proposta <ul><li>Estudar com profundidade a abordagem EPSIR </li></ul><ul><li>Implementar uma versão adaptada ao INEX 2007 do algoritmo utilizado pelo EPSIR </li></ul><ul><li>Testar com a base do INEX 2007 </li></ul><ul><ul><li>como existe somente a especificidade entre 0 e 1, poderíamos discretizar essa faixa . </li></ul></ul><ul><li>Pesquisar formas de melhorar o algoritmo </li></ul><ul><ul><li>Após a montagem básica o sistema a proposta de utilizar uma entropia diferente (Tsallis). </li></ul></ul><ul><ul><li>Continuar focando em um treinamento robusto com a coleção INEX 2007. </li></ul></ul><ul><li>Implementar, testar e comparar </li></ul><ul><li>Publicar os resultados obtidos </li></ul>
  39. 39. Outros artigos <ul><li>Classificação: </li></ul><ul><ul><li>A Belief Networks-Based Generative Model for Structured Documents. An Application to the XML Categorization. Ludovic Denoyer and Patrick Gallinari. 2003. </li></ul></ul><ul><ul><li>Calcula a probabilidade de que um documento faça parte de uma categoria utilizando informações estruturais </li></ul></ul><ul><ul><li>Utiliza o algoritmo EM para aprender os parâmetros da rede bayesiana (algoritmo que foi descartado no trabalho sobre busca) </li></ul></ul>
  40. 40. Outros artigos <ul><li>Classificação: </li></ul><ul><ul><li>Outro artigo: </li></ul></ul><ul><ul><ul><li>Bayesian network model for semi-structured document classification. Ludovic Denoyer and Patrick Gallinari. 2004. </li></ul></ul></ul>
  41. 41. Outros artigos <ul><li>Linking: </li></ul><ul><ul><li>Collaborative Knowledge Management: Evaluation of Automated Link Discovery in the Wikipedia. Wei Che Huang, Andrew Trotman e Shlomo Geva. 2007 </li></ul></ul><ul><ul><li>Descrição da Link-the-Wiki Track no INEX 2007 </li></ul></ul>
  42. 43. FIM!
  43. 44. Slides Extras
  44. 45. Aprendizagem com Redes Bayesianas com EM <ul><li>Para o treinamento de ML com este modelo, cada variável X deve tomar um e apenas um valor entre I, B ou E. </li></ul><ul><li>As avaliações do INEX são numa escala bidimensional (Exaustividade, Especificidade) com 4 valores possíveis em cada dimensão </li></ul><ul><li>Desses 4x4 valores possíveis, apenas 10 são válidos </li></ul><ul><li>Cada uma dessas 10 avaliações deve então ser mapeada no espaço tridimensional V={I, B, E} </li></ul><ul><li>Dito de outra forma, para cada avaliação de doxel X, associamos valores alvo 1 ou 0 para as probabilidades </li></ul><ul><li>P(X=vx | variáveis pai de X na BN, q) para vx ε V </li></ul><ul><li>Perdemos uma grande parte da informação presente nas avaliações uma vez que o espaço de avaliações com 10 dimensões é mapeado em um espaço V tridimensional </li></ul>
  45. 46. Aprendizagem com Redes Bayesianas com EM <ul><li>Porém, para estes experimentos diferentes, o desempenho medido com “highly specific” inex_eval ou ERR foi menor do que a obtida com Okapi D-P ou D-T sozinhos. </li></ul><ul><li>Possíveis razões: </li></ul><ul><ul><li>Pequena quantidade de doxels avaliados na coleção </li></ul></ul><ul><ul><li>A rotulação de variáveis observadas na BN para o algoritmo ML reduz a quantidade de informação </li></ul></ul>
  46. 47. Aprendizagem com Redes Bayesianas com EM <ul><li>A distribuição de probabilidade alvo é apenas uma aproximação bastante crua do objetivo de aprendizagem que deveria refletir o ranking desejado dos doxels. </li></ul><ul><li>Aprender uma distribuição de probabilidade mais adequada iria envolver um modelo de BN mais complexo, que incluiria variáveis randômicas reais. </li></ul><ul><li>Isto seria proibitivo para SIR. </li></ul>
  47. 48. O Algoritmo de Treinamento <ul><li>Diferentes algoritmos de gradiente poderiam ter sido utilizados. </li></ul><ul><li>Para os experimentos foi usado um algoritmo de gradiente descendente simples ( simple gradient descent algorithm ) onde a taxa de aprendizagem ϵ foi configurada automaticamente por uma busca em linha ( line search ). </li></ul>
  48. 49. O Algoritmo de Treinamento <ul><li>Foi usado o algoritmo de Armijo que encontra o maior epsilon ϵ para o qual: </li></ul><ul><li>α=0.3 nos experimentos. </li></ul><ul><li>Valor inicial de 0.1 para ϵ (0) </li></ul><ul><li>Dividir este valor por 2 até que a desigualdade acima seja verificada. </li></ul><ul><li>Os parâmetros Θ foram então atualizados para Θ + ϵ (opt) ▽Q(Θ). </li></ul>

×