1. Un modèle de Recherche d’Information orienté précision fondé sur les dimensions de domaine Directeurs de thèse : Jean-Pierre CHEVALLET, UJF Yves CHIARAMELLA, UJF Gilles FALQUET, UniGe Saïd Radhouani 18 juillet 2008
52. Un modèle de Recherche d’Information orienté précision fondé sur les dimensions de domaine Directeurs de thèse : Jean-Pierre CHEVALLET, UJF Yves CHIARAMELLA, UJF Gilles FALQUET, UniGe Saïd Radhouani 18 juillet 2008
Notas do Editor
L’objectif de la RI est de sélectionner les documents qui traitent le mieux possible du thème de la requ ête Une phase d’indexation => créer une représentation du contenu des documents en se basant sur un langage d’indexation Une phase d’interrogation => créer une représentation du contenu de la requête en se basant sur un langage d’interrogation Une phase de correspondance qui permet de retrouver les documents pertinents pour la requête. cette phase contient une fonction de sélection et une fonction d’ordonnancement des documents en fonction de leur ordre de pertinence par rapport à la requête.
Nous nous plaçons dans un contexte de recherche o ù l’utilisateur décrit un besoin précis. Ce contexte est typiquement celui des milieux professionnels… RI dans un milieu professionnel o ù la tâche de RI fait partie de la tâche professionnelle. Durant leur recherche, les professionnels exprimes un besoin à travers une requête précise. « Précise » dénote une requête qui a les deux caractéristiques suivante : Terminologie spécialisée & Structure sémantique complexe Comment satisfaire, à partir de l’information brute, une requ ête Précise formulée par un utilisateur qui s’intéresse à un domaine particulier ?
1er problème : intersection nulle => utiliser des relations, définies à travers des ressources externes 2ème problème : sac de concepts => utiliser les dimensions pour avoir une nouvelle intersection Pour atteindre l’objectif de la RI, les approches existantes s'appuient sur des méthodes purement statistiques basées sur la distribution des mots-clés, pour calculer la similarité entre la requ ête et les documents. la pertinence d’un document par rapport à une requête est calculée en fonction de la similarité vocabulaire et non pas en fonction de la similarité thématique qui existe entre le document et la requête. !!!!!! La compréhension est vue comme un processus d'inférence visant à expliciter tout l'implicite présent d'un texte en le retrouvant à partir des connaissances sémantiques et pragmatiques dont disposait la machine. Cela présupposait une modélisation préalable de ces connaissances. Besoin de RE pour inférer que Philippe Morillon est un général originaire de France Approches de la RI classique : méthodes statistiques RI basé sur les mots-clés Documents et requêtes représentés par une liste de mots; Chercher les documents qui contiennent les mêmes mots que la requête : Approches sac de mots; Pertinence: document partager les m êmes mots avec la requête RI basé sur les concepts documents et requ êtes : représentés dans le même référentiel Partager les m êmes concepts Les relations sémantiques qui peuvent exister entre les concepts ne sont pas exploitées => Fossé entre l’objectif et la méthode : Ne cherche pas les documents ayant une certaine signification. => Hypothèse implicite de la RI classique : Il y a une correspondance stricte entre les mots et les sens.
1er problème : intersection nulle => utiliser des relations, définies à travers des ressources externes 2ème problème : sac de concepts => utiliser les dimensions pour avoir une nouvelle intersection Pour atteindre l’objectif de la RI, les approches existantes s'appuient sur des méthodes purement statistiques basées sur la distribution des mots-clés, pour calculer la similarité entre la requ ête et les documents. la pertinence d’un document par rapport à une requête est calculée en fonction de la similarité vocabulaire et non pas en fonction de la similarité thématique qui existe entre le document et la requête. !!!!!! La compréhension est vue comme un processus d'inférence visant à expliciter tout l'implicite présent d'un texte en le retrouvant à partir des connaissances sémantiques et pragmatiques dont disposait la machine. Cela présupposait une modélisation préalable de ces connaissances. Besoin de RE pour inférer que Philippe Morillon est un général originaire de France Approches de la RI classique : méthodes statistiques RI basé sur les mots-clés Documents et requêtes représentés par une liste de mots; Chercher les documents qui contiennent les mêmes mots que la requête : Approches sac de mots; Pertinence: document partager les m êmes mots avec la requête RI basé sur les concepts documents et requ êtes : représentés dans le même référentiel Partager les m êmes concepts Les relations sémantiques qui peuvent exister entre les concepts ne sont pas exploitées => Fossé entre l’objectif et la méthode : Ne cherche pas les documents ayant une certaine signification. => Hypothèse implicite de la RI classique : Il y a une correspondance stricte entre les mots et les sens.
1er problème : intersection nulle => utiliser des relations, définies à travers des ressources externes 2ème problème : sac de concepts => utiliser les dimensions pour avoir une nouvelle intersection Pour atteindre l’objectif de la RI, les approches existantes s'appuient sur des méthodes purement statistiques basées sur la distribution des mots-clés, pour calculer la similarité entre la requ ête et les documents. la pertinence d’un document par rapport à une requête est calculée en fonction de la similarité vocabulaire et non pas en fonction de la similarité thématique qui existe entre le document et la requête. !!!!!! La compréhension est vue comme un processus d'inférence visant à expliciter tout l'implicite présent d'un texte en le retrouvant à partir des connaissances sémantiques et pragmatiques dont disposait la machine. Cela présupposait une modélisation préalable de ces connaissances. Besoin de RE pour inférer que Philippe Morillon est un général originaire de France Approches de la RI classique : méthodes statistiques RI basé sur les mots-clés Documents et requêtes représentés par une liste de mots; Chercher les documents qui contiennent les mêmes mots que la requête : Approches sac de mots; Pertinence: document partager les m êmes mots avec la requête RI basé sur les concepts documents et requ êtes : représentés dans le même référentiel Partager les m êmes concepts Les relations sémantiques qui peuvent exister entre les concepts ne sont pas exploitées => Fossé entre l’objectif et la méthode : Ne cherche pas les documents ayant une certaine signification. => Hypothèse implicite de la RI classique : Il y a une correspondance stricte entre les mots et les sens.
1er problème : intersection nulle => utiliser des relations, définies à travers des ressources externes 2ème problème : sac de concepts => utiliser les dimensions pour avoir une nouvelle intersection Pour atteindre l’objectif de la RI, les approches existantes s'appuient sur des méthodes purement statistiques basées sur la distribution des mots-clés, pour calculer la similarité entre la requ ête et les documents. la pertinence d’un document par rapport à une requête est calculée en fonction de la similarité vocabulaire et non pas en fonction de la similarité thématique qui existe entre le document et la requête. !!!!!! La compréhension est vue comme un processus d'inférence visant à expliciter tout l'implicite présent d'un texte en le retrouvant à partir des connaissances sémantiques et pragmatiques dont disposait la machine. Cela présupposait une modélisation préalable de ces connaissances. Besoin de RE pour inférer que Philippe Morillon est un général originaire de France Approches de la RI classique : méthodes statistiques RI basé sur les mots-clés Documents et requêtes représentés par une liste de mots; Chercher les documents qui contiennent les mêmes mots que la requête : Approches sac de mots; Pertinence: document partager les m êmes mots avec la requête RI basé sur les concepts documents et requ êtes : représentés dans le même référentiel Partager les m êmes concepts Les relations sémantiques qui peuvent exister entre les concepts ne sont pas exploitées => Fossé entre l’objectif et la méthode : Ne cherche pas les documents ayant une certaine signification. => Hypothèse implicite de la RI classique : Il y a une correspondance stricte entre les mots et les sens.
1er problème : intersection nulle => utiliser des relations, définies à travers des ressources externes 2ème problème : sac de concepts => utiliser les dimensions pour avoir une nouvelle intersection Pour atteindre l’objectif de la RI, les approches existantes s'appuient sur des méthodes purement statistiques basées sur la distribution des mots-clés, pour calculer la similarité entre la requ ête et les documents. la pertinence d’un document par rapport à une requête est calculée en fonction de la similarité vocabulaire et non pas en fonction de la similarité thématique qui existe entre le document et la requête. !!!!!! La compréhension est vue comme un processus d'inférence visant à expliciter tout l'implicite présent d'un texte en le retrouvant à partir des connaissances sémantiques et pragmatiques dont disposait la machine. Cela présupposait une modélisation préalable de ces connaissances. Besoin de RE pour inférer que Philippe Morillon est un général originaire de France Approches de la RI classique : méthodes statistiques RI basé sur les mots-clés Documents et requêtes représentés par une liste de mots; Chercher les documents qui contiennent les mêmes mots que la requête : Approches sac de mots; Pertinence: document partager les m êmes mots avec la requête RI basé sur les concepts documents et requ êtes : représentés dans le même référentiel Partager les m êmes concepts Les relations sémantiques qui peuvent exister entre les concepts ne sont pas exploitées => Fossé entre l’objectif et la méthode : Ne cherche pas les documents ayant une certaine signification. => Hypothèse implicite de la RI classique : Il y a une correspondance stricte entre les mots et les sens.
Formalisme de représentation de connaissances pour représenter plus de sémantique lors de l’indexation Avoir une représentation uniforme des documents, requ êtes, et de la ressource externe Ceci peu être atteint en utilisant un formalisme de représentation de connaissances permettant de représenter les documents, requêtes, et les connaissances du système Ce formalisme doit proposer une opération de comparaison jouant le rôle de la fonction de correspondance Doit prendre en compte les exigences des utilisateurs en termes d’opérateurs (booléens, quantificateur, jauge, etc.)
Expansion "aveugle"[ Voorhees94, Mihalcea00, Baziz et al.03] -- Expansion "prudente" [Qiu et Frei93, Baziz05] ++
1 - Utilisation des RE pour la RI Trois facteurs: Qualité de la RE Qualité du désambigu ïseur Modèle RI (comment interpréter le contenu sémantique du document/requête? comment calculer la correspondance) Notre contribution se situe au niveau du troisième facteur 2 - Utilisation des dimensions Principalement des interfaces Construction de dimensions Notre contribution: langage de document/requ ête expressif
Besoin des ressources externes Souhaitable d’avoir une représentation uniforme des documents, requ êtes, et la ressource externe Ceci peut être atteint en utilisant un formalisme de représentation de connaissances commun à ces trois éléments Doit proposer une opération de comparaison jouant le r ôle de la fonction de correspondance Doit prendre en compte les exigences des utilisateurs en termes d’opérateurs (booléens, quantificateurs, etc.)
Il existe plusieurs formalismes tels que les aborescences sémantiques et les Graphes conceptuels. Pourquoi pas les GC ? les quantificateurs sont très difficiles à implémenter dans les GC - les GC sont très difficiles à construire à partir du texte; - l’interprétation ensembliste des LD est très simple à implmenter et => moins de complexité que les GC - Le méchanisme de maching est plus simple dans les DL que dans les GC L’ALCQ est une logique parmi d’autres. Nous l’avons choisi parce quelle satisfait nos besoins. Former des concepts/r ôles utiliser des constructeurs conjonction ( ⊓ ), disjonction ( ⊔ ) ; quantificateurs : existentiel ( ∃ R.C), universel ( ∀ R.C) ; etc. les personnes originaires de France : Personne ⊓ ∃ originaire_de . France toutes les personnes dont les enfants sont des filles : Personne ⊓ ∀ a-enfant. Féminin les mères qui ont au moins trois enfants : Femme ⊓ ≥ 3a - enfant .Personne Les DLs adoptent toutes une sémantique reposant sur une interprétation ensembliste des termes. Ce procédé est connu sous l’appellation de sémantique dénotationnelle (denotational semantics). Ils introduisent ainsi une interprétation I = ( I , . I ) qui consiste en un ensemble non vide I appelé le domaine de discours de I , et en une fonction . I qui associe pour chaque nom de concept C un ensemble C I ⊆ I , et pour chaque nom de rôle R , une relation binaire R I ⊆ I x I . Une interprétation I satisfait le GCI C ⊑ D si C I ⊆ D I . I satisfait la T-Box T , si I satisfait tous les GCIs dans T . Dans ce cas, I est appelé modèle de T . Un élément d C I est appelé une instance de C . Pour deux individus d et e , si ( d, e ) R I , alors e est appelé un R-successeur de d . DLs ~ sémantique reposant sur une interprétation ensembliste ( sémantique dénotationnelle ) Une interprétation I = ( I , . I ) I : domaine de discours de I . I : une fonction assignant Concept C --> ensemble C I ⊆ I ; R ôle R --> relation binaire R I ⊆ I x I ex. Général ⊓ ∃ originaire_de . France => Général I originaire_de I . France I Général I = { c I | c ⊑ Général} originaire_de I . France I = { c I | ( c, France) originaire_de I } I satisfait C ⊑ D si C I ⊆ D I I est un modèle de T si I satisfait tous les axiomes de la T-Box T
DL & RI Corpus = sous-ensemble du domaine de discours document/requ ête = concept Un document d ( q ) sera représenté dans un domaine de discours K par son index dI ( qI ) qui est une expression ALCQ . dI est une abstraction (représentation) d’un ensemble de documents qui ont le même contenu Les documents physiques représentent alors les instances de dI Conformément à la terminologie des DL , la correspondance entre une requête q et un document d se calcule par la relation de subsomption: Le concept dI est subsumé par le concept qI : dI ⊑ K qI Ainsi, le SRI extrait les documents dont l’index est subsumé par le concept qI .
Notre modèle est basé sur l’utilisateur. Pour cette raison, il faut prendre en compte ses besoin d’information lors m ême de l’indexation.
Re-parler de la définition des dimensions et l’idée derrière leur utilisation !!!
Afin de représenter la base des documents avec des éléments de dimensions, nous utilisons la T-Box T où chaque document sera représenté par un concept qui représente la conjonction d’un ensemble d’éléments de dimensions. Nous proposons le rôle indexé_par qui permet d’associer un élément de dimension à un document.
expliquer l'algorithme de calcul de subsomption, comment il marche, sa complexité, les problèmes que ça pose, quelles sont les limites et qui est-ce qu'il faut faire pour que ça marche sur une grande échelle. Illustrer son fonctionnement sur cette exemple.
expliquer l'algorithme de calcul de subsomption, comment il marche, sa complexité, les problèmes que ça pose, quelles sont les limites et qui est-ce qu'il faut faire pour que ça marche sur une grande échelle. Illustrer son fonctionnement sur cette exemple.
expliquer l'algorithme de calcul de subsomption, comment il marche, sa complexité, les problèmes que ça pose, quelles sont les limites et qui est-ce qu'il faut faire pour que ça marche sur une grande échelle. Illustrer son fonctionnement sur cette exemple.
expliquer l'algorithme de calcul de subsomption, comment il marche, sa complexité, les problèmes que ça pose, quelles sont les limites et qui est-ce qu'il faut faire pour que ça marche sur une grande échelle. Illustrer son fonctionnement sur cette exemple.
Les poids des éléments de dimension dans doc : plus le poids des éléments de dimension partagés par q et doc est grand, plus la valeur de pertinence de doc est élevée par rapport à q ; Les poids des éléments de dimension dans q : plus doc contient des éléments de dimension dont le poids est élevé dans q , plus la valeur de pertinence de doc est grande ; Les valeurs de priorité des éléments de dimension dans q : un document contenant un élément de dimension dont la valeur de priorité est égale à est plus pertinent qu’un document contenant un élément de dimension dont la valeur de priorité est égale à +1.
Ça ne remplace pas le modèle vectoriel!
On ne peut pas comparer nos résultats avec ceux des participants à CLEF vu que l’on travaille seulement sur la partie en anglais, en faisant l’indexation conceptuelle
Le faite de structurer une ressource externe en dimensions permet d’enrichir son contenu en créant des catégories sémantiques de concepts au sein d’un domaine. ceci permet de mettre en exergue les éléments pertinents dans un domaine particulier Indexation: structurer le contenu de document et permettre ainsi d’indexer le document en extrayant les éléments pertinents pour l’utilisateur Interrogation: ca permet de structure le contenu d’une requ ête ce qui permet d’extraire les éléments nécessaires à sa compréhiension et favoriser ainsi une interprétation précise de son contenu sémantique Un langage de requêtes expressif permettant à l’utilisateur d’exprimer des requêtes précises. utiliser des dimensions, des concepts, des relations, et des opérateurs pour détailler davantage son besoin en information. Afin de définir notre modèle, nous avons choisi un formalisme de représentation de connaissances adéquat qui permet la représentation précise des documents et des requêtes. Il s’agit de la logique descriptive. C’est une solution parmi d’autres, comme elle a ses avantages, elle a aussi ses limites
Fonction de correspondance Correspondance entre un document et une requ ête qui ne partagent pas les mêmes termes ++ Performances ~ dépendent de la qualité de la conception de la ressource externe La subsomption n’est pas suffisante ex. fracture de la jambe vs. fracture de la hanche => Définir des propriétés transitives edim 1 ≡ Fracture ⊓ ∃ affect. ∃ partie_de. Jambe edim 2 ≡ Fracture ⊓ ∃ affect. ∃ partie_de. Hanche Si Partie_de est transitive et Hanche ≡ "… ⊓ partie_de .Jambe" => edim 1 ⊑ edim 2 Flexibilité : utiliser n’importe quelle relation … mais La négation ≠ absence => indexer explicitement la négation
Éventuellement donner quelques pistes : comment construire les éléments de dimensions Fonction d’ordonnancement Correspondance entre un document et une requ ête qui ne partagent pas les mêmes concepts => RSV nulle ex. Général français <=> Philippe Morillon Est-ce que l’ordonnancement est indispensable dans un contexte de RI précise ? La correspondance est censée ne retourner que des documents très pertinents Est-ce que la notion de pertinence est la même que celle qui est utilisée dans la RI générale ? ex. &quot;la liste des joueurs de l’équipe de Rugby de France&quot; Définir la notion de pertinence dans un contexte de RI précise Collaborer avec des professionnels d’un domaine particulier