SlideShare uma empresa Scribd logo
1 de 42
Université Sidi Mohamed Ben Abdellah
  FacultĂ© des Sciences Dhar Mehraz – FĂšs
     Laboratoire Informatique et Modélisation




 Vers un systÚme de recherche sémantique
des documents textes basĂ© sur l’appariement
               ontologique
                            Réalisé par :
                            Athman HAJHAMOU
Plan
‱   Contexte de recherche.
‱   ProblĂ©matique.
‱   DĂ©finitions.
‱   Contribution.
‱   Prototypage et ExpĂ©rimentation.
‱   Perspectives.
‱   Discussion.
Contexte de recherche.

‱ Nous migrons vers une sociĂ©tĂ© d'information oĂč la crĂ©ation, la distribution
  et la manipulation d'information est devenue une activité économique et
  culturelle significative.

‱ Les compagnies et les organisations possĂšdent des centaines ou mĂȘme
  des milliers de documents dans leur réseau d'entreprise.

‱ Nous transitons vers le Web SĂ©mantique, oĂč les informations ne seraient
  plus stockées mais comprises par les ordinateurs afin d'apporter à
  l'utilisateur ce qu'il cherche vraiment.
Problématique.


‱ En indexation classique, les entitĂ©s textuelles (documents et requĂȘtes)
  sont reprĂ©sentĂ©es par des mots clĂ©s issus de leurs contenus. L’utilisation
  des mots pour reprĂ©senter le contenu des documents et requĂȘtes pose
  deux problĂšmes, l’ambiguĂŻtĂ© des mots et leur disparitĂ©.
Problématique.

‱ L’ambiguĂŻtĂ© des mots, dite ambiguĂŻtĂ© lexicale, se rapporte Ă  des mots
  lexicalement identiques et portant des sens différents. Elle est
  gĂ©nĂ©ralement divisĂ©e en deux types : l’ambiguĂŻtĂ© syntaxique et l’ambiguĂŻtĂ©
  sémantique.

‱ L'ambiguĂŻtĂ© syntaxique se rapporte Ă  des diffĂ©rences dans la catĂ©gorie
  syntaxique. Par exemple, « play » peut apparaßtre en tant que nom ou
  verbe.
‱ L'ambiguĂŻtĂ© sĂ©mantique se rapporte Ă  des diffĂ©rences dans la
  signification, et est décomposée en homonymie et polysémie selon que
  les sens sont liés ou non.
Problématique.

‱ Homonymie est la relation entre des homonymes, c’est-à-dire entre des
  mots d’une langue qui ont la mĂȘme forme orale et/ou Ă©crite mais des sens
  diffĂ©rents. Deux mots homonymes ont la mĂȘme forme (phonique ou
  graphique) mais sont des mots totalement différents.

‱ PolysĂ©mie est la qualitĂ© d'un mot ou d'une expression qui a deux voire
  plusieurs sens différents.

     Le problĂšme d’ambiguĂŻtĂ© implique que des documents non pertinents,
      contenant les mĂȘmes mots que la requĂȘte sont retrouvĂ©s.

     La polysĂ©mie engendre du bruit documentaire.
Problématique.

‱ La disparitĂ© des mots se rĂ©fĂšre Ă  des mots lexicalement diffĂ©rents mais
  portant un mĂȘme sens.

     Ceci implique que des documents, pourtant pertinents, ne partagent
      pas de mots avec la requĂȘte, ne sont pas retrouvĂ©s.

     La disparitĂ© des mots engendre du silence documentaire.
DĂ©finitions.

‱   UnitĂ©s lexicales et conceptuelles :



       Mots clĂ©s : en recherche d’information, les mots clĂ©s sont les mots
        qui dĂ©crivent le mieux le contenu d’un document ou d’un corpus.
        En linguistique de corpus, les mots clés sont les mots qui
        apparaissent plus fréquemment dans un document que ne le
        voudrait le hasard
DĂ©finitions.

‱   UnitĂ©s lexicales et conceptuelles :



       Terme : Du point de vue classique, celui de E. Wuster et du Cercle de
        Vienne, le terme est la dĂ©nomination d’un concept, chaque concept
        Ă©tant dĂ©signĂ© de maniĂšre non ambigĂŒe par un seul terme. on
        considĂšre gĂ©nĂ©ralement que les termes doivent ĂȘtre monosĂ©miques
        dans le domaine considéré.
DĂ©finitions.

‱   UnitĂ©s lexicales et conceptuelles :



       Concept : est la reprĂ©sentation mentale d’un ensemble d’objets
        diffĂ©rents, mais considĂ©rĂ©s comme Ă©quivalents d’un certain point de
        vue (nom identique, action commune, etc.).
        Les concepts ne se trouvent pas directement dans les textes. En
        effet, comme le constate trÚs justement C. Roche [Roche 2005], « Il
        n’y a pas de concepts dans un texte, mais uniquement des traces
        linguistiques de leurs usages ».
DĂ©finitions.
‱   Relations sĂ©mantiques :

    Ces relations sont distribuées sur deux axes :

       Axe syntagmatique (horizontal). Deux mots sont en relation
        syntagmatique qu’ils apparaissent ensemble dans un texte : On dit
        Ă©galement que les mots sont co-occurrents s’ils apparaissent
        ensemble dans un contexte restreint.

       Axe paradigmatique (vertical, hiĂ©rarchique). Deux mots sont en
        relation paradigmatique s’ils apparaissent dans des contextes
        similaires. C’est à ce niveau que l’on retrouve un certain nombre de
        relations structurant le lexique telles que la méronymie et
        l’hyponymie.
DĂ©finitions.
‱   Relations sĂ©mantiques :

       Synonymie : Les termes synonymes correspondent au mĂȘme
        concept. La relation de synonymie est symétrique, mais pas
        nécessairement transitive

       Hyponymie : La relation d’hyponymie (encore appelĂ©e subsomption,
        spĂ©cialisation, relation ISA) implique un rapport d’inclusion entre le
        sens des mots.

       MĂ©ronymie : La relation de mĂ©ronymie (aussi appelĂ©e relation PART-
        OF) correspond Ă  la relation partie-tout. Ainsi, globule est un
        méronyme de sang et sang et un holonyme de globule.
DĂ©finitions.
‱ Ressources lexico-sĂ©mantiques :

       Lexique : Les lexiques sont des listes de mots, gĂ©nĂ©ralement triĂ©s
        par ordre alphabétique, parfois accompagnés de leur définition ou
        de leur traduction.

     Glossaires : les glossaires listent les dĂ©finitions des termes spĂ©cifiques
      Ă  un domaine.

     Dictionnaires : Les dictionnaires listent les mots et leur dĂ©finition ou
      leur traduction (dictionnaires bilingues). Les mots sont classés en
      fonction de leur lemme (forme de base).
DĂ©finitions.
‱ Ressources lexico-sĂ©mantiques :

     ThĂ©saurus : groupent les mots dans des catĂ©gories en fonction de leur
      similarité    sémantique.      Ces   catégories      sont    organisées
      hiérarchiquement et correspondent à des notions de plus en plus
      abstraites en fonction de leur hauteur dans l’arbre des catĂ©gories.

     Ontologies : Les ontologies organisent des concepts, et doivent
      permettre de faire des inférences. OWL (Web Ontology Language) est
      le langage de reprĂ©sentation d’ontologies le plus utilisĂ© Ă  leur actuelle.
      Des thĂ©saurus pourront dans certains cas ĂȘtre considĂ©rĂ©s comme des
      ontologies mĂȘme si leur niveau de formalisation est mĂ©diocre.
Contribution
‱ Architecture d’un Systùme de Recherche d’Information
Contribution
‱ Indexation Conceptuelle :



 L’indexation conceptuelle se rĂ©fĂšre Ă  la construction de taxonomies
  conceptuelles Ă  partir des textes. Cette approche est due Ă  Woods. Le
  systÚme conceptuel d'indexation et de recherche proposé extrait
  automatiquement des mots et les organise en un réseau sémantique
  (taxonomie conceptuelle) qui intĂšgre des relations syntaxiques,
  sémantiques et morphologiques.
Contribution
‱ Indexation Conceptuelle :



 Pour Ă©tudier l’impact de l'indexation par les sens des mots sur
  l’efficacitĂ© de la recherche, des statistiques sur le nombre de disparitĂ©s
  de sens dans les documents pertinents ont été établies. Les résultats
  rapportés ont montré que la disparité des sens est faible dans les
  documents pertinents. Les sens permettent bien de séparer les
  documents pertinents des documents non pertinents.
Contribution
‱ Framework Text2Onto
Contribution
‱ Framework Text2Onto (Natural Language Processing)
Contribution
‱ Framework Text2Onto (Natural Language Processing)

    Tokenization : Il s'agit du processus permettant de dĂ©marquer les
    différentes sections d'une chaßne de caractÚres. En effet, un
    ordinateur n'est pas capable seul de déterminer quels sont les
    mots d'une phrase ; il n'y voit qu'une chaĂźne de caractĂšres. Un
    processus de tokenization consisterait donc à séparer ces mots,
    selon les espaces.

    Sentence Splitter : une cascade de transducteurs Ă  Ă©tats finis qui
     segmente le texte en phrases.
Contribution
‱ Framework Text2Onto (Natural Language Processing)



    POS-Tagger : Ă©galement appelĂ© marquage grammaticale, est le
    processus de marquage d'un mot dans un texte (corpus) par
    correspondance Ă  un Ă©lĂ©ment d’un langage particulier
    (nouns, verbs, adjectives, adverbs
)

    Syntactical Analyzer : reconnaĂźt la structure syntaxique d'un Ă©noncĂ© et
     permet d'expliciter les relations de dépendance (par exemple entre sujet
     et objet) entre les différents lexÚmes.
Contribution
‱ Framework Text2Onto (Algorithmes pour l’extraction des concepts)



     TF*IDF Concept Extraction :




     tf (w) : nombre d’occurrence du mot dans le document.
     Idf(w) : nombre de document contenant le mot.
     N : nombre de tout les documents du corpus.
Contribution
‱ Framework Text2Onto (Algorithmes pour l’extraction des concepts)



     Entropy Concept Extraction : combinaison entre

     C-Value :
Contribution
‱ Framework Text2Onto (Algorithmes pour l’extraction des concepts)



     Entropy Concept Extraction : combinaison entre

     NC-Value :
Contribution
‱ Framework Text2Onto (Algorithmes pour l’extraction des concepts)



     RTF Concept Extraction :
     se base sur la frĂ©quence du terme, c’est-Ă -dire son nombre
     d’apparition dans le corpus.
Contribution
‱ Framework Text2Onto (Extraction des relations taxonomiques)



     ImplĂ©mentation   d’algorithmes        exploitant     la   structure
     hyperonymique de WordNet.

         WordNet : est une base de donnĂ©es lexicale dĂ©veloppĂ©e par
         des linguistes du laboratoire des sciences cognitives de
         l'université de Princeton. Son but est de répertorier, classifier
         et mettre en relation de diverses maniĂšres le contenu
         sémantique et lexical de la langue anglaise. Des versions de
         WordNet pour d'autres langues existent, mais la version
         anglaise est cependant la plus complĂšte Ă  ce jour.
Contribution
Contribution
‱ Appariement Ontologique :
Contribution
‱ Appariement Ontologique :

 consiste Ă  trouver automatiquement des correspondances entre les
  connaissances spécifiées dans les deux ontologies, de maniÚre à
  pouvoir les exploiter conjointement dans le mĂȘme systĂšme.

 L’alignement de deux ontologies revient Ă  trouver une correspondance
  entre leurs entités qui sont sémantiquement similaires.

 Dune façon formelle, l’alignement est dĂ©fini par la fonction map
  comme suit:
Contribution
‱ Appariement Ontologique :

 Les diffĂ©rentes mesures de similaritĂ© utilisĂ©es dans le processus
  d’alignement sont organisĂ©es selon la classification suivante :

     La mĂ©thode terminologique: compare les labels des entitĂ©s. Elle
      est décomposée en approches purement syntaxiques et celles
      utilisant un lexique.

     Approche syntaxique : effectue la correspondance Ă  travers les
      mesures de dissimilarité des chaßnes (EditDistance,
)
     Approche lexicale effectue la correspondance Ă  travers les
      relations lexicales (synonymie, hyponymie,
).
Contribution
‱ Appariement Ontologique :

 Les diffĂ©rentes mesures de similaritĂ© utilisĂ©es dans le processus
  d’alignement sont organisĂ©es selon la classification suivante :

     La mĂ©thode linguistique utilisant des ressources externes
      (dictionnaires, taxonomies,
) : la similarité entre deux entités
      représentées par des termes est calculée à partir des liens
      sémantiques déjà existants dans les ressources externes.

     La mĂ©thode de comparaison des structures internes: compare les
      structures internes des entités (intervalle de valeur, cardinalité
      d’attributs, etc.);
Contribution
‱ Appariement Ontologique :

 Les diffĂ©rentes mesures de similaritĂ© utilisĂ©es dans le processus
  d’alignement sont organisĂ©es selon la classification suivante :

     La mĂ©thode de comparaison des structures externes : compare
      les relations d’entitĂ©s avec d’autres.

     La mĂ©thode extensionnelle : elle dĂ©duise la similaritĂ© entre deux
      entités qui sont notamment des concepts en analysant leurs
      extensions (leurs ensembles d’instances).

     

Contribution
‱ Appariement Ontologique (Prototype)

 Le prototype que nous avons dĂ©veloppĂ© adopte la mĂ©thode
  terminologique. Les algorithmes implémentés sont :

    NameEqAlignment : Compare tout simplement l’égalitĂ© entre les
     noms des concepts et des relations et aligne les concepts qui ont
     le mĂȘme nom.

    EditDistNameAlignment : utilise la distance de Levenshtein entre
     les noms des entités. Elle est égale au nombre minimal de
     caractÚres qu'il faut supprimer, insérer ou remplacer pour passer
     d’une chaüne à l’autre. L’algorithme construit donc une matrice des
     distances et choisie l’alignement à partir de la distance.
Contribution
‱ Appariement Ontologique (Prototype)

 Le prototype que nous avons dĂ©veloppĂ© adopte la mĂ©thode
  terminologique. Les algorithmes implémentés sont :

    SubsDistNameAlignment : calcule la distance substring sur les
     noms des entités.

    SMOANameAlignment : calcule ‘’String Metric for Ontology
     Alignment ‘’ qui combine les communalitĂ©s et les diffĂ©rences entre
     les noms de deux concepts.
Contribution
‱ Appariement Ontologique (Prototype)

 Le prototype que nous avons dĂ©veloppĂ© adopte la mĂ©thode
  terminologique. Les algorithmes implémentés sont :

    SubsDistNameAlignment : calcule la distance substring sur les
     noms des entités.

    SMOANameAlignment : calcule ‘’String Metric for Ontology
     Alignment ‘’ qui combine les communalitĂ©s et les diffĂ©rences entre
     les noms de deux concepts.
Prototypage et Expérimentation

‱ Le prototype a Ă©tĂ© conçu de maniĂšre Ă  utiliser des APIs java existants
  d’extraction des ontologies à partir de documents textes et d’appariement
  ontologique et de les combiner pour mettre en Ɠuvre un systùme de
  recherche sĂ©mantique basĂ© sur l’appariement ontologique.

     Text2Onto API : pour l’indexation conceptuelle.
     Alignment API : pour la recherche sĂ©mantique.
Prototypage
Prototypage
Expérimentation
‱ Pour expĂ©rimenter notre systĂšme de recherche sĂ©mantique basĂ© sur
  l’appariement ontologique nous l’avons exĂ©cutĂ© sur une collection de test
  composée de 50 documents textes non structuré anglais et quatre
  requĂȘtes.
‱ Les rĂ©sultats de test concernent quatre techniques d’appariement
  terminologique qui sont : NameEqAlignment, EditDistNameAlignment,
  SMOANameAlignment et SubsDistNameAlignment.
Expérimentation
Perspectives
‱ Adapter les techniques existantes au traitement sĂ©mantique de la langue
  arabe qui reste pour le moment une langue trÚs peu informatisée.

‱ Appliquer notre approche pour construire des ontologies de domaines sur
  la base des clusters générés à partir des documents du corpus. AprÚs
  classification ou catégorisations des documents, diverses ontologies de
  domaines peuvent ĂȘtre construites et peuvent servir Ă  raffiner la
  recherche sémantique.

‱ ImplĂ©menter des mesures de similaritĂ© structurelle et Ă©valuer le systĂšme Ă 
  partir d’une large collection de test.

‱ Adapter les APIs existantes Ă  la recherche d’information sĂ©mantique dans
  l’intĂ©rĂȘt d’amĂ©liorer les performances du systĂšme.
Remarques, Critiques et
     Discussion

Mais conteĂșdo relacionado

Mais procurados

Introduction a la SOA
Introduction a la SOAIntroduction a la SOA
Introduction a la SOATugdual Grall
 
Ingénierie des exigences - Principes de base de GenSpec (la théorie derriÚre ...
Ingénierie des exigences - Principes de base de GenSpec (la théorie derriÚre ...Ingénierie des exigences - Principes de base de GenSpec (la théorie derriÚre ...
Ingénierie des exigences - Principes de base de GenSpec (la théorie derriÚre ...Pierre
 
Les moteurs de recherche scientifique
Les moteurs de recherche scientifiqueLes moteurs de recherche scientifique
Les moteurs de recherche scientifiqueURFIST de Rennes
 
ModĂšles de langue : Ngrammes
ModĂšles de langue : NgrammesModĂšles de langue : Ngrammes
ModĂšles de langue : NgrammesJaouad Dabounou
 
Servlets et JSP
Servlets et JSPServlets et JSP
Servlets et JSPHeithem Abbes
 
Chp4 - Composition, Orchestration et Choregraphie de services
Chp4 - Composition, Orchestration et Choregraphie de servicesChp4 - Composition, Orchestration et Choregraphie de services
Chp4 - Composition, Orchestration et Choregraphie de servicesLilia Sfaxi
 
Ontologie concept applications
Ontologie concept applicationsOntologie concept applications
Ontologie concept applicationsbenouini rachid
 
Les Ontologies dans les Systùmes d’Information
Les Ontologies dans les Systùmes d’InformationLes Ontologies dans les Systùmes d’Information
Les Ontologies dans les Systùmes d’Informationcatherine roussey
 
cours algorithme et structure de données 1er année
cours algorithme et structure de données 1er annéecours algorithme et structure de données 1er année
cours algorithme et structure de données 1er annéeMissaoui Abdelbaki
 
applications-reparties
applications-repartiesapplications-reparties
applications-repartiesmourad50
 
Exposé langage-b
Exposé langage-bExposé langage-b
Exposé langage-bDonia Hammami
 
POO Java Introduction
POO Java IntroductionPOO Java Introduction
POO Java IntroductionMouna Torjmen
 
Word-sense disambiguation
Word-sense disambiguationWord-sense disambiguation
Word-sense disambiguationMariposa Speranza
 
La technologie des systemes distribués 2 ppt2222.pptx
La technologie des systemes distribués 2 ppt2222.pptxLa technologie des systemes distribués 2 ppt2222.pptx
La technologie des systemes distribués 2 ppt2222.pptxkaoutarghaffour
 
Cours1_Architecture_Logicielle.ppt
Cours1_Architecture_Logicielle.pptCours1_Architecture_Logicielle.ppt
Cours1_Architecture_Logicielle.pptSylia3
 
Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?Mathieu Lahaye
 
Services web soap-el-habib-nfaoui
Services web soap-el-habib-nfaouiServices web soap-el-habib-nfaoui
Services web soap-el-habib-nfaouiEl Habib NFAOUI
 
le NLP Ă  l'Ă©re de l'IA
le NLP Ă  l'Ă©re de l'IAle NLP Ă  l'Ă©re de l'IA
le NLP Ă  l'Ă©re de l'IAhabib200
 

Mais procurados (20)

Introduction a la SOA
Introduction a la SOAIntroduction a la SOA
Introduction a la SOA
 
Ingénierie des exigences - Principes de base de GenSpec (la théorie derriÚre ...
Ingénierie des exigences - Principes de base de GenSpec (la théorie derriÚre ...Ingénierie des exigences - Principes de base de GenSpec (la théorie derriÚre ...
Ingénierie des exigences - Principes de base de GenSpec (la théorie derriÚre ...
 
Les moteurs de recherche scientifique
Les moteurs de recherche scientifiqueLes moteurs de recherche scientifique
Les moteurs de recherche scientifique
 
ModĂšles de langue : Ngrammes
ModĂšles de langue : NgrammesModĂšles de langue : Ngrammes
ModĂšles de langue : Ngrammes
 
Servlets et JSP
Servlets et JSPServlets et JSP
Servlets et JSP
 
Chp4 - Composition, Orchestration et Choregraphie de services
Chp4 - Composition, Orchestration et Choregraphie de servicesChp4 - Composition, Orchestration et Choregraphie de services
Chp4 - Composition, Orchestration et Choregraphie de services
 
Ontologie concept applications
Ontologie concept applicationsOntologie concept applications
Ontologie concept applications
 
Les Ontologies dans les Systùmes d’Information
Les Ontologies dans les Systùmes d’InformationLes Ontologies dans les Systùmes d’Information
Les Ontologies dans les Systùmes d’Information
 
cours algorithme et structure de données 1er année
cours algorithme et structure de données 1er annéecours algorithme et structure de données 1er année
cours algorithme et structure de données 1er année
 
applications-reparties
applications-repartiesapplications-reparties
applications-reparties
 
Exposé langage-b
Exposé langage-bExposé langage-b
Exposé langage-b
 
POO Java Introduction
POO Java IntroductionPOO Java Introduction
POO Java Introduction
 
Word-sense disambiguation
Word-sense disambiguationWord-sense disambiguation
Word-sense disambiguation
 
La technologie des systemes distribués 2 ppt2222.pptx
La technologie des systemes distribués 2 ppt2222.pptxLa technologie des systemes distribués 2 ppt2222.pptx
La technologie des systemes distribués 2 ppt2222.pptx
 
Cours1_Architecture_Logicielle.ppt
Cours1_Architecture_Logicielle.pptCours1_Architecture_Logicielle.ppt
Cours1_Architecture_Logicielle.ppt
 
Analyse et cahier des charges
Analyse et cahier des chargesAnalyse et cahier des charges
Analyse et cahier des charges
 
Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?
 
Services web soap-el-habib-nfaoui
Services web soap-el-habib-nfaouiServices web soap-el-habib-nfaoui
Services web soap-el-habib-nfaoui
 
Modele mvc
Modele mvcModele mvc
Modele mvc
 
le NLP Ă  l'Ă©re de l'IA
le NLP Ă  l'Ă©re de l'IAle NLP Ă  l'Ă©re de l'IA
le NLP Ă  l'Ă©re de l'IA
 

Destaque

Social Web and Semantic Web: towards synergy between folksonomies and ontologies
Social Web and Semantic Web: towards synergy between folksonomies and ontologiesSocial Web and Semantic Web: towards synergy between folksonomies and ontologies
Social Web and Semantic Web: towards synergy between folksonomies and ontologiesFreddy Limpens
 
Coopération des SystÚmes d'Informations basée sur les Ontologies
Coopération des SystÚmes d'Informations basée sur les OntologiesCoopération des SystÚmes d'Informations basée sur les Ontologies
Coopération des SystÚmes d'Informations basée sur les OntologiesRaji Ghawi
 
États des lieux du Web sĂ©mantique
États des lieux du Web sĂ©mantiqueÉtats des lieux du Web sĂ©mantique
États des lieux du Web sĂ©mantiqueIvan Herman
 
Applications du Web SĂ©mantique
Applications du Web SĂ©mantiqueApplications du Web SĂ©mantique
Applications du Web SĂ©mantiqueYves Otis
 
Clustering
ClusteringClustering
Clusteringkaddinfoo
 
Chapitre 3 clustering
Chapitre 3 clusteringChapitre 3 clustering
Chapitre 3 clusteringAnis Masmoudi
 
Database-to-Ontology Mapping Generation for Semantic Interoperability
Database-to-Ontology Mapping Generation for Semantic InteroperabilityDatabase-to-Ontology Mapping Generation for Semantic Interoperability
Database-to-Ontology Mapping Generation for Semantic InteroperabilityRaji Ghawi
 
Ma présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebMa présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebHarrathi Mohamed
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisinsBoris Guarisma
 
Intégration des facteurs temps et autorité sociale dans un modÚle bayésien de...
Intégration des facteurs temps et autorité sociale dans un modÚle bayésien de...Intégration des facteurs temps et autorité sociale dans un modÚle bayésien de...
Intégration des facteurs temps et autorité sociale dans un modÚle bayésien de...Lamjed Ben Jabeur
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2eYassine Rafrafi
 
Kimberly j giraldo colorado
Kimberly j giraldo coloradoKimberly j giraldo colorado
Kimberly j giraldo coloradokymy185
 
MÂȘ Angeles Chamorro. 3Âș D
MÂȘ Angeles Chamorro. 3Âș DMÂȘ Angeles Chamorro. 3Âș D
MÂȘ Angeles Chamorro. 3Âș Danaisruiz
 
Power point comunicaciĂłn digital
Power point comunicaciĂłn digital Power point comunicaciĂłn digital
Power point comunicaciĂłn digital carlaamorosi
 

Destaque (20)

Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
Social Web and Semantic Web: towards synergy between folksonomies and ontologies
Social Web and Semantic Web: towards synergy between folksonomies and ontologiesSocial Web and Semantic Web: towards synergy between folksonomies and ontologies
Social Web and Semantic Web: towards synergy between folksonomies and ontologies
 
Knn
KnnKnn
Knn
 
Coopération des SystÚmes d'Informations basée sur les Ontologies
Coopération des SystÚmes d'Informations basée sur les OntologiesCoopération des SystÚmes d'Informations basée sur les Ontologies
Coopération des SystÚmes d'Informations basée sur les Ontologies
 
États des lieux du Web sĂ©mantique
États des lieux du Web sĂ©mantiqueÉtats des lieux du Web sĂ©mantique
États des lieux du Web sĂ©mantique
 
Cemagref
CemagrefCemagref
Cemagref
 
Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
 
Applications du Web SĂ©mantique
Applications du Web SĂ©mantiqueApplications du Web SĂ©mantique
Applications du Web SĂ©mantique
 
Clustering
ClusteringClustering
Clustering
 
Chapitre 3 clustering
Chapitre 3 clusteringChapitre 3 clustering
Chapitre 3 clustering
 
Database-to-Ontology Mapping Generation for Semantic Interoperability
Database-to-Ontology Mapping Generation for Semantic InteroperabilityDatabase-to-Ontology Mapping Generation for Semantic Interoperability
Database-to-Ontology Mapping Generation for Semantic Interoperability
 
Ma présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebMa présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site Web
 
5.1 K plus proches voisins
5.1 K plus proches voisins5.1 K plus proches voisins
5.1 K plus proches voisins
 
Intégration des facteurs temps et autorité sociale dans un modÚle bayésien de...
Intégration des facteurs temps et autorité sociale dans un modÚle bayésien de...Intégration des facteurs temps et autorité sociale dans un modÚle bayésien de...
Intégration des facteurs temps et autorité sociale dans un modÚle bayésien de...
 
Cours cluster si2e
Cours cluster si2eCours cluster si2e
Cours cluster si2e
 
Puertollano informa
Puertollano informaPuertollano informa
Puertollano informa
 
Kimberly j giraldo colorado
Kimberly j giraldo coloradoKimberly j giraldo colorado
Kimberly j giraldo colorado
 
MÂȘ Angeles Chamorro. 3Âș D
MÂȘ Angeles Chamorro. 3Âș DMÂȘ Angeles Chamorro. 3Âș D
MÂȘ Angeles Chamorro. 3Âș D
 
Power point comunicaciĂłn digital
Power point comunicaciĂłn digital Power point comunicaciĂłn digital
Power point comunicaciĂłn digital
 
Devinette
DevinetteDevinette
Devinette
 

Semelhante a Recherche semantique

Conférence 1 lex.pptx
Conférence 1 lex.pptxConférence 1 lex.pptx
Conférence 1 lex.pptxTooSexyForMyCar
 
Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...
Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...
Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...DeAndr Espree-Conaway
 
F.Chateauraynaud : de Prospero Ă  Marloweb
F.Chateauraynaud : de Prospero Ă  MarlowebF.Chateauraynaud : de Prospero Ă  Marloweb
F.Chateauraynaud : de Prospero Ă  MarlowebOpenEdition
 
Conf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantiConf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantimap8slide
 
Grr6535 erikursus prantsuse keele lingvistikast
Grr6535 erikursus prantsuse keele lingvistikastGrr6535 erikursus prantsuse keele lingvistikast
Grr6535 erikursus prantsuse keele lingvistikastElina Laanes
 
Exposé variation sémantique b.sara et l.zakarya
Exposé variation sémantique b.sara et l.zakaryaExposé variation sémantique b.sara et l.zakarya
Exposé variation sémantique b.sara et l.zakaryaNajlaa Zouaoui
 
Coherencia y cohesiĂłn textual
Coherencia y cohesiĂłn textualCoherencia y cohesiĂłn textual
Coherencia y cohesiĂłn textualMiguel Barrera Lyx
 
Article hilaire nov 2007
Article hilaire nov 2007Article hilaire nov 2007
Article hilaire nov 2007blessedkkr
 
Chapitre 3 (1).pptx initiation a la recherche
Chapitre 3 (1).pptx initiation a la rechercheChapitre 3 (1).pptx initiation a la recherche
Chapitre 3 (1).pptx initiation a la rechercheJoseCotes7
 
Exposé dictinnaire
Exposé dictinnaireExposé dictinnaire
Exposé dictinnaireNajlaa Zouaoui
 
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...StĂ©phane Vial
 
Modélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de donnéesModélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de données chessmu
 
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)Sylvie Dalbin
 
Sources d’information gĂ©nĂ©rale
Sources d’information gĂ©nĂ©raleSources d’information gĂ©nĂ©rale
Sources d’information gĂ©nĂ©raleElmahdi FRID
 
Enseigner le vocabulaire
Enseigner le vocabulaireEnseigner le vocabulaire
Enseigner le vocabulaireClaire Doz
 
Sibille jacobson thesaurus
Sibille jacobson thesaurusSibille jacobson thesaurus
Sibille jacobson thesaurusAssociationAF
 

Semelhante a Recherche semantique (20)

Analyse du discours
Analyse du discoursAnalyse du discours
Analyse du discours
 
Conférence 1 lex.pptx
Conférence 1 lex.pptxConférence 1 lex.pptx
Conférence 1 lex.pptx
 
Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...
Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...
Les racines indo-europeenes et la trajectoire semantique du marqueur discursi...
 
F.Chateauraynaud : de Prospero Ă  Marloweb
F.Chateauraynaud : de Prospero Ă  MarlowebF.Chateauraynaud : de Prospero Ă  Marloweb
F.Chateauraynaud : de Prospero Ă  Marloweb
 
Conf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantiConf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quanti
 
Grr6535 erikursus prantsuse keele lingvistikast
Grr6535 erikursus prantsuse keele lingvistikastGrr6535 erikursus prantsuse keele lingvistikast
Grr6535 erikursus prantsuse keele lingvistikast
 
Exposé variation sémantique b.sara et l.zakarya
Exposé variation sémantique b.sara et l.zakaryaExposé variation sémantique b.sara et l.zakarya
Exposé variation sémantique b.sara et l.zakarya
 
Coherencia y cohesiĂłn textual
Coherencia y cohesiĂłn textualCoherencia y cohesiĂłn textual
Coherencia y cohesiĂłn textual
 
Article hilaire nov 2007
Article hilaire nov 2007Article hilaire nov 2007
Article hilaire nov 2007
 
Chapitre 3 (1).pptx initiation a la recherche
Chapitre 3 (1).pptx initiation a la rechercheChapitre 3 (1).pptx initiation a la recherche
Chapitre 3 (1).pptx initiation a la recherche
 
Exposé dictinnaire
Exposé dictinnaireExposé dictinnaire
Exposé dictinnaire
 
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
L’édition de dictionnaires spécialisés et les enjeux de nomenclature : le ...
 
Modélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de donnéesModélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de données
 
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
 
Sources d’information gĂ©nĂ©rale
Sources d’information gĂ©nĂ©raleSources d’information gĂ©nĂ©rale
Sources d’information gĂ©nĂ©rale
 
Enseigner le vocabulaire
Enseigner le vocabulaireEnseigner le vocabulaire
Enseigner le vocabulaire
 
Fle et structuralisme
Fle et structuralismeFle et structuralisme
Fle et structuralisme
 
Sibille jacobson thesaurus
Sibille jacobson thesaurusSibille jacobson thesaurus
Sibille jacobson thesaurus
 
Rechercher l'information scientifique. Hanka Hensens. 15/05/2018
Rechercher l'information scientifique. Hanka Hensens. 15/05/2018Rechercher l'information scientifique. Hanka Hensens. 15/05/2018
Rechercher l'information scientifique. Hanka Hensens. 15/05/2018
 
Intellectica 2005
Intellectica 2005Intellectica 2005
Intellectica 2005
 

Recherche semantique

  • 1. UniversitĂ© Sidi Mohamed Ben Abdellah FacultĂ© des Sciences Dhar Mehraz – FĂšs Laboratoire Informatique et ModĂ©lisation Vers un systĂšme de recherche sĂ©mantique des documents textes basĂ© sur l’appariement ontologique RĂ©alisĂ© par : Athman HAJHAMOU
  • 2. Plan ‱ Contexte de recherche. ‱ ProblĂ©matique. ‱ DĂ©finitions. ‱ Contribution. ‱ Prototypage et ExpĂ©rimentation. ‱ Perspectives. ‱ Discussion.
  • 3. Contexte de recherche. ‱ Nous migrons vers une sociĂ©tĂ© d'information oĂč la crĂ©ation, la distribution et la manipulation d'information est devenue une activitĂ© Ă©conomique et culturelle significative. ‱ Les compagnies et les organisations possĂšdent des centaines ou mĂȘme des milliers de documents dans leur rĂ©seau d'entreprise. ‱ Nous transitons vers le Web SĂ©mantique, oĂč les informations ne seraient plus stockĂ©es mais comprises par les ordinateurs afin d'apporter Ă  l'utilisateur ce qu'il cherche vraiment.
  • 4. ProblĂ©matique. ‱ En indexation classique, les entitĂ©s textuelles (documents et requĂȘtes) sont reprĂ©sentĂ©es par des mots clĂ©s issus de leurs contenus. L’utilisation des mots pour reprĂ©senter le contenu des documents et requĂȘtes pose deux problĂšmes, l’ambiguĂŻtĂ© des mots et leur disparitĂ©.
  • 5. ProblĂ©matique. ‱ L’ambiguĂŻtĂ© des mots, dite ambiguĂŻtĂ© lexicale, se rapporte Ă  des mots lexicalement identiques et portant des sens diffĂ©rents. Elle est gĂ©nĂ©ralement divisĂ©e en deux types : l’ambiguĂŻtĂ© syntaxique et l’ambiguĂŻtĂ© sĂ©mantique. ‱ L'ambiguĂŻtĂ© syntaxique se rapporte Ă  des diffĂ©rences dans la catĂ©gorie syntaxique. Par exemple, « play » peut apparaĂźtre en tant que nom ou verbe. ‱ L'ambiguĂŻtĂ© sĂ©mantique se rapporte Ă  des diffĂ©rences dans la signification, et est dĂ©composĂ©e en homonymie et polysĂ©mie selon que les sens sont liĂ©s ou non.
  • 6. ProblĂ©matique. ‱ Homonymie est la relation entre des homonymes, c’est-Ă -dire entre des mots d’une langue qui ont la mĂȘme forme orale et/ou Ă©crite mais des sens diffĂ©rents. Deux mots homonymes ont la mĂȘme forme (phonique ou graphique) mais sont des mots totalement diffĂ©rents. ‱ PolysĂ©mie est la qualitĂ© d'un mot ou d'une expression qui a deux voire plusieurs sens diffĂ©rents.  Le problĂšme d’ambiguĂŻtĂ© implique que des documents non pertinents, contenant les mĂȘmes mots que la requĂȘte sont retrouvĂ©s.  La polysĂ©mie engendre du bruit documentaire.
  • 7. ProblĂ©matique. ‱ La disparitĂ© des mots se rĂ©fĂšre Ă  des mots lexicalement diffĂ©rents mais portant un mĂȘme sens.  Ceci implique que des documents, pourtant pertinents, ne partagent pas de mots avec la requĂȘte, ne sont pas retrouvĂ©s.  La disparitĂ© des mots engendre du silence documentaire.
  • 8. DĂ©finitions. ‱ UnitĂ©s lexicales et conceptuelles :  Mots clĂ©s : en recherche d’information, les mots clĂ©s sont les mots qui dĂ©crivent le mieux le contenu d’un document ou d’un corpus. En linguistique de corpus, les mots clĂ©s sont les mots qui apparaissent plus frĂ©quemment dans un document que ne le voudrait le hasard
  • 9. DĂ©finitions. ‱ UnitĂ©s lexicales et conceptuelles :  Terme : Du point de vue classique, celui de E. Wuster et du Cercle de Vienne, le terme est la dĂ©nomination d’un concept, chaque concept Ă©tant dĂ©signĂ© de maniĂšre non ambigĂŒe par un seul terme. on considĂšre gĂ©nĂ©ralement que les termes doivent ĂȘtre monosĂ©miques dans le domaine considĂ©rĂ©.
  • 10. DĂ©finitions. ‱ UnitĂ©s lexicales et conceptuelles :  Concept : est la reprĂ©sentation mentale d’un ensemble d’objets diffĂ©rents, mais considĂ©rĂ©s comme Ă©quivalents d’un certain point de vue (nom identique, action commune, etc.). Les concepts ne se trouvent pas directement dans les textes. En effet, comme le constate trĂšs justement C. Roche [Roche 2005], « Il n’y a pas de concepts dans un texte, mais uniquement des traces linguistiques de leurs usages ».
  • 11. DĂ©finitions. ‱ Relations sĂ©mantiques : Ces relations sont distribuĂ©es sur deux axes :  Axe syntagmatique (horizontal). Deux mots sont en relation syntagmatique qu’ils apparaissent ensemble dans un texte : On dit Ă©galement que les mots sont co-occurrents s’ils apparaissent ensemble dans un contexte restreint.  Axe paradigmatique (vertical, hiĂ©rarchique). Deux mots sont en relation paradigmatique s’ils apparaissent dans des contextes similaires. C’est Ă  ce niveau que l’on retrouve un certain nombre de relations structurant le lexique telles que la mĂ©ronymie et l’hyponymie.
  • 12. DĂ©finitions. ‱ Relations sĂ©mantiques :  Synonymie : Les termes synonymes correspondent au mĂȘme concept. La relation de synonymie est symĂ©trique, mais pas nĂ©cessairement transitive  Hyponymie : La relation d’hyponymie (encore appelĂ©e subsomption, spĂ©cialisation, relation ISA) implique un rapport d’inclusion entre le sens des mots.  MĂ©ronymie : La relation de mĂ©ronymie (aussi appelĂ©e relation PART- OF) correspond Ă  la relation partie-tout. Ainsi, globule est un mĂ©ronyme de sang et sang et un holonyme de globule.
  • 13. DĂ©finitions. ‱ Ressources lexico-sĂ©mantiques :  Lexique : Les lexiques sont des listes de mots, gĂ©nĂ©ralement triĂ©s par ordre alphabĂ©tique, parfois accompagnĂ©s de leur dĂ©finition ou de leur traduction.  Glossaires : les glossaires listent les dĂ©finitions des termes spĂ©cifiques Ă  un domaine.  Dictionnaires : Les dictionnaires listent les mots et leur dĂ©finition ou leur traduction (dictionnaires bilingues). Les mots sont classĂ©s en fonction de leur lemme (forme de base).
  • 14. DĂ©finitions. ‱ Ressources lexico-sĂ©mantiques :  ThĂ©saurus : groupent les mots dans des catĂ©gories en fonction de leur similaritĂ© sĂ©mantique. Ces catĂ©gories sont organisĂ©es hiĂ©rarchiquement et correspondent Ă  des notions de plus en plus abstraites en fonction de leur hauteur dans l’arbre des catĂ©gories.  Ontologies : Les ontologies organisent des concepts, et doivent permettre de faire des infĂ©rences. OWL (Web Ontology Language) est le langage de reprĂ©sentation d’ontologies le plus utilisĂ© Ă  leur actuelle. Des thĂ©saurus pourront dans certains cas ĂȘtre considĂ©rĂ©s comme des ontologies mĂȘme si leur niveau de formalisation est mĂ©diocre.
  • 15. Contribution ‱ Architecture d’un SystĂšme de Recherche d’Information
  • 16. Contribution ‱ Indexation Conceptuelle :  L’indexation conceptuelle se rĂ©fĂšre Ă  la construction de taxonomies conceptuelles Ă  partir des textes. Cette approche est due Ă  Woods. Le systĂšme conceptuel d'indexation et de recherche proposĂ© extrait automatiquement des mots et les organise en un rĂ©seau sĂ©mantique (taxonomie conceptuelle) qui intĂšgre des relations syntaxiques, sĂ©mantiques et morphologiques.
  • 17. Contribution ‱ Indexation Conceptuelle :  Pour Ă©tudier l’impact de l'indexation par les sens des mots sur l’efficacitĂ© de la recherche, des statistiques sur le nombre de disparitĂ©s de sens dans les documents pertinents ont Ă©tĂ© Ă©tablies. Les rĂ©sultats rapportĂ©s ont montrĂ© que la disparitĂ© des sens est faible dans les documents pertinents. Les sens permettent bien de sĂ©parer les documents pertinents des documents non pertinents.
  • 19. Contribution ‱ Framework Text2Onto (Natural Language Processing)
  • 20. Contribution ‱ Framework Text2Onto (Natural Language Processing)  Tokenization : Il s'agit du processus permettant de dĂ©marquer les diffĂ©rentes sections d'une chaĂźne de caractĂšres. En effet, un ordinateur n'est pas capable seul de dĂ©terminer quels sont les mots d'une phrase ; il n'y voit qu'une chaĂźne de caractĂšres. Un processus de tokenization consisterait donc Ă  sĂ©parer ces mots, selon les espaces.  Sentence Splitter : une cascade de transducteurs Ă  Ă©tats finis qui segmente le texte en phrases.
  • 21. Contribution ‱ Framework Text2Onto (Natural Language Processing)  POS-Tagger : Ă©galement appelĂ© marquage grammaticale, est le processus de marquage d'un mot dans un texte (corpus) par correspondance Ă  un Ă©lĂ©ment d’un langage particulier (nouns, verbs, adjectives, adverbs
)  Syntactical Analyzer : reconnaĂźt la structure syntaxique d'un Ă©noncĂ© et permet d'expliciter les relations de dĂ©pendance (par exemple entre sujet et objet) entre les diffĂ©rents lexĂšmes.
  • 22. Contribution ‱ Framework Text2Onto (Algorithmes pour l’extraction des concepts)  TF*IDF Concept Extraction :  tf (w) : nombre d’occurrence du mot dans le document.  Idf(w) : nombre de document contenant le mot.  N : nombre de tout les documents du corpus.
  • 23. Contribution ‱ Framework Text2Onto (Algorithmes pour l’extraction des concepts)  Entropy Concept Extraction : combinaison entre  C-Value :
  • 24. Contribution ‱ Framework Text2Onto (Algorithmes pour l’extraction des concepts)  Entropy Concept Extraction : combinaison entre  NC-Value :
  • 25. Contribution ‱ Framework Text2Onto (Algorithmes pour l’extraction des concepts)  RTF Concept Extraction : se base sur la frĂ©quence du terme, c’est-Ă -dire son nombre d’apparition dans le corpus.
  • 26. Contribution ‱ Framework Text2Onto (Extraction des relations taxonomiques)  ImplĂ©mentation d’algorithmes exploitant la structure hyperonymique de WordNet.  WordNet : est une base de donnĂ©es lexicale dĂ©veloppĂ©e par des linguistes du laboratoire des sciences cognitives de l'universitĂ© de Princeton. Son but est de rĂ©pertorier, classifier et mettre en relation de diverses maniĂšres le contenu sĂ©mantique et lexical de la langue anglaise. Des versions de WordNet pour d'autres langues existent, mais la version anglaise est cependant la plus complĂšte Ă  ce jour.
  • 29. Contribution ‱ Appariement Ontologique :  consiste Ă  trouver automatiquement des correspondances entre les connaissances spĂ©cifiĂ©es dans les deux ontologies, de maniĂšre Ă  pouvoir les exploiter conjointement dans le mĂȘme systĂšme.  L’alignement de deux ontologies revient Ă  trouver une correspondance entre leurs entitĂ©s qui sont sĂ©mantiquement similaires.  Dune façon formelle, l’alignement est dĂ©fini par la fonction map comme suit:
  • 30. Contribution ‱ Appariement Ontologique :  Les diffĂ©rentes mesures de similaritĂ© utilisĂ©es dans le processus d’alignement sont organisĂ©es selon la classification suivante :  La mĂ©thode terminologique: compare les labels des entitĂ©s. Elle est dĂ©composĂ©e en approches purement syntaxiques et celles utilisant un lexique.  Approche syntaxique : effectue la correspondance Ă  travers les mesures de dissimilaritĂ© des chaĂźnes (EditDistance,
)  Approche lexicale effectue la correspondance Ă  travers les relations lexicales (synonymie, hyponymie,
).
  • 31. Contribution ‱ Appariement Ontologique :  Les diffĂ©rentes mesures de similaritĂ© utilisĂ©es dans le processus d’alignement sont organisĂ©es selon la classification suivante :  La mĂ©thode linguistique utilisant des ressources externes (dictionnaires, taxonomies,
) : la similaritĂ© entre deux entitĂ©s reprĂ©sentĂ©es par des termes est calculĂ©e Ă  partir des liens sĂ©mantiques dĂ©jĂ  existants dans les ressources externes.  La mĂ©thode de comparaison des structures internes: compare les structures internes des entitĂ©s (intervalle de valeur, cardinalitĂ© d’attributs, etc.);
  • 32. Contribution ‱ Appariement Ontologique :  Les diffĂ©rentes mesures de similaritĂ© utilisĂ©es dans le processus d’alignement sont organisĂ©es selon la classification suivante :  La mĂ©thode de comparaison des structures externes : compare les relations d’entitĂ©s avec d’autres.  La mĂ©thode extensionnelle : elle dĂ©duise la similaritĂ© entre deux entitĂ©s qui sont notamment des concepts en analysant leurs extensions (leurs ensembles d’instances).  

  • 33. Contribution ‱ Appariement Ontologique (Prototype)  Le prototype que nous avons dĂ©veloppĂ© adopte la mĂ©thode terminologique. Les algorithmes implĂ©mentĂ©s sont :  NameEqAlignment : Compare tout simplement l’égalitĂ© entre les noms des concepts et des relations et aligne les concepts qui ont le mĂȘme nom.  EditDistNameAlignment : utilise la distance de Levenshtein entre les noms des entitĂ©s. Elle est Ă©gale au nombre minimal de caractĂšres qu'il faut supprimer, insĂ©rer ou remplacer pour passer d’une chaĂźne Ă  l’autre. L’algorithme construit donc une matrice des distances et choisie l’alignement Ă  partir de la distance.
  • 34. Contribution ‱ Appariement Ontologique (Prototype)  Le prototype que nous avons dĂ©veloppĂ© adopte la mĂ©thode terminologique. Les algorithmes implĂ©mentĂ©s sont :  SubsDistNameAlignment : calcule la distance substring sur les noms des entitĂ©s.  SMOANameAlignment : calcule ‘’String Metric for Ontology Alignment ‘’ qui combine les communalitĂ©s et les diffĂ©rences entre les noms de deux concepts.
  • 35. Contribution ‱ Appariement Ontologique (Prototype)  Le prototype que nous avons dĂ©veloppĂ© adopte la mĂ©thode terminologique. Les algorithmes implĂ©mentĂ©s sont :  SubsDistNameAlignment : calcule la distance substring sur les noms des entitĂ©s.  SMOANameAlignment : calcule ‘’String Metric for Ontology Alignment ‘’ qui combine les communalitĂ©s et les diffĂ©rences entre les noms de deux concepts.
  • 36. Prototypage et ExpĂ©rimentation ‱ Le prototype a Ă©tĂ© conçu de maniĂšre Ă  utiliser des APIs java existants d’extraction des ontologies Ă  partir de documents textes et d’appariement ontologique et de les combiner pour mettre en Ɠuvre un systĂšme de recherche sĂ©mantique basĂ© sur l’appariement ontologique.  Text2Onto API : pour l’indexation conceptuelle.  Alignment API : pour la recherche sĂ©mantique.
  • 39. ExpĂ©rimentation ‱ Pour expĂ©rimenter notre systĂšme de recherche sĂ©mantique basĂ© sur l’appariement ontologique nous l’avons exĂ©cutĂ© sur une collection de test composĂ©e de 50 documents textes non structurĂ© anglais et quatre requĂȘtes. ‱ Les rĂ©sultats de test concernent quatre techniques d’appariement terminologique qui sont : NameEqAlignment, EditDistNameAlignment, SMOANameAlignment et SubsDistNameAlignment.
  • 41. Perspectives ‱ Adapter les techniques existantes au traitement sĂ©mantique de la langue arabe qui reste pour le moment une langue trĂšs peu informatisĂ©e. ‱ Appliquer notre approche pour construire des ontologies de domaines sur la base des clusters gĂ©nĂ©rĂ©s Ă  partir des documents du corpus. AprĂšs classification ou catĂ©gorisations des documents, diverses ontologies de domaines peuvent ĂȘtre construites et peuvent servir Ă  raffiner la recherche sĂ©mantique. ‱ ImplĂ©menter des mesures de similaritĂ© structurelle et Ă©valuer le systĂšme Ă  partir d’une large collection de test. ‱ Adapter les APIs existantes Ă  la recherche d’information sĂ©mantique dans l’intĂ©rĂȘt d’amĂ©liorer les performances du systĂšme.