SlideShare uma empresa Scribd logo
1 de 15
Baixar para ler offline
Enrichissement automatique d’une
         base de connaissances biologiques à
         l’aide des outils du Web sémantique




IC       Inès Jilani (SPIM)
  2009   Florence Amardeilh(MoDyCo)

         Projet STIC-AMSUD Microbio
Contexte 1

 Maîtrise des techniques de
séquençage du génome

 Explosion des données et des
connaissances
La littérature est la source de
données et de connaissances la plus importante.
Le travail des annotateurs est assuré manuellement.




      Besoin d’outils automatiques
Projet Microbio

   Programme STIC-AMSUD

   Collaboration avec l’Institut Pasteur de Montevideo
    (Uruguay)

   Recherche de connaissances sur les miARN: ARN
    simple-brin (21 à 24 nucléotides) qui s'apparient à des
    ARN messagers, ils guident leur dégradation, ou la
    répression de leur traduction en protéine, entraînant
    l’apparition ou au contraire l'inhibition de maladies
Problématique Microbio
    Phases du projet Microbio :

    1.   Construire une ontologie de domaine sur les
         miARNs

    1.   Identifier et extraire les mutations et les régulations
         impliquant des miARNs

        Identifier l’information modale pour enrichir la
         connaissance extraite des textes bio-médicaux

        Fournir aux biologistes des interfaces pour
         explotier la basede connaissance ainsi générée
Construction manuelle d’une
           ontologie de domaine
   A partir de :
     la littérature scientifique bio-médicale
     Les bases de données existantes sur les gènes, les
      maladies, les miARN, les mutations, etc.
     Les modélisation de terminologies ou d’ontologies existantes
      se rapprochant du sujet de notre étude (Gene Ontology,
      Sequence Ontologgy, …)
     Entretiens avec les biologistes de l’IP¨Uruguay


   Modélisation d’une ontologie au sujet des régulations
    et des mutations entre miARN et mARN
Ontologie Microbio

                       Extension de la
                         « Sequence
                       Ontology » pour
                     prendre en compte
                     les spécificités des
                           miARN
Validation de l’ontologie miARN

    En cours par les biologistes de l’IP

    Travail également en cours :
       création semi-automatique d’une ontologie des
        miARNs à partir des corpus issus de MedLine
       Comparaison des deux ontologies pour leur
        validation et enrichissement potentiel
Matériel pour l’extraction de
                      connaissances
       Pubmed: portail de Medline1
      Règles

     surlignées par
     l’expert
     biologiste




1
    www.ncbi.nlm.nih.gov/entrez/
Matériel pour l’extraction de
             connaissances
   Terminologies utilisées pour construire les
    dictionnaires
Corpus collecté
   Requête:
SNPs [MH] AND miRNAs [MH] AND human [MH]


   Résultat: 35 articles dont 21 disponibles en
    entier (533 853 tokens pour une taille de 2,2 Mo)
Méthode d’extraction
   Patrons de tri/quadri-occurrence:
Evaluation de la tâche de
           Peuplement de l’ontologie
   Résultats de l’extraction de connaissances sur
    les miARN:
     35   annotations différentes extraites automatiquement
   Evaluation: 30 annotations étaient à retrouver
    (annotations réalisées manuellement par l’expert
    biologiste)
   Précision = 25/35 = 0,72
   Rappel = 15/30 = 0,50
Discussion sur l’évaluation
   Rappel relativement bas: pas de prise en
    compte des variantes morphologiques des
    maladies par exemple.
     L’outil
            ne détecte pas une phrase qui contient « lung
      cancers » car notre dictionnaire n’inclut que les
      formes au singulier « lung cancer ».
   Le chiffre de la précision souffre de la
    synonymie des noms de gènes avec les noms
    propres, ou des acronymes utilisés pour
    référencer des techniques en biologie.
Mise en place du processus de
       peuplement de l’ontologie
   Utilisation de l’infrastructure offerte par le CA Manager
     Outil d’extraction d’information « miR Discovery » exploitant les
      patrons présentés
     Référentiel sémantique : Sesame


   Définition des règles d’acquisition de connaissance pour
    exprimer le passage des informations extraites en instances
    de connaissances

   Définition des algorithmes de consolidation pour fsiltrer et
    améliorer les résultats obtenus par l’extraction
Conclusion et travaux futurs
   Améliorer la performance de l’outil d’extraction et continuer
    le développement de sa couverture

   Achever les connecteurs au serveur de connaissance
    Sesame (via le CA Manager) et ajouter l’enrichissement
    automatique à partir d’autres sources de données
    accessibbles par web services

   Fournir des informations de confiance aux biologistes
    concernant les nouvelles instances créées dans la base de
    connaissance (information sur les relations identifiées entre
    les entités, preuves de l’expérimentation, etc.) grâce à
    l’information modale pouvant être identifiée dans les textes
    analysés

Mais conteúdo relacionado

Destaque

De Nuestra AutonomíA CapíTulo 1.Doc.
De Nuestra AutonomíA CapíTulo 1.Doc.De Nuestra AutonomíA CapíTulo 1.Doc.
De Nuestra AutonomíA CapíTulo 1.Doc.cosasdeandalucia
 
L'histoirede jojo
L'histoirede jojoL'histoirede jojo
L'histoirede jojoiodinou
 
10 errores comunes y como evitarlos
10 errores comunes y como evitarlos10 errores comunes y como evitarlos
10 errores comunes y como evitarlosAbelardo Vazquez
 
Brochure B-Presenteo
Brochure B-PresenteoBrochure B-Presenteo
Brochure B-PresenteoB-Presenteo
 
Musée des trois pays Lörrach
Musée des trois pays LörrachMusée des trois pays Lörrach
Musée des trois pays LörrachBâle Région Mag
 
Le monde en tasse: Cafeine et decafeine
Le monde en tasse: Cafeine et decafeineLe monde en tasse: Cafeine et decafeine
Le monde en tasse: Cafeine et decafeinePhilippeGysens
 
Conferencia La Pedrera
Conferencia La PedreraConferencia La Pedrera
Conferencia La PedreraERCMalgrat
 
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...Université de Franche-Comté
 
Thérorie salaire
Thérorie salaireThérorie salaire
Thérorie salaireN NASRI
 
Un projet d’enquête sur les langues
Un projet d’enquête sur les languesUn projet d’enquête sur les langues
Un projet d’enquête sur les languesProjetPluriL
 
Herramienta software para el cálculo de la radiación solar en superficies con...
Herramienta software para el cálculo de la radiación solar en superficies con...Herramienta software para el cálculo de la radiación solar en superficies con...
Herramienta software para el cálculo de la radiación solar en superficies con...JUAN AGUILAR
 

Destaque (19)

Sibiu
SibiuSibiu
Sibiu
 
Ecomusee alsace saison-2014
Ecomusee alsace saison-2014Ecomusee alsace saison-2014
Ecomusee alsace saison-2014
 
Sp outaouais avril 2013 - survol sp 2013
Sp outaouais   avril 2013 - survol sp 2013Sp outaouais   avril 2013 - survol sp 2013
Sp outaouais avril 2013 - survol sp 2013
 
De Nuestra AutonomíA CapíTulo 1.Doc.
De Nuestra AutonomíA CapíTulo 1.Doc.De Nuestra AutonomíA CapíTulo 1.Doc.
De Nuestra AutonomíA CapíTulo 1.Doc.
 
Crowdsourcing
Crowdsourcing Crowdsourcing
Crowdsourcing
 
L'histoirede jojo
L'histoirede jojoL'histoirede jojo
L'histoirede jojo
 
10 errores comunes y como evitarlos
10 errores comunes y como evitarlos10 errores comunes y como evitarlos
10 errores comunes y como evitarlos
 
Brochure B-Presenteo
Brochure B-PresenteoBrochure B-Presenteo
Brochure B-Presenteo
 
Musée des trois pays Lörrach
Musée des trois pays LörrachMusée des trois pays Lörrach
Musée des trois pays Lörrach
 
Le monde en tasse: Cafeine et decafeine
Le monde en tasse: Cafeine et decafeineLe monde en tasse: Cafeine et decafeine
Le monde en tasse: Cafeine et decafeine
 
Conferencia La Pedrera
Conferencia La PedreraConferencia La Pedrera
Conferencia La Pedrera
 
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...
Communication numérique et santé publique : l’exemple du « Pass Santé Jeunes ...
 
Saber mas Iv
Saber mas IvSaber mas Iv
Saber mas Iv
 
2012 gap between rich and poor fr
2012 gap between rich and poor fr2012 gap between rich and poor fr
2012 gap between rich and poor fr
 
Thérorie salaire
Thérorie salaireThérorie salaire
Thérorie salaire
 
MESAS DE LUZ
MESAS DE LUZMESAS DE LUZ
MESAS DE LUZ
 
Un projet d’enquête sur les langues
Un projet d’enquête sur les languesUn projet d’enquête sur les langues
Un projet d’enquête sur les langues
 
Sef printemps 2015
Sef printemps 2015 Sef printemps 2015
Sef printemps 2015
 
Herramienta software para el cálculo de la radiación solar en superficies con...
Herramienta software para el cálculo de la radiación solar en superficies con...Herramienta software para el cálculo de la radiación solar en superficies con...
Herramienta software para el cálculo de la radiación solar en superficies con...
 

Semelhante a Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique

Introduction to the cours of bioinformatics
Introduction to the cours of bioinformaticsIntroduction to the cours of bioinformatics
Introduction to the cours of bioinformaticsKarim Mezhoud
 
Ontologies et fouille de données textuelles pour l'analyse et la découverte d...
Ontologies et fouille de données textuelles pour l'analyse et la découverte d...Ontologies et fouille de données textuelles pour l'analyse et la découverte d...
Ontologies et fouille de données textuelles pour l'analyse et la découverte d...Claire Nedellec
 
S'informer sur une maladie avec une tablette
S'informer sur une maladie avec une tabletteS'informer sur une maladie avec une tablette
S'informer sur une maladie avec une tabletteeveillard
 
Génomique généralités jd
Génomique généralités jdGénomique généralités jd
Génomique généralités jdjudec12
 
Bio-informatique et applications
Bio-informatique et applicationsBio-informatique et applications
Bio-informatique et applicationsSara SI-MOUSSI
 
Session flash - Rencontre Inria Industrie Bio-informatique et outils numériq...
Session flash  - Rencontre Inria Industrie Bio-informatique et outils numériq...Session flash  - Rencontre Inria Industrie Bio-informatique et outils numériq...
Session flash - Rencontre Inria Industrie Bio-informatique et outils numériq...iCOMMUNITY
 
Chikhi abdelouahab
Chikhi abdelouahabChikhi abdelouahab
Chikhi abdelouahabSadouk Ta
 
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...Jean-Emmanuel Bibault Bibault, MD, PhD
 
Référentiels des examens biologiques et anatomocytopathologiques (ACP) et ope...
Référentiels des examens biologiques et anatomocytopathologiques (ACP) et ope...Référentiels des examens biologiques et anatomocytopathologiques (ACP) et ope...
Référentiels des examens biologiques et anatomocytopathologiques (ACP) et ope...pwod
 
Modèles animaux et organoïdes - Françoise Rédini
Modèles animaux et organoïdes - Françoise RédiniModèles animaux et organoïdes - Françoise Rédini
Modèles animaux et organoïdes - Françoise RédiniInstitut national du cancer
 
02.bases_de_donnes_FR.ppt
02.bases_de_donnes_FR.ppt02.bases_de_donnes_FR.ppt
02.bases_de_donnes_FR.pptYACINE MESSAOUI
 
2015-05-20 Atelier N°7 SSA 2015 "Biologie : échange et partage de résultats s...
2015-05-20 Atelier N°7 SSA 2015 "Biologie : échange et partage de résultats s...2015-05-20 Atelier N°7 SSA 2015 "Biologie : échange et partage de résultats s...
2015-05-20 Atelier N°7 SSA 2015 "Biologie : échange et partage de résultats s...ASIP Santé
 
Systèmes informatiques d'aide à la décision médicale
Systèmes informatiques d'aide à la décision médicaleSystèmes informatiques d'aide à la décision médicale
Systèmes informatiques d'aide à la décision médicaleSara SI-MOUSSI
 
Cour1 BioInfo(Ait-Ali).pptx
Cour1 BioInfo(Ait-Ali).pptxCour1 BioInfo(Ait-Ali).pptx
Cour1 BioInfo(Ait-Ali).pptxAmmr2
 
Incidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsIncidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsPasteur_Tunis
 
Catalogue logiciels "bio-informatique et outils numériques"
Catalogue logiciels "bio-informatique et outils numériques"Catalogue logiciels "bio-informatique et outils numériques"
Catalogue logiciels "bio-informatique et outils numériques"Inria
 
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...ASIP Santé
 
Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...Desconnets Jean-Christophe
 

Semelhante a Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique (20)

Introduction to the cours of bioinformatics
Introduction to the cours of bioinformaticsIntroduction to the cours of bioinformatics
Introduction to the cours of bioinformatics
 
Ontologies et fouille de données textuelles pour l'analyse et la découverte d...
Ontologies et fouille de données textuelles pour l'analyse et la découverte d...Ontologies et fouille de données textuelles pour l'analyse et la découverte d...
Ontologies et fouille de données textuelles pour l'analyse et la découverte d...
 
S'informer sur une maladie avec une tablette
S'informer sur une maladie avec une tabletteS'informer sur une maladie avec une tablette
S'informer sur une maladie avec une tablette
 
Génomique généralités jd
Génomique généralités jdGénomique généralités jd
Génomique généralités jd
 
Bio-informatique et applications
Bio-informatique et applicationsBio-informatique et applications
Bio-informatique et applications
 
Session flash - Rencontre Inria Industrie Bio-informatique et outils numériq...
Session flash  - Rencontre Inria Industrie Bio-informatique et outils numériq...Session flash  - Rencontre Inria Industrie Bio-informatique et outils numériq...
Session flash - Rencontre Inria Industrie Bio-informatique et outils numériq...
 
Pubmed
PubmedPubmed
Pubmed
 
Chikhi abdelouahab
Chikhi abdelouahabChikhi abdelouahab
Chikhi abdelouahab
 
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...
Comment l’Intelligence Artificielle va impacter la recherche scientifique en ...
 
Référentiels des examens biologiques et anatomocytopathologiques (ACP) et ope...
Référentiels des examens biologiques et anatomocytopathologiques (ACP) et ope...Référentiels des examens biologiques et anatomocytopathologiques (ACP) et ope...
Référentiels des examens biologiques et anatomocytopathologiques (ACP) et ope...
 
Modèles animaux et organoïdes - Françoise Rédini
Modèles animaux et organoïdes - Françoise RédiniModèles animaux et organoïdes - Françoise Rédini
Modèles animaux et organoïdes - Françoise Rédini
 
02.bases_de_donnes_FR.ppt
02.bases_de_donnes_FR.ppt02.bases_de_donnes_FR.ppt
02.bases_de_donnes_FR.ppt
 
2015-05-20 Atelier N°7 SSA 2015 "Biologie : échange et partage de résultats s...
2015-05-20 Atelier N°7 SSA 2015 "Biologie : échange et partage de résultats s...2015-05-20 Atelier N°7 SSA 2015 "Biologie : échange et partage de résultats s...
2015-05-20 Atelier N°7 SSA 2015 "Biologie : échange et partage de résultats s...
 
Systèmes informatiques d'aide à la décision médicale
Systèmes informatiques d'aide à la décision médicaleSystèmes informatiques d'aide à la décision médicale
Systèmes informatiques d'aide à la décision médicale
 
Cour1 BioInfo(Ait-Ali).pptx
Cour1 BioInfo(Ait-Ali).pptxCour1 BioInfo(Ait-Ali).pptx
Cour1 BioInfo(Ait-Ali).pptx
 
Incidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer geneticsIncidental findings throughout multigene panel testing in cancer genetics
Incidental findings throughout multigene panel testing in cancer genetics
 
Catalogue logiciels "bio-informatique et outils numériques"
Catalogue logiciels "bio-informatique et outils numériques"Catalogue logiciels "bio-informatique et outils numériques"
Catalogue logiciels "bio-informatique et outils numériques"
 
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...
20171123 3 intégration des résultats d'examens terr-e_santé_séminaire interop...
 
Drug design
Drug design Drug design
Drug design
 
Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...
 

Mais de Conférence IC 2009

Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...Conférence IC 2009
 
Sémantique des folksonomies: structuration collaborative et assistée
Sémantique des folksonomies: structuration collaborative et assistéeSémantique des folksonomies: structuration collaborative et assistée
Sémantique des folksonomies: structuration collaborative et assistéeConférence IC 2009
 
Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...
Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...
Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...Conférence IC 2009
 
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...Tentative de cartographie des besoins, solutions et sujets de recherche ouver...
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...Conférence IC 2009
 
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...Conférence IC 2009
 
Evaluation d'associations sémantiques dans une ontologie de domaine
Evaluation d'associations sémantiques dans une ontologie de domaineEvaluation d'associations sémantiques dans une ontologie de domaine
Evaluation d'associations sémantiques dans une ontologie de domaineConférence IC 2009
 
Ontologies étendues pour l'annotation sémantique
Ontologies étendues pour l'annotation sémantiqueOntologies étendues pour l'annotation sémantique
Ontologies étendues pour l'annotation sémantiqueConférence IC 2009
 
Modélisation systématique de recommandations de pratique clinique: une étude ...
Modélisation systématique de recommandations de pratique clinique: une étude ...Modélisation systématique de recommandations de pratique clinique: une étude ...
Modélisation systématique de recommandations de pratique clinique: une étude ...Conférence IC 2009
 
Connaissances opérationnelles pour la conception automatique de légendes de c...
Connaissances opérationnelles pour la conception automatique de légendes de c...Connaissances opérationnelles pour la conception automatique de légendes de c...
Connaissances opérationnelles pour la conception automatique de légendes de c...Conférence IC 2009
 
Patrons de gestion des changements OWL
Patrons de gestion des changements OWLPatrons de gestion des changements OWL
Patrons de gestion des changements OWLConférence IC 2009
 
Construction automatique d’ontologies à partir d’une base de données relation...
Construction automatique d’ontologies à partir d’une base de données relation...Construction automatique d’ontologies à partir d’une base de données relation...
Construction automatique d’ontologies à partir d’une base de données relation...Conférence IC 2009
 
Indexation de photos sociales par propagation sur une hiérarchie de concepts
Indexation de photos sociales par propagation sur une hiérarchie de conceptsIndexation de photos sociales par propagation sur une hiérarchie de concepts
Indexation de photos sociales par propagation sur une hiérarchie de conceptsConférence IC 2009
 
Gradients de prototypicalité appliqués à la personnalisation d'ontologies
Gradients de prototypicalité appliqués à la personnalisation d'ontologiesGradients de prototypicalité appliqués à la personnalisation d'ontologies
Gradients de prototypicalité appliqués à la personnalisation d'ontologiesConférence IC 2009
 
Démarches sémantiques de recherche d'information sur le Web
Démarches sémantiques de recherche d'information sur le WebDémarches sémantiques de recherche d'information sur le Web
Démarches sémantiques de recherche d'information sur le WebConférence IC 2009
 
Méta-modèle général de description de ressources terminologiques et ontologiques
Méta-modèle général de description de ressources terminologiques et ontologiquesMéta-modèle général de description de ressources terminologiques et ontologiques
Méta-modèle général de description de ressources terminologiques et ontologiquesConférence IC 2009
 
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...Conférence IC 2009
 
COBRA : Une plate-forme de RàPC basée sur des ontologies
COBRA : Une plate-forme de RàPC basée sur des ontologiesCOBRA : Une plate-forme de RàPC basée sur des ontologies
COBRA : Une plate-forme de RàPC basée sur des ontologiesConférence IC 2009
 
Construction automatique d'ontologies à partir de spécifications de bases de ...
Construction automatique d'ontologies à partir de spécifications de bases de ...Construction automatique d'ontologies à partir de spécifications de bases de ...
Construction automatique d'ontologies à partir de spécifications de bases de ...Conférence IC 2009
 
Alignement entre ontologie de domaine et la Snomed: trois études de cas
Alignement entre ontologie de domaine et la Snomed: trois études de casAlignement entre ontologie de domaine et la Snomed: trois études de cas
Alignement entre ontologie de domaine et la Snomed: trois études de casConférence IC 2009
 
Explorer des actualités multimédia dans le Web de données
Explorer des actualités multimédia dans le Web de donnéesExplorer des actualités multimédia dans le Web de données
Explorer des actualités multimédia dans le Web de donnéesConférence IC 2009
 

Mais de Conférence IC 2009 (20)

Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
 
Sémantique des folksonomies: structuration collaborative et assistée
Sémantique des folksonomies: structuration collaborative et assistéeSémantique des folksonomies: structuration collaborative et assistée
Sémantique des folksonomies: structuration collaborative et assistée
 
Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...
Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...
Outil de gestion des connaissances d’une Interconnexion de Communautés de Pra...
 
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...Tentative de cartographie des besoins, solutions et sujets de recherche ouver...
Tentative de cartographie des besoins, solutions et sujets de recherche ouver...
 
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...
 
Evaluation d'associations sémantiques dans une ontologie de domaine
Evaluation d'associations sémantiques dans une ontologie de domaineEvaluation d'associations sémantiques dans une ontologie de domaine
Evaluation d'associations sémantiques dans une ontologie de domaine
 
Ontologies étendues pour l'annotation sémantique
Ontologies étendues pour l'annotation sémantiqueOntologies étendues pour l'annotation sémantique
Ontologies étendues pour l'annotation sémantique
 
Modélisation systématique de recommandations de pratique clinique: une étude ...
Modélisation systématique de recommandations de pratique clinique: une étude ...Modélisation systématique de recommandations de pratique clinique: une étude ...
Modélisation systématique de recommandations de pratique clinique: une étude ...
 
Connaissances opérationnelles pour la conception automatique de légendes de c...
Connaissances opérationnelles pour la conception automatique de légendes de c...Connaissances opérationnelles pour la conception automatique de légendes de c...
Connaissances opérationnelles pour la conception automatique de légendes de c...
 
Patrons de gestion des changements OWL
Patrons de gestion des changements OWLPatrons de gestion des changements OWL
Patrons de gestion des changements OWL
 
Construction automatique d’ontologies à partir d’une base de données relation...
Construction automatique d’ontologies à partir d’une base de données relation...Construction automatique d’ontologies à partir d’une base de données relation...
Construction automatique d’ontologies à partir d’une base de données relation...
 
Indexation de photos sociales par propagation sur une hiérarchie de concepts
Indexation de photos sociales par propagation sur une hiérarchie de conceptsIndexation de photos sociales par propagation sur une hiérarchie de concepts
Indexation de photos sociales par propagation sur une hiérarchie de concepts
 
Gradients de prototypicalité appliqués à la personnalisation d'ontologies
Gradients de prototypicalité appliqués à la personnalisation d'ontologiesGradients de prototypicalité appliqués à la personnalisation d'ontologies
Gradients de prototypicalité appliqués à la personnalisation d'ontologies
 
Démarches sémantiques de recherche d'information sur le Web
Démarches sémantiques de recherche d'information sur le WebDémarches sémantiques de recherche d'information sur le Web
Démarches sémantiques de recherche d'information sur le Web
 
Méta-modèle général de description de ressources terminologiques et ontologiques
Méta-modèle général de description de ressources terminologiques et ontologiquesMéta-modèle général de description de ressources terminologiques et ontologiques
Méta-modèle général de description de ressources terminologiques et ontologiques
 
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
SEMIOSEM : une mesure de similarité conceptuelle fondée sur une approche sémi...
 
COBRA : Une plate-forme de RàPC basée sur des ontologies
COBRA : Une plate-forme de RàPC basée sur des ontologiesCOBRA : Une plate-forme de RàPC basée sur des ontologies
COBRA : Une plate-forme de RàPC basée sur des ontologies
 
Construction automatique d'ontologies à partir de spécifications de bases de ...
Construction automatique d'ontologies à partir de spécifications de bases de ...Construction automatique d'ontologies à partir de spécifications de bases de ...
Construction automatique d'ontologies à partir de spécifications de bases de ...
 
Alignement entre ontologie de domaine et la Snomed: trois études de cas
Alignement entre ontologie de domaine et la Snomed: trois études de casAlignement entre ontologie de domaine et la Snomed: trois études de cas
Alignement entre ontologie de domaine et la Snomed: trois études de cas
 
Explorer des actualités multimédia dans le Web de données
Explorer des actualités multimédia dans le Web de donnéesExplorer des actualités multimédia dans le Web de données
Explorer des actualités multimédia dans le Web de données
 

Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique

  • 1. Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique IC Inès Jilani (SPIM) 2009 Florence Amardeilh(MoDyCo) Projet STIC-AMSUD Microbio
  • 2. Contexte 1  Maîtrise des techniques de séquençage du génome  Explosion des données et des connaissances La littérature est la source de données et de connaissances la plus importante. Le travail des annotateurs est assuré manuellement.  Besoin d’outils automatiques
  • 3. Projet Microbio  Programme STIC-AMSUD  Collaboration avec l’Institut Pasteur de Montevideo (Uruguay)  Recherche de connaissances sur les miARN: ARN simple-brin (21 à 24 nucléotides) qui s'apparient à des ARN messagers, ils guident leur dégradation, ou la répression de leur traduction en protéine, entraînant l’apparition ou au contraire l'inhibition de maladies
  • 4. Problématique Microbio  Phases du projet Microbio : 1. Construire une ontologie de domaine sur les miARNs 1. Identifier et extraire les mutations et les régulations impliquant des miARNs  Identifier l’information modale pour enrichir la connaissance extraite des textes bio-médicaux  Fournir aux biologistes des interfaces pour explotier la basede connaissance ainsi générée
  • 5. Construction manuelle d’une ontologie de domaine  A partir de :  la littérature scientifique bio-médicale  Les bases de données existantes sur les gènes, les maladies, les miARN, les mutations, etc.  Les modélisation de terminologies ou d’ontologies existantes se rapprochant du sujet de notre étude (Gene Ontology, Sequence Ontologgy, …)  Entretiens avec les biologistes de l’IP¨Uruguay  Modélisation d’une ontologie au sujet des régulations et des mutations entre miARN et mARN
  • 6. Ontologie Microbio Extension de la « Sequence Ontology » pour prendre en compte les spécificités des miARN
  • 7. Validation de l’ontologie miARN  En cours par les biologistes de l’IP  Travail également en cours :  création semi-automatique d’une ontologie des miARNs à partir des corpus issus de MedLine  Comparaison des deux ontologies pour leur validation et enrichissement potentiel
  • 8. Matériel pour l’extraction de connaissances  Pubmed: portail de Medline1  Règles surlignées par l’expert biologiste 1 www.ncbi.nlm.nih.gov/entrez/
  • 9. Matériel pour l’extraction de connaissances  Terminologies utilisées pour construire les dictionnaires
  • 10. Corpus collecté  Requête: SNPs [MH] AND miRNAs [MH] AND human [MH]  Résultat: 35 articles dont 21 disponibles en entier (533 853 tokens pour une taille de 2,2 Mo)
  • 11. Méthode d’extraction  Patrons de tri/quadri-occurrence:
  • 12. Evaluation de la tâche de Peuplement de l’ontologie  Résultats de l’extraction de connaissances sur les miARN:  35 annotations différentes extraites automatiquement  Evaluation: 30 annotations étaient à retrouver (annotations réalisées manuellement par l’expert biologiste)  Précision = 25/35 = 0,72  Rappel = 15/30 = 0,50
  • 13. Discussion sur l’évaluation  Rappel relativement bas: pas de prise en compte des variantes morphologiques des maladies par exemple.  L’outil ne détecte pas une phrase qui contient « lung cancers » car notre dictionnaire n’inclut que les formes au singulier « lung cancer ».  Le chiffre de la précision souffre de la synonymie des noms de gènes avec les noms propres, ou des acronymes utilisés pour référencer des techniques en biologie.
  • 14. Mise en place du processus de peuplement de l’ontologie  Utilisation de l’infrastructure offerte par le CA Manager  Outil d’extraction d’information « miR Discovery » exploitant les patrons présentés  Référentiel sémantique : Sesame  Définition des règles d’acquisition de connaissance pour exprimer le passage des informations extraites en instances de connaissances  Définition des algorithmes de consolidation pour fsiltrer et améliorer les résultats obtenus par l’extraction
  • 15. Conclusion et travaux futurs  Améliorer la performance de l’outil d’extraction et continuer le développement de sa couverture  Achever les connecteurs au serveur de connaissance Sesame (via le CA Manager) et ajouter l’enrichissement automatique à partir d’autres sources de données accessibbles par web services  Fournir des informations de confiance aux biologistes concernant les nouvelles instances créées dans la base de connaissance (information sur les relations identifiées entre les entités, preuves de l’expérimentation, etc.) grâce à l’information modale pouvant être identifiée dans les textes analysés