Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique

Enrichissement automatique d’une
base de connaissances biologiques à
l’aide des outils du Web sémantique

IC Inès Jilani (SPIM)
2009 Florence Amardeilh(MoDyCo)

Projet STIC-AMSUD Microbio

Contexte 1

 Maîtrise des techniques de
séquençage du génome

 Explosion des données et des
connaissances
La littérature est la source de
données et de connaissances la plus importante.
Le travail des annotateurs est assuré manuellement.

 Besoin d’outils automatiques

Projet Microbio

 Programme STIC-AMSUD

 Collaboration avec l’Institut Pasteur de Montevideo
(Uruguay)

 Recherche de connaissances sur les miARN: ARN
simple-brin (21 à 24 nucléotides) qui s'apparient à des
ARN messagers, ils guident leur dégradation, ou la
répression de leur traduction en protéine, entraînant
l’apparition ou au contraire l'inhibition de maladies

Problématique Microbio
 Phases du projet Microbio :

1. Construire une ontologie de domaine sur les
miARNs

1. Identifier et extraire les mutations et les régulations
impliquant des miARNs

 Identifier l’information modale pour enrichir la
connaissance extraite des textes bio-médicaux

 Fournir aux biologistes des interfaces pour
explotier la basede connaissance ainsi générée

Construction manuelle d’une
ontologie de domaine
 A partir de :
 la littérature scientifique bio-médicale
 Les bases de données existantes sur les gènes, les
maladies, les miARN, les mutations, etc.
 Les modélisation de terminologies ou d’ontologies existantes
se rapprochant du sujet de notre étude (Gene Ontology,
Sequence Ontologgy, …)
 Entretiens avec les biologistes de l’IP¨Uruguay

 Modélisation d’une ontologie au sujet des régulations
et des mutations entre miARN et mARN

Ontologie Microbio

Extension de la
« Sequence
Ontology » pour
prendre en compte
les spécificités des
miARN

Validation de l’ontologie miARN

 En cours par les biologistes de l’IP

 Travail également en cours :
 création semi-automatique d’une ontologie des
miARNs à partir des corpus issus de MedLine
 Comparaison des deux ontologies pour leur
validation et enrichissement potentiel

Matériel pour l’extraction de
connaissances
 Pubmed: portail de Medline1
 Règles

surlignées par
l’expert
biologiste

1
www.ncbi.nlm.nih.gov/entrez/

Matériel pour l’extraction de
connaissances
 Terminologies utilisées pour construire les
dictionnaires

Corpus collecté
 Requête:
SNPs [MH] AND miRNAs [MH] AND human [MH]

 Résultat: 35 articles dont 21 disponibles en
entier (533 853 tokens pour une taille de 2,2 Mo)

Méthode d’extraction
 Patrons de tri/quadri-occurrence:

Evaluation de la tâche de
Peuplement de l’ontologie
 Résultats de l’extraction de connaissances sur
les miARN:
 35 annotations différentes extraites automatiquement
 Evaluation: 30 annotations étaient à retrouver
(annotations réalisées manuellement par l’expert
biologiste)
 Précision = 25/35 = 0,72
 Rappel = 15/30 = 0,50

Discussion sur l’évaluation
 Rappel relativement bas: pas de prise en
compte des variantes morphologiques des
maladies par exemple.
 L’outil
ne détecte pas une phrase qui contient « lung
cancers » car notre dictionnaire n’inclut que les
formes au singulier « lung cancer ».
 Le chiffre de la précision souffre de la
synonymie des noms de gènes avec les noms
propres, ou des acronymes utilisés pour
référencer des techniques en biologie.

Mise en place du processus de
peuplement de l’ontologie
 Utilisation de l’infrastructure offerte par le CA Manager
 Outil d’extraction d’information « miR Discovery » exploitant les
patrons présentés
 Référentiel sémantique : Sesame

 Définition des règles d’acquisition de connaissance pour
exprimer le passage des informations extraites en instances
de connaissances

 Définition des algorithmes de consolidation pour fsiltrer et
améliorer les résultats obtenus par l’extraction

Conclusion et travaux futurs
 Améliorer la performance de l’outil d’extraction et continuer
le développement de sa couverture

 Achever les connecteurs au serveur de connaissance
Sesame (via le CA Manager) et ajouter l’enrichissement
automatique à partir d’autres sources de données
accessibbles par web services

 Fournir des informations de confiance aux biologistes
concernant les nouvelles instances créées dans la base de
connaissance (information sur les relations identifiées entre
les entités, preuves de l’expérimentation, etc.) grâce à
l’information modale pouvant être identifiée dans les textes
analysés

Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (19)

Semelhante a Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique

Semelhante a Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique (20)

Mais de Conférence IC 2009

Mais de Conférence IC 2009 (20)

Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique