Explorer des actualités multimédia dans le Web de données
Enrichissement automatique d’une base de connaissances biologiques à l’aide des outils du Web sémantique
1. Enrichissement automatique d’une
base de connaissances biologiques à
l’aide des outils du Web sémantique
IC Inès Jilani (SPIM)
2009 Florence Amardeilh(MoDyCo)
Projet STIC-AMSUD Microbio
2. Contexte 1
Maîtrise des techniques de
séquençage du génome
Explosion des données et des
connaissances
La littérature est la source de
données et de connaissances la plus importante.
Le travail des annotateurs est assuré manuellement.
Besoin d’outils automatiques
3. Projet Microbio
Programme STIC-AMSUD
Collaboration avec l’Institut Pasteur de Montevideo
(Uruguay)
Recherche de connaissances sur les miARN: ARN
simple-brin (21 à 24 nucléotides) qui s'apparient à des
ARN messagers, ils guident leur dégradation, ou la
répression de leur traduction en protéine, entraînant
l’apparition ou au contraire l'inhibition de maladies
4. Problématique Microbio
Phases du projet Microbio :
1. Construire une ontologie de domaine sur les
miARNs
1. Identifier et extraire les mutations et les régulations
impliquant des miARNs
Identifier l’information modale pour enrichir la
connaissance extraite des textes bio-médicaux
Fournir aux biologistes des interfaces pour
explotier la basede connaissance ainsi générée
5. Construction manuelle d’une
ontologie de domaine
A partir de :
la littérature scientifique bio-médicale
Les bases de données existantes sur les gènes, les
maladies, les miARN, les mutations, etc.
Les modélisation de terminologies ou d’ontologies existantes
se rapprochant du sujet de notre étude (Gene Ontology,
Sequence Ontologgy, …)
Entretiens avec les biologistes de l’IP¨Uruguay
Modélisation d’une ontologie au sujet des régulations
et des mutations entre miARN et mARN
6. Ontologie Microbio
Extension de la
« Sequence
Ontology » pour
prendre en compte
les spécificités des
miARN
7. Validation de l’ontologie miARN
En cours par les biologistes de l’IP
Travail également en cours :
création semi-automatique d’une ontologie des
miARNs à partir des corpus issus de MedLine
Comparaison des deux ontologies pour leur
validation et enrichissement potentiel
8. Matériel pour l’extraction de
connaissances
Pubmed: portail de Medline1
Règles
surlignées par
l’expert
biologiste
1
www.ncbi.nlm.nih.gov/entrez/
10. Corpus collecté
Requête:
SNPs [MH] AND miRNAs [MH] AND human [MH]
Résultat: 35 articles dont 21 disponibles en
entier (533 853 tokens pour une taille de 2,2 Mo)
12. Evaluation de la tâche de
Peuplement de l’ontologie
Résultats de l’extraction de connaissances sur
les miARN:
35 annotations différentes extraites automatiquement
Evaluation: 30 annotations étaient à retrouver
(annotations réalisées manuellement par l’expert
biologiste)
Précision = 25/35 = 0,72
Rappel = 15/30 = 0,50
13. Discussion sur l’évaluation
Rappel relativement bas: pas de prise en
compte des variantes morphologiques des
maladies par exemple.
L’outil
ne détecte pas une phrase qui contient « lung
cancers » car notre dictionnaire n’inclut que les
formes au singulier « lung cancer ».
Le chiffre de la précision souffre de la
synonymie des noms de gènes avec les noms
propres, ou des acronymes utilisés pour
référencer des techniques en biologie.
14. Mise en place du processus de
peuplement de l’ontologie
Utilisation de l’infrastructure offerte par le CA Manager
Outil d’extraction d’information « miR Discovery » exploitant les
patrons présentés
Référentiel sémantique : Sesame
Définition des règles d’acquisition de connaissance pour
exprimer le passage des informations extraites en instances
de connaissances
Définition des algorithmes de consolidation pour fsiltrer et
améliorer les résultats obtenus par l’extraction
15. Conclusion et travaux futurs
Améliorer la performance de l’outil d’extraction et continuer
le développement de sa couverture
Achever les connecteurs au serveur de connaissance
Sesame (via le CA Manager) et ajouter l’enrichissement
automatique à partir d’autres sources de données
accessibbles par web services
Fournir des informations de confiance aux biologistes
concernant les nouvelles instances créées dans la base de
connaissance (information sur les relations identifiées entre
les entités, preuves de l’expérimentation, etc.) grâce à
l’information modale pouvant être identifiée dans les textes
analysés