Présentation faite lors d'une réunion du projet animitex à montpellier en aôut 2014. Cette présentation introduit certains formats du web sémantique en particulier ceux accessible sur le web de données . Ensuite les travaux de Fabien Amarger sur la transformation de SKOS en ontologies OWL sont survollés.
Semantic Sensor Network Ontology: Description et usage
Skos transformation
1. Pour mieux
affirmer
ses missions,
le Cemagref
devient Irstea
www.irstea.fr
Ontologies, Web de Données
et SKOS Transformation
Catherine ROUSSEY
Projet Animitex
28 aout 2014, Montpellier
Merci à
Fabien Amarger
Fabien Gandon
2. 2
Plan
• Définitions de base: de l’Ontologie aux ontologies
• Données Information Connaissances
• Interopérabilité et ontologies
• Format et standard du web sémantique
• Ontologie linguistique système de recherche d’information
• Exemple SKOS
• Ontologie de données web de données
• Exemple RDFS, OWL
• Ontologie Logique…
3. 3
Définitions:
DONNÉES, INFORMATIONS, CONNAISSANCES
Donnée: un élément d’information,
percevable,
manipulable
Information: donnée +
sens + contexte
type
Connaissance: information +
stabilité + croyance
abstraction + traitement
généralisation d’un ensemble d’information = modèle
toujours propre à une personne
partagée avec d’autres personnes
4. 4
Schéma général
DONNÉES, INFORMATIONS, CONNAISSANCES
Connaissances
Information
Données
Résultat d’un processus d’apprentissage: une
généralisation d’un ensemble d’information que
l’on va mémoriser
Sens dans un contexte
Perception
Classes en POO
BD Relationnelle Données fortement structurées optimisées pour le
Données typées
Données
Description sous forme d’attribut (description
quantitative & qualitative ) + méthodes
(traitements)
Connaissances en IA
Des traitement particuliers sur les données
qualitatives
stockage
Différent niveau de granularité : information
structurée non structurées
5. 5
Définition
ONTOLOGIE
Ontologie avec un O majuscule (philosophie):
Une science: une branche de la métaphysique qui a pour objectif
l’étude de l’être, c'est-à-dire l'étude des propriétés générales de tout
ce qui est…
Ontologies au pluriel avec un o minuscule (informatique):
Outils informatiques
résultat d’une modélisation d’un domaine d’étude
défini pour un objectif donné
acceptée par une communauté d’utilisateurs
…
6. 6
Ontologies …
Gruber 1993 : « une ontologie est une spécification explicite d’une
conceptualisation »
• Conceptualisation: modèle abstrait du domaine: quelles entités?
• Spécification explicite: les types et leurs contraintes d’usage sont définis
dans un langage…
Exemples:
• Un thésaurus : vocabulaire normalisé
• Un schéma de BD : un modèle structuré d'un domaine
• Un système expert : un modèle du domaine formalisé pour les
inférences, des conditions exprimées à l'aide de formules logiques
Ontologie linguistique, ressource termino-ontologique, ontologie de
domaine, ontologie de haut niveau, vocabulaire de métadonnées…
Thomas R. Gruber. “A translation approach to portable ontology specifications”,
Knowledge Acquisition, Volume 5, Issue 2, June 1993, Pages 199–220
7. 7
Différent niveau d’Intéropérabilité
Increasing Knowledge
Logical
Theory
Conceptual Model
Taxonomy
Thesaurus
List
ER Model
DB
Schema
XML Schema
SKOS
RDF
Lexical Database
Controlled Vocabulary
Glossary
Lexical
Interoperability
UML
Data
Interoperability
OWL
Description
Logic
Object
Interoperability
7 Increasing Interoperability Capability
8. 8
Web sémantique, ontologies, web de données
World Wide Web Consortium
(W3C)
Credit Benjamin Nowak
9. 9
Syntaxe de base du web sémantique
RDF: RESOURCE DESCRIPTION FRAMEWORK
is a triple model i.e. every
piece of knowledge is broken down into
( subject , predicate , object )
RDF
Credit Fabien GANDON
14. 14
Problème de l’interopérabilité lexicale
Le même terme est utilisé pour représenter différents objets
Le même objet est référencé par des termes différents
Credit Fabien GANDON
15. 15
A relatively large
natural stream of
A relatively large
natural stream of
water
water
15
rivière
fleuve
river
rio
Water course
Una corriente
relativamente larga
corriente de agua natural
Cours d’eau naturel de moyenne
ou de faible importance, qui en
principe n’aboutit pas directement
à la mer
Cours d’eau naturel
généralement important
(plus spécialement lorsque
ce cours d’eau se jette
dans la mer)
16. 16
A relatively large
natural stream of
A relatively large
natural stream of
water
water
16
rivière
fleuve
river
rio
Water course
Una corriente
relativamente larga
corriente de agua natural
Cours d’eau naturel de moyenne
ou de faible importance, qui en
principe n’aboutit pas directement
à la mer
Cours d’eau naturel
généralement important
(plus spécialement lorsque
ce cours d’eau se jette
dans la mer)
18. 18
Système de Recherche d’Information
Matchin
g
Docum
ent
index
and
user
query
1
2
3
Multilingual Corpora
Query
Ordered list of documents
Terminological
Ontology
Information
Retrieval
System
indexing
19. 19
Système de Recherche sur le web
mapping
annotation
Query annotation
Results
annotation
20. 20
Format des ontologies terminologiques
SKOS: SIMPLE KNOWLEDGE ORGANIZATION SYSTEM
Credit http://www.w3.org/2004/02/skos/intro
23. 23
Intéropérabilité de données
LES FORMATS D’ÉCHANGE DE DONNÉES (SCHÉMA XML)
Blue
system
Blue
data
Green
system
Green
data
Red
system
Red
data
24. 24
Intéropérabilité de données
LE WEB DE DONNÉES OU LINKED DATA
An extension of the
current Web…
… where data are given
well-defined and
explicitly represented
meaning, …
… so that it can be
shared and used by
humans and machines,
...
... better enabling them
to work in cooperation
And clear principles on
how to publish data
25. 25
Les ontologies dans le web de données
Une ontologie contient un vocabulaire et un schéma de données:
• consensuels,
• publiés sur le web et documentés
• formalisés avec des standards du web (RDF, OWL, SPARQL)
• Avec des contraintes en DL (conditions nécessaires et/ou suffisantes)
= un schéma de données pour le web de données
26. 26
The Linking Open Data cloud
2
6
Credit Linking Open Data cloud diagram, by Richard Cyganiak and Anja
Jentzsch. http://lod-cloud.net/
Credit Bill ROBERTS
27. 27
Format des ontologies de données
RDF SCHEMA
define classes and relations of resources and organize their hierarchy
define signatures of relations (domain, range)
document them with labels and comments
define associated inference rules
Credit Fabien Gandon
#12
#21
"document"
"book"
#47 #48
"livre"
"novel"
"roman"
"short story"
"nouvelle"
29. 29
Format des ontologies de données
OWL WEB ONTOLOGY LANGUAGE
OWL is based on Description Logics
The logical theory (model) can be define using different knowledge
representation Languages:
Description Logics, Frames, Conceptual Graphs
OWL Profiles
EL: large numbers of properties and/or classes and polynomial time.
QL: large volumes of instance data, and conjunctive query answering
using conventional relational database in LOGSPACE
RL: scalable reasoning without sacrificing too much expressive power
using rule-based reasoning in polynomial time
Credit Fabien Gandon
30. 30
Ou trouver des ontologies ?
SWOOGLE
http://swoogle.umbc.edu/
Watson
http://watson.kmi.open.ac.uk/WatsonWUI/
LOV Linked Open Vocabulary
http://lov.okfn.org/dataset/lov/
W3C groups
http://www.w3.org/Consortium/activities
Credit Fabien Gandon
31. Pour mieux
affirmer
ses missions,
le Cemagref
devient Irstea
www.irstea.fr
Thèse de Fabien Amarger
construction d’ontologies
agricoles …
C. Roussey J.P. Chanet (Irstea)
N. Hernandez O. Haemmerlé (IRIT)
32. 32
Plan
Motivation
Cas d’étude : projet sur les BSV
Interrogation avec SWIP
Thème de la thèse
Comment construire des ontologies à partir de sources non ontologiques
Etat de l’art:
Méthodologie Néon
Transformation SKOS
Notre proposition
Ontology Design Pattern
Multiplier les Sources
Calculer la confiance des éléments + filtrage
33. 33
Motivations
• Volonté d’aider les agriculteurs à diminuer l’usage des produits
phytosanitaires
• Augmentation du nombre de données dans le domaine de l’agriculture
• Bulletins de Santé du Végétal
• thésaurus AGROVOC
• base de données publique e-phy
• etc.
• Volonté de contribuer au Linked Open Data (LOD)
• Interrogation de l’ontologie par requête en langage naturel (projet
SWIP)
• Méthodologie de construction d’ontologies à partir de divers sources
• Interrogation intelligente des informations collectées
35. 35
Cas d'étude:
Bulletin de Sante du Végétal (BSV)
Bulletin d’alerte français contient des observations sur le
développement des cultures et les risques d’attaques de leurs
agresseurs
BSV distribués sur le web au format pdf
BSV hétérogènes: Différents auteurs, Différents style de
présentation, Différents contenus (texte structuré, tableau, image)
Aider la recherche d'information dans ces BSV + reconstruire
des données d'observation des cultures documentées par les
BSV
Comment faciliter la recherche des BSV ?
Trouver les BSV qui correspondent à un besoin
Identifier la partie des BSV intéressante
Un système de Recherche d’Information ?
36. 36
Processus d'Interrogation SWIP de l'IRIT
SEMANTIC WEB INTERFACE USING PATTERN
Interrogation en français d’une base de triplets RDF
Interprétation de la
requête en langage
naturel
Ontologie
+ triplets
RDF
Requête exprimée en langage naturel
Requête exprimée en langage pivot
Liste de requêtes formelles classées
Patrons
Formalisation de la
requête en langage pivot
phrases explicatives
Credit Camille Pradel
37. 37
Le Système d'Interrogation
SWIP
pdf Internet
Archive
url
Annotation Triple store RDF
pdf
Stockage
Interrogation
Modélisation
Ontologies
annotations
38. 38
Cas d'étude: Annotations des BSV
PROCESSUS ITÉRATIFS D'ANNOTATION
Ontologies
agricoles
1) Reformater les BSV
2) Tenir compte de la structure
des textes pour déduire des
données utiles
Annotation complexes=
•Attaque d'un type de culture
•Par un bio-agresseur
•Quand
•Où
•A quel niveau de risque
outil d'extraction d'information
BD d'annotations = ontologie
peuplée d'observations des
Annotations cultures
RDF
40. 40
Etat de l’Art
• Processus incrémentale: Utilisation que d’une seule source
• Possibilité d’extraction :
• Classes
• Relations non nommées
• Intuition de relation de subsomption (rdfs:subClassOf)
• Techniques de désambiguïsation
• Contraignantes ou pas suffisantes
• Validation peu existante
• Validation de la conceptualisation manuelle
• Validation structurelle automatique
Méthodologie de construction d’ontologie exploitant la
multiplication des sources d’informations disponibles et dirigée par des
patrons de conceptions (Ontology Design Pattern)
43. 43
Proposition
Hypothèses générales
• Chaque source est modelisée en fonction de son usage
• Besoin de remodeliser
• Toutes les sources n’ont pas la même qualité
• La présence de la même information dans plusieurs sources implique
une augmentation de la confiance attribuée à cette information
Motivations
• Construire des ontologies modulaires, Ontologie de domaine de haut
niveau centrée sur une fonctionnalité
• Premier cas d’étude module sur la taxonomie agricole
• Enrichissement de module AgronomicTaxon
45. 45
Irstea Agronomic Taxon
DESIGN PATTERN ONTOLOGIQUES (ODP)
Il existe déjà des ODP en lien
avec l'agriculture
• FAO (projet Neon): isPestOf,
LinneanTaxonomy
• Données observations des
espèces disponibles sur le
Web de données :Geospecies
ontology, TaxonConcept, …
Fusion, intégration et
enrichissement de ces ODP
Pour répondre à nos besoins.
• Méthode de développement d’
ontologies à partir d’ODP
52. 52
Expérimentation
3 sources de bonne qualité:
Thésaurus Agrovoc
Classification TaxRef
Classification NCBI
Construction d’un gold standard à partir de la validation de 3 agronomes
INRA et Irstea.
Extraction des instances F measure > 0.74 très bonne précision
Extraction des relations à améliorer F measure < 0,45
53. 53
Conclusion et Perspectives
Extraction de classes, de labels, de relation d'instanciation
Besoin de définir un modèle d’annotations spatio-temporelles des
observations
Construction d’une ontologie modulaire : 1 module créé / 5
Des spécifications du workflow d’annotation en devenir
more on googlesite agriontology
54. 54
Réutilisation de sources agricoles
Sources agricoles: Thésaurus (Agrovoc) ou classification TaxRef, NCBI
Extraire des données de chaque source et les agréger en suivant les ODP
Construction d'ontologies modulaires
Notas do Editor
IA des formules logiques qui peuvent etre evaluées à vrai, faux ou je ne sais pas….
Il existe differents modeles informatiques
Chacun utilise des principes de modelisation differents
On ne modelise pas une BD relationnnelle comme un programme object (partage de données versus partage de méthode)
Les ontologies ont plusieurs usages informatiques
Je ne vais parler que des ontologies qui sont utilisées sur le web
Conceptualisation: on fait le choix de ce qui existe dans le domaine
Specification = formalisation
Mes compétences sont les ontologies en générales et les technologies du web sémantique
Le W3C a proposé plusieurs standards pour développer le web
Je ne vais parler que d’une petite partie des standards proposés par le W3C pour la publication de données que le web
RDF permet de présenter les données avec une syntaxe sous forme de triplet
RDF S et OWL permettent de définir les schéma associés à ces données.
Lorsque le schéma est plutôt complexe on parle d’ontologies sinon on parle de vocabulaire de métadonnées.
Par exemple OWL-DL permet de poser des contraintes sur l’appartenance d’un individu à une classe.
Le web de données aussi appelée Linked Open Data
Est une initiative pour publier des données ouvertes et leurs schémas sur le web.
So how do terminological ontology resolve ambiguity.
Let take for example a thesaurus in hydrology
We have 5 terms :
- two English term “river” and “water course” that are defined by the same definition …
- A Spanish term “rio”
- And two french terms « riviere » and « fleuve » that are defined by two different definitions.
Normaliser le vocabulaire: construire un language documentaire.
Différence entre water et “water course”
Comment retrouver les expressions les termes composés
So how do terminological ontology resolve ambiguity.
Let take for example a thesaurus in hydrology
We have 5 terms :
- two English term “river” and “water course” that are defined by the same definition …
- A Spanish term “rio”
- And two french terms « riviere » and « fleuve » that are defined by two different definitions.
Reconstruire une BD d’observation des cultures et de leur agresseurs
Pas de la RI sémantique….ce n’est pas des textes que l’on traite mais des données sctructurées.
Mettrre en avant que nous réutilisons et enrichissons
Mettrre en avant que nous réutilisons et enrichissons