Mais conteúdo relacionado Semelhante a Web semantic (20) Web semantic1. Web sémantique
PHMC GPE LLC
Web sémantique & enrichissement sémantique
Il faut d’abord bien faire la différence entre la notion de web sémantique et celle d’enrichissement
sémantique de l’information.
Le web sémantique est une évolution coordonnée du web (lancée entre autre par le W3C), une
initiative collective dans laquelle chacun à son niveau travaille pour rendre les contenus web plus
intelligibles, plus accessibles par les programmes et les machines.
L’enrichissement sémantique de l’information est une méthode de travail consistant à donner du
sens aux fichiers/informations afin qu’elles soient traitées plus intelligemment par les machines et les
applications.
Copyright© PHMC GPE LLC 2001-2011 sqq All rights reserved
2. Web sémantique
PHMC GPE LLC
le web sémantique ne se fera que par la coordination d’une multitude de travaux d’enrichissement
sémantique. La différence vous paraît peut-être minime mais elle est selon moi très importante car le
traitement sémantique est une discipline déjà bien répandue alors que le web sémantique est encore une
utopie, une vision, un idéal vers lequel nous tendons tous. D’ailleurs, beaucoup de travaux de traitement
sémantique ne participent pas du tout au web sémantique car ils ne sont pas ouverts (je pense notamment
aux outils de knowledge management).
L’enrichissement sémantique est une étape vers le web sémantique.
Copyright© PHMC GPE LLC 2001-2011 sqq All rights reserved
3. Web sémantique
L’enrichissement sémantique de l’info
PHMC GPE LLC
Comme je le disais plus haut, il s’agit de donner du sens aux informations pour que les machines/programmes
puissent mieux les gérer.
Et pour cela, on utilise des métadonnées (des données à propos d’une donnée).
Bref, en résumé, l’enrichissement sémantique consiste à rendre un fichier plus intelligible en l’enrichissant
avec des informations supplémentaires : des métadonnées.
Il existe plusieurs couches de métadonnées comme nous allons le voir ci-apres.
Copyright© PHMC GPE LLC 2001-2011 sqq All rights reserved
4. Web sémantique
PHMC GPE LLC
Un fichier (ici une photo)
n’est pour le système
qu’une compilation de 0 et
de 1. Difficile alors pour
celui-ci de traiter ce
fichier intelligemment (ne
serait-ce que pour l’ouvrir,
le système n’a pas moyen
de savoir avec quelle
application il doit le faire)
Copyright© PHMC GPE LLC 2001-2011 sqq All rights reserved
5. Web sémantique
PHMC GPE LLC
Les métadonnées dites « système » apportent une première couche d’information concernant ce fichier.
Elles permettent au système de connaître le type de fichier (jpg), l’auteur, la date de création, la taille
du fichier, les dimensions de l’image…
Grâce à ces métadonnées le système en sait déjà un peu plus sur le fichier, il va pouvoir le traiter un peu
plus intelligemment : afficher une vignette, lancer la bonne application, le ranger au bon endroit…
Les métadonnées d’usage sont une couche supérieure qui apportent des informations « statistiques »
sur l’utilisation du fichier : combien de fois il a été ouvert, par qui, combien de temps…
Cette couche de metadonnées est à l’origine du web 2.0 car c’est elle qui permet de faire des
recommandations sociales (collaborative filtering) : le système vous recommande ce fichier car il sait
que les autres utilisateurs l’ont tous ouvert (c’est le fameux système de recommandation d’Amazon).
Copyright© PHMC GPE LLC 2001-2011 sqq All rights reserved
6. Web sémantique
La couche suivante est celle de la taxinomie. Elle existe depuis longtemps en informatique mais s’est
démocratisée avec le web 2.0.
Ici c’est l’utilisateur lui-même qui rajoute du sens au fichier en le décrivant avec une série de mot-clefs ou tags.
Par recoupement, le système va pouvoir ordonner les fichiers selon ces tags.
PHMC GPE LLC
Le problème, c’est que l’utilisateur a beau avoir taggué sa photo avec le mot « papa », le système n’en déduit
pas pour autant que la photo représente le père de celui-ci. Il est juste capable de faire le lien avec les autres
fichiers qui ont été tagués « papa » (et éventuellement « père » ou « dad » ou « daddy » si le système utilise en
plus la synonymie).
D’où la nécessité de rajouter une couche de métadonnées supplémentaires pour que le système comprenne
vraiment le sens.
La dernière couche de métadonnées est celle des concepts.
C’est la plus importante dans le domaine du traitement sémantique et la plus compliquée à mettre en place.
L’idée est de convertir toutes les informations présentes dans les couches inférieurs en concepts intelligibles.
L’objectif de cette couche est de permettre au système de comprendre par exemple que le fait que l’utilisateur
ait tagué une photo « papa » signifie probablement que son père est présent sur la photo.
Ce travail est extrêmement complexe car dans notre exemple « papa » pourrait désigner aussi l’utilisateur lui-
même qui est sur la photo avec son fils, ou alors que la photo a été prise par « papa », ou encore qu’elle a été
prise dans le cadre d’un évènement relatif à « papa ».
Dans notre exemple, l’objectif de cette dernière couche de métadonnées se résume à permettre au système de
« comprendre » que le fichier DCF20110812-56489.jpg est « une photo de vacances, de qualité médiocre, du
père de l’utilisateur courant sur la plage »…
Copyright© PHMC GPE LLC 2001-2011 sqq All rights reserved
7. Web sémantique
PHMC GPE LLC
Résultante de la représentation des connaissances,
la couche des métadonnées de concept est encore
très expérimentale et c’est la seule qui mérite
actuellement le qualificatif de « sémantique ».
Copyright© PHMC GPE LLC 2001-2011 sqq All rights reserved
8. Web sémantique
PHMC GPE LLC
Comment construire la couche conceptuelle ?
La couche conceptuelle s’appuie sur une ontologie (un moyen de représenter formellement les
connaissances) qui désigne en informatique un modèle de données représentant un ensemble de
concepts et des relations entre eux. L’enrichissement sémantique consiste alors à :
1/ Créer une ontologie, c’est-à-dire modéliser un domaine de concepts (la médecine, les vacances,
l’enfance…) et créer des schémas de description.
2/ Créer un moteur d’enrichissement (l’engrenage sur le schéma) qui va faire le lien entre un fichier (et
ses métadonnées existantes) et un ou plusieurs schémas de description.
Les métadonnées existantes, plus des infos de sources de données externes, associées aux schémas de
description de l’ontologie vont permettre au moteur de raisonnement d’associer des concepts au fichier,
bref de « comprendre ».
Copyright© PHMC GPE LLC 2001-2011 sqq All rights reserved
9. Web sémantique
PHMC GPE LLC
cela s’applique également à des
données de toutes types (objets dans
une page HTML, entrée dans une base
de données…)
Copyright© PHMC GPE LLC 2001-2011 sqq All rights reserved
10. Web sémantique
Conclusion
PHMC GPE LLC
La sémantique appliquée à l’informatique et au web est un vaste domaine qui comprend un grand nombre
d’acteurs.
Certains œuvrent pour le web sémantique à définir des méthodes pour rendre les données plus intelligibles
et connectées.
D’autres travaillent sur des projets concrets d’enrichissement de données.
D’autres encore se contentent d’exploiter les infimes données sémantiques déjà existantes pour améliorer
leurs services (comme le graph social par exemple)…
Une chose est sure, l’enrichissement sémantique est une discipline encore très expérimentale mais son
potentiel de développement est énorme et ses applications infinies.
Copyright© PHMC GPE LLC 2001-2011 sqq All rights reserved