Le web sémantique, théorisé il y a déjà longtemps par Tim Berners-Lee, a tardé à prendre son envol. Mais aujourd'hui la vague est là et les premiers à la surfer sont les grands acteurs du web, comme Google qui bâtit son Knowledge Graph. Les standards sont aujourd'hui matures, et des organisations de toutes tailles les mettent en oeuvre dans des projets concrets, avec un vrai retour sur investissement. Cependant faire une application à l’aide des technologies du Web Sémantique peut s’avérer être une tâche fastidieuse pour ceux qui souhaitent découvrir ce domaine. De nombreuses questions restent souvent en suspens. Quel est le rôle des ontologies ? Pourquoi utiliser RDF et SPARQL ? Qu’est ce qu’un triplestore et comment l’exploiter ? Comment tirer parti du Web de données pour enrichir ses données métier à l'aide de ces outils ? Autant de questions auxquelles nous essaieront de répondre à partir d’un exemple concret : les données de l'institution culturelle Les Champs Libres à Rennes.
14. 14
Tim Berners-Lee verbatim
« The Semantic Web is a web of data,
in some ways like a global database »
« The Semantic Web is not a separate Web
but an extension of the current one,
in which information is given well-defined
meaning,
better enabling computers and people
to work in cooperation »
15. 15
« Raw data now ! » février 2009
http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr
17. 17
…pour partager la donnée structurée sur
un espace décentralisé : le web
Un Web de documents
● Documents reliés par des liens
● Pas de structuration sémantique
● Pas de requêtes structurées
18. 18
…pour partager la donnée structurée sur
un espace décentralisé: le web
Puis un Web d’applications
● Données exposées à travers des API
● API valables uniquement pour un silo
● Pas d’interopérabilité entre les silos
19. 19
…pour partager la donnée structurée sur
un espace décentralisé : le web
Et maintenant un Web de données
● Web de données = espace unifié
● Liens entre les données elles-mêmes
● APIs remplacées par des standards ouverts
24. 24
Un langage pour les machines
Une grammaire Le vocabulaire
Des règles
d’écriture
Des moyens
de communication
RDF
RDFS / OWL
Ontologie
RDF/XML
N3, Turtle
RDFa
HTTP
SPARQL
25. 25
Standards : le layer cake aujourd’hui
Déjà normalisé ou
en cours de normalisation
au W3C
31. 31
Problématique
● Mesurer « la faisabilité technique de réaliser un
site portail basé sur les règles du web de
données et du web sémantique »
32. 32
Mais pourquoi recourir au Web
Sémantique ?
● Agréger les données
● Enrichir les données par des données externes
libre d’accès
● Faciliter leur échange
● Faciliter leur publication
39. 39
Comment accéder aux données ?
● API intégrée au système de gestion de
bibliothèque
Requête SIGB Base de données Export XML
● Export au format XML
43. 43
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
Catégorie matière
Catégorie technique
Mots-clés
Référence commerciale
44. 44
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
Catégorie matière
Catégorie technique
Mots-clés
Référence commerciale
Propriétés génériques d’une œuvre ?
45. 45
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
Catégorie matière
Catégorie technique
Mots-clés
Référence commerciale
Lien vers le Linked Open Data ?
49. 49
Laisse Béton (Renaud)
● Il y a sûrement des choses à faire…
Propriétés Valeurs
ID b18895888
Dénomination Laisse Béton
Auteur Renaud
Lieu de création -
Date de création -
Dimensions 1 disque compact (36 min)
Catégorie matière -
Catégorie technique -
Mots-clés -
Référence commerciale 0042282534828
50. 50
…Et bien faisons les !
● Réalisation d’un prototype
● Mesurer la faisabilité technique du projet sur un
échantillon
● Montrer l’apport de l’Open Data
● Evaluer les difficultés
51. 51
Mettre les données en commun
film01.avi “Livre A”
http://exemple.org/film/01 http://exemple.org/livre/A
52. 52
Identifier les objets
● Schéma arbitraire
● http://data.leschampslibres.org/
● Origine : numérotation arbitraire
Source Numéro Propriété ID
Bibliothèque de Rennes 1 Controlfield 001
http://data.leschampslibres.org/1/b18895888
63. 63
Préparer les données : aligner
Nom Prénom Date de
naissance
Hugo victor 26 février 1802
sartre jean paul 21/06/1905
…
http://catalogue.bnf.fr/ark:/
12148/cb11907966z
Nom Prénom Date de
naissance
Hugo Victor 1802-02-26
Victor 1802-02-26
76. 76
Outils
● Convertir les données
Actions Outils
Aligner, annoter Antidot Information Factory, Gate,
Python…
Créer des données RDF avec un
éditeur
Morla, Top Braid composer, Editeur
XML (Oxygen), Protégé
Transformer des données de XML vers
RDF/XML
XSL, Python…
Transformer des entrées clés/valeurs
en RDF
Google Refine
Transformer une base de données
relationnelle en RDF
Db2triples, D2R server, …
77. 77
Outils
● Stocker les données dans un triplestore
Optimisation Outils
Mémoire Corese, Redstore
Triplestore natif Mulgara, AllegroGraph, BigOWLIM,
4store, Neo4j
BDR paramétrée Virtuoso, ARC, Oracle 11g, Sesame,
3store
Column store Cstore, Heart, BigData, Cloudera
81. 81
Le web sémantique, ça marche !
● Les géants mondiaux de l’Internet
avancent rapidement
● De plus en plus d’organisations l’adoptent
pour des usages ciblés
● « Que puis-je faire pour le web sémantique ? »
● « Qu’est ce que le web sémantique
peut faire pour moi ? »
82. 82
Le Web Sémantique, des atouts uniques
● Disposer d’une quantité colossale de
jeux de données
● Accéder aux données de façon standardisée
donc automatisable
● Les agréger pour servir tous types d’usages
nouveaux
83. 83
Le Web Sémantique, aller plus loin ?
Un livre dirigé par
Fabien Gandon,
INRIA / W3C
EAN13 : 9782100572946
Avant de nous présenter, une petite question : qui était né en 1978 ?
Peu de monde, pas même mon collègue Julien… et cela confirme ce que laisse penser ma barbe blanche : je suis devenu « un vieux con de l’informatique » :-)
En 1978 à 15 ans je codais mon premier programme en assembleur Z80 ensuite après une école d’ingénieurs en informatique et intelligence artificielle j’ai vu passer plusieurs vagues technologiques et pas des moindres : j’ai d’abord co-écrit un logiciel serveur pour le web 0.0, celui qu’on consultait sur un petit cube marron avec un écran N&B de 24 lignes par 40 caractères Puis j’ai vu les débuts du web il y a un peu plus de 20 ans et travaillé pour un des principaux hébergeurs français, Jet Multimédia, depuis vendu à SFR. J’ai ensuite accompagné le lancement de quelques startup lyonnaises avant de rejoindre l’éditeur de logiciels lyonnais Antidot. Je tiens aussi un blog chez ZDNet France où je parle d’in frastructures Internet. Si j’ai tenu à parler devant vous du web sémantique, c’est parce qu’à mes yeux ce n’est pas juste une technologie de plus, mais quelque chose de vraiment important non seulement pour l’informatique mais pour toute l’humanité.Avec moi Julien Homo, qui lui est justement l’inverse d’un vieux con et va résumer son parcours (Présentation de Julien)
Nous allons commencer par voir concrètement ce que peut faire le web sémantique.
Car le web sémantique est l’objet de nombreuses conférences et travaux de recherche depuis des années, mais c’est aussi déjà une réalité industrielle, notamment pour Google… avec le Knowledge Graph
Pour construire son "graphe de connnaissances", Google agrège des contenus structurés, issus notamment de Freebase (rachetée en 2010) du World Fact Book de la CIA et de plus en plus de Wikidata, la « base de données structurée » de Wikipedia.
Le Knowledge Graph, ce sont ces informations factuelles situées dans une boîte à droite des résultats de recherche… ici pour Antidot où nous travaillons…
Ici pour l’Ecole Normale Supérieure, voisine de nos bureaux et qui nous a fourni quelques stagiaires de très bon niveau…
… remarquez que Google y partage une information qu’il détient sur les « recherches associées », ici avec d’autres institutions universitaires et grandes écoles.
Le Knowledge Graph permet à Google de répondre directement à des questions, ici sur la population de la France, avec une synthèse d’informations fiables et pertinentes.
Le Knowledge Graph propose également de l’information culturelle, ici avec une frise donnant accès à une info synthétique sur les peintres impressionnistes…
… et là sur le chanteur Renaud…
… pour lequel sont donnés des éléments biographiques et aussi un accès direct à ses principales œuvres, même si à mes yeux il manque la chanson « Hexagone », victime de la censure giscardienne quand j’étais lycéen et codeur débutant, et que je vous invite à écouter ;-)
En cliquant sur l’album « Laisse béton », on a une information très complète sur son contenu et une frise de tous les autres albums, toujours sans quitter Google !Je n’ai pas choisi Renaud au hasard, vous le verrez plus tard avec la présentation de Julien…
Ce que commence à faire Google avec le Knowledge Graph répond exactement à la vision de Tim Berners-Lee, qui a théorisé le web de données il y a près de 15 ans (une base de données globale pour faboriser la coopération hommes-machines)...
… avant de lancer le mouvement du Linked Open Data en 2009, dans une conférence TED demeurée célèbre et que je vous invite à revoir, en version sous-titrée.
Quand on voit le siège social d’Oracle, principal éditeur de logiciels de bases de données, on comprend pourquoi la vieille logique des silos de données est si prégnante, encore aujourd’hui…
Ca c’est le web des années 90, avec des hyperliens reliant des documents texte, sans vraie structure
Ca c’est le web des années 2000, avec des API permettant d’accéder aux données, chaque fournissseur de données apportant son API spécifique
Et ça c’est le web sémantique, qui a pris son essor dans les années 2010 : les liens se font au niveau le plus granulaire, entre les données elles-mêmes !Comment est-ce possible ?
Grâce à des standards définis par le W3C, le World Wide Web Consortium.
Le web fonctionne selon un modèle en couches : HTTP standardise le transport des données…
XML simplifie l’échange direct des données, sans transcodage ou conversion de format…
Reste à mettre derrière les données une sémantique, indépendante de la langue que parlent les internautes… c’est le rôle des ontologies
Voici les standard du web sémantique, tels qu’ils sont validés par le W3C…
Ils forment un socle éprouvé pour des applications industrielles et pérennes… même s’il reste encore un peu de travail, notamment dans les couches supérieures, et particulièrement en ce qui concerne la « confiance » que l’on peut accorder aux données disponibles sur le web.
Voici le « Linked Open Data Cloud », le « nuage des données ouvertes liées » accessibles directement et librement sur le web.
Je laisse maintenant la parole à Julien, jeune Jedi du web sémantique, qui va vous montrer en quoi c’est un sabre laser aussi puissant que précis !
Les Champs libres sont un équipement de la communauté d'agglomération Rennes Métropole, regroupant deux entités de Rennes Métropole, Bibliothèque de Rennes Métropole et le musée de Bretagne, ainsi que deux associations, l'Espace des sciences et son planétarium
Le site portail Les Champs Libres, www.leschampslibres.fr, a pour rôle de présenter au visiteur les activités et les ressources proposées par les différents établissements qui constituent l’équipement culturel (Bibliothèque de Rennes Métropole, musée de Bretagne, l’Espace des sciences) et de l’orienter vers leurs sites respectifs.
Pourtant, selon ses animateurs, il « ne remplit que très imparfaitement son rôle de portail » à ce jour. Aussi, dans la perspective du renouvellement du marché de maintenance des sites des Champs Libres, de la Bibliothèque de Rennes Métropole et du musée de Bretagne en juillet 2015, ceux-ci « souhaitent repenser les usages et les rôles souhaités pour ces différents sites ».
Moteurs de recherche cloisonnées, agenda commun mais visuellement distinct selon les services, silos de données clairement indépendants les uns des autres
Périmètre très générique et finalement assez vague : basé sur l’idée que le Web Sémantique et le Web de Données va apporter la solution. Mais quand est-il en réalité ? Pourquoi utiliser ces technologies ? Qu’est ce que signifie « les règles du web de données et du web sémantique »? Dans ce type d’étude, les clients ont peu ou pas de connaissances avancées sur le sujet. Notre rôle dans ce type d’étude est d’accompagner le client pour identifier ses besoins et ses usages pour lever rapidement les ambiguïtés et pour éviter les désillusions.
Les Champs Libres nous ont contacté dans le cadre d’une étude pour mettre à la disposition de ses utilisateurs un « centre de ressources digitales », produites par les sites web et les services de chacun des établissements sous forme de « fenêtres », de timeline, de cartes (géolocalisation) et d’un moteur de recherche fédéré.
Mettre à la disposition de ses utilisateurs un « centre de ressources digitales », produites par les sites web et les services de chacun des établissements sous forme de « fenêtres », de timeline, de cartes (géolocalisation) et d’un moteur de recherche fédéré.
Avant de démarrer : la méthodologie est indispensable.
Définissons le périmètre d’étude…
Dans un premier temps : identifier les données disponibles et de leurs modes de production actuels
Les services rentrant dans le cadre de l’étude sont les suivants :
L’agenda culturel collectif des établissements des Champs Libres.
Le catalogue de la bibliothèque de Rennes Métropole.
Les Tablettes rennaises : la Bibliothèque a lancé un programme de numérisation de ses collections anciennes les plus précieuses, et dès à présent, plus de 4 500 textes et images vous attendent sur ce portail dédié.
Les collections du musée de Bretagne.
Les ressources de l’Espace des sciences.
Les fiches pédagogiques.
Les vidéos postées sur Vimeo et les podcasts postés sur Soundcloud.
Analyse des données : analyse des sources
Captation des données de la source
Format des données
XML = un langage informatique de balisage générique et extensible
Analyse des données : types de données disponibles
Analyse des données : Types de données disponibles
250 000 textes imprimés
2 500 ouvrages numériques
20 000 films et 2000 vidéos à la demande
20 000 enregistrements musicaux et 10 000 partitions
Zoom sur … les enregistrements musicaux !
Analyse des données : structure es enregistrements musicaux
Analyse des données : structure es enregistrements musicaux
Analyse des données : structure des enregistrements musicaux
Première approche de la notion de format pivot
Etude du modèle
On voit le modèle HADOC émerger
Analyse des données : structure des enregistrements musicaux
Première approche de la notion d’enrichissement
Analyse des données
Pour se rendre compte plus en détails prenons un exemple du catalogue !
Source de données : Bibliothèque de Rennes
Types de données : Enregistrements musicaux
Exemple du catalogue : Laisse béton (Renaud)
Analyse des données
Interface pauvre…
Analyse des données
…et des données que l’on retrouve directement en XML
UNIMARC = format d’échange de données bibliographiques officiel
Fin de l’analyse et conclusion : on peut peut-être réussir à agréger les données et à les enrichir.
Pour s’en rendre compte, il faut mettre les mains dedans.
Ne pas perdre de vue qu’il s’agit ici d’un exemple. Ce travail d’analyse doit être effectuée sur chaque source et sur chaque type.
On va donc essayer de le faire concrètement.
Il y a 3 étapes :
normaliser les données
enrichir les données
exposer les données
Normalisation des données :
- Construction des URIs
- Définition des formats pivots
Constuire les URIs
Définition du format pivot
2 types génériques, 2 modèles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
Maintenant que les données sont décloisonnées, comment les relier au LOD ?
Et surtout, pourquoi ?
Il faut d’abord regarder les données avec une vague idée de l’usage.
Nous voulions travailler sur les musées, mais sans idées préconçues car on SUBIT les données. Ce qui conduit forcément à une déconvenues car on peut facilement fantasmer sur les usages si on fait une totale abstraction des données.
Rencontre entre les deux, pas de réflexions plus poussées.
Bien sûr, le Linked Data est plein de promesses, mais la réalité des données impose d’éviter tout aveuglement ou idéalisme
Dans un premier temps : identifier un macro usage
Le chjoix de scope fonctionnel est tès large, mais on a un élément important : se focaliser sur qqch, ne pas se disperser.
Le jeu de données principal ne peut pas être de la stat par exemple, il nous faut un jeu décrivant des objets informationnels.
On se concentre – en général - sur un ou deux jeux de données qui amèneront, de par les liens qu’ils renferment, vers d’autres sources de données : on parle alors des qualités agrégeantes des jeux en question.
Données disponibles dans Les Champs Libres
Quels jeux de données complémentaires ?
Etape très importante.
Ils viennent enrichir le jeu principal.
Critères de sélection : interrogations sur l’état des données
Autorité de la source ?
Qualité intrinsèque ? (format, structuration, complétude/cohérence, ex : dbpedia n’a pas de complétude/cohérence)
Fraîcheur / fréquence de mise à jour ? (Dbpedia = tous les ans, alors que Wikidata est en temps réel)
« Connectabilité » à d’autres données ? Et en particulier au jeu de données principal
En fonction de prod ou proto cela peut influer
En fonction du contexte client (médias ? Institution culturelle ? ) : les critères vont être pondérés différemment.
Freebase (racheté par Google, CQFD) et l’écosystème Wikipedia représentent peut-être les meilleures exemples de qualités agrégeantes.
Wikidata = Hub de données du LOD
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
HADOC = Harmonisation de la production des Données Culturelles
Publication en RDF =
Interopérabilité
Structure générique
Identification des ressources
Mise en relation
Mise à disposition :
SPARQL Endpoint
Dump RDF
Négociation de contenu
Autres (intégrations web…)
La question n’est pas tant « Que puis-je faire pour le web sémantique ? » mais bien « Qu’est ce que le web sémantique peut faire pour moi ? » , et il peut faire beaucoup !
Le Web Sémantique est le seul moyen d’utiliser des quantités incroyables de données, dans tous les domaines, pour les agréger automatiquement au gré des besoins et des nouveaux usages du web !
Pour aller plus loin nous vous recommandons cet excellent bouquin en français
Mettez en œuvre le web sémantique, ça marche et ça améliore le web pour tout le monde !