Web sémantique et Web de données, et si on passait à la pratique ?

Pierre Col Julien Homo
@PierreCol @Julien_Homo

2
Pierre Col @PierreCol
Julien Homo @Julien_Homo
1978
1963
1983
1986
1996
2007
2010
2006
2009
2011
1987

4
Le web sémantique, concrètement
Certains en parlent…
d’autres le font !

5

6
Knowledge
Graph

7
Knowledge
Graph

8
Knowledge
Graph

9
Knowledge
Graph

10
Knowledge
Graph

11
Knowledge
Graph

12
Knowledge
Graph

13
Knowledge
Graph

14
Tim Berners-Lee verbatim
« The Semantic Web is a web of data,
in some ways like a global database »
« The Semantic Web is not a separate Web
but an extension of the current one,
in which information is given well-defined
meaning,
better enabling computers and people
to work in cooperation »

15
« Raw data now ! » février 2009
http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr

16
http://www.flickr.com/photos/jimgris/281139738/
L’idée : casser la vieille logique des silos
de données cloisonnées…
Siège social d’Oracle, l’éditeur du SGBDR le
plus utilisé dans le monde, dans la Silicon
Valley

17
…pour partager la donnée structurée sur
un espace décentralisé : le web
Un Web de documents
● Documents reliés par des liens
● Pas de structuration sémantique
● Pas de requêtes structurées

18
un espace décentralisé: le web
Puis un Web d’applications
● Données exposées à travers des API
● API valables uniquement pour un silo
● Pas d’interopérabilité entre les silos

19
un espace décentralisé : le web
Et maintenant un Web de données
● Web de données = espace unifié
● Liens entre les données elles-mêmes
● APIs remplacées par des standards ouverts

21
Une condition nécessaire : assurer
l’interopérabilité des données structurées
● Transport

22
● Syntaxe

23
● Sémantique

24
Un langage pour les machines
Une grammaire Le vocabulaire
Des règles
d’écriture
Des moyens
de communication
RDF
RDFS / OWL
Ontologie
RDF/XML
N3, Turtle
RDFa
HTTP
SPARQL

25
Standards : le layer cake aujourd’hui
Déjà normalisé ou
en cours de normalisation
au W3C

26
Le Linked Open Data Cloud - 2014

31
Problématique
● Mesurer « la faisabilité technique de réaliser un
site portail basé sur les règles du web de
données et du web sémantique »

32
Mais pourquoi recourir au Web
Sémantique ?
● Agréger les données
● Enrichir les données par des données externes
libre d’accès
● Faciliter leur échange
● Faciliter leur publication

33
Objectifs
● Offrir aux visiteurs une vision plus globale des
ressources disponibles

34
Objectifs
● Favoriser leur découverte par un effet de
sérendipité

35
Objectifs
● Enrichir l’expérience de navigation

36
Objectifs
● Mettre les données à la disposition de tous

37
Par où commencer ?
● Définir le périmètre de l’étude
● Analyser les données
● Réaliser un prototype

38
Quelles sont les sources disponibles ?

39
Comment accéder aux données ?
● API intégrée au système de gestion de
bibliothèque
Requête SIGB Base de données Export XML
● Export au format XML

40
Quelles sont les données disponibles ?

41
Quelles sont les données disponibles ?
20 000 films
250 000 textes imprimés
2 500 ouvrages numériques
20 000
enregistrements musicaux

42
Comment sont structurées les données ?

43
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
Catégorie matière
Catégorie technique
Mots-clés
Référence commerciale

44
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
Catégorie matière
Mots-clés
Propriétés génériques d’une œuvre ?

45
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
Catégorie matière
Mots-clés
Lien vers le Linked Open Data ?

46
Laisse Béton (Renaud)
● Prenons un exemple !

47
● Vu du catalogue Web (OPAC) …

48
● … et du XML

49
● Il y a sûrement des choses à faire…
Propriétés Valeurs
ID b18895888
Dénomination Laisse Béton
Auteur Renaud
Lieu de création -
Date de création -
Dimensions 1 disque compact (36 min)
Catégorie matière -
Catégorie technique -
Mots-clés -
Référence commerciale 0042282534828

50
…Et bien faisons les !
● Réalisation d’un prototype
● Mesurer la faisabilité technique du projet sur un
échantillon
● Montrer l’apport de l’Open Data
● Evaluer les difficultés

51
Mettre les données en commun
film01.avi “Livre A”
http://exemple.org/film/01 http://exemple.org/livre/A

52
Identifier les objets
● Schéma arbitraire
● http://data.leschampslibres.org/
● Origine : numérotation arbitraire
Source Numéro Propriété ID
Bibliothèque de Rennes 1 Controlfield 001
http://data.leschampslibres.org/1/b18895888

53
Modéliser les objets
Modèle HADOC
Modèles “évènements” (LODE,
CIDOC CRM, The Event Ontology…)

55
Relier les données à l’extérieur
● Oui mais dans quel but ?

57
Usages…
● « Apporter à l’utilisateur des compléments
d’informations sur les objets culturels qu’il
consulte sur le portail des Champs Libres »

58
… VS Données
Propriétés
ISBN
Nom et date de naissance de l’auteur
Noms de lieux

59
Sélectionner les sources externes

60
Graphe
Nom de l’auteur
+
Date de naissanceNom de lieu
ISBN
ID
IDID
ID

62
Automatisons-le !
Aligner Annoter
Préparer les données
Localement
A distance
Récupérer les données externes
Interroger Interroger

63
Préparer les données : aligner
Nom Prénom Date de
naissance
Hugo victor 26 février 1802
sartre jean paul 21/06/1905
…
http://catalogue.bnf.fr/ark:/
12148/cb11907966z
Nom Prénom Date de
naissance
Hugo Victor 1802-02-26
Victor 1802-02-26

64
Préparer les données : annoter
http://sws.geonames.org/2911298

65
● Idéalement
● Dumps RDF
● SPARQL Endpoint
● APIs Web RDF …
● Triplestore intermédiaire

66
● En réalité
● Dumps divers
● Pas de SPARQL Endpoint
● APIs Web diverses
● Conversion RDF
Triplestore
…

67
● Requêtes SPARQL
● Triplestore intermédiaire
● SPARQL Endpoint
Enrichissements
Enrichissements

68
● Requêtes SPARQL : exemples
http://catalogue.bnf.fr/ark:/12148/cb11907966z
Victor Hugo
1802-02-26
foaf:givenName foaf:name
db:birthDate
http://catalogue.bnf.fr/ark:/12148/cb11907966z

69
● Requêtes SPARQL : exemples
http://data.leschampslibres.org/1/b18895888
“0042282534828”
hadoc:isbn
“4.25 / 5” http://www.discogs.com/master/11710
http://www.wikidata.org/wiki/Q3216384
http://musicbrainz.org/release-group/
374fd86d-838c-3d40-a2c8-680b800290e7
“0042282534828”
mb:barcod
e
owl:sameA
s
owl:sameA
s
dcogs:rating
“4.25 / 5”

70
● Autres : pas de RDF
● APIs Web
● Dumps (XML, CSV…)
● HTML
● …
…
Enrichissements

71
● En réalité
● Architecture complexe
● A adapter selon les besoins
… …

72
Laisse béton (Renaud)
Normalisation Triplestore intermédiaire Enrichissements RDF Enrichissements APIs
barcode ?
IDs Discogs Allmusic ?

76
Outils
● Convertir les données
Actions Outils
Aligner, annoter Antidot Information Factory, Gate,
Python…
Créer des données RDF avec un
éditeur
Morla, Top Braid composer, Editeur
XML (Oxygen), Protégé
Transformer des données de XML vers
RDF/XML
XSL, Python…
Transformer des entrées clés/valeurs
en RDF
Google Refine
Transformer une base de données
relationnelle en RDF
Db2triples, D2R server, …

77
Outils
● Stocker les données dans un triplestore
Optimisation Outils
Mémoire Corese, Redstore
Triplestore natif Mulgara, AllegroGraph, BigOWLIM,
4store, Neo4j
BDR paramétrée Virtuoso, ARC, Oracle 11g, Sesame,
3store
Column store Cstore, Heart, BigData, Cloudera

78
Outils
● Exploiter les données en RDF
Langages Outils
Java (triples) Jena, Sesame, Trialox SCB, RDF2Go
Java (ORM) Topaz, RDFReactor, So(m)mer, Elmo,
jenabean
PHP RAP, ARC (généraliste)
C Redland
Python RDFlib
Ruby ActiveRDF
Scala Scardf

79
Laisse béton (Renaud)
● Publication des données en RDF

81
Le web sémantique, ça marche !
● Les géants mondiaux de l’Internet
avancent rapidement
● De plus en plus d’organisations l’adoptent
pour des usages ciblés
● « Que puis-je faire pour le web sémantique ? »
● « Qu’est ce que le web sémantique
peut faire pour moi ? »

82
Le Web Sémantique, des atouts uniques
● Disposer d’une quantité colossale de
jeux de données
● Accéder aux données de façon standardisée
donc automatisable
● Les agréger pour servir tous types d’usages
nouveaux

83
Le Web Sémantique, aller plus loin ?
Un livre dirigé par
Fabien Gandon,
INRIA / W3C
EAN13 : 9782100572946

84
Le web sémantique : à vous de jouer !

85
pcol@antidot.net @PierreCol
jhomo@antidot.net
@Julien_Hom
o
@AntidotNet
www.antidot.net

Web sémantique et Web de données, et si on passait à la pratique ?

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (17)

Semelhante a Web sémantique et Web de données, et si on passait à la pratique ?

Semelhante a Web sémantique et Web de données, et si on passait à la pratique ? (20)

Mais de Antidot

Mais de Antidot (20)

Web sémantique et Web de données, et si on passait à la pratique ?

Notas do Editor