19. Selon Wikipedia
● Web Sémantique
○ http://en.wikipedia.org/wiki/Semantic_Web
● RDF
○ http://en.wikipedia.
org/wiki/Resource_Description_Framework
● OWL
○ http://en.wikipedia.
org/wiki/Web_Ontology_Language
● SPARQL
○ http://en.wikipedia.org/wiki/SPARQL
● Triplestore
○ http://en.wikipedia.org/wiki/Triplestore
● Linked Data
○ http://en.wikipedia.org/wiki/Linked_data
20. Web sémantique selon Wikipedia
Le Web sémantique, ou toile sémantique1
, est un mouvement collaboratif
mené par le World Wide Web Consortium (W3C)2
qui favorise des méthodes
communes pour échanger des données.
Le Web sémantique vise à aider l'émergence de nouvelles connaissances en
s'appuyant sur les connaissances déjà présentes sur Internet. Pour y parvenir,
le Web sémantique met en œuvre le Web des données qui consiste à lier et
structurer l'information sur Internet pour accéder simplement à la connaissance
qu'elle contient déjà3
.
Selon le W3C, « le Web sémantique fournit un Modèle qui permet aux données
d'être partagées et réutilisées entre plusieurs applications, entreprises et
groupes d'utilisateurs »3
.
21. RDF
Resource Description Framework (RDF) est un
modèle de graphe destiné à décrire de façon
formelle les ressources Web et leurs
métadonnées, de façon à permettre le
traitement automatique de telles descriptions.
22. Un document RDF est composé de triplets
<SUJET> <PRÉDICAT> <OBJET> .
ou
<SUJET> <PRÉDICAT> “LITÉRAL” .
26. Triplestore
Un triplestore est une base de données
spécialement conçue pour le stockage et la
récupération de données RDF (Resource
Description Framework).
Virtuoso d’OpenLink est un triplestore
disponible en logiciel libre.
http://virtuoso.openlinksw.
com/dataspace/doc/dav/wiki/Main/VOSDownload
27. OWL
Web Ontology Language (OWL) est un langage
de représentation des connaissances construit
sur le modèle de données de RDF. Il fournit les
moyens pour définir des ontologies web
structurées. Sa deuxième version est devenue
une recommandation du W3C fin 2012.
Protégé est un excellent éditeur d’ontologie.
http://protege.stanford.edu/
28. SPARQL
SPARQL (prononcé sparkle en anglais : «
étincelle ») est un langage de requête et un
protocole qui permet de rechercher, d'ajouter,
de modifier ou de supprimer des données RDF
disponibles à travers Internet. Son nom est un
acronyme récursif qui signifie SPARQL
Protocol and RDF Query Language.
http://www.w3.org/TR/sparql11-overview/
30. Comment le Web Sémantique peut-il
nous aider dans l’analyse des données
et la prise de décision ?
L’expérience du projet Bio2RDF :
Pour répondre à une question difficile, il faut
d’abord construire la base de données
spécifique pour y répondre, il faut
amalgamer les données (mashup).
31. Méthodologie du mashup sémantique
● Concevoir son ontologie;
● Identifier les sources de données
disponibles dans le nuage du Linked Data;
● Convertir ses propres données en triplets,
au format RDF;
● Populer un triplestore avec les triplets
nécessaires (Virtuoso, Jena, 4store, etc)
● Explorer le mashup et soumettre sa question
en SPARQL
32. Les outils utilisées dans le cadre du
projet Bio2RDF
● Le site DataHub.io recence plus de 700
SPARQL endpoints
○ http://datahub.io/fr
● Le triplestore Virtuoso d’OpenLink, le
MySQL du web sémantique
● L’éditeur d’ontologie Protégé
● Le logiciel d’ETL Talend
○ http://www.talend.com/
● Les composants sémantiques pour Talend
○ https://github.com/fbelleau/talend4sw
35. Talend4SW : des composants ETL
pour le web sémantique
https://github.com/fbelleau/talend4sw
36. En résumé
● Le Web Sémantique est une famille de
technologies du W3C qui facilitent l’
intégration des connaissances.
● Les meilleurs outils du WS sont des logiciels
libres.
● La technologie d’ETL permet de transformer
des données en RDF et de construire des
mashup.
● Il est maintenant possible de poser des
questions au Web!