2. Le Google d’aujourd’hui
Utilisez-vous
Google pour rechercher de l’information
?
• Trouvez-vous toujours ce que vous cherchez ?
• Quels sont les problèmes ?
• Etes-vous satisfait ?
page 2
3. Problématique
Requête
: « directeur » « Paul Friedel »
• Intention : On ne veut que le site de Telecom Bretagne !
• XXX 000 résultats : toutes les pages qui contiennent ces
deux termes ou l’un des deux
page 3
Semantic Web in Action
14. Quelques exemples
Facebook
•
•
•
•
•
page 14
: Graph Search
Restaurants londoniens où mes amis sont allés ?
Musique que mes amis aiment ?
Amateurs de cyclisme ?
Photos avant 1990 ?
Photos de mes amis à Philadelphie ?
16. Le Google Intelligent
Pourquoi
?
• Offrir de nouveaux services aux entreprises et au grand
public
- Comment : En réutilisant automatiquement le résultat d’une
recherche d’information
– Proposer des visites guidées, proposer de l’aide pour voyager en train,
en avion, en fonction de vos besoins et/ou de vos préférences, etc.
– Rechercher des entreprises ayant les compétences requises pour de
la sous-traitance
– Etc.
page 16
30. Problématique
Pour Donner du sens aux données
• Nous utilisons nos Connaissances
dans des Domaines Spécifiques
pour Identifier / Reconnaître ces données
• Connaissances partagées par des
communautés
31. Problématique
Enjeu principal du Web Sémantique &
Linked Data
• Utiliser ces connaissances pour annoter les ressources
au niveau sémantique
• Pour rechercher, réutiliser et partager, si possible
automatiquement, les informations
32. Le Google Intelligent
Démonstration
• Recherche d’informations sur LinkedMDB
- Copie « Intelligente » de IMDB
- Trouver tous les films d’un acteur : Bruce Willis, etc.
- Trouver le ou les acteurs qui ont joué dans un ou des films de deux
producteurs :
– Sofia Coppola Francis Ford Coppola
– Clint Eastwood Buddy Van Horn
– Paul McGuigan Robert Schwentke
page 32
33. Semantic Web & Linked Data
Démonstrations
sur LINKEDMDB et Dbpedia
• http://3s-web.enstb.org/Demo_Linked_Data/
page 33
34. Le Google Intelligent : Comment ?
Description
des informations dans LinkedMDB
• Des phrases de type :
Sujet Verbe Complément
• Exemple
- Le film « RED » a pour acteur
Bruce Willis
- Le film « Red » a pour page web
http://…..
- Le film « RED » a pour producteur Robert Schwentke
page 34
35. Le Google Intelligent : Comment ?
Compréhension
de ces phrases
• Différents contextes : différents termes
- « acteur », « actor », « director » « producteur », …
• Interprétation commune liée à des connaissances
communes
- Utilisation de vocabulaires standards partagés par tous !
- Chaque vocabulaire détermine un sens unique aux verbes, aux
catégories de sujets et de compléments
page 35
36. Le Google Intelligent : Comment ?
Plus
formellement, ou presque
- « Red »
movie:actor
« Bruce Willis »
- « Red »
movie:director
« Robert Schwentke »
• « Red »
- « Red »
rdf:type
foaf:page
http://www.freebase…
Question
• Trouver tous les films dont Bruce Willis est acteur ?
- ?Film
- ?Film
page 36
movie:film
movie:actor
rdf:type
« Bruce Willis »
movie:film
37. Le Google Intelligent : Comment ?
Site
Linkedmdb
• Film Red
http://data.linkedmdb.org/page/film/97209
• Acteur Bruce Willis
http://data.linkedmdb.org/page/actor/29961
page 37
38. Freebase Parallax
«
Faceted Semantic Search »
• http://parallax.freebaseapps.com/
• Question
- Which Schools did the Children of Republican Us
Presidents?
– Comment faire avec Wikipédia ?
– Comment fait-on avec Freebase Parallax ?
page 38
Semantic Web in Action
39. Freebase Parallax
Question
: comment répondre ?
• US President are Presidents
• US Presidents Belong to a Party
• Republican Party is a Party
• US Presidents have Children
• Children studies in Schools
page 39
Semantic Web in Action
40. Semantic Web & Linked Data
RDF Graph
http://webofdata.wordpress.com/2010/09/27/linked-enterprise-data-in-a-nutshell/
page 40
41. Semantic Web & Linked Data
Source 1
Source 3
Source 2
page 41
44. Linked Data = ? = Big Data
Une type particulier de Big Data
• DBpedia: Linked Data version of Wikipedia : more than 103 million RDF triples.
• The Bio2RDF project, a Semantic web atlas of post-genomic knowledge about human
and mouse, has published 27 biology-, gene- and medical-related data sets :
altogether 2.3 billion triples
• data.gov official website of the US government making over 1000 US government
datasets available as Linked Data (around 6.4 billion triples).
• GovTrack.us from Joshua Tauberer publishes linked data about members of the U.S.
Congress, as well as bills, committees and votes. 12M triples
• PDB2RDF Projekt making the Protein Data Bank available as Linked Data and via a
SPARQL endpoint (approximately 14 billion triples).
• RDF Book Mashup: Provides bibliographic information, reviews and sales offers for
most books that have a ISBN number. Maps data from Amazon and Google base to
RDF. Size of the data set: Unknown, billions of triples
• Etc.
page 44
45. Linked Data
Linked
Open Data
• http://validator.lod-cloud.net/
Linked
Sciences
• Linked Open Piracy (LOP)
- http://semanticweb.cs.vu.nl/poseidon/ns/home
- http://cliopatria.swiprolog.org/help/source/doc/home/vnc/prolog/src/ClioPatria/web/tuto
rial/Piracy.txt
46. Linked Data pour le Big Data
Avantages
• Sémantique unique des entités
• Linked Data
- « A New architectural platform for interconnecting, mapping,
indexing, feeding real-time information from a variety of sources »
• Tim Berners Lee
- Web = « Global Giant Graph »
– Comme une unique base de données globale
– Requêtes complexes sur plusieurs sources
page 46
47. Linked Data pour le Big Data
Avantages
• Déduction de nouvelles relations
- Qui pourront être utilisées plus tard pour de nouvelles analyses
• Standards
- SPARQL 1.1, OWL, RDF, RDFS, …..
• Passage à l’échelle
page 47