Introduction au web sémantique librement adaptée de Nova Spivack
1. Yves Simon – Social Computing - autour du web sémantique
Le web sémantique, infrastructure du social média
Du web 2.0 au web 4.0
D’après :
« Making sense of the semantic web »
Nova Spivack, CEO & fondateur de Radar Networks (Twine)
http://www.mindingtheplanet.net
Autres lectures ….
Contact : yves(at)social-computing.com
Décembre 2007 – page 1
2. Yves Simon – Social Computing - autour du web sémantique
Constats :
« Dans le vieux monde des grand medias traditionnels, les actualités sont des produits vendus aux
consommateurs - ou aux entreprises qui essaient de joindre ces consommateurs. Dans le nouveau monde des
medias sociaux et interactifs, ces mêmes actualités deviennent une matière brute que les utilisateurs
assemblent pour formuler leur point de vue personnel, et republient pour exprimer leur perspective à leurs amis,
familles, collègues et communautés virtuelles. C’est donc un matériel de réflexion avec lequel on construit sa
propre ‘worldview’, plutôt qu’un produit fini qu’on consomme sans penser. » - Fabrice Florin, fondateur et
directeur exécutif de NewsTrust 2007 -
« L'offre média actuelle est surabondante dans tous les domaines (TV, presse, mobiles, Internet…) ; c’est le
client qui devient la ressource rare et cela transforme les mécanismes de fidélisation ! Ensuite, les modes de
consommation se fragmentent (délinéarisation en TV, catch-up TV) : le consommateur papillonne désormais
sur différents supports et médias dans une logique en rupture avec celle des grands rendez-vous médias
d’antan. Enfin, on voit une migration des consommateurs vers de nouveaux écrans : 90 % des Français ont un
mobile, 40 % ont un lecteur MP3… 10 millions de Français surfent sur Internet avec leurs téléphones mobiles…
On observe aussi que le poids d’Internet dans ces évolutions est absolument majeur : Internet représente
aujourd’hui 7 % du marché publicitaire mondial ; la croissance des dépenses publicitaires sur Internet a été de +
40 % par an depuis 2003 (contre 2 à 3 % pour les autres supports).
Tout cela interpelle les acteurs médias traditionnels ! Et cela pose des questions absolument fondamentales en
matière de conquête et de fidélisation de l’audience.
Je vois donc dans le développement de ce Web 2.0 communautaire quelque chose que les médias traditionnels
doivent absolument prendre en compte dans leur logique de fidélisation de l’audience.
Il y a une force propagatrice absolument incroyable du Web 2.0 : elle va forcément multiplier les communautés
et celles-ci vont créer leurs propres contenus. » - Dominique Gautier, Partner, Roland Berger Strategy
Consultants (conf. Futur des médias Décembre 2007) -
« On est confronté à une forme de paradoxe dans l’évolution des usages.
D’un côté on observe un développement exponentiel des nouveaux usages, et, de l’autre, on constate la difficulté
des industriels à mesurer et à extrapoler l’impact de ces nouveaux usages sur les marchés de demain.
Il y a trois raisons à ce paradoxe.
ƒ La première est la raison du temps. L’innovation est très rapide et la prise de recul est impossible.
ƒ La deuxième est qu’il est difficile d’isoler ces usages. On ne peut donc donner des chiffres sur chacun
de ces usages, pris isolément.
ƒ La troisième raison est que les marchés sont tirés autant par les consommateurs eux-mêmes que
par les marqueteurs. On continue à baigner dans le syndrome du SMS, avec des jeunes générations
qui créent leurs propres règles.
Trois caractéristiques me paraissent cependant assez fortes concernant les nouveaux usages.
Décembre 2007 – page 2
3. Yves Simon – Social Computing - autour du web sémantique
ƒ La première est le sentiment de superposition des usages et des technologies. La demande sur les
consoles de jeu et sur l’iPhone démontre cette boulimie de technologies, à laquelle vont s’adjoindre les
nouveaux usages.
ƒ La seconde caractéristique est l’extension du numérique à tous les domaines, photo ou musique, avec
une mobilité quasi addictive. La mobilité est devenue un droit, une nécessité !
ƒ La troisième caractéristique tient aux contenus. Ils sont de plus en plus segmentaires, s’adressant à des
niches. Les grands médias traditionnels sont obligés d’intégrer dans leur stratégie cette démarche dite
de « long tail ».
Quelques chiffres pour éclairer ces trois idées :
ƒ Les utilisateurs consomment plusieurs médias à la fois pour 30 % d’entre eux.
ƒ Pour les 15-24 ans, ce taux passe à 60 ou 70 %.
ƒ Huit internautes sur dix déclarent consommer des contenus convergents.
ƒ FaceBook enregistre 250 000 nouveaux abonnés par jour dans le monde.
ƒ Il y a un milliard de recherches par jour sur Google dans le monde et 90 millions en France.
A coté de cela, il y a des comportements surprenants qui perdurent : 13 à 15 millions de magazines télé sont
vendus chaque semaine. Le temps d’écoute devant la télé ne bouge pas.
Le modèle est donc moins homogène qu’avant, avec une difficulté à isoler les usages et à les analyser. » Nicolas
Teisseyre, Senior Partner, Roland Berger Strategy Consultants (conf. Futur des médias Décembre 2007) -
Le social média c'est discuter avec le public, pas lui parler.
« Notre démarche a été de créer un site gratuit d’infos qui ne soit pas adossé à un groupe industriel ou financier
existant. Nous avons ensuite effectué un double pari rédactionnel et économique. Le pari rédactionnel était
d’associer le journaliste professionnel à la culture participative d’Internet. Pour gagner ce pari, nous avons
estimé qu’il valait mieux partir d’une page blanche plutôt que de rester dans une structure traditionnelle
(Libération).
Le pari économique concerne deux facettes. D’abord, on est parti délibérément sans investisseurs, avec des amis
et nos familles. Puis, on a choisi tout de suite un modèle gratuit car nous voulons être un média participatif. Nous
avons en effet l’ambition de construire une communauté sans barrières autour du site.
Les recettes publicitaires sont au rendez-vous et elles compensent depuis novembre nos coûts qui sont cependant
artificiellement très bas (les fondateurs ne se payent pas ; les salaires sont très bas).
Après 7 mois d’existence, c’est pas mal !
Par ailleurs, nous développons des activités de prestations de services (sites clés en main).
Nous visons à terme un CA constitué de 70 % de recettes publicitaires et de 30 % de prestations de services. Une
3ème source de revenus apparaît d’une façon inattendue : la ventes de nos contenus aux TV ; on va voir
comment cela va évoluer. Même si nous ne vendons pas nos infos aux internautes, nous devons justifier notre
démarche ; c’est pourquoi notre contenu est à très forte valeur ajoutée ; notre modèle est basé là-dessus et il est
validé après quelques mois d’existence. » - Pierre Haski Président et Directeur de la publication, Rue 89 (conf.
Futur des médias Décembre 2007)
Les applications web de type MySpace, Youtube, Wikipédia, Amazon deviennent de
véritables lieux de socialisation et d'agrégation de contenus permettant d'appréhender au
mieux leurs contextes. Effectivement, les lecteurs parlent aux lecteurs, partagent leurs avis,
recommandations, mots clés, videos, images, sons relatifs aux contenus et développent donc
tout autant de métadonnées parfois plus parlantes que les données elle-mêmes et nécessitant
des traitements pointus d'indexation et de normalisation pour leur bonne restitution et donc
leur bon usage.
Nous avons besoin de trouver le plus rapidement possible la bonne information à travers des
silos d'informations volumineux sur le web, dans nos systèmes d'informations et nos
organisations. De multiples silos d'informations sont aujourd’hui disponibles pour chaque
sujet que nous devons traiter.
Décembre 2007 – page 3
4. Yves Simon – Social Computing - autour du web sémantique
Figure 1 : L'explosion du volume de données accessibles
Les technologies de l'information doivent nous proposer de nouveaux espaces de découvertes.
Découvertes de personnes à travers des informations (données, centres d'intérêts ...) qui nous
relient à elles et création / découvertes d'informations par l'exploitation des écarts entre
"patrimoines informationnels" (Users Generated Contents UGC).
Les deux grands principes d’un modèle de longue traîne sont (selon Chris Anderson):
ƒ Rendre tout disponible
ƒ Aider le client à trouver ce qu’il cherche
Mais actuellement, le principe même des Réseaux sociaux, fait que le deuxième principe est
rarement appliqué ; ou moyennant paiement.
Associés à ces principes, six règles de fonctionnement :
ƒ Faire le plus possible travailler les utilisateurs
ƒ Oublier que les produits sont figés et ont un prix unique
ƒ Accepter la gratuité comme coût de commercialisation
ƒ Posséder un inventaire large de produits ou de fonctionnalités
ƒ Développer une vraie notoriété professionnelle
ƒ S’affranchir de la barrière linguistique
Décembre 2007 – page 4
5. Yves Simon – Social Computing - autour du web sémantique
Le Social Web : la prise en compte des besoins d’une multitude de communautés
dynamiques :
7ième tendance IDC 2008, une année de rupture :
« A moins de vivre dans un monastère tibétain, vous n'avez pu que constater le
développement rapide des réseaux sociaux, de MySpace à YouTube en passant par Digg et
Wikipedia. Ce phénomène va entraîner une avalanche de données à quelque 400 milliards de
Go (contre 225 milliards en 2007). Toutefois, plutôt que d'aider les entreprises et les
particuliers à découvrir la sagesse des foules (Wisdom of crowds), IDC pense que cette
explosion de données non structurées va plutôt engendrer une sorte de cacophonie. Pour
donner du sens à ce déluge d'informations, de nouveaux logiciels devraient voir le jour en
2008. IDC met toutes ces applications dans un domaine baptisé Eureka 2.0. Ces applications
vont pouvoir extraire du sens de tonnes de textes, des impressions, des sentiments... tout cela
entrant sous le concept de recherche sémantique. Ce type de logiciels devrait aider les
entreprises à suivre les perceptions de marques, le niveau de satisfaction clients et faire éclore
de nouvelles idées de produits. »
Décembre 2007 – page 5
6. Yves Simon – Social Computing - autour du web sémantique
Le web sémantique, c’est quoi ?
Le web sémantique, c'est l’évolution du web (un ensemble de serveurs proposant de visualiser
des pages web plus ou moins dynamiques associées à des services web) vers une gigantesque
« base de données réparties» semi structurée. Ainsi la navigation sur le web passe du concept
d’hypertextes à celui d’hyperdonnées, donc démultiplie les possibilités de relations (et donc
de navigation et d'indications) entre "objets" du web, donc l'atomise, l'enrichit et l'approfondit
considérablement.
Le web sémantique, c'est, selon Nova Spivack, un web en "HD" / "haute résolution" qui
permet des modes d'accès multiples (navigation à facettes) à des informations enrichies
d'informations contextuelles multiples (métadonnées).
Figure 2 : Visualisation d'un réseau d'informations de type RDF reliées entre elles à travers des liens typés
Le concept du web sémantique n'a rien à voir avec la sémantique au sens large, c'est le nom
donné pour qualifier les applications qui vont supporter les standards du W3C : RDF, OWL,
SPARKLE, SWRL, GRDDL mais aussi certains standards de représentation d'informations
comme HR-XML, FOAF, Open ID qui avancent vers la maturité et deviendront rapidement
les normes de facto du web sémantique ...
Les données ainsi créées pourront être facilement exploitées par différentes applications
comme elles pourront provenir de multiples applications différentes comme Wikipedia,
Amazon, Flickr, Delicious, Youtube, Dailymotion, Google Social, Linkedin, Facebook ...
Décembre 2007 – page 6
7. Yves Simon – Social Computing - autour du web sémantique
L’opportunité réside dans le graphe sémantique et sa capacité à rassembler différentes types
d’informations comme les projets, les événements, les groupes, le multimédia, les documents,
les pages web, les services, les produits, les emails, les personnes, les sociétés, les lieux, les
centre d’intérêts, les activités, les news … Ce rassemblement d’informations structurées et
non structurées va permettre de proposer des résultats de recherche d’informations plus
pertinents, des publicités mieux ciblées, une gestion de projets plus efficace grâce à une
collaboration plus étroite et un partage des informations plus fluide, des contenus plus riches,
des recommandations plus fines et précises, etc …
Figure 3 : Interrelations entre informations de nature différentes
Les liens que l'on peut découvrir à travers l'analyse des données, des contenus et des contextes
autour des informations et des personnes sont le socle relationnel sur lequel est basée
l’intelligence d’une application du web sémantique (plateforme Twine entre autres). C’est
aussi un socle primordial à une utilisation avérée des technologies de cartographie
d’informations.
Aussi, plus on augmente le taux de connection entre données par leur enrichissement
(métadonnées) et leur organisation les unes par rapport aux autres (calculs de proximités,
corrélations, définition de critères de pertinence, de contextualisation), plus on est capable de
rapprocher automatiquement les contenus des utilisateurs.
Décembre 2007 – page 7
8. Yves Simon – Social Computing - autour du web sémantique
Figure 4 : Vers un web plus intelligent
De cette façon, nous nous affranchissons progressivement de la recherche d'information
traditionnelle par mots clés vers l'interaction (web 2.0 – Tagging – O term search), la
recherche en language naturel et la recherche sémantique pour nous orienter vers une
intelligence artificielle "hybride". Celle-ci est le fruit d'une véritable convergence de
tendances générales exprimées par des experts reconnus dans des domaines spécifiques et
d'algorithmes de choix basés sur la reconnaissance automatisée de données comme vos
habitudes informationnelles et celles de votre entourage immédiat ...
Beaucoup d'algorithmes existent aujourd'hui pour démultiplier les capacités d'accès à
l'information des utilisateurs et des publications sur les principaux indicateurs liés aux
contenus. Ces contenus sont devenus poléiformes et se répartissent selon des clés
d'aggrégations évolutives, dynamiques qu'il convient de traiter au mieux pour correspondre
aux attentes de personnalisation des utilisateurs. Enfin, la dynamique des communautés
d'usages des nouvelles technologies nécessite des outils de mesure novateurs. Leur
élaboration représente un champ de recherches considérable.
Quand 40% des consommateurs américains s'attendent à ce que les sites de ecommerce leur
proposent des promotions ciblées en fonction de leurs profils d'achats, il n'est plus possible de
remettre en cause la pertinence des algorithmes de calculs de proximités et de corrélations.
Aussi, la personnalisation progressive des résultats produits sur les applications sera possible
grâce à une historisation exhaustive de l'usage de celles-ci (recherches, achats, commentaires,
etc ...) qui devra permettre d'entretenir et de développer des liens de proximité avec les
utilisateurs (alertes, interactions, reconnaissance et suggestions ...) mais aussi d'améliorer
l'organisation des listes de résultats et les outils d'accès à ceux-ci.
Il existe 5 niveaux dans l'approche sémantique :
1/ Social - Tagging - Folk/ production de mots clés qualifiant des contenus par des
utilisateurs
Facile à créer, utiliser, stocker, traiter (pas d'algorithmes, pas d'ontologies à maintenir ...), pas
de technologies à mettre en oeuvre ... mais trop basique, comporte trop d’approximations pour
être vraiment utile, manque d’outils de normalisation statistiques et linguistiques.
Exemples Technorati, Del.icio.us, Flickr, Wikipedia
Décembre 2007 – page 8
9. Yves Simon – Social Computing - autour du web sémantique
2/ Statistiques / calculs d'occurences et de cooccurences pour définir les mots clés
qualifiant des contenus non structurés automatiquement
Algorithmes purement mathématiques, statistiques, capables de fonctionner sur de larges
échelles, indépendant du language, produit rapidement des agrégats et des indicateurs ...
Pas de compréhension du contenu, tributaire des volumes sans permettre de trouver finement
ce qui est recherché. N'est pas adéquat pour les données structurées.
Exemples : Google, Lucene, Autonomy
3/ Linguistiques / extraction d'entités nommées la plus fine possible
Détection de la langue, extraction d'entités, mise en correspondance à travers des tables de
synonymes, listes de résultats en relation précise avec les requêtes des utilisateurs.
Demande des ressources machines plus importantes, plus difficile à monter en charge,
beaucoup d'erreurs résident, demande un effort et une maintenance lourds pour chaque langue
traitée.
Exemples : Inxight, Attensity, Powerset, Hakia ...
4/ Web sémantique / mise en relation de contenus à travers des descripteurs et des usages
convergents
Positionnement de RadarNetworks, DBpedia Project, Metaweb
Requêtes plus précises, applications bien développées, rapidement. Ne requiert pas trop de
ressources machines ???, fonctionne pour les données structurées et non structurées.
Interopérable entre plusieurs applications (API).
Peu d'outils, difficile de monter en charge, qui crée les métadonnées ?
5/ Intelligence Artificielle / réutilisation de l'ensemble des approches précédentes pour que
l'application interagisse intelligemment et de façon évolutive avec ses utilisateurs ...
Fonctionne bien dans des domaines restreints, répond correctement aux questions, raisonne et
apprend ...
Demande des ressources machines importantes, difficultés à monter en charge, difficile à
programmer et à universaliser, l'apprentissage demande beaucoup de travail.
Exemple de société : Cycorp ?
Il y a deux façons de "pousser" le web vers un web sémantique :
Bottom-Up : ajouter des métadonnées sémantiques aux pages et aux contenus des bases de
données. Cela implique que chaque site web fasse la démarche de "sémantiser" son contenu,
donc d'apprendre RDF et OWL ...
Top-Down : génération automatique de métadonnées sémantiques par domaines verticaux
donc créer des services (applications web) qui vont faire la moulinette entre le web non-
sémantique et le web sémantique. Dans ce cas, personne n'a plus besoin d'apprendre le RDF et
l'OWL ... ref : Alex Iskold
Décembre 2007 – page 9
10. Yves Simon – Social Computing - autour du web sémantique
En pratique les approches hybrides associant différentes techniques fonctionnent mieux.
Le web sémantique est un facilitateur :
Par l'association directe de l'intelligence (métadonnées) aux données plutôt qu'à travers des
applications ...
Les données se suffisent alors à elles même, les éléments de compréhension
(contextualisation) des données font partie des données.
Les applications peuvent concentrer leurs fonctionnalités sur de nouveaux usages, autour de
données plus faciles à prendre en compte.
Les données peuvent être partagées et liées les unes aux autres plus facilement.
L'alliance de différentes technologies (type moteur de recherche) permettant la mise en oeuvre
de fonctionnalités étendues valorise fortement les contenus par leur enrichissement et en
facilite l'accès sous différentes facettes donc en augmente l'usage à nombre d'utilisateurs
constants (et donc le temps d'audience et le stock de pages disponibles pour des annonceurs).
Les standards du web sémantique :
RDF : Resources Description Framework : un méta-langage spécialisé dans les méta données
qui permet d'associer un objet à un autre objet à travers un lien logique décrit.
OWL : Web Ontology Language : langage informatique utilisé pour modéliser des ontologies,
ensemble de concepts et connaissances
Sparql : permet d'exprimer des requêtes interrogatives ou constructives adaptées à la structure
spécifique des graphes RDF. Plus sophistiqué que le SQL
SWRL : Semantic Web Rule Language (OWK + RuleML). Permet de décrire des natures de
relations déduites entre "objets" ... Cette personne ayant un père ayant un frère dispose donc
d'un oncle ...
GRDDL : Gleaning Resource Descriptions from Dialects of Languages. Permet de
transformer des données en provenance de différentes sources (ex. microformats) en RDF
pour les assembler et les réutiliser dans un autre cadre (hybrider - mashup) ...
Voir : http://www.yoyodesign.org/doc/w3c/grddl-primer/
Le web sémantique est le concept de données autodécrites et liées entre elles
Fusionner des bases de données en RDF est simple, le web devient une base de données
dynamique ...
Décembre 2007 – page 10
11. Yves Simon – Social Computing - autour du web sémantique
RDF/OWL ne sont pas les seules façons de générer un web sémantique, d'autres voies sont
ouvertes grâce aux fils de tags, aux plans de classements, aux tésaurus, aux microformats, aux
entités nommées, à des modes de représentation de métadonnées alternatifs.
Existe t il un web sémantique ou plusieurs ?
La réponse est ... les deux ...
Le web sémantique est un web de webs sémantiques, chacun de nous peut avoir son propre
web sémantique …
Décembre 2007 – page 11
12. Yves Simon – Social Computing - autour du web sémantique
Pourquoi cela a t il prit autant de temps ?
ƒ La vision originelle était trop orientée « Intelligence Artificielle »
ƒ Les technologies et les outils n’étaient pas encore matures (capacités de traitements,
stockages, enrichissement, restitution, réutilisation …)
ƒ Le besoin de données utilisables par différentes applications sur le web n'était pas
clairement identifié ...
ƒ La recherche par mots clés et l'organisation par tags étaient suffisants ... dans le
contexte d’une application, pas d’un web d’applications …
ƒ Les utilisateurs n’ont pas idée de la qualité des traitements que les technologies
peuvent proposer et donc de la qualité potentielle des applications de demain …
ƒ Beaucoup d'incompréhensions à clarifier ...
Passer le guet (crossing the Chasm) :
ƒ Communiquer sur l'interopérabilité des données, pas sur l'intelligence artificielle
ƒ L'évangélisation du marché passe par une bonne communication sur l'intérêt d'utiliser
ces standards.
ƒ Les standards et les technologies arrivent à maturité
ƒ Les besoins des utilisateurs évoluent, leurs attentes vont de plus en plus vers des
applications capables de leur fournir des résultats sans qu'ils aient besoin de rentrer
des mots clé ou des tags à nouveau. Les services web doivent rendre leurs données
accessibles aux autres applications dans le format le plus universel possible.
ƒ Beaucoup d'entreprises commencent à générer des données enrichies. Il y aura bientôt
beaucoup de données de ce type à disposition !
Décembre 2007 – page 12
13. Yves Simon – Social Computing - autour du web sémantique
Agenda :
2007 - 2009 : Early Adoption
2010 - 2020 : Adoption de masse
2020 - + : Nouveau cycle ...
Le futur du web :
1980 : l'ordinateur individuel est la plate forme
1990 : le navigateur devient la plate forme
2000 : le web est la plate forme
2010 : la toile est la plate forme
2020 : le réseau est la plate forme
2030 : le corps humain est la plate forme ?
Figure 5 : de l'ère des PC au Web 4.0 ...
Décembre 2007 – page 13