La présentation positionne schema.org dans l'historique des langages et modeles utilises pour le balisage de page web.
On s'interesse ensuite a la mise en oeuvre de fonctionnalites de plus en plus "semantique" de la part des moteurs de recherche, et a l'echange entre les moteurs qui offrent une meilleure visibilite aux contenus les mieux balisés.
On détaille ensuite le modele Schema.org et a quoi ressemble le balisage en microdata.
On montre que le travail fait pour avoir un meilleur referencement web, peut egalement etre utilisé pour avoir des fonctionnalités de recherche plus avancées dans l'intranet.
1. Jean Delahousse
http://jean-delahousse.net
Schema.org
Introduction à Schema.org ou le SEO par la sémantique
jean-delahousse.net
2. Balisage des pages web : historique
Langages et Modèles
• 1989 : HTML (W3C)
– Métadonnées html
• 2005 : Microformats (CommerceNet)
– hCalendar, hCard, hNews, hAtom…
• 2008 : RDFa (W3C)
– Ontologies du sémantic web : foaf, DublinCore…
• 2010 : Open Graph (Facebook)
• 2010 : HTML5/Microdata (W3C)
jean-delahousse.net
3. Des moteurs de plus en plus sémantiques
jean-delahousse.net
4. Des moteurs de plus en plus sémantiques
jean-delahousse.net
5. Schema.org
Juin 2011: création d’une
modélisation commune pour le
contenu des pages web
Un modèle adapté aux langages
de balisage Microdata et RDFa
“Schema.org est une collaboration entre Bing, Google, Yahoo! Et
Yandex pour faciliter la tâche des webmaster quand ils nous
procure des données qui nous permettent de mieux diriger les
utilisateurs vers leurs sites.” http://schema.org/docs/faq.html
jean-delahousse.net
13. L’échange
• Les moteurs demandent aux entreprises plus de
données structurées, plus de connaissances
réutilisables par des systèmes automatisés
• En échange ils offrent aux entreprises
– une meilleure visibilité de leurs contenus par le
RichSnippets
– une prise en compte des contenus dans les filtrages à
facettes
jean-delahousse.net
14. Mise en place : méthode
Alignement des
modèles
Modèles de balisage Choix de vocabulaires
adaptés aux contenus contrôlés adaptés
de l’entreprise lieux, sociétés, personnalités…
Contenus
Traitement de balisage des pages web
Bases de Text Mining
données Extraction Personnes, lieux, produits..
pour enrichir le balisage
jean-delahousse.net
15. Mise en place
retraiter le stock de contenus
Archives
Réutilisation du balisage Text Mining
Contenus existant Enrichissement
balisage
Bases de métadonnées, codes xiti, fil Personnes, lieux, produits..
d’ariane, microformats
données
jean-delahousse.net
16. Schema.org pour l’intranet
• Construire des fonctions de recherche avancées dans les sites
web ou l’intranet : recherche à facette, index des sujets… en
s’appuyant sur le balisage microdata / schema.org
Page dans l’intranet Moteur de recherche intranet
Contenus
Balisage de la page
Bases de
données
jean-delahousse.net
17. Etendre le modèle
en fonction de ses besoins
• Un mécanisme d’extension permet d’enrichir les classes et
propriétés présentes dans Schema.org pour construire un
schéma tenant compte des spécificités de l’organisation
• Etendre une classe : Person
– Person/Engineer
• Etendre la propriété : musicGroupMember
– musicGroupMember/leadVocalist
– musicGroupMember/leadGuitar
jean-delahousse.net
18. Schema.org et Open Data
un exemple : data.bnf.fr
HTML + microdata
Contenus
Contenus Traitements de
publication
Bases de Multi-canal
données
Données
Bases de
structurées
données
RDF
jean-delahousse.net
19. Vie de Schema.org
• Un groupe de travail dirigé par Dan Brickley pour
l’évolution de Schema.org
• Des propositions d’évolutions provenant de différentes
communautés
– http://www.w3.org/wiki/WebSchemas/SchemaDotOrgPropos
als
• Une mailing list de discussion
– http://lists.w3.org/Archives/Public/public-vocabs/
• Des outils de test du balisage
– http://www.google.com/webmasters/tools/richsnippets
jean-delahousse.net
20. Une ligne directrice pour les évolutions
• Objectif : Structurer les pages web pour améliorer la
recherche
• La question n’est pas : comment décrire une voiture ? Mais
comment je peux améliorer le balisage de pages qui parlent
de voitures
• Simplifier le travail des webmasters et éditeurs
• Avoir un consensus entre les moteurs de recherche
Un seul objectif final : des services de recherche plus efficaces
jean-delahousse.net
21. Exercice
Faire une page web décrivant en microdata et en
s’appuyant sur la modélisation Schema.org un
événement :
« Le débat télévisé, sur Antenne2, entre F. Hollande, membre du
PS et N. Sarkosi, membre de l’UMP, le 2/5/2012 »
jean-delahousse.net
22. Sur l’auteur
KnowledgeConsult vous Jean Delahousse, Directeur Associé chez
accompagne dans la définition et la KnowledgeConsult, est un expert des
mise en place de votre stratégie de architectures de gestion et publication
gestion des connaissances, travail des contenus et des données, du web
collaboratif, gestion et diffusion de sémantique et de l’open-data.
contenus et données. Il conseille les entreprises, média,
KnowledgeConsult.com éditeurs, administrations et centres de
recherche pour construire et mettre en
œuvre leur stratégie de valorisation des
contenus et données.
Mail : jean.delahousse dot knowledgeconsult.com
Blog : jean-delahousse.net
Tweeter : @jdelahousse
jean-delahousse.net