SlideShare une entreprise Scribd logo
1  sur  48
Télécharger pour lire hors ligne
Document et structure


Tutorial RSI
Deauville, le 27 septembre 2007

Hervé Le Crosnier
Université de Caen
Données et documents
●   document : destiné à la lecture
●   données : informations pouvant être
    « traitées » (calcul, sélection,
    agrégation, découverte, indexation,...)
●   le numérique produit un
    rapprochement des données et des
    documents
Données -> document
          ●   établir une
              facture
          ●   widget météo
          ●   données : XML
          ●   document :
              –   html
              –   pdf
              –   image (svg)
RSS
●   <item>
●    <title>La répression des manifestations en Birmanie a fait quatre
    morts</title>
●    <link>http://www.lemonde.fr/web/article/0,1-0@2-3216,36-
    959582,0.html?xtor=RSS-3208</link>
●    <description>Les forces de l'ordre ont chargé les manifestants, mercredi à
    Rangoun. Le Conseil de sécurité de l'ONU doit se réunir
    d'urgence.</description>
●    <pubDate>Wed, 26 Sep 2007 16:58:08 GMT</pubDate>

●     <guid isPermaLink=quot;falsequot;>http://www.lemonde.fr/web/article/0,1-0@2-
    3216,36-959582,0.html?xtor=RSS-3208</guid>
●    <enclosure
    url=quot;http://medias.lemonde.fr/mmpub/edt/ill/2007/09/26/h_1_ill_959654_birma
    nie.jpgquot; type=quot;image/jpegquot; length=quot;2502quot;></enclosure>
●   </item>
Innovation ascendante
●   simplicité du format
●   usage simple (l'alerte de nouveautés)
●   extensibilité : (X)ML
●   facilité de créer des parseurs pour
    intégrer dans des documents
    dynamiques
●   existence d'agrégateurs
Producteur de flux
●   intérêt :
    –   faible utilisation de la bande passante
    –   alerter sur les nouveautés de son site
    –   attirer des lecteurs (économie de
        l'attention)
    –   insertion de la publicité dans les flux
Architecture




Widgets

      Data is power
Channel
●   <?xml version=quot;1.0quot; encoding=quot;iso-8859-1quot;?><rss version=quot;2.0quot;
    xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;>
●   <channel>
●



●   <title>Le Monde.fr : A la une</title>
●   <link>http://www.lemonde.fr</link>
●   <description>Toute l'actualité au moment de la connexion</description>
●   <copyright>Copyright Le Monde.fr</copyright>
●   <image><url>http://medias.lemonde.fr/mmpub/img/lgo/lemondefr_rss.gif</url
    ><title>Le Monde.fr</title><link>http://www.lemonde.fr</link></image>
●   <pubDate>Wed, 26 Sep 2007 17:05:25 GMT</pubDate>
Enclosure (Podcast)
●   lier à un objet numérique (son, vidéo,...)
●   <item>
    <title>Musik Please -Hors Série- Spécial 25 ans de Hip Hop</title>
         <link>http://www.musikplease.com/index.php</link>
         <description>Une playlist thématique, histoire de tourner
    ensemble quelques pages de l'histoire musicale du hip hop.
    [...]</description>
         <itunes:author>Pierre Fosco</itunes:author>
         <itunes:subtitle>Une playlist thématique [...]</itunes:subtitle>
         <itunes:explicit>no</itunes:explicit>
         <itunes:keywords>podcast,blog</itunes:keywords>
         <pubDate>Thu, 20 Sep 2007 13:30:12 +0200</pubDate>
         <enclosure
    url=quot;http://pauvcast.net/explorer/podcasts/musikplease/2007/
    musikpleasehs2.mp3quot; length=quot;11766717quot;
    type=quot;audio/mpegquot; />
         <guid isPermaLink=quot;falsequot;>musikpleasehs2.mp3</guid>
         <dc:creator>Pierre Fosco</dc:creator>
     </item>
La glu du web 2.0
●   nouvelles, flux, blogs
●   playlists, délinéarisation
●   espaces de nom (faire cohabiter
    plusieurs applications avec la même
    architecture de document)
●   personnalisation de l'information
●   déterritorialisation (accès à l'unité à
    partir d'annotations externes)
    –   digg, del.icio.us, ...
Du document aux données
●   Extraction de connaissance
●   Analyse linguistique et sémantique
●   indexation ->
    –   accès aux documents
    –   appariement
●   découpage de scènes (vidéo)
●   reconnaissance d'objets (image)
Encoder l'information dans
      le document
●   distinction entre le document logique
    (structure de document)
●   le document lisible par un humain
    (réalisation)
●   la (les) feuilles de style
●   trouver une forme d'encodage qui
    facilite l'extraction par des robots
    –   de l'information
    –   des métadonnées
Microformats
●   hCard, pour la description des personnes et organisations
●   <div class=quot;vcardquot;>
           <div class=quot;fn orgquot;>Wikimedia Foundation Inc.</div>
           <div class=quot;adrquot;>
               <div class=quot;street-addressquot;>200 2nd Ave. South #358</div>
               <div>
                       <span class=quot;localityquot;>St. Petersburg</span>,
                       <abbr class=quot;regionquot; title=quot;Floridaquot;>FL</abbr>
                       <span class=quot;postal-codequot;>33701-4313</span>
               </div>
               <div class=quot;country-namequot;>USA</div>
           </div>
           <div>Phone: <span class=quot;telquot;>+1-727-231-0101</span></div>
           <div>Email:
               <span class=quot;emailquot;>info@wikimedia.org</span></div>
           <div>
                  <span class=quot;telquot;><span class=quot;typequot;>Fax</span>:
                  <span class=quot;valuequot;>+1-727-258-0207</span></span>
         </div>
    </div>
Ce que sont les µf
●   un moyen de penser les données dans
    le document
●   des principes de design pour les
    données
●   adapté à « la sémantique du monde
    réel du XHTML » (lowercase semantic
    web)
●   un support pour la création d'outils de
    lecture et d'extraction (cf Operator)
ce que ne sont pas les µf
●   un nouveau langage
●   une obligation pour les designer à
    changer toutes leurs pratiques
●   une panacée pour toutes les
    taxonimies, ontologies,...
●   une approche entièrement nouvelle qui
    jetterait à la poubelle tout ce qui
    marche actuellement
    –   http://microformats.org
Principes des µf
●   résoudre des problèmes spécifiques
●   partir du plus simple possible
●   un design pour les humains en premier,
    les machines ensuite
●   réutilisation de blocs existant,
    modularité, capacité à s'insérer
●   permet des développements et des
    services décentralisés
Web 2.0
●   Un concept marketing
●   Qui s'appuie sur des
    changement réels du web
    –   innovations techniques
    –   modèle de participation sociale
    –   changement dans les formes de
        valorisation économique
●   C'est la conjonction de ces
    trois renouvellements qui
    fait le Web 2.0
La conversation
●   les documents servent de support
    à des relations sociales
●   on parle d'autres documents (blogs)
●   on sélectionne des documents... et on
    le fait savoir (taggage, folksonomie)
●   lecture coopérative
●   priorité à l'usage (innovations
    ascendante, « pro-am révolution » )
Web sémantique

●   Rendre l'information disponible sur le
    web utilisable directement par des
    machines
●   pour améliorer le service de filtrage ou
    d'extraction de connaissances
    proposé aux utilisateurs
●   Un projet décentralisé, à l'image du web
●   ... et fédérateur (visant l'ensemble du
    savoir)
Quelques caractéristiques
●   construire des descriptions sémantiques utilisables
    par des communautés à l'intérieur du web
●   Le web sémantique s'appuie sur une forte
    normalisation
    –   des échanges (SOAP, WSDL, XML)
    –   des langages de descriptions (RDF, OWL)
    –   des langages de requêtes et d'inférence
        (SPARQL)
●   Il est nécessaire de consacrer une partie de
    l'énergie de production de documents à organiser
    des accès sémantiques (métadonnées,
    construction de schémas de description et
    d'ontologies)
Web 2.0 et Web
                 sémantique
●   utiliser les usages                ●   modéliser les
    simples, mais cumulés,                 documents et leur accès
    des lecteurs                       ●   construire des outils
●   modélisation                           répartis et partagés
    statistiques par l'usage                –   sémantiques (ontologies,
    (cf correcteur orthographique de            schémas)
    Google)                                 –   ressources

●   indexation sociale                 ●   rigueur dans la
                                           description (lecture par
●   appariement statistique                machine, IA)
    (notamment pour la
    publicité)                         ●   délégation in fine à la
                                           machine (échanges
                                           multi-agents)
Web socio-sémantique
●   Fournir des outils (sémantiques et
    logiciels de traitement) qui sauront
    prendre place dans l'existant
●   Production coopérative de sens
    (Wikipedia, catalogues coopératifs,
    bibliothèques numériques,
    cyberinfrastructures)
●   Plusieurs méthodes pour diminuer la
    pression cognitive sur le lecteur
    (sélection, résumé, émergence,
    ou conseil, commentaire, réseau social ?)
Un web de métadonnées
●   Metadata is machine understandable information
    about web resources or other things Tim Berners-Lee
●   metadata is data les métadonnées sont enregistrées
    comme des données, et on peut à nouveau faire des
    assertions sur elles
●   The architecture is of metadata represented as a set
    of independent assertions. chaque assertion est
    indépendante
●   As much as possible of the syntax and semantics
    should be able to be acquired by reference from a
    metadata document.
●   Un web de métadonnées
    http://w3c.org/DesignIssues/Metadata
Métadonnées
●   Données permettant de décrire
    d'autres documents ou données
●   Exploitables par des robots
●   Utilisées pour classer, repérer,
    organiser l'information
●   Exemple : les fiches catalographiques
    des bibliothèques
●   Exemple : les tag ID3 des fichiers mp3
Métadonnées
              documentaires
●   4 types d'informations
    –   Contenu : titre, sujet, description, source,
        langage, relation, couverture
    –   Propriété intellectuelle : créateur,
        éditeur, contributeur, droits
    –   Matérialisation : date, type, format,
        identifiant.
    –   Géolocalisation : données GPS,
        thésaurus des villes et régions
Dublin Core
●   1. Title         ●   8. Type
●   2. Creator       ●   9. Format
●   3. Subject       ●   10. Identifier
●   4. Description   ●   11. Source
●   5. Publisher     ●   12. Language
●   6. Contributor   ●   13. Relation
●   7. Date
Images
●   Données EXIF
    –   données physiques
    –   intégrées directement dans l'image par les
        appareils numériques
●   Données XMP
    –   données physiques et documentaires
    –   usage lié aux logiciels de traitement
        d'images (Photoshop, Acrobat,...)
    –   XML : données extensives
    –   http://www.adobe.com/products/xmp/
Son
●   Nécessité de
    contextualiser les
    documents sonores
●   Nouveaux enjeux de
    l'industrie musicale
●   appariement
    (Pandora) ou
    pression sociale
    (lastFM)
RDF
  ●   RDF : Resource
      Description
      Framework
  ●   Un langage de graphe
  ●   indépendance des
      assertions
  ●   utilisé pour les
      métadonnées
Représentation XML
●   <?xml version=quot;1.0quot;?>
    <rdf:RDF xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;
    xmlns:dc=quot;http://purl.org/dc/elements/1.1/quot;
    xmlns:exterms=quot;http://www.example.org/terms/quot;>

    <rdf:Description
        rdf:about=quot;http://www.example.org/index.htmlquot;>
    <exterms:creation-date>August 16,
                      1999</exterms:creation-date>
    <dc:language>en</dc:language>
    <dc:creator
      rdf:resource=quot;http://www.example.org/staffid/85740quot;/>

    </rdf:Description>
    </rdf:RDF>
Assertions
●   En RDF, chaque assertion est
    indépendante
●   on la représente par un triplet
●   Sujet : à propos de quoi (about)
●   Prédicat : quelle relation
●    Objet : quel renseignement sur cette
    relation
Exemple
●   Hernani est une pièce de théâtre dont
    l'auteur est Victor Hugo
●   Hernani est une pièce de théâtre
    –   Hernani : sujet
    –   est une : prédicat
    –   pièce de théâtre : objet
●   Hernani a pour auteur Victor Hugo
    –   Hernani : sujet
    –   auteur : prédicat
    –   Victor Hugo : objet
RDF-A
●   Intégrer les triplets RDF dans du code
    HTML
●   <p class=quot;contactinfoquot; about=quot;http://example.org/staff/joquot;>
        My name is
        <span property=quot;contact:fnquot;>Jo Smith</span>.
        I'm a
        <span property=quot;contact:titlequot;>
             distinguished web engineer
        </span>
        at
        <a rel=quot;contact:orgquot; href=quot;http://example.orgquot;>
                 Example.org
        </a>.
        You can contact me
           <a rel=quot;contact:emailquot; href=quot;mailto:jo@example.orgquot;>
                via email
           </a>
     </p>
Le « cake » du web
    sémantique
URI
●   Chaque élément d'une assertion
    (triplet) est représenté par un URI
●   Uniform Ressource Identifier
●   Désigner des documents, des modes
    d'organisation (schémas, ontologies)
●   exemple : que veut dire titre en DC
●   http://dublincore.org/2006/12/18/dces.rdf#title
URL
●   Uniform ressource Locator
●   Notation mondiale pour retrouver un
    document (nappe de restaurant)
●   choisir une dénomination claire,
    mémorisable
●   le « nom de domaine » est un choix
    pour organiser l'espace mental
URL ->architecture de
            l'information
●   éviter les URL trop longs
    –   http://bbf.enssib.fr/sdx/BBF/frontoffice/2007/03/document.xsp?id=bbf-2007-03-0005-
        001/2007/03/fam-dossier/dossier&statutMaitre=non&statutFils=non

●   ne pas mélanger la désignation du
    document et la méthode technique
    utilisée pour le retrouver
    –   http://monsite.com/article.php?534
●   clarté des URL (marque de confiance)
    –   http://tinyurl.com/a45r67
●   référencement
URL rewriting
●   Organiser son site pour pouvoir
    nommer les documents (modèle de la
    classification)
●   Diffuser des versions stables des URL
●   Ré-écrire les URL à l'entrée du site
●   Utiliser un « routeur » interne pour
    orienter vers les documents
Du document aux relations
●   XML : balisage sémantique
●   RDF : relations sémantiques
●   Lecture : interprétation par un humain
●   Extraction : transformer l'information
    (GRDDL) en utilisant au mieux le
    balisage (microformats, RDF-A)
●   Requêtes logiques :         extraire un « sous-
    graphe » en tenant compte des définitions des
    relations logiques (prédicats) – langage
    SPARQL
GRDDL
●   Indiquer la présence de données à
    l'intérieur d'un document
    (microformats, RDF-a,...)
●   Indiquer l'URI d'un programme
    susceptible de transformer ces données
    en un fichier RDF
●   Glanage : ré-utilisation secondaire des
    informations diffusées
Cycle de vie du document
●   maîtriser les outils de création et de
    gestion,
●   faciliter les échanges et la diffusion,
●   garantir l’accessibilité et la
    conservation.
●   -> de la création à l'archivage (et
    éventuellement la destruction)
Enjeux
●   Organisation : une seule chaîne de
    traitement pour tous les formats (papier,
    web, mobile,...)
●   Culture commune : formation aux outils,
    compréhension du devenir des documents –
    anti-conversation ?
●   Economie : faire face à la masse des
    documents (temps de lecture, synthèse)
●   Patrimoine : conserver la mémoire
    numérique et numériser la mémoire
Référence
●   Pouvoir se référer à un document
    numérique
●   A tout moment (du présent à
    l'archivage -> traçabilité documentaire)
●   Document et preuve (B2B, contrats)
●   Pérennité, intégrité, sécurité
Questions
●   Normalisation (technique, règles de
    conservation)
●   De la base de données au document
    (du transactionnel au pérenne)
●   Signature et horodatage
●   Support de stockage, de diffusion,
    d'archivage
●   => Architectes de l'information
Redocumentarisation
●   Les documents numériques
    ont besoin de clés de
    description complexes (et
    d'outils d'interprétation de
    cette complexité)
●   le continuum numérique
    permet d'associer traces et
    documents aux relations
    humaines
●   organiser la gouvernance de
    l'univers documentaire
    numérique (sélection,
    validation, conservation,...)
Recherche
●   RTP-Doc -> Roger T. Pédauque
●   Réseau coopératif de la recherche sur
    le document numérique (170
    chercheurs francophones)
●   Trois angles :
    –   forme : relation anthropologique à la
        lecture
    –   texte : interprétation, classification
    –   médium : relation et organisation sociale
Enseignement
●   Nécessité de formations assurant la synthèse
    des trois aspects du DN
●   Nouveaux corps de métiers (archivage
    électronique, cycle de vie, architectes de
    l'information, ingénierie documentaire,
    projection et plannification)
●   Formation permanente
●   Université de Caen + CNAM Paris
●   Master « Document numérique » à la
    rentrée 2008
Roger T. Pédauque
●   Comme l'ère industrielle a été marquée par
    l'interchangeabilité des parties, la société de
    l'information serait caractérisée par la possibilité
    de ré-utiliser l'information (p.71)
●   Un document ne serait finalement qu'un contrat
    entre les hommes dont les qualités
    anthropologiques (lisibilité, perception),
    intellectuelles (compréhension, assimilation) et
    sociales (sociabilité, intégration) fonderait une
    part de leur humanité, de leur capacité à vivre
    ensemble. Dans cette perspective, le numérique
    n'est qu'une modalité de multiplication et
    d'évolution de ces contrats.(p. 78)

Contenu connexe

En vedette

Wordpress Ecommerce - Core-Techs
Wordpress Ecommerce - Core-TechsWordpress Ecommerce - Core-Techs
Wordpress Ecommerce - Core-TechsCore-Techs
 
Conférence EBB HEC Montréal (Juin 07)
Conférence EBB HEC Montréal (Juin 07)Conférence EBB HEC Montréal (Juin 07)
Conférence EBB HEC Montréal (Juin 07)mekkiberrada
 
Dossier entreprendre-revue management 1215
Dossier entreprendre-revue management 1215Dossier entreprendre-revue management 1215
Dossier entreprendre-revue management 1215Pascale MANTEAUX
 
Avensi et L'innovation
Avensi et  L'innovationAvensi et  L'innovation
Avensi et L'innovationDidier Plane
 
Ifop: Observatoire des réseaux sociaux 2013
Ifop: Observatoire des réseaux sociaux 2013Ifop: Observatoire des réseaux sociaux 2013
Ifop: Observatoire des réseaux sociaux 2013azizhaddad
 
Business etiquette
Business etiquetteBusiness etiquette
Business etiquetteColl2015
 
Introduction à Twitter
Introduction à TwitterIntroduction à Twitter
Introduction à TwitterAymeric
 
Rapport tv connectée
Rapport tv connectéeRapport tv connectée
Rapport tv connectéeazizhaddad
 
Présentation Quotero Soirée Du 5 Mars 2009
Présentation Quotero Soirée Du 5 Mars 2009Présentation Quotero Soirée Du 5 Mars 2009
Présentation Quotero Soirée Du 5 Mars 2009Core-Techs
 
Les Plus Belles Photos De 2005 Magni
Les Plus Belles Photos De 2005 MagniLes Plus Belles Photos De 2005 Magni
Les Plus Belles Photos De 2005 Magniguest106888
 
Choisir Deployer Collaboratif 21640 23333
Choisir Deployer Collaboratif 21640 23333Choisir Deployer Collaboratif 21640 23333
Choisir Deployer Collaboratif 21640 23333Core-Techs
 
iZotope Studio de demo Merging PRESS
iZotope Studio  de demo Merging PRESSiZotope Studio  de demo Merging PRESS
iZotope Studio de demo Merging PRESSMaurice Engler
 
Keynote drupagora 2015 7
Keynote drupagora 2015 7Keynote drupagora 2015 7
Keynote drupagora 2015 7Core-Techs
 
Reseaux Sociaux Pro Intro 30102009
Reseaux Sociaux Pro Intro 30102009Reseaux Sociaux Pro Intro 30102009
Reseaux Sociaux Pro Intro 30102009Aymeric
 
Diapotraiteuropen
DiapotraiteuropenDiapotraiteuropen
Diapotraiteuropeneuropablues
 

En vedette (20)

Wordpress Ecommerce - Core-Techs
Wordpress Ecommerce - Core-TechsWordpress Ecommerce - Core-Techs
Wordpress Ecommerce - Core-Techs
 
Conférence EBB HEC Montréal (Juin 07)
Conférence EBB HEC Montréal (Juin 07)Conférence EBB HEC Montréal (Juin 07)
Conférence EBB HEC Montréal (Juin 07)
 
Dossier entreprendre-revue management 1215
Dossier entreprendre-revue management 1215Dossier entreprendre-revue management 1215
Dossier entreprendre-revue management 1215
 
Avensi et L'innovation
Avensi et  L'innovationAvensi et  L'innovation
Avensi et L'innovation
 
Ifop: Observatoire des réseaux sociaux 2013
Ifop: Observatoire des réseaux sociaux 2013Ifop: Observatoire des réseaux sociaux 2013
Ifop: Observatoire des réseaux sociaux 2013
 
Business etiquette
Business etiquetteBusiness etiquette
Business etiquette
 
Diapo c2 i
Diapo c2 iDiapo c2 i
Diapo c2 i
 
Introduction à Twitter
Introduction à TwitterIntroduction à Twitter
Introduction à Twitter
 
Rapport tv connectée
Rapport tv connectéeRapport tv connectée
Rapport tv connectée
 
Esquire1
Esquire1Esquire1
Esquire1
 
Présentation Quotero Soirée Du 5 Mars 2009
Présentation Quotero Soirée Du 5 Mars 2009Présentation Quotero Soirée Du 5 Mars 2009
Présentation Quotero Soirée Du 5 Mars 2009
 
BTP Palamatic Process
BTP Palamatic ProcessBTP Palamatic Process
BTP Palamatic Process
 
Portfolio Marc-André Archambault
Portfolio Marc-André ArchambaultPortfolio Marc-André Archambault
Portfolio Marc-André Archambault
 
Les Plus Belles Photos De 2005 Magni
Les Plus Belles Photos De 2005 MagniLes Plus Belles Photos De 2005 Magni
Les Plus Belles Photos De 2005 Magni
 
Choisir Deployer Collaboratif 21640 23333
Choisir Deployer Collaboratif 21640 23333Choisir Deployer Collaboratif 21640 23333
Choisir Deployer Collaboratif 21640 23333
 
LEYRE
LEYRELEYRE
LEYRE
 
iZotope Studio de demo Merging PRESS
iZotope Studio  de demo Merging PRESSiZotope Studio  de demo Merging PRESS
iZotope Studio de demo Merging PRESS
 
Keynote drupagora 2015 7
Keynote drupagora 2015 7Keynote drupagora 2015 7
Keynote drupagora 2015 7
 
Reseaux Sociaux Pro Intro 30102009
Reseaux Sociaux Pro Intro 30102009Reseaux Sociaux Pro Intro 30102009
Reseaux Sociaux Pro Intro 30102009
 
Diapotraiteuropen
DiapotraiteuropenDiapotraiteuropen
Diapotraiteuropen
 

Similaire à Document et structure : vers un web socio-sémantique

Le Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entrepriseLe Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entreprisemastertic
 
Le Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entrepriseLe Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entreprisemastertic
 
Le Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entrepriseLe Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entreprisemastertic
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
 
Tour d'horizon des CMS Open Source
Tour d'horizon des CMS Open SourceTour d'horizon des CMS Open Source
Tour d'horizon des CMS Open SourceYannick Pavard
 
Comment évaluer la qualité d'un site web selon les techniques d'intégration w...
Comment évaluer la qualité d'un site web selon les techniques d'intégration w...Comment évaluer la qualité d'un site web selon les techniques d'intégration w...
Comment évaluer la qualité d'un site web selon les techniques d'intégration w...Renoir Boulanger
 
Organiser sa veille au fil du web
Organiser sa veille au fil du webOrganiser sa veille au fil du web
Organiser sa veille au fil du webAref Jdey
 
PowerPoint sur le Web 2.0
PowerPoint sur le Web 2.0PowerPoint sur le Web 2.0
PowerPoint sur le Web 2.0guest4ca1b
 
Slideshare - Web 2.0
Slideshare - Web 2.0Slideshare - Web 2.0
Slideshare - Web 2.0agirard003
 
Le Web 2.0
Le Web 2.0Le Web 2.0
Le Web 2.0clemdups
 
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliothequeEcole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliothequeMehdi Hamime
 
Les critères de choix d'un intranet
Les critères de choix d'un intranetLes critères de choix d'un intranet
Les critères de choix d'un intranetParis, France
 
Développer pour tous les navigateurs
Développer pour tous les navigateursDévelopper pour tous les navigateurs
Développer pour tous les navigateursMicrosoft
 
L avenir du web au prisme de la resource
L avenir du web au prisme de la resourceL avenir du web au prisme de la resource
L avenir du web au prisme de la resourceFabien Gandon
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Réussir son projet Drupal
Réussir son projet DrupalRéussir son projet Drupal
Réussir son projet DrupalAdyax
 

Similaire à Document et structure : vers un web socio-sémantique (20)

Le Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entrepriseLe Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entreprise
 
Le Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entrepriseLe Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entreprise
 
Le Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entrepriseLe Web comme plateforme TIC pour l'entreprise
Le Web comme plateforme TIC pour l'entreprise
 
Web Doc Adbs 6juillet2007
Web Doc Adbs 6juillet2007Web Doc Adbs 6juillet2007
Web Doc Adbs 6juillet2007
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
Tour d'horizon des CMS Open Source
Tour d'horizon des CMS Open SourceTour d'horizon des CMS Open Source
Tour d'horizon des CMS Open Source
 
Comment évaluer la qualité d'un site web selon les techniques d'intégration w...
Comment évaluer la qualité d'un site web selon les techniques d'intégration w...Comment évaluer la qualité d'un site web selon les techniques d'intégration w...
Comment évaluer la qualité d'un site web selon les techniques d'intégration w...
 
Organiser sa veille au fil du web
Organiser sa veille au fil du webOrganiser sa veille au fil du web
Organiser sa veille au fil du web
 
PowerPoint sur le Web 2.0
PowerPoint sur le Web 2.0PowerPoint sur le Web 2.0
PowerPoint sur le Web 2.0
 
Slideshare - Web 2.0
Slideshare - Web 2.0Slideshare - Web 2.0
Slideshare - Web 2.0
 
Le Web 2.0
Le Web 2.0Le Web 2.0
Le Web 2.0
 
Web 2.0
Web 2.0Web 2.0
Web 2.0
 
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliothequeEcole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
Ecole ESMA : Rapport de projet - Application de gestion d'une bibliotheque
 
Musée virtuel -
Musée virtuel - Musée virtuel -
Musée virtuel -
 
Les critères de choix d'un intranet
Les critères de choix d'un intranetLes critères de choix d'un intranet
Les critères de choix d'un intranet
 
Web 2.0 : Blogs, RSS & Wikis
Web 2.0 : Blogs, RSS & WikisWeb 2.0 : Blogs, RSS & Wikis
Web 2.0 : Blogs, RSS & Wikis
 
Développer pour tous les navigateurs
Développer pour tous les navigateursDévelopper pour tous les navigateurs
Développer pour tous les navigateurs
 
L avenir du web au prisme de la resource
L avenir du web au prisme de la resourceL avenir du web au prisme de la resource
L avenir du web au prisme de la resource
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Réussir son projet Drupal
Réussir son projet DrupalRéussir son projet Drupal
Réussir son projet Drupal
 

Document et structure : vers un web socio-sémantique

  • 1. Document et structure Tutorial RSI Deauville, le 27 septembre 2007 Hervé Le Crosnier Université de Caen
  • 2. Données et documents ● document : destiné à la lecture ● données : informations pouvant être « traitées » (calcul, sélection, agrégation, découverte, indexation,...) ● le numérique produit un rapprochement des données et des documents
  • 3. Données -> document ● établir une facture ● widget météo ● données : XML ● document : – html – pdf – image (svg)
  • 4. RSS ● <item> ● <title>La répression des manifestations en Birmanie a fait quatre morts</title> ● <link>http://www.lemonde.fr/web/article/0,1-0@2-3216,36- 959582,0.html?xtor=RSS-3208</link> ● <description>Les forces de l'ordre ont chargé les manifestants, mercredi à Rangoun. Le Conseil de sécurité de l'ONU doit se réunir d'urgence.</description> ● <pubDate>Wed, 26 Sep 2007 16:58:08 GMT</pubDate> ● <guid isPermaLink=quot;falsequot;>http://www.lemonde.fr/web/article/0,1-0@2- 3216,36-959582,0.html?xtor=RSS-3208</guid> ● <enclosure url=quot;http://medias.lemonde.fr/mmpub/edt/ill/2007/09/26/h_1_ill_959654_birma nie.jpgquot; type=quot;image/jpegquot; length=quot;2502quot;></enclosure> ● </item>
  • 5. Innovation ascendante ● simplicité du format ● usage simple (l'alerte de nouveautés) ● extensibilité : (X)ML ● facilité de créer des parseurs pour intégrer dans des documents dynamiques ● existence d'agrégateurs
  • 6. Producteur de flux ● intérêt : – faible utilisation de la bande passante – alerter sur les nouveautés de son site – attirer des lecteurs (économie de l'attention) – insertion de la publicité dans les flux
  • 7. Architecture Widgets Data is power
  • 8. Channel ● <?xml version=quot;1.0quot; encoding=quot;iso-8859-1quot;?><rss version=quot;2.0quot; xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;> ● <channel> ● ● <title>Le Monde.fr : A la une</title> ● <link>http://www.lemonde.fr</link> ● <description>Toute l'actualité au moment de la connexion</description> ● <copyright>Copyright Le Monde.fr</copyright> ● <image><url>http://medias.lemonde.fr/mmpub/img/lgo/lemondefr_rss.gif</url ><title>Le Monde.fr</title><link>http://www.lemonde.fr</link></image> ● <pubDate>Wed, 26 Sep 2007 17:05:25 GMT</pubDate>
  • 9. Enclosure (Podcast) ● lier à un objet numérique (son, vidéo,...) ● <item> <title>Musik Please -Hors Série- Spécial 25 ans de Hip Hop</title> <link>http://www.musikplease.com/index.php</link> <description>Une playlist thématique, histoire de tourner ensemble quelques pages de l'histoire musicale du hip hop. [...]</description> <itunes:author>Pierre Fosco</itunes:author> <itunes:subtitle>Une playlist thématique [...]</itunes:subtitle> <itunes:explicit>no</itunes:explicit> <itunes:keywords>podcast,blog</itunes:keywords> <pubDate>Thu, 20 Sep 2007 13:30:12 +0200</pubDate> <enclosure url=quot;http://pauvcast.net/explorer/podcasts/musikplease/2007/ musikpleasehs2.mp3quot; length=quot;11766717quot; type=quot;audio/mpegquot; /> <guid isPermaLink=quot;falsequot;>musikpleasehs2.mp3</guid> <dc:creator>Pierre Fosco</dc:creator> </item>
  • 10. La glu du web 2.0 ● nouvelles, flux, blogs ● playlists, délinéarisation ● espaces de nom (faire cohabiter plusieurs applications avec la même architecture de document) ● personnalisation de l'information ● déterritorialisation (accès à l'unité à partir d'annotations externes) – digg, del.icio.us, ...
  • 11. Du document aux données ● Extraction de connaissance ● Analyse linguistique et sémantique ● indexation -> – accès aux documents – appariement ● découpage de scènes (vidéo) ● reconnaissance d'objets (image)
  • 12. Encoder l'information dans le document ● distinction entre le document logique (structure de document) ● le document lisible par un humain (réalisation) ● la (les) feuilles de style ● trouver une forme d'encodage qui facilite l'extraction par des robots – de l'information – des métadonnées
  • 13. Microformats ● hCard, pour la description des personnes et organisations ● <div class=quot;vcardquot;> <div class=quot;fn orgquot;>Wikimedia Foundation Inc.</div> <div class=quot;adrquot;> <div class=quot;street-addressquot;>200 2nd Ave. South #358</div> <div> <span class=quot;localityquot;>St. Petersburg</span>, <abbr class=quot;regionquot; title=quot;Floridaquot;>FL</abbr> <span class=quot;postal-codequot;>33701-4313</span> </div> <div class=quot;country-namequot;>USA</div> </div> <div>Phone: <span class=quot;telquot;>+1-727-231-0101</span></div> <div>Email: <span class=quot;emailquot;>info@wikimedia.org</span></div> <div> <span class=quot;telquot;><span class=quot;typequot;>Fax</span>: <span class=quot;valuequot;>+1-727-258-0207</span></span> </div> </div>
  • 14. Ce que sont les µf ● un moyen de penser les données dans le document ● des principes de design pour les données ● adapté à « la sémantique du monde réel du XHTML » (lowercase semantic web) ● un support pour la création d'outils de lecture et d'extraction (cf Operator)
  • 15. ce que ne sont pas les µf ● un nouveau langage ● une obligation pour les designer à changer toutes leurs pratiques ● une panacée pour toutes les taxonimies, ontologies,... ● une approche entièrement nouvelle qui jetterait à la poubelle tout ce qui marche actuellement – http://microformats.org
  • 16. Principes des µf ● résoudre des problèmes spécifiques ● partir du plus simple possible ● un design pour les humains en premier, les machines ensuite ● réutilisation de blocs existant, modularité, capacité à s'insérer ● permet des développements et des services décentralisés
  • 17. Web 2.0 ● Un concept marketing ● Qui s'appuie sur des changement réels du web – innovations techniques – modèle de participation sociale – changement dans les formes de valorisation économique ● C'est la conjonction de ces trois renouvellements qui fait le Web 2.0
  • 18. La conversation ● les documents servent de support à des relations sociales ● on parle d'autres documents (blogs) ● on sélectionne des documents... et on le fait savoir (taggage, folksonomie) ● lecture coopérative ● priorité à l'usage (innovations ascendante, « pro-am révolution » )
  • 19. Web sémantique ● Rendre l'information disponible sur le web utilisable directement par des machines ● pour améliorer le service de filtrage ou d'extraction de connaissances proposé aux utilisateurs ● Un projet décentralisé, à l'image du web ● ... et fédérateur (visant l'ensemble du savoir)
  • 20. Quelques caractéristiques ● construire des descriptions sémantiques utilisables par des communautés à l'intérieur du web ● Le web sémantique s'appuie sur une forte normalisation – des échanges (SOAP, WSDL, XML) – des langages de descriptions (RDF, OWL) – des langages de requêtes et d'inférence (SPARQL) ● Il est nécessaire de consacrer une partie de l'énergie de production de documents à organiser des accès sémantiques (métadonnées, construction de schémas de description et d'ontologies)
  • 21. Web 2.0 et Web sémantique ● utiliser les usages ● modéliser les simples, mais cumulés, documents et leur accès des lecteurs ● construire des outils ● modélisation répartis et partagés statistiques par l'usage – sémantiques (ontologies, (cf correcteur orthographique de schémas) Google) – ressources ● indexation sociale ● rigueur dans la description (lecture par ● appariement statistique machine, IA) (notamment pour la publicité) ● délégation in fine à la machine (échanges multi-agents)
  • 22. Web socio-sémantique ● Fournir des outils (sémantiques et logiciels de traitement) qui sauront prendre place dans l'existant ● Production coopérative de sens (Wikipedia, catalogues coopératifs, bibliothèques numériques, cyberinfrastructures) ● Plusieurs méthodes pour diminuer la pression cognitive sur le lecteur (sélection, résumé, émergence, ou conseil, commentaire, réseau social ?)
  • 23. Un web de métadonnées ● Metadata is machine understandable information about web resources or other things Tim Berners-Lee ● metadata is data les métadonnées sont enregistrées comme des données, et on peut à nouveau faire des assertions sur elles ● The architecture is of metadata represented as a set of independent assertions. chaque assertion est indépendante ● As much as possible of the syntax and semantics should be able to be acquired by reference from a metadata document. ● Un web de métadonnées http://w3c.org/DesignIssues/Metadata
  • 24. Métadonnées ● Données permettant de décrire d'autres documents ou données ● Exploitables par des robots ● Utilisées pour classer, repérer, organiser l'information ● Exemple : les fiches catalographiques des bibliothèques ● Exemple : les tag ID3 des fichiers mp3
  • 25. Métadonnées documentaires ● 4 types d'informations – Contenu : titre, sujet, description, source, langage, relation, couverture – Propriété intellectuelle : créateur, éditeur, contributeur, droits – Matérialisation : date, type, format, identifiant. – Géolocalisation : données GPS, thésaurus des villes et régions
  • 26. Dublin Core ● 1. Title ● 8. Type ● 2. Creator ● 9. Format ● 3. Subject ● 10. Identifier ● 4. Description ● 11. Source ● 5. Publisher ● 12. Language ● 6. Contributor ● 13. Relation ● 7. Date
  • 27. Images ● Données EXIF – données physiques – intégrées directement dans l'image par les appareils numériques ● Données XMP – données physiques et documentaires – usage lié aux logiciels de traitement d'images (Photoshop, Acrobat,...) – XML : données extensives – http://www.adobe.com/products/xmp/
  • 28. Son ● Nécessité de contextualiser les documents sonores ● Nouveaux enjeux de l'industrie musicale ● appariement (Pandora) ou pression sociale (lastFM)
  • 29. RDF ● RDF : Resource Description Framework ● Un langage de graphe ● indépendance des assertions ● utilisé pour les métadonnées
  • 30. Représentation XML ● <?xml version=quot;1.0quot;?> <rdf:RDF xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot; xmlns:dc=quot;http://purl.org/dc/elements/1.1/quot; xmlns:exterms=quot;http://www.example.org/terms/quot;> <rdf:Description rdf:about=quot;http://www.example.org/index.htmlquot;> <exterms:creation-date>August 16, 1999</exterms:creation-date> <dc:language>en</dc:language> <dc:creator rdf:resource=quot;http://www.example.org/staffid/85740quot;/> </rdf:Description> </rdf:RDF>
  • 31. Assertions ● En RDF, chaque assertion est indépendante ● on la représente par un triplet ● Sujet : à propos de quoi (about) ● Prédicat : quelle relation ● Objet : quel renseignement sur cette relation
  • 32. Exemple ● Hernani est une pièce de théâtre dont l'auteur est Victor Hugo ● Hernani est une pièce de théâtre – Hernani : sujet – est une : prédicat – pièce de théâtre : objet ● Hernani a pour auteur Victor Hugo – Hernani : sujet – auteur : prédicat – Victor Hugo : objet
  • 33. RDF-A ● Intégrer les triplets RDF dans du code HTML ● <p class=quot;contactinfoquot; about=quot;http://example.org/staff/joquot;> My name is <span property=quot;contact:fnquot;>Jo Smith</span>. I'm a <span property=quot;contact:titlequot;> distinguished web engineer </span> at <a rel=quot;contact:orgquot; href=quot;http://example.orgquot;> Example.org </a>. You can contact me <a rel=quot;contact:emailquot; href=quot;mailto:jo@example.orgquot;> via email </a> </p>
  • 34. Le « cake » du web sémantique
  • 35. URI ● Chaque élément d'une assertion (triplet) est représenté par un URI ● Uniform Ressource Identifier ● Désigner des documents, des modes d'organisation (schémas, ontologies) ● exemple : que veut dire titre en DC ● http://dublincore.org/2006/12/18/dces.rdf#title
  • 36. URL ● Uniform ressource Locator ● Notation mondiale pour retrouver un document (nappe de restaurant) ● choisir une dénomination claire, mémorisable ● le « nom de domaine » est un choix pour organiser l'espace mental
  • 37. URL ->architecture de l'information ● éviter les URL trop longs – http://bbf.enssib.fr/sdx/BBF/frontoffice/2007/03/document.xsp?id=bbf-2007-03-0005- 001/2007/03/fam-dossier/dossier&statutMaitre=non&statutFils=non ● ne pas mélanger la désignation du document et la méthode technique utilisée pour le retrouver – http://monsite.com/article.php?534 ● clarté des URL (marque de confiance) – http://tinyurl.com/a45r67 ● référencement
  • 38. URL rewriting ● Organiser son site pour pouvoir nommer les documents (modèle de la classification) ● Diffuser des versions stables des URL ● Ré-écrire les URL à l'entrée du site ● Utiliser un « routeur » interne pour orienter vers les documents
  • 39. Du document aux relations ● XML : balisage sémantique ● RDF : relations sémantiques ● Lecture : interprétation par un humain ● Extraction : transformer l'information (GRDDL) en utilisant au mieux le balisage (microformats, RDF-A) ● Requêtes logiques : extraire un « sous- graphe » en tenant compte des définitions des relations logiques (prédicats) – langage SPARQL
  • 40. GRDDL ● Indiquer la présence de données à l'intérieur d'un document (microformats, RDF-a,...) ● Indiquer l'URI d'un programme susceptible de transformer ces données en un fichier RDF ● Glanage : ré-utilisation secondaire des informations diffusées
  • 41. Cycle de vie du document ● maîtriser les outils de création et de gestion, ● faciliter les échanges et la diffusion, ● garantir l’accessibilité et la conservation. ● -> de la création à l'archivage (et éventuellement la destruction)
  • 42. Enjeux ● Organisation : une seule chaîne de traitement pour tous les formats (papier, web, mobile,...) ● Culture commune : formation aux outils, compréhension du devenir des documents – anti-conversation ? ● Economie : faire face à la masse des documents (temps de lecture, synthèse) ● Patrimoine : conserver la mémoire numérique et numériser la mémoire
  • 43. Référence ● Pouvoir se référer à un document numérique ● A tout moment (du présent à l'archivage -> traçabilité documentaire) ● Document et preuve (B2B, contrats) ● Pérennité, intégrité, sécurité
  • 44. Questions ● Normalisation (technique, règles de conservation) ● De la base de données au document (du transactionnel au pérenne) ● Signature et horodatage ● Support de stockage, de diffusion, d'archivage ● => Architectes de l'information
  • 45. Redocumentarisation ● Les documents numériques ont besoin de clés de description complexes (et d'outils d'interprétation de cette complexité) ● le continuum numérique permet d'associer traces et documents aux relations humaines ● organiser la gouvernance de l'univers documentaire numérique (sélection, validation, conservation,...)
  • 46. Recherche ● RTP-Doc -> Roger T. Pédauque ● Réseau coopératif de la recherche sur le document numérique (170 chercheurs francophones) ● Trois angles : – forme : relation anthropologique à la lecture – texte : interprétation, classification – médium : relation et organisation sociale
  • 47. Enseignement ● Nécessité de formations assurant la synthèse des trois aspects du DN ● Nouveaux corps de métiers (archivage électronique, cycle de vie, architectes de l'information, ingénierie documentaire, projection et plannification) ● Formation permanente ● Université de Caen + CNAM Paris ● Master « Document numérique » à la rentrée 2008
  • 48. Roger T. Pédauque ● Comme l'ère industrielle a été marquée par l'interchangeabilité des parties, la société de l'information serait caractérisée par la possibilité de ré-utiliser l'information (p.71) ● Un document ne serait finalement qu'un contrat entre les hommes dont les qualités anthropologiques (lisibilité, perception), intellectuelles (compréhension, assimilation) et sociales (sociabilité, intégration) fonderait une part de leur humanité, de leur capacité à vivre ensemble. Dans cette perspective, le numérique n'est qu'une modalité de multiplication et d'évolution de ces contrats.(p. 78)