SlideShare uma empresa Scribd logo
1 de 24
Baixar para ler offline
Julien Cojan
Inria – équipe Wimmics
●   Extraction de données depuis Wikipédia en
    français

●   Membre du comité d'internationalisation
    (12 chapitres)
    http://dbpedia.org/Internationalization
Données
Données extraites de Wikipédia
Données extraites de Wikipédia

     48.861073        2.335784
                                            Catégorie:
                                        Musée_égyptologique
                               longitude
                 latitude
  Infobox
   Musée                                      catégorie
                    modèle
                                  Musée
                   Date          du Louvre
  10/08/1793
                 ouverture                    ville
                                 pays
                     adresse
99, rue de Rivoli
  75001 Paris                                Paris



                     France
Données extraites de Wikipédia

     48.861073        2.335784
                                             Catégorie:
                                         Musée_égyptologique
                               longitude
                 latitude
  Infobox
   Musée                                         catégorie
                    modèle

                             Musée du Louvre
                   Date
  10/08/1793
                 ouverture                       ville
                                 pays
                     adresse
99, rue de Rivoli
  75001 Paris                                  Paris

                                        pays             code insee
                                                             75056
                                               région
                     France


                                               Île-de-France
Données extraites de Wikipédia

     48.861073        2.335784
                                             Catégorie:
                                         Musée_égyptologique
                               longitude
                 latitude
  Infobox
   Musée                                         catégorie
                    modèle

                             Musée du Louvre
                   Date
  10/08/1793
                 ouverture                       ville
                                 pays
                     adresse
99, rue de Rivoli
  75001 Paris                                   Paris

                                        pays             code insee
                                                             75056
                                               région
                     France
                                    pays
                                               Île-de-France
Nommage des ressources

                  Sujet des articles de DBpedia :
Musée du Louvre
                    http://fr.dbpedia.org/resource/[Nom_Page]
                           dbFr:



                  Propriétés extraites textuellement :
     pays           http://fr.dbpedia.org/property/[propriété]
                           dbFr-prop:
Représentation RDF

●   RDF : Resource Description Format
       standard du W3C pour la représentation de données
    structurées


●   Triplet : arrête du graphe
                Musée du Louvre              ville             Paris


       dbpedia-fr:Musée_du_Louvre   dbpediaFr-prop:ville   dbpedia-fr:Paris

               (Sujet)                (predicat)              (objet)
Mais aussi :

●   Vocabulaire normalisé
    (Ontologie DBpedia)

●   URI stables
Vocabulaire normalisé

Problèmes soulevés par l'extraction textuelle
●   Mêmes termes, plusieurs sens
            Musée du Louvre       pays            France


              Raymond            pays             France
              Poulidor



●   Différents termes avec le même sens
             Emmanuel Kant       naissance
                                                    22/04/1724



              Le Corbusier    date de naissance
                                                    06/10/1887
Vocabulaire normalisé

Vocabulaire défini collaborativement sur
  http://mappings.dbpedia.org

Ontologie :
● Hiérarchie de classes

   http://dbpedia.org/ontology/Museum
● Propriétés

   http://dbpedia.org/ontology/city dbo:

Mappings :              Infobox                                   dbo :
              infobox    Musée                          rdf:type Museum
   Musée du                                  Musée du
    Louvre                                    Louvre
               ville                                    dbo:city
                         Paris                                     Paris
URI stables


●   Lorsqu'une page est renommée
     « Le Louvre »           « Palais du Louvre »
        dbFr :Le_Louvre                        dbFr :Palais_du_Louvre


●   Introduction d'URI ne indépendante du titre
     http://fr.dbpedia.org/resourceById/469958
                                    dbFrId:
    dbFrId :                                    dbFrId :
    469958                                      469958
                 owl:                                        owl:
               sameAs                                      sameAs         dbFr :
                          dbFr :                                    Palais_du_Louvre
                        Le_Louvre
Volume des données

fichier                nbr de triplets   fichier              nbr de triplets
correspondance avec    7574361           liens interlangues   1876807
les pages wikipédia                      liens entre pages    60849851
id page wikipédia      2863425
titre des pages        2524787           redirections         1214339
extraction d'infobox   16579168          homonymie            298634
textuelle                                liens vers           3779203
extraction d'infobox   2092711           catégories
normalisée                               categories           201230
types des instances    2118305           liens externes       2140229
                                         images               1649470

En total 130 millions de triplets.
 (soit le second chapitre en taille).
Interroger les données
Accès aux données

●   Téléchargement de l'ensemble des données
      http://fr.dbpedia.org/download/
      (licence: CC – BY – SA)

                                         http
●   Par déréférencement


●   SPARQL                              SPARQL
      http://fr.dbpedia.org/sparql
Déréférencement

http://fr.dbpedia.org/resource/Musée_du_Louvre
SPARQL


●   Langage de requête sur des données RDF

●   Standard du W3C

●   Accessible à http://fr.dbpedia.org/sparql
Exemple SPARQL 1

                                    Musées à Paris
                                SELECT DISTINCT ?m WHERE {
Musée                            ?m rdf:type dbpedia-owl:Museum .
                                 ?m dbpedia-owl:city dbpedia-fr:Paris .
        type                    }

               ?m


                    ville

                    Paris
Exemple SPARQL 2

                                    Musées dans une ville d'Île de
                                    France
Musée                               SELECT DISTINCT ?m?ville WHERE {
                                     ?m rdf:type dbpedia-owl:Museum .
        type                         ?m dbpedia-owl:city ?ville .
                                     ?ville dbpedia-owl:region dbpedia-fr:Île-de-France
                                    }
               ?m


                     ville

                     ?ville



                    région



                    Île-de-France
Exemple SPARQL 3

                                      Dans quelles villes y a-t-il des
                   Catégorie:         musées égyptologiques ?
               Musée_égyptologique    Combien ?
Musée                                select ?ville count(distinct ?m) as ?nb where {
                       sujet          ?m rdf:type dbpedia-owl:Museum .
        type
                                      ?m dbpedia-owl:city ?ville .
                                      ?m dcterms:subject <http://fr.dbpedia.org/
               ?m                    resource/Catégorie:Musée_égyptologique>
                                     } group by ?ville order by desc(?nb)

                     ville

                     ?ville
À venir
●   Outils
    ●   Lookup en français
        Recherche de termes par mot clés
    ●   Spotlight en français
        Reconnaissance d'entités nommées dans un texte

●   Historisation des données
Merci
Musées, DBpedia en




Musées, DBpedia fr

Mais conteúdo relacionado

Mais procurados

Kit de survie : Les bases de données
Kit de survie : Les bases de donnéesKit de survie : Les bases de données
Kit de survie : Les bases de donnéesLesticetlart Invisu
 
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Po...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Po...Artefacts attestés et conservés, cotes historiques, factices, actuelles... Po...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Po...Equipex Biblissima
 
Omeka, une plateforme pour les humanités numériques
Omeka, une plateforme pour les humanités numériquesOmeka, une plateforme pour les humanités numériques
Omeka, une plateforme pour les humanités numériquesPierre Couchet
 
Archivist's Toolkit
Archivist's ToolkitArchivist's Toolkit
Archivist's Toolkitinfoclio.ch
 
JCR Sudoc PS 2012 - Une BU belge dans le Sudoc-PS
JCR Sudoc PS 2012 - Une BU belge dans le Sudoc-PSJCR Sudoc PS 2012 - Une BU belge dans le Sudoc-PS
JCR Sudoc PS 2012 - Une BU belge dans le Sudoc-PSABES
 
Pleade 3 : Un logiciel Open Source de Recherche, Consultation, Publication d...
Pleade 3 : Un logiciel Open Source de  Recherche, Consultation, Publication d...Pleade 3 : Un logiciel Open Source de  Recherche, Consultation, Publication d...
Pleade 3 : Un logiciel Open Source de Recherche, Consultation, Publication d...infoclio.ch
 
Portails documentaires et référentiels du Web sémantique : exemples et enjeu...
Portails documentaires et  référentiels du Web sémantique : exemples et enjeu...Portails documentaires et  référentiels du Web sémantique : exemples et enjeu...
Portails documentaires et référentiels du Web sémantique : exemples et enjeu...Alexandre Monnin
 
Omeka nantes-2016-couchet
Omeka nantes-2016-couchetOmeka nantes-2016-couchet
Omeka nantes-2016-couchetPierre Couchet
 
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...Equipex Biblissima
 
Open streetmap pour CocoaHeads Paris
Open streetmap pour CocoaHeads ParisOpen streetmap pour CocoaHeads Paris
Open streetmap pour CocoaHeads ParisCocoaHeads France
 
Logiciels d'archives open source - Introduction
Logiciels d'archives open source - IntroductionLogiciels d'archives open source - Introduction
Logiciels d'archives open source - Introductioninfoclio.ch
 
MediaLille evolutions catalogage_avril2014_enjeux_1
MediaLille evolutions catalogage_avril2014_enjeux_1MediaLille evolutions catalogage_avril2014_enjeux_1
MediaLille evolutions catalogage_avril2014_enjeux_1nonue12
 

Mais procurados (14)

Kit de survie : Les bases de données
Kit de survie : Les bases de donnéesKit de survie : Les bases de données
Kit de survie : Les bases de données
 
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Po...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Po...Artefacts attestés et conservés, cotes historiques, factices, actuelles... Po...
Artefacts attestés et conservés, cotes historiques, factices, actuelles... Po...
 
omeka couchet 2013
omeka couchet 2013omeka couchet 2013
omeka couchet 2013
 
Omeka, une plateforme pour les humanités numériques
Omeka, une plateforme pour les humanités numériquesOmeka, une plateforme pour les humanités numériques
Omeka, une plateforme pour les humanités numériques
 
Archivist's Toolkit
Archivist's ToolkitArchivist's Toolkit
Archivist's Toolkit
 
Introduction à IIIF
Introduction à IIIFIntroduction à IIIF
Introduction à IIIF
 
JCR Sudoc PS 2012 - Une BU belge dans le Sudoc-PS
JCR Sudoc PS 2012 - Une BU belge dans le Sudoc-PSJCR Sudoc PS 2012 - Une BU belge dans le Sudoc-PS
JCR Sudoc PS 2012 - Une BU belge dans le Sudoc-PS
 
Pleade 3 : Un logiciel Open Source de Recherche, Consultation, Publication d...
Pleade 3 : Un logiciel Open Source de  Recherche, Consultation, Publication d...Pleade 3 : Un logiciel Open Source de  Recherche, Consultation, Publication d...
Pleade 3 : Un logiciel Open Source de Recherche, Consultation, Publication d...
 
Portails documentaires et référentiels du Web sémantique : exemples et enjeu...
Portails documentaires et  référentiels du Web sémantique : exemples et enjeu...Portails documentaires et  référentiels du Web sémantique : exemples et enjeu...
Portails documentaires et référentiels du Web sémantique : exemples et enjeu...
 
Omeka nantes-2016-couchet
Omeka nantes-2016-couchetOmeka nantes-2016-couchet
Omeka nantes-2016-couchet
 
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
 
Open streetmap pour CocoaHeads Paris
Open streetmap pour CocoaHeads ParisOpen streetmap pour CocoaHeads Paris
Open streetmap pour CocoaHeads Paris
 
Logiciels d'archives open source - Introduction
Logiciels d'archives open source - IntroductionLogiciels d'archives open source - Introduction
Logiciels d'archives open source - Introduction
 
MediaLille evolutions catalogage_avril2014_enjeux_1
MediaLille evolutions catalogage_avril2014_enjeux_1MediaLille evolutions catalogage_avril2014_enjeux_1
MediaLille evolutions catalogage_avril2014_enjeux_1
 

Destaque

Présentation baromètre seo 2014
Présentation baromètre seo 2014Présentation baromètre seo 2014
Présentation baromètre seo 2014Eric Espinosa
 
Contenidos falsos
Contenidos falsosContenidos falsos
Contenidos falsosNO19
 
Présentation 7. Procès de la production capitaliste pris dans l’ensemble 1. S...
Présentation 7. Procès de la production capitaliste pris dans l’ensemble 1. S...Présentation 7. Procès de la production capitaliste pris dans l’ensemble 1. S...
Présentation 7. Procès de la production capitaliste pris dans l’ensemble 1. S...Moscow State University
 
Analyse pandémie
Analyse pandémieAnalyse pandémie
Analyse pandémiejccalmes
 
Le carre magique de durer w
Le carre magique de durer wLe carre magique de durer w
Le carre magique de durer wDominique Pongi
 
07 la-vie-est-dure-pour-les-enseignants-2
07 la-vie-est-dure-pour-les-enseignants-207 la-vie-est-dure-pour-les-enseignants-2
07 la-vie-est-dure-pour-les-enseignants-2Dominique Pongi
 
Conférence #nwxtech2 : Voyage dans la Silicon Valley par Benjamin Quédeville
Conférence #nwxtech2 : Voyage dans la Silicon Valley par Benjamin QuédevilleConférence #nwxtech2 : Voyage dans la Silicon Valley par Benjamin Quédeville
Conférence #nwxtech2 : Voyage dans la Silicon Valley par Benjamin QuédevilleNormandie Web Xperts
 
Mon album de photos
Mon album de photosMon album de photos
Mon album de photosNope_
 
6ème les prix séquence n°3
6ème les prix séquence n°36ème les prix séquence n°3
6ème les prix séquence n°3javaudinb
 
Tuto organisation christophe carelli avec vidéo
Tuto organisation christophe carelli avec vidéoTuto organisation christophe carelli avec vidéo
Tuto organisation christophe carelli avec vidéoChristophe3667
 
Commands project
Commands projectCommands project
Commands projectlc434165mhs
 
La loi de santé 2015
La loi de santé 2015La loi de santé 2015
La loi de santé 2015Laurent Dupuis
 
Expressions faire (4)
Expressions faire (4)Expressions faire (4)
Expressions faire (4)MattBroderick
 

Destaque (20)

La retraite
La retraiteLa retraite
La retraite
 
Présentation baromètre seo 2014
Présentation baromètre seo 2014Présentation baromètre seo 2014
Présentation baromètre seo 2014
 
Never forget (1)
Never forget (1)Never forget (1)
Never forget (1)
 
Power point
Power pointPower point
Power point
 
Contenidos falsos
Contenidos falsosContenidos falsos
Contenidos falsos
 
Présentation 7. Procès de la production capitaliste pris dans l’ensemble 1. S...
Présentation 7. Procès de la production capitaliste pris dans l’ensemble 1. S...Présentation 7. Procès de la production capitaliste pris dans l’ensemble 1. S...
Présentation 7. Procès de la production capitaliste pris dans l’ensemble 1. S...
 
Analyse pandémie
Analyse pandémieAnalyse pandémie
Analyse pandémie
 
Le carre magique de durer w
Le carre magique de durer wLe carre magique de durer w
Le carre magique de durer w
 
07 la-vie-est-dure-pour-les-enseignants-2
07 la-vie-est-dure-pour-les-enseignants-207 la-vie-est-dure-pour-les-enseignants-2
07 la-vie-est-dure-pour-les-enseignants-2
 
Conférence #nwxtech2 : Voyage dans la Silicon Valley par Benjamin Quédeville
Conférence #nwxtech2 : Voyage dans la Silicon Valley par Benjamin QuédevilleConférence #nwxtech2 : Voyage dans la Silicon Valley par Benjamin Quédeville
Conférence #nwxtech2 : Voyage dans la Silicon Valley par Benjamin Quédeville
 
Chaouen
ChaouenChaouen
Chaouen
 
Mon album de photos
Mon album de photosMon album de photos
Mon album de photos
 
6ème les prix séquence n°3
6ème les prix séquence n°36ème les prix séquence n°3
6ème les prix séquence n°3
 
Tuto organisation christophe carelli avec vidéo
Tuto organisation christophe carelli avec vidéoTuto organisation christophe carelli avec vidéo
Tuto organisation christophe carelli avec vidéo
 
statistique
statistiquestatistique
statistique
 
H 15 temps_actuel_03
H 15 temps_actuel_03H 15 temps_actuel_03
H 15 temps_actuel_03
 
Impacto web
Impacto webImpacto web
Impacto web
 
Commands project
Commands projectCommands project
Commands project
 
La loi de santé 2015
La loi de santé 2015La loi de santé 2015
La loi de santé 2015
 
Expressions faire (4)
Expressions faire (4)Expressions faire (4)
Expressions faire (4)
 

DBpédia en français

  • 1. Julien Cojan Inria – équipe Wimmics
  • 2. Extraction de données depuis Wikipédia en français ● Membre du comité d'internationalisation (12 chapitres) http://dbpedia.org/Internationalization
  • 5. Données extraites de Wikipédia 48.861073 2.335784 Catégorie: Musée_égyptologique longitude latitude Infobox Musée catégorie modèle Musée Date du Louvre 10/08/1793 ouverture ville pays adresse 99, rue de Rivoli 75001 Paris Paris France
  • 6. Données extraites de Wikipédia 48.861073 2.335784 Catégorie: Musée_égyptologique longitude latitude Infobox Musée catégorie modèle Musée du Louvre Date 10/08/1793 ouverture ville pays adresse 99, rue de Rivoli 75001 Paris Paris pays code insee 75056 région France Île-de-France
  • 7. Données extraites de Wikipédia 48.861073 2.335784 Catégorie: Musée_égyptologique longitude latitude Infobox Musée catégorie modèle Musée du Louvre Date 10/08/1793 ouverture ville pays adresse 99, rue de Rivoli 75001 Paris Paris pays code insee 75056 région France pays Île-de-France
  • 8. Nommage des ressources Sujet des articles de DBpedia : Musée du Louvre http://fr.dbpedia.org/resource/[Nom_Page] dbFr: Propriétés extraites textuellement : pays http://fr.dbpedia.org/property/[propriété] dbFr-prop:
  • 9. Représentation RDF ● RDF : Resource Description Format standard du W3C pour la représentation de données structurées ● Triplet : arrête du graphe Musée du Louvre ville Paris dbpedia-fr:Musée_du_Louvre dbpediaFr-prop:ville dbpedia-fr:Paris (Sujet) (predicat) (objet)
  • 10. Mais aussi : ● Vocabulaire normalisé (Ontologie DBpedia) ● URI stables
  • 11. Vocabulaire normalisé Problèmes soulevés par l'extraction textuelle ● Mêmes termes, plusieurs sens Musée du Louvre pays France Raymond pays France Poulidor ● Différents termes avec le même sens Emmanuel Kant naissance 22/04/1724 Le Corbusier date de naissance 06/10/1887
  • 12. Vocabulaire normalisé Vocabulaire défini collaborativement sur http://mappings.dbpedia.org Ontologie : ● Hiérarchie de classes http://dbpedia.org/ontology/Museum ● Propriétés http://dbpedia.org/ontology/city dbo: Mappings : Infobox dbo : infobox Musée rdf:type Museum Musée du Musée du Louvre Louvre ville dbo:city Paris Paris
  • 13. URI stables ● Lorsqu'une page est renommée « Le Louvre » « Palais du Louvre » dbFr :Le_Louvre dbFr :Palais_du_Louvre ● Introduction d'URI ne indépendante du titre http://fr.dbpedia.org/resourceById/469958 dbFrId: dbFrId : dbFrId : 469958 469958 owl: owl: sameAs sameAs dbFr : dbFr : Palais_du_Louvre Le_Louvre
  • 14. Volume des données fichier nbr de triplets fichier nbr de triplets correspondance avec 7574361 liens interlangues 1876807 les pages wikipédia liens entre pages 60849851 id page wikipédia 2863425 titre des pages 2524787 redirections 1214339 extraction d'infobox 16579168 homonymie 298634 textuelle liens vers 3779203 extraction d'infobox 2092711 catégories normalisée categories 201230 types des instances 2118305 liens externes 2140229 images 1649470 En total 130 millions de triplets. (soit le second chapitre en taille).
  • 16. Accès aux données ● Téléchargement de l'ensemble des données http://fr.dbpedia.org/download/ (licence: CC – BY – SA) http ● Par déréférencement ● SPARQL SPARQL http://fr.dbpedia.org/sparql
  • 18. SPARQL ● Langage de requête sur des données RDF ● Standard du W3C ● Accessible à http://fr.dbpedia.org/sparql
  • 19. Exemple SPARQL 1 Musées à Paris SELECT DISTINCT ?m WHERE { Musée ?m rdf:type dbpedia-owl:Museum . ?m dbpedia-owl:city dbpedia-fr:Paris . type } ?m ville Paris
  • 20. Exemple SPARQL 2 Musées dans une ville d'Île de France Musée SELECT DISTINCT ?m?ville WHERE { ?m rdf:type dbpedia-owl:Museum . type ?m dbpedia-owl:city ?ville . ?ville dbpedia-owl:region dbpedia-fr:Île-de-France } ?m ville ?ville région Île-de-France
  • 21. Exemple SPARQL 3 Dans quelles villes y a-t-il des Catégorie: musées égyptologiques ? Musée_égyptologique Combien ? Musée select ?ville count(distinct ?m) as ?nb where { sujet ?m rdf:type dbpedia-owl:Museum . type ?m dbpedia-owl:city ?ville . ?m dcterms:subject <http://fr.dbpedia.org/ ?m resource/Catégorie:Musée_égyptologique> } group by ?ville order by desc(?nb) ville ?ville
  • 22. À venir ● Outils ● Lookup en français Recherche de termes par mot clés ● Spotlight en français Reconnaissance d'entités nommées dans un texte ● Historisation des données
  • 23. Merci