SlideShare uma empresa Scribd logo
1 de 18
[ « Wikipédia, objet scientifique non identifié » (ISCC, Paris) – 05 juin 2013 ]
Collecter des données sur Wikipédia : application à la
création d’une base de données biographiques
Dr Ir Robert Viseur
2
Qu'a-t-on fait avec Wikipédia ? (1/2)
• Contexte général :
• Usage de plus en plus fréquent du contenu de Wikipédia
dans les domaines techniques et scientifiques
(classification de documents, REN, création d'URI, etc.).
• Plus de 22 mille résultats pour la requête « Exploiting
Wikipédia » dans Google Scholar (scholar.google.fr).
• Contexte interne :
• Demande d'une entreprise pour l'aider...
• à créer d'une base de données biographique depuis
Wikipédia (personnalités belges).
• Recherche menée principalement au CETIC, avec le
soutien de l'UMONS (FPMs).
3
Qu'a-t-on fait avec Wikipedia ? (2/2)
• Ce qui est présenté ici = travail d'évaluation.
• Cinq étapes principales :
1.Identification des articles pertinents.
2.Extraction des données depuis le texte.
3.Inventaire des difficultés rencontrées.
4.Évaluation de la qualité de l'extraction.
5.Évaluation de la fiabilité des données (en cours).
4
Comment pensait-on pouvoir
procéder ?
• En exploitant les informations structurées.
5
Étape 1 : identification des articles
• Comparaison :
• Interrogation d'une copie de base de données
Wikipédia (via les dumps publics).
• Accès par crawl des catégories (portail Belgique ->
Personnalités belges) vs...
• Accès par requête SPARQL (exploitation de la
propriété « birthPlace » dans DBPedia).
6
Étape 2 : extraction des données
depuis le texte (1/2)
• Accès au texte des articles par
URL du
type http://fr.wikipedia.org/
w/index.php?
action=raw&title=xxxxx.
• Extraction du texte de l'article
et de l'Infobox (si l'article en
possède un).
• Extraction depuis le texte des
dates de naissance et de
décès, ainsi que des
professions.
7
Étape 2 : extraction des données
depuis le texte (2/2)
• L'analyse du texte se fait par la mise en œuvre
d'un jeu d'expressions régulières exploitant des
tournures de phrases typiques.
• Exemples : « né à ... », « naquit à ... », « est
un ... »,  etc.
• Les outils standards d'extraction d'entités
nommées ou d'étiquetage grammatical n'ont pas
été utilisés.
8
Étape 3 : inventaire des difficultés
rencontrées (1/2)
• Une minorité d'articles dispose d'un
Infobox.
• L'information est donc moins
structurée qu'elle ne peut le sembler
au départ.
• Les propriétés des Infobox ne sont
elles-mêmes pas totalement
standardisées.
• Exemple : les dates de naissance
apparaissent avec différents labels
(→ folksonomie).
?
9
Étape 3 : inventaire des difficultés
rencontrées (2/2)
• L'extraction doit être mise en œuvre sur le texte par essais et
erreurs en exploitant des tournures de phrases typiques.
• Le format de date est un bel exemple de l'hétérogénéité
constatée dans le formatage de l'information au sein de
l'encyclopédie.
10
Étape 4 : évaluation de la qualité
de l'extraction
11
Étape 5 : évaluation de la fiabilité
des données (1/3)
• Comparaison des données extraites de Wikipédia
avec des données de référence.
12
Étape 5 : évaluation de la fiabilité
des données (2/3)
• Création d'une liste fusionnée (938 lignes)
• Différences de valeurs sur 14,4% des lignes.
• → Problème des homonymies...
• → Vérification manuelle...
• Travail de vérification fait pour les 250 premières lignes.
• Fiabilité : 98,4%.
• Erreurs d'extraction : 2,4%.
13
Étape 5 : évaluation de la fiabilité
des données (3/3)
• A faire : automatiser la détection des données
(potentiellement) erronées
• Moyen : utiliser les critères de qualité des articles
dans Wikipédia.
• Exemples : nombre de mots, nombre d'éditeurs
distincts, nombre d'éditions, etc.
• Voir (Blumenstock, 2008), (Chevalier et al., 2010),
(Stvilia et al., 2005), (Wilkinson et Huberman,
2007), etc.
14
Que conclure ? (1/2)
• Le projet Dbpedia, version sémantique de
Wikipédia, donne une image de structuration et
d'exhaustivité. Cette image est partiellement
trompeuse.
• Wikipédia est un projet basé sur les contributions
des utilisateurs, et souffre encore d'un manque d'un
manque de structuration et homogénéisation pour
en faciliter l'exploitation.
• Dbpedia reflète cette caractéristique. Dbpedia
reste cependant une excellente base pour des
opérations de « linked data ».
15
Que conclure ? (2/2)
• L'exploitation du texte des articles peut
heureusement être abordée avec des techniques
simples (jeu d'expressions régulières) grâce à la
structure typique des articles et des phrases.
• Résultat obtenu :
• Précision : ~90%.
• Rappel : ~80%.
• Après une évaluation partielle, la fiabilité des
données paraît satisfaisante (98,4%).
16
Quelles sont les perspectives ?
• L'intérêt d'utiliser des outils spécialisés pour
l'extraction d'entités nommées pourrait être
évalué.
• Nous devons approfondir l'influence de la
formulation des requêtes SPARQL sur les
volumétries.
• Nous avons démarré un travail complémentaire sur
la fiabilité des données présentes dans Wikipedia.
17
Des questions ?
Merci pour votre attention.
Des questions ?
18
Contact
• Dr Ir Robert Viseur.
• Assistant @ UMONS.
• Ingénieur de recherche Senior @ CETIC.
• Courriels :
• robert.viseur@umons.ac.be.
• robert.viseur@cetic.be.
• Téléphone : 0032 (0) 479 66 08 76.
• Plus d'infos : www.robertviseur.be.
Cette présentation est diffusée sous licence « CC-BY-ND ».

Mais conteúdo relacionado

Destaque

Réussir la mise en place de sa BDES !
Réussir la mise en place de sa BDES !Réussir la mise en place de sa BDES !
Réussir la mise en place de sa BDES !Altays
 
base-de-donnees-whois.ppt
base-de-donnees-whois.pptbase-de-donnees-whois.ppt
base-de-donnees-whois.pptwebhostingguy
 
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...annesiret
 
Les 10 erreurs fatales à ne pas commettre lors de la conception d'une base de...
Les 10 erreurs fatales à ne pas commettre lors de la conception d'une base de...Les 10 erreurs fatales à ne pas commettre lors de la conception d'une base de...
Les 10 erreurs fatales à ne pas commettre lors de la conception d'une base de...promocic
 
Présentation de la bdd Image des LP
Présentation de la bdd Image des LPPrésentation de la bdd Image des LP
Présentation de la bdd Image des LPlouamax
 
Compétences chef de projet - MOPA - 20-21 mai et 24-25 juin 2014
Compétences chef de projet - MOPA - 20-21 mai et 24-25 juin 2014Compétences chef de projet - MOPA - 20-21 mai et 24-25 juin 2014
Compétences chef de projet - MOPA - 20-21 mai et 24-25 juin 2014MONA
 
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...MONA
 
Emailing : comment se constituer une base de données qualifiée ?
Emailing : comment se constituer une base de données qualifiée ?Emailing : comment se constituer une base de données qualifiée ?
Emailing : comment se constituer une base de données qualifiée ?43 Degrés
 
ennaji ahmed base de donnees
ennaji ahmed base de donneesennaji ahmed base de donnees
ennaji ahmed base de donneesAHMED ENNAJI
 
Jeux concours qualification base de données OT Bordeaux MOPA GRC 31 mars 2016
Jeux concours qualification base de données OT Bordeaux MOPA GRC 31 mars 2016Jeux concours qualification base de données OT Bordeaux MOPA GRC 31 mars 2016
Jeux concours qualification base de données OT Bordeaux MOPA GRC 31 mars 2016MONA
 
Cours Base de données relationnelles
Cours Base de données relationnellesCours Base de données relationnelles
Cours Base de données relationnellesAymen Kasmi
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesJean-Marc Dupont
 
Alphorm.com-Formation MongoDB Administration
Alphorm.com-Formation MongoDB AdministrationAlphorm.com-Formation MongoDB Administration
Alphorm.com-Formation MongoDB AdministrationAlphorm
 

Destaque (15)

Campagnes urbaines
Campagnes urbainesCampagnes urbaines
Campagnes urbaines
 
Réussir la mise en place de sa BDES !
Réussir la mise en place de sa BDES !Réussir la mise en place de sa BDES !
Réussir la mise en place de sa BDES !
 
base-de-donnees-whois.ppt
base-de-donnees-whois.pptbase-de-donnees-whois.ppt
base-de-donnees-whois.ppt
 
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...
 
Les 10 erreurs fatales à ne pas commettre lors de la conception d'une base de...
Les 10 erreurs fatales à ne pas commettre lors de la conception d'une base de...Les 10 erreurs fatales à ne pas commettre lors de la conception d'une base de...
Les 10 erreurs fatales à ne pas commettre lors de la conception d'une base de...
 
Présentation de la bdd Image des LP
Présentation de la bdd Image des LPPrésentation de la bdd Image des LP
Présentation de la bdd Image des LP
 
Compétences chef de projet - MOPA - 20-21 mai et 24-25 juin 2014
Compétences chef de projet - MOPA - 20-21 mai et 24-25 juin 2014Compétences chef de projet - MOPA - 20-21 mai et 24-25 juin 2014
Compétences chef de projet - MOPA - 20-21 mai et 24-25 juin 2014
 
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...
Management de projet tome 3 - base de données - MOPA - 20-21 mai et 24-25 jui...
 
Intro SQL
Intro SQL Intro SQL
Intro SQL
 
Emailing : comment se constituer une base de données qualifiée ?
Emailing : comment se constituer une base de données qualifiée ?Emailing : comment se constituer une base de données qualifiée ?
Emailing : comment se constituer une base de données qualifiée ?
 
ennaji ahmed base de donnees
ennaji ahmed base de donneesennaji ahmed base de donnees
ennaji ahmed base de donnees
 
Jeux concours qualification base de données OT Bordeaux MOPA GRC 31 mars 2016
Jeux concours qualification base de données OT Bordeaux MOPA GRC 31 mars 2016Jeux concours qualification base de données OT Bordeaux MOPA GRC 31 mars 2016
Jeux concours qualification base de données OT Bordeaux MOPA GRC 31 mars 2016
 
Cours Base de données relationnelles
Cours Base de données relationnellesCours Base de données relationnelles
Cours Base de données relationnelles
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
 
Alphorm.com-Formation MongoDB Administration
Alphorm.com-Formation MongoDB AdministrationAlphorm.com-Formation MongoDB Administration
Alphorm.com-Formation MongoDB Administration
 

Semelhante a Collecter des données sur Wikipédia : application à la création d'une base de données biographiques

Exploiter les données issues de Wikipedia
Exploiter les données issues de WikipediaExploiter les données issues de Wikipedia
Exploiter les données issues de WikipediaRobert Viseur
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresRobert Viseur
 
Google Scholar : guide d'utilisation
Google Scholar : guide d'utilisationGoogle Scholar : guide d'utilisation
Google Scholar : guide d'utilisationJulien Sicot
 
2015 formation documentaire-des2213_pptx
2015 formation documentaire-des2213_pptx2015 formation documentaire-des2213_pptx
2015 formation documentaire-des2213_pptxMarie-Christine Beaudry
 
M1 BMC 2010-2011
M1 BMC 2010-2011M1 BMC 2010-2011
M1 BMC 2010-2011BUPMCformM
 
Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ?
Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ? Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ?
Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ? Sylvie Dalbin
 
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Desconnets Jean-Christophe
 
Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Antoine Isaac
 
M1 BMC 2012-2013 Mémo
M1 BMC 2012-2013 MémoM1 BMC 2012-2013 Mémo
M1 BMC 2012-2013 MémoBUPMCformM
 
Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...stsire
 
Prenez le train de la Transition bibliographique - Journée Systèmes & Données...
Prenez le train de la Transition bibliographique - Journée Systèmes & Données...Prenez le train de la Transition bibliographique - Journée Systèmes & Données...
Prenez le train de la Transition bibliographique - Journée Systèmes & Données...ABES
 
Introduction à l'exploration du Web
Introduction à l'exploration du WebIntroduction à l'exploration du Web
Introduction à l'exploration du WebSébastien
 
Recherche documentaire : méthode, outils. Master info-com Lyon2 - Mars 2017
Recherche documentaire : méthode, outils. Master info-com Lyon2 - Mars 2017Recherche documentaire : méthode, outils. Master info-com Lyon2 - Mars 2017
Recherche documentaire : méthode, outils. Master info-com Lyon2 - Mars 2017Alain Marois
 
Innovation dans le multimédia PPT
Innovation dans le multimédia PPTInnovation dans le multimédia PPT
Innovation dans le multimédia PPTberhili_piard
 

Semelhante a Collecter des données sur Wikipédia : application à la création d'une base de données biographiques (20)

Exploiter les données issues de Wikipedia
Exploiter les données issues de WikipediaExploiter les données issues de Wikipedia
Exploiter les données issues de Wikipedia
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libres
 
Google Scholar : guide d'utilisation
Google Scholar : guide d'utilisationGoogle Scholar : guide d'utilisation
Google Scholar : guide d'utilisation
 
2016 formation documentaire_des8003
2016 formation documentaire_des80032016 formation documentaire_des8003
2016 formation documentaire_des8003
 
2015 formation documentaire-des2213_pptx
2015 formation documentaire-des2213_pptx2015 formation documentaire-des2213_pptx
2015 formation documentaire-des2213_pptx
 
Diffuser La Veille
Diffuser La VeilleDiffuser La Veille
Diffuser La Veille
 
M1 BMC 2010-2011
M1 BMC 2010-2011M1 BMC 2010-2011
M1 BMC 2010-2011
 
Iut chimie ppp-2017
Iut chimie ppp-2017Iut chimie ppp-2017
Iut chimie ppp-2017
 
Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ?
Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ? Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ?
Nouvelles pratiques d’indexation, Nouveaux enjeux documentaires ?
 
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...
 
20111128rechercheinfo_slsh
20111128rechercheinfo_slsh20111128rechercheinfo_slsh
20111128rechercheinfo_slsh
 
Recherche documentaire pour doctorants - Automne 2015
Recherche documentaire pour doctorants - Automne 2015Recherche documentaire pour doctorants - Automne 2015
Recherche documentaire pour doctorants - Automne 2015
 
2016 09 formation-documentaire_des7104
2016 09 formation-documentaire_des71042016 09 formation-documentaire_des7104
2016 09 formation-documentaire_des7104
 
Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)
 
M1 BMC 2012-2013 Mémo
M1 BMC 2012-2013 MémoM1 BMC 2012-2013 Mémo
M1 BMC 2012-2013 Mémo
 
Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...
 
Prenez le train de la Transition bibliographique - Journée Systèmes & Données...
Prenez le train de la Transition bibliographique - Journée Systèmes & Données...Prenez le train de la Transition bibliographique - Journée Systèmes & Données...
Prenez le train de la Transition bibliographique - Journée Systèmes & Données...
 
Introduction à l'exploration du Web
Introduction à l'exploration du WebIntroduction à l'exploration du Web
Introduction à l'exploration du Web
 
Recherche documentaire : méthode, outils. Master info-com Lyon2 - Mars 2017
Recherche documentaire : méthode, outils. Master info-com Lyon2 - Mars 2017Recherche documentaire : méthode, outils. Master info-com Lyon2 - Mars 2017
Recherche documentaire : méthode, outils. Master info-com Lyon2 - Mars 2017
 
Innovation dans le multimédia PPT
Innovation dans le multimédia PPTInnovation dans le multimédia PPT
Innovation dans le multimédia PPT
 

Mais de Robert Viseur

La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...Robert Viseur
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big DataRobert Viseur
 
Piloter son appareil photo numérique avec des logiciels libres
Piloter son appareil photo  numérique avec des logiciels  libresPiloter son appareil photo  numérique avec des logiciels  libres
Piloter son appareil photo numérique avec des logiciels libresRobert Viseur
 
De l’open source à l’open cloud
De l’open source à l’open cloudDe l’open source à l’open cloud
De l’open source à l’open cloudRobert Viseur
 
Développer ses photos avec RawTherapee
Développer ses photos avec RawTherapeeDévelopper ses photos avec RawTherapee
Développer ses photos avec RawTherapeeRobert Viseur
 
Convertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpConvertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpRobert Viseur
 
L'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovationL'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovationRobert Viseur
 
Pechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsPechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsRobert Viseur
 
L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)Robert Viseur
 
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifAnalyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifRobert Viseur
 
Open Source Hardware for Dummies
Open Source Hardware for DummiesOpen Source Hardware for Dummies
Open Source Hardware for DummiesRobert Viseur
 
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Robert Viseur
 
Etude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueEtude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueRobert Viseur
 
Hacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresHacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresRobert Viseur
 
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Robert Viseur
 
Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Robert Viseur
 
Comprendre les licences de logiciels libres
Comprendre les licences de logiciels libresComprendre les licences de logiciels libres
Comprendre les licences de logiciels libresRobert Viseur
 
Impact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editorsImpact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editorsRobert Viseur
 
Une introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICUne introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICRobert Viseur
 
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / Ecosystem
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / EcosystemfOSSa 2013 - Crossroads of openness - Wrap-up talk ! / Ecosystem
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / EcosystemRobert Viseur
 

Mais de Robert Viseur (20)

La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big Data
 
Piloter son appareil photo numérique avec des logiciels libres
Piloter son appareil photo  numérique avec des logiciels  libresPiloter son appareil photo  numérique avec des logiciels  libres
Piloter son appareil photo numérique avec des logiciels libres
 
De l’open source à l’open cloud
De l’open source à l’open cloudDe l’open source à l’open cloud
De l’open source à l’open cloud
 
Développer ses photos avec RawTherapee
Développer ses photos avec RawTherapeeDévelopper ses photos avec RawTherapee
Développer ses photos avec RawTherapee
 
Convertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpConvertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec Gimp
 
L'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovationL'open hardware : l'ouverture au service de l'innovation
L'open hardware : l'ouverture au service de l'innovation
 
Pechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsPechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à Mons
 
L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)L'open hardware dans l'électronique (et au delà...)
L'open hardware dans l'électronique (et au delà...)
 
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifAnalyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
 
Open Source Hardware for Dummies
Open Source Hardware for DummiesOpen Source Hardware for Dummies
Open Source Hardware for Dummies
 
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
 
Etude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueEtude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en Belgique
 
Hacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresHacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libres
 
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
 
Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !
 
Comprendre les licences de logiciels libres
Comprendre les licences de logiciels libresComprendre les licences de logiciels libres
Comprendre les licences de logiciels libres
 
Impact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editorsImpact of cloud computing on FOSS editors
Impact of cloud computing on FOSS editors
 
Une introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICUne introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TIC
 
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / Ecosystem
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / EcosystemfOSSa 2013 - Crossroads of openness - Wrap-up talk ! / Ecosystem
fOSSa 2013 - Crossroads of openness - Wrap-up talk ! / Ecosystem
 

Collecter des données sur Wikipédia : application à la création d'une base de données biographiques

  • 1. [ « Wikipédia, objet scientifique non identifié » (ISCC, Paris) – 05 juin 2013 ] Collecter des données sur Wikipédia : application à la création d’une base de données biographiques Dr Ir Robert Viseur
  • 2. 2 Qu'a-t-on fait avec Wikipédia ? (1/2) • Contexte général : • Usage de plus en plus fréquent du contenu de Wikipédia dans les domaines techniques et scientifiques (classification de documents, REN, création d'URI, etc.). • Plus de 22 mille résultats pour la requête « Exploiting Wikipédia » dans Google Scholar (scholar.google.fr). • Contexte interne : • Demande d'une entreprise pour l'aider... • à créer d'une base de données biographique depuis Wikipédia (personnalités belges). • Recherche menée principalement au CETIC, avec le soutien de l'UMONS (FPMs).
  • 3. 3 Qu'a-t-on fait avec Wikipedia ? (2/2) • Ce qui est présenté ici = travail d'évaluation. • Cinq étapes principales : 1.Identification des articles pertinents. 2.Extraction des données depuis le texte. 3.Inventaire des difficultés rencontrées. 4.Évaluation de la qualité de l'extraction. 5.Évaluation de la fiabilité des données (en cours).
  • 4. 4 Comment pensait-on pouvoir procéder ? • En exploitant les informations structurées.
  • 5. 5 Étape 1 : identification des articles • Comparaison : • Interrogation d'une copie de base de données Wikipédia (via les dumps publics). • Accès par crawl des catégories (portail Belgique -> Personnalités belges) vs... • Accès par requête SPARQL (exploitation de la propriété « birthPlace » dans DBPedia).
  • 6. 6 Étape 2 : extraction des données depuis le texte (1/2) • Accès au texte des articles par URL du type http://fr.wikipedia.org/ w/index.php? action=raw&title=xxxxx. • Extraction du texte de l'article et de l'Infobox (si l'article en possède un). • Extraction depuis le texte des dates de naissance et de décès, ainsi que des professions.
  • 7. 7 Étape 2 : extraction des données depuis le texte (2/2) • L'analyse du texte se fait par la mise en œuvre d'un jeu d'expressions régulières exploitant des tournures de phrases typiques. • Exemples : « né à ... », « naquit à ... », « est un ... »,  etc. • Les outils standards d'extraction d'entités nommées ou d'étiquetage grammatical n'ont pas été utilisés.
  • 8. 8 Étape 3 : inventaire des difficultés rencontrées (1/2) • Une minorité d'articles dispose d'un Infobox. • L'information est donc moins structurée qu'elle ne peut le sembler au départ. • Les propriétés des Infobox ne sont elles-mêmes pas totalement standardisées. • Exemple : les dates de naissance apparaissent avec différents labels (→ folksonomie). ?
  • 9. 9 Étape 3 : inventaire des difficultés rencontrées (2/2) • L'extraction doit être mise en œuvre sur le texte par essais et erreurs en exploitant des tournures de phrases typiques. • Le format de date est un bel exemple de l'hétérogénéité constatée dans le formatage de l'information au sein de l'encyclopédie.
  • 10. 10 Étape 4 : évaluation de la qualité de l'extraction
  • 11. 11 Étape 5 : évaluation de la fiabilité des données (1/3) • Comparaison des données extraites de Wikipédia avec des données de référence.
  • 12. 12 Étape 5 : évaluation de la fiabilité des données (2/3) • Création d'une liste fusionnée (938 lignes) • Différences de valeurs sur 14,4% des lignes. • → Problème des homonymies... • → Vérification manuelle... • Travail de vérification fait pour les 250 premières lignes. • Fiabilité : 98,4%. • Erreurs d'extraction : 2,4%.
  • 13. 13 Étape 5 : évaluation de la fiabilité des données (3/3) • A faire : automatiser la détection des données (potentiellement) erronées • Moyen : utiliser les critères de qualité des articles dans Wikipédia. • Exemples : nombre de mots, nombre d'éditeurs distincts, nombre d'éditions, etc. • Voir (Blumenstock, 2008), (Chevalier et al., 2010), (Stvilia et al., 2005), (Wilkinson et Huberman, 2007), etc.
  • 14. 14 Que conclure ? (1/2) • Le projet Dbpedia, version sémantique de Wikipédia, donne une image de structuration et d'exhaustivité. Cette image est partiellement trompeuse. • Wikipédia est un projet basé sur les contributions des utilisateurs, et souffre encore d'un manque d'un manque de structuration et homogénéisation pour en faciliter l'exploitation. • Dbpedia reflète cette caractéristique. Dbpedia reste cependant une excellente base pour des opérations de « linked data ».
  • 15. 15 Que conclure ? (2/2) • L'exploitation du texte des articles peut heureusement être abordée avec des techniques simples (jeu d'expressions régulières) grâce à la structure typique des articles et des phrases. • Résultat obtenu : • Précision : ~90%. • Rappel : ~80%. • Après une évaluation partielle, la fiabilité des données paraît satisfaisante (98,4%).
  • 16. 16 Quelles sont les perspectives ? • L'intérêt d'utiliser des outils spécialisés pour l'extraction d'entités nommées pourrait être évalué. • Nous devons approfondir l'influence de la formulation des requêtes SPARQL sur les volumétries. • Nous avons démarré un travail complémentaire sur la fiabilité des données présentes dans Wikipedia.
  • 17. 17 Des questions ? Merci pour votre attention. Des questions ?
  • 18. 18 Contact • Dr Ir Robert Viseur. • Assistant @ UMONS. • Ingénieur de recherche Senior @ CETIC. • Courriels : • robert.viseur@umons.ac.be. • robert.viseur@cetic.be. • Téléphone : 0032 (0) 479 66 08 76. • Plus d'infos : www.robertviseur.be. Cette présentation est diffusée sous licence « CC-BY-ND ».