SlideShare uma empresa Scribd logo
1 de 52
Aligner vos données avec
Wikidata grâce à l’outil Open
Refine
Gautier Poupeau
gautier.poupeau@gmail.com
@lespetitescases
http://www.lespetitescases.net
Présentation de l’outil
Une analyse comparative : « Du problème de la qualité des données et de la manière de le résoudre... »
• Outil créé en par David Huynh et Stefano Mazzochi
au sein de la société Metaweb
• S’est appelé « Griworks » puis « Google Refine » et
enfin « Open Refine »
• Depuis 2012 dans la communauté
• La V3.0 est sortie officiellement le 16 septembre
2018 après plusieurs années sans sortie
• Très apprécié dans le monde des bibliothèques
• Open source
Pour télécharger l’outil  http://openrefine.org/download.html
Les serveurs de réconciliation Open Refine
•Wikidata (avec étiquette en français) : https://tools.wmflabs.org/openrefine-
wikidata/fr/api
•ORCID http://refine.codefork.com/reconcile/orcid et
http://refine.codefork.com/reconcile/orcid/smartnames
• VIAF http://refine.codefork.com/reconcile/viaf
Outil de réconciliation
Objectif : Aligner les 300 auteurs appartenant à l’INRIA qui ont le plus de documents
dans HAL-INRIA avec leurs identifiants dans Wikidata, ORCID et VIAF
La requête SPARQL : https://data.archives-ouvertes.fr/sparql
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
select ?person, ?name, ?same, count(?s) AS ?nbs where {?s dcterms:isPartOf
<https://hal.inria.fr/INRIA>; dcterms:creator ?creator.
?creator <http://data.archives-ouvertes.fr/schema/person> ?person. ?person foaf:name ?name.
OPTIONAL {?person owl:sameAs ?same. FILTER regex(str(?same),'orcid')}
}
GROUP BY ?person ?name ?same
ORDER BY DESC(?nbs)
LIMIT 300
https://bit.ly/2C3APY2
Et le tutoriel qui m’a servi de guide : https://medium.com/@seeksanusername/reconcilier-
une-liste-darchitecte-avec-wikidata-en-utilisant-openrefine-16819fbb2903
Aller sur l’IHM du sparql endpoint de HAL
https://data.archives-ouvertes.fr/sparql
Saisir la requête qui permet de retrouver les
personnes qui vous intéressent
Récupérer l’URL de la requête dans la
page de réponse
Aller sur le site https://meyerweb.com/eric/tools/dencoder/
pour encoder la requête conformément aux URLs
Cliquer sur Encode
Récupérer la requête encodé
conformément aux URLs
Modifier le paramètre query avec la chaîne
encodée et le paramètre format avec la valeur
« csv »
Lancer Open Refine et cliquer sur
« Web address (URLs) »
Copier l’URL modifiée de la requête et
cliquer sur « Next »
Après récupération des données, vous
obtenez cette interface
Cliquer ici pour
modifier l’encodage
des caractères
Choisir l’encodage « UTF-8 »
Avec le bon encodage…
Modifier le nom du projet et cliquer
sur « Create project »
Vous pouvez augmenter le nombre de
lignes affichées
Modifier un champ texte en nombre…
…pour permettre de faire une facette
de nombres par exemple
Pour transformer une chaîne de
caractères, cliquer sur « Transform »
pour afficher la boîte de manipulation
des champs
et par exemple ici supprimer une
partie de la chaîne de caractère
Et voilà le résultat
Vous pouvez renommer une colonne
Et voilà le résultat
Pour réconcilier/aligner vos données avec
Wikidata, Orcid, VIAF…
L’interface de réconciliation s’affiche, vous
pouvez ajouter un service de réconciliation
par exemple, la réconciliation avec des entrées
Wikidata par leur étiquette en français
Vous cliquez sur le service ajouté
Vous pouvez préciser une propriété
pour faciliter l’alignement
Une auto-complétion permet
de choisir sur quelle propriété
aligner les valeurs de la colonne
Quand tout est prêt, vous pouvez cliquer sur le
bouton « Start Reconciling »
Et le processus de réconciliation se
lance en tâche de fond…
Lorsque le processus est terminé, les entrées alignées
ont un lien et les autres ont des propositions
Pour choisir une proposition, il suffit
de cliquer sur la coche
En cliquant sur le
lien, vous pouvez
aller sur la pageEn cliquant sur la coche, vous
sélectionnez l’entrée
Et voilà le résultat
Pour récupérer l’identifiant, il faut
ajouter une colonne
Il faut entrer le nom de la nouvelle colonne et indiquer
dans l’expression « cell.recon.match.id »
Et voilà le résultat
Si on veut à présent aligner avec
ORCID…
Sélectionner les entrées qui n’ont pas déjà
un ORCID, en créant une facette
En cliquant sur true, on sélectionne les
lignes sans entrée ORCID
Il faut d’abord créer une autre colonne
pour lancer la réconciliation
On donne un nouveau nom à la
colonne et on clique sur « OK »
On relance l’interface de réconciliation sur
la nouvelle colonne
On ajoute le service de réconciliation à l’adresse «
http://refine.codefork.com/reconcile/orcid » puis on
clique sur « Start Reconciling »
Le processus de réconciliation se lance
Et lorsqu’il aboutit, on retrouve la
même interface que pour wikidata
Il est possible de créer de nouvelles colonnes
avec des données provenant de Wikidata
Une boîte de dialogue s’ouvre pour pouvoir
choisir la propriété à récupérer
En cliquant sur une propriété, vous
pouvez voir une prévisualisation
puis le processus de récupération se
lance
Et voilà le résultat après avoir filtré les
entrées qui avaient une réponse
Une fois le travail terminé, vous
pouvez exporter le résultat

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.
 
Or2019 DSpace 7 Enhanced submission &amp; workflow
Or2019 DSpace 7 Enhanced submission &amp; workflowOr2019 DSpace 7 Enhanced submission &amp; workflow
Or2019 DSpace 7 Enhanced submission &amp; workflow
 
Resume de BI
Resume de BIResume de BI
Resume de BI
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantique
 
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
Cours HBase et Base de Données Orientées Colonnes (HBase, Column Oriented Dat...
 
Tp Sql Server Integration Services 2008
Tp  Sql Server Integration Services  2008Tp  Sql Server Integration Services  2008
Tp Sql Server Integration Services 2008
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian
 
Business intelligence | State of the art
Business intelligence | State of the artBusiness intelligence | State of the art
Business intelligence | State of the art
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
 
Cours Big Data Chap6
Cours Big Data Chap6Cours Big Data Chap6
Cours Big Data Chap6
 
Lab3-DB_Neo4j
Lab3-DB_Neo4jLab3-DB_Neo4j
Lab3-DB_Neo4j
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
DBpedia InsideOut
DBpedia InsideOutDBpedia InsideOut
DBpedia InsideOut
 
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
 
Integration de donnees_etl
Integration de donnees_etlIntegration de donnees_etl
Integration de donnees_etl
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Une introduction à Hive
Une introduction à HiveUne introduction à Hive
Une introduction à Hive
 
Database/ Bases de données
Database/ Bases de donnéesDatabase/ Bases de données
Database/ Bases de données
 

Semelhante a Aligner vos données avec Wikidata grâce à l'outil Open Refine

C2i Web
C2i WebC2i Web
C2i Web
c2i
 
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5) Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Laurent Moccozet
 
Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014
Laurent Moccozet
 
Slides ceplex
Slides ceplexSlides ceplex
Slides ceplex
TECOS
 
Ref works quick_start_guide_french
Ref works quick_start_guide_frenchRef works quick_start_guide_french
Ref works quick_start_guide_french
Steph Cliche
 

Semelhante a Aligner vos données avec Wikidata grâce à l'outil Open Refine (20)

Tutoriel web service
Tutoriel  web serviceTutoriel  web service
Tutoriel web service
 
aligner ses autorités avec Viaf et IdRef
aligner ses autorités avec Viaf et IdRefaligner ses autorités avec Viaf et IdRef
aligner ses autorités avec Viaf et IdRef
 
Guidetalendd
GuidetalenddGuidetalendd
Guidetalendd
 
_Guide de formation KoBoToolbox en français.pptx
_Guide de formation KoBoToolbox en français.pptx_Guide de formation KoBoToolbox en français.pptx
_Guide de formation KoBoToolbox en français.pptx
 
C2i Web
C2i WebC2i Web
C2i Web
 
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5) Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
Projet Plateforme de Partage de Contenus Multimédias 2013 (4/5)
 
Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014Séance 4: projet PPCM 2014
Séance 4: projet PPCM 2014
 
Présentation netvibes
Présentation netvibesPrésentation netvibes
Présentation netvibes
 
Projet Plateforme de Partage de Contenus Multimédias (4)
Projet Plateforme de Partage de Contenus Multimédias (4)Projet Plateforme de Partage de Contenus Multimédias (4)
Projet Plateforme de Partage de Contenus Multimédias (4)
 
Slides ceplex
Slides ceplexSlides ceplex
Slides ceplex
 
Tp5 - WINDEV
Tp5 - WINDEVTp5 - WINDEV
Tp5 - WINDEV
 
Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"
 
Héberger vos applications web grâce à openshift cloud
Héberger vos applications web grâce à openshift cloudHéberger vos applications web grâce à openshift cloud
Héberger vos applications web grâce à openshift cloud
 
Microsoft business-intelligence
Microsoft business-intelligenceMicrosoft business-intelligence
Microsoft business-intelligence
 
Javascript
JavascriptJavascript
Javascript
 
"Visio"-nnez vos données et facilitez vos prises de decision
"Visio"-nnez vos données et facilitez vos prises de decision"Visio"-nnez vos données et facilitez vos prises de decision
"Visio"-nnez vos données et facilitez vos prises de decision
 
Introduction au développement Web
Introduction au développement Web Introduction au développement Web
Introduction au développement Web
 
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
Webinaire 4 de la série Retour aux fondamentaux : Indexation avancée, index d...
 
Access requete
Access requeteAccess requete
Access requete
 
Ref works quick_start_guide_french
Ref works quick_start_guide_frenchRef works quick_start_guide_french
Ref works quick_start_guide_french
 

Mais de Gautier Poupeau

Mais de Gautier Poupeau (14)

Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HAL
 
Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information System
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeux
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...
 
RDF en quelques slides
RDF en quelques slidesRDF en quelques slides
RDF en quelques slides
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontology
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèques
 

Aligner vos données avec Wikidata grâce à l'outil Open Refine

  • 1. Aligner vos données avec Wikidata grâce à l’outil Open Refine Gautier Poupeau gautier.poupeau@gmail.com @lespetitescases http://www.lespetitescases.net
  • 2. Présentation de l’outil Une analyse comparative : « Du problème de la qualité des données et de la manière de le résoudre... » • Outil créé en par David Huynh et Stefano Mazzochi au sein de la société Metaweb • S’est appelé « Griworks » puis « Google Refine » et enfin « Open Refine » • Depuis 2012 dans la communauté • La V3.0 est sortie officiellement le 16 septembre 2018 après plusieurs années sans sortie • Très apprécié dans le monde des bibliothèques • Open source Pour télécharger l’outil  http://openrefine.org/download.html
  • 3. Les serveurs de réconciliation Open Refine •Wikidata (avec étiquette en français) : https://tools.wmflabs.org/openrefine- wikidata/fr/api •ORCID http://refine.codefork.com/reconcile/orcid et http://refine.codefork.com/reconcile/orcid/smartnames • VIAF http://refine.codefork.com/reconcile/viaf Outil de réconciliation Objectif : Aligner les 300 auteurs appartenant à l’INRIA qui ont le plus de documents dans HAL-INRIA avec leurs identifiants dans Wikidata, ORCID et VIAF La requête SPARQL : https://data.archives-ouvertes.fr/sparql PREFIX dcterms: <http://purl.org/dc/terms/> PREFIX foaf: <http://xmlns.com/foaf/0.1/> select ?person, ?name, ?same, count(?s) AS ?nbs where {?s dcterms:isPartOf <https://hal.inria.fr/INRIA>; dcterms:creator ?creator. ?creator <http://data.archives-ouvertes.fr/schema/person> ?person. ?person foaf:name ?name. OPTIONAL {?person owl:sameAs ?same. FILTER regex(str(?same),'orcid')} } GROUP BY ?person ?name ?same ORDER BY DESC(?nbs) LIMIT 300 https://bit.ly/2C3APY2 Et le tutoriel qui m’a servi de guide : https://medium.com/@seeksanusername/reconcilier- une-liste-darchitecte-avec-wikidata-en-utilisant-openrefine-16819fbb2903
  • 4. Aller sur l’IHM du sparql endpoint de HAL https://data.archives-ouvertes.fr/sparql
  • 5. Saisir la requête qui permet de retrouver les personnes qui vous intéressent
  • 6. Récupérer l’URL de la requête dans la page de réponse
  • 7. Aller sur le site https://meyerweb.com/eric/tools/dencoder/ pour encoder la requête conformément aux URLs Cliquer sur Encode
  • 8. Récupérer la requête encodé conformément aux URLs
  • 9. Modifier le paramètre query avec la chaîne encodée et le paramètre format avec la valeur « csv »
  • 10. Lancer Open Refine et cliquer sur « Web address (URLs) »
  • 11. Copier l’URL modifiée de la requête et cliquer sur « Next »
  • 12. Après récupération des données, vous obtenez cette interface Cliquer ici pour modifier l’encodage des caractères
  • 14. Avec le bon encodage…
  • 15. Modifier le nom du projet et cliquer sur « Create project »
  • 16. Vous pouvez augmenter le nombre de lignes affichées
  • 17. Modifier un champ texte en nombre…
  • 18. …pour permettre de faire une facette de nombres par exemple
  • 19. Pour transformer une chaîne de caractères, cliquer sur « Transform »
  • 20. pour afficher la boîte de manipulation des champs
  • 21. et par exemple ici supprimer une partie de la chaîne de caractère
  • 22. Et voilà le résultat
  • 23. Vous pouvez renommer une colonne
  • 24. Et voilà le résultat
  • 25. Pour réconcilier/aligner vos données avec Wikidata, Orcid, VIAF…
  • 26. L’interface de réconciliation s’affiche, vous pouvez ajouter un service de réconciliation
  • 27. par exemple, la réconciliation avec des entrées Wikidata par leur étiquette en français
  • 28. Vous cliquez sur le service ajouté
  • 29. Vous pouvez préciser une propriété pour faciliter l’alignement Une auto-complétion permet de choisir sur quelle propriété aligner les valeurs de la colonne
  • 30. Quand tout est prêt, vous pouvez cliquer sur le bouton « Start Reconciling »
  • 31. Et le processus de réconciliation se lance en tâche de fond…
  • 32. Lorsque le processus est terminé, les entrées alignées ont un lien et les autres ont des propositions
  • 33. Pour choisir une proposition, il suffit de cliquer sur la coche En cliquant sur le lien, vous pouvez aller sur la pageEn cliquant sur la coche, vous sélectionnez l’entrée
  • 34. Et voilà le résultat
  • 35. Pour récupérer l’identifiant, il faut ajouter une colonne
  • 36. Il faut entrer le nom de la nouvelle colonne et indiquer dans l’expression « cell.recon.match.id »
  • 37. Et voilà le résultat
  • 38. Si on veut à présent aligner avec ORCID…
  • 39. Sélectionner les entrées qui n’ont pas déjà un ORCID, en créant une facette
  • 40. En cliquant sur true, on sélectionne les lignes sans entrée ORCID
  • 41. Il faut d’abord créer une autre colonne pour lancer la réconciliation
  • 42. On donne un nouveau nom à la colonne et on clique sur « OK »
  • 43. On relance l’interface de réconciliation sur la nouvelle colonne
  • 44. On ajoute le service de réconciliation à l’adresse « http://refine.codefork.com/reconcile/orcid » puis on clique sur « Start Reconciling »
  • 45. Le processus de réconciliation se lance
  • 46. Et lorsqu’il aboutit, on retrouve la même interface que pour wikidata
  • 47. Il est possible de créer de nouvelles colonnes avec des données provenant de Wikidata
  • 48. Une boîte de dialogue s’ouvre pour pouvoir choisir la propriété à récupérer
  • 49. En cliquant sur une propriété, vous pouvez voir une prévisualisation
  • 50. puis le processus de récupération se lance
  • 51. Et voilà le résultat après avoir filtré les entrées qui avaient une réponse
  • 52. Une fois le travail terminé, vous pouvez exporter le résultat