4. Du consortium à la licence type
4
http://bbf.enssib.fr/consulter/bbf-2013-01-0066-015
5. Du choix à l’accès
Etapes
Identification du
besoin
Négociation
Vérifications
Traitements
Chargements
5
Ressource
Editeurs
COUPERIN
----
ABES
---
INIST
Chercheurs
Et en plus
Signalements Sudoc
Développements Istex
6. Evaluation des produits et des offres
Le traitement des métadonnées
Pour une offre commerciale donnée de e-books
– Combien sont dans le Sudoc ?
– Combien ont une édition imprimée dans le Sudoc ?
– Combien d’établissements exemplarisés sur chaque
version ?
Cela permet d’évaluer l’offre à sa juste valeur
Et de l’améliorer
7. Contrôle rigoureux du contenu
Le traitement des métadonnées
Pour une offre commerciale données de revues
–Métarevues pour comparer la liste initiale fournie
avec la réalité de la vie des revues
Cela permet
– de vérifier la qualité de l’offre
– et de la renégocier
Et de réparer la suite des opérations de signalement
8. Titre ISSN Couverture
Life sciences 0024-3205 1962-2001
Titre
ISSN Date
début
Date
fin
Media PPN
Life sciences (1962)
0161-
5564
1962 1970 papier 036937843
Life sciences. Part 2.
Biochemistry,
general & molecular
biology
0300-
9637
1970 1973 papier 037256289
Life sciences. Part 1.
Physiology and
pharmacology
0300-
9653
1970 1973 papier 037256297
Life sciences (1973)
0024-
3205
1973 papier 038745062
Life sciences
(Online)
1879-
0631 200X élec 073281212
Métarevues
436
436
452
Exemple d’une revue
9. Scan des millions de fichiers livrés
reconstituer les périodes couvertes
comparer la livraison à la liste contractuelle
réclamer (pendant les délais contractuels)
Tit
re
P-
ISSN
E-
ISSN
Début
(licenc
e)
Fin
(licen
ce)
P-
PPN
E-
PP
N
1er
Vol.
1er
Num.
Dern.
Vol.
Der.
Nu
m.
Années
livrées
Vol.
livrés
Années
manqua
ntes
Volumes
manqua
nts
1
2 1920 2010 1 1 110 10
1920-
1925
1927-
2010
1-6
8-110
1926 7
…
Agréger + Analyser + Comparer
Article
Art
icle
Arti
cle
Réclamer !
Garantir la validité de l’achat
10. Enrichissements pour chaque périodique
- La zone 207 (numérotation)
- L’URL d’accès en 859
- Un état de collection détaillé en 955
- La zone E856 (format, URL, note publique, code bouquet)
Et pour chaque e-book
- Création de toutes les notices dans le Sudoc
- A partir des données XML fournies, testées et validées
- Dédoublonnage avec les notices Sudoc existantes
- Ajout de données venant d’autres sources
Améliorer le signalement
12. Identifiants
Format(s)
… issus des métadonnées
xml
… récupérés via sources
extérieures
Indice
DEWEY
ID auteur
… générés par procédure
d’import
Zone de
gestion
Divers
La notice finale enrichie
13. Exposition des données
Les métadonnées d’ISTEX sont
– Dans ISTEX
– Dans le SUDOC
• Disponibles par lots, par web services, à l’unité
• Listes de ppn papier/elec
– Dans BACON --> Fichiers KBART
– Dans le web de données --> En RDF
Il essentiel de lier ces données à des référentiels
– Identifiants auteurs
– Vocabulaires contrôlés
– Classifications
– …
14. Et maintenant
ISTEX = 21 millions de documents
Achetés pour permettre l’accès et l’exploitation
– Sous forme de métadonnées pour le
signalement local ou national
– En pdf pour l’accès direct
– Dans divers formats pour le TDM
14
15. Et maintenant
ISTEX = 21 millions de documents
Achetés pour permettre l’accès et l’exploitation
– Sous forme de métadonnées pour le
signalement local ou national
– En pdf pour l’accès direct
– Dans divers formats pour le TDM
15
Notas do Editor
Avec l’aide et les contributions de
Delphine Rémy
Julie Lempereur
Yann Nicolas
Etat en janvier 2018.
D’autres ressources sont encore en négociation
Etat en janvier 2018
Depuis 2012 nous avons appris beaucoup de choses en matière d’acquisition des ressources, en insistant sur l’acquisition des données
C’est la collaboration entre Couperin, l’Abes et l’Inist qui permet de traiter comme il le faut les données acquises et de fournir le service aux chercheurs
L’ABES a fourni à Couperin des indicateurs chiffrés pour aider à évaluer l’opportunité de l’achat d’un corpus d’ebooks
Mesurer la présence d’un corpus dans le Sudoc est un indicateur complémentaire à d’autres indicateurs, au premier rang desquels l’enquête sur les besoins des chercheurs.
La « présence » d’un corpus d’ebooks dans le Sudoc, se mesure surtout par le nombre d’établissements localisés (ce qui suppose que les notices soient dans le Sudoc : on sait que tout ce qui est acquis sous forme électronique n’est pas catalogué à ce jour).
Or on s’aperçoit, en examinant de près les listes contractuelles, que les éditeurs ont tendance à simplifier, en ne retenant qu’un seul titre et un seul identifiant pour X titres et X identifiants dans le SUDOC et dans le registre.
Afin de rétablir un découpage correct, qui « colle » aux données ISSN, et donc de repérer précisément la notice sous laquelle il faut créer l’exemplaire ABES-Licence Nationale, l’ABES utilise le programme Métarevues.
Si le traitement des périodiques dans le SUDOC est intimement lié aux données ISSN, les éditeurs, eux, prennent quelques libertés avec les règles très strictes du registre.
On sait que les périodiques ont une histoire bibliographique complexe, faite de changements de titre, fusions, scissions, …
METAREVUES est capable, à partir d’un ISSN, de lister tous les titres liés à celui-ci par les zones 43X, 44X et 452.
Ex. pour ce titre chez Elsevier :
ISSN d’entrée = l’ISSN fourni par l’éditeur
Dans le Sudoc, ce titre est lié à 3 autres titres papier, qui ont tous un ou plusieurs lien(s) 43X et 44X (ici : 436 = fusion de … et de …), et les dates de couverture divergent : on a donc affaire à une « métarevue », là où l’éditeur considère qu’il s’agit d’une revue simple, publiée à partir de 1962.
+ lié à une notice de périodique électronique par une zone 452 = a pour autre édition sur un support différent)
*métarevue = ensemble des titres qui constitue une revue depuis sa naissance.
Pour faciliter le repérage, le programme fournit également le PPN correspondant à chaque titre.
Développement spécifique d’un programme pour comparer la livraison effective à la livraison attendue. Ce qui est acheté et dc attendu, ce sont des tranches annuelles de périodiques.
Ce qui est concrètement livré, ce sont des millions d’articles individuels.
Notre programme doit donc d’abord rendre commensurable ce qui est attendu et ce qui est livré. Ce qui revient à agréger et analyser la masse de métadonnées attachés à chaque article, pour représenter cette masse sous la forme de tranche d’années et de listes de volumes (voire de fascicule).
Pour chaque périodique, on peut alors comparer ces tranches d’années calculées à partir des métadonnées d’article aux tranches prévues par le contrat… pourvu qu’on ait rétabli une cohérence entre les ISSN utilisés pour désigner une métarevue du côté des articles et du côté de la liste contractuelle.
En parallèle, la liste des volumes livrés permet également d’identifier des lacunes dans la livraison. Plus précisément, une lacune annuelle sans lacune de volume correspondante révèle une fausse alerte : l’année manque car la publication a été interrompue ; mais la numérotation du périodique a continué sans interruption.
Enfin, autre écueil : certaines lacunes apparentes correspondent en fait à la livraison effective de fichiers inexploitables : le PDF sera lisible, mais personne ne tombera dessus, faute de métadonnées exploitables.
Après le travail d’identification, on va appliquer différents traitements, qui vont permettre d’augmenter le degré de précision des données bibliographiques et des données d’exemplaire, grâce à des sources extérieures au SUDOC.
Les enrichissements pour une notice de périodique sont peu nombreux, mais revêtent une importance capitale puisqu’ils concernent les dates de couverture (zone 207) et l’accès à la ressource (zone 859)
Le renseignement de la zone 207 est crucial pour les périodiques électroniques : la date de publication « officielle » d’un périodique électronique étant sa date de mise en ligne, seule la zone 207 permet d’appréhender la couverture réelle d’un titre.
Au niveau de l’exemplaire, c’est évidemment l’état de collection qui va retenir l’attention : grâce aux informations glanées dans les métadonnées XML, l’ABES va proposer un état de collection détaillé.
Pour que les données xml éditeur soient exploitables, il faut que les fichiers livrés par les éditeurs soient valides et bien formés, et que les données qu’ils contiennent soient correctes.
Par ex., un ISBN dont la forme ne serait pas correcte empêche la validation de la notice dans le Sudoc : « les ISBN dont la structure - nombre de caractères, division en segments - ou la clé de contrôle est non conforme » (GM) » (contrôle de validation par le système)
=> Corrections dans les fichiers XML
Ex. dans corpus Taylor & Francis :
Cette balise :
<isbn pub-type="ebk">isbn : 978-0-203-00512-5 (ebk)</isbn>
A été corrigée directement dans le fichier xml : <isbn pub-type="ebk">978-0-203-00512-5</isbn>
Streaming Api for XML
Pour être enrichies et devenir comestibles pour le SUDOC, les données XML vont être converties dans divers formats, principalement grâce à XSLT
eXtensible Stylesheet Language Transformations
Enrichissements :
Grâce à des sources extérieures
Grâce aux informations trouvées/présentes dans les fichiers xml éditeur
< fichiers xml (données présentes)
- Les différents formats (PDF, EPUB, …)
Identifiants : ISBN pour chaque format
DOI (passerelle entre données HUB et Sudoc)
Pagination de l’édition imprimée correspondante
Informations récupérées grâce aux autres sources :
identifiants auteurs (<qualinca)
Indice Dewey (<OCLC Classify web service d’OCLC)
Zone(s) de gestion : générée(s) par la procédure d’import
035 : che sou RSC_EBOOKS_LN?
L’ensemble des métadonnées vérifiées, traitées, enrichies sont exposées dans divers univers pour servir les différents besoins des communautés.
Des traitements et des enrichissements sont réalisés par les collègues de l’INIST sur le texte des documents.
ISTEX existe. C’est une plateforme unique par son contenu, par ses données et métadonnées riches, par ses services.
ISTEX évoluera encore :
À terme nous y intègrerons des ressources en open accesss
Nous pensons y charger les thèses françaises
Si ISTEX 2 voit le jour des ressources supplémentaires seront acquises