1. Solutions de recherche et d'accès à l'information
ISIDORE est la plateforme d'accès unifié aux données produites par
la recherche francophone en sciences humaines et sociales. Elle est un
socle applicatif ouvert constitué à la fois d'un moteur de recherche et
d'un point de diffusion des données en accès libre selon les principes
du Web Sémantique.
ISIDORE est une réalisation du Très Grand Equipement ADONIS du
CNRS. http://www.rechercheisidore.fr
Contexte et objectifs
Toutes les disciplines des Sciences Humaines et Sociales (SHS) sont confrontées à un accroissement accéléré des données
numérisées ou nativement numériques. Ces masses de données hétérogènes - sources textuelles, orales, iconographiques,
audiovisuelles, images 3D, publications électroniques, séries de calculs - soulèvent de nombreuses questions : accessibilité,
interopérabilité, publication, conservation, pérennité. Face à de tels enjeux, le CNRS met en oeuvre une infrastructure pour la
recherche et l'enseignement supérieur qui permettra d'accroître la visibilité des travaux et des résultats de la recherche par une
meilleure mise à disposition des données.
Fin 2009, le TGE Adonis a lancé la Le cahier des charges de la plateforme Isidore est particulièrement ambitieux,
réalisation du socle de services et le tant en termes de diversité et de volumétrie des données, qu'en termes de
moteur de recherche pour accéder fonctionnalités :
aux données et documents des SHS.
Cette plateforme, nommée Isidore, doit »»oissonnage ciblé des données scientifiques et des métadonnées
M
structurées selon des protocoles variés. Plus de 750 sources différentes
permettre : constituent le corpus SHS.
»» d'offrir à la communauté un »»
Normalisation des métadonnées et enrichissement des données en
ensemble de services de traitement s'appuyant sur des référentiels reconnus dans la communauté.
et de diffusion des données
mutualisable à haute valeur ajoutée ; »»oteur de recherche sur les données non structurées (texte
M
intégral) et sur les données structurées (métadonnées documentaires
»» de constituer la mémoire vivante de existantes ou crées par enrichissement).
la recherche en SHS ;
»»ise à disposition des métadonnées enrichies afin de créer une
M
»» de placer les données des SHS dans boucle de rétroaction vers les producteurs de données selon les
le « Web de données », la prochaine principes et technologies du Web Sémantique.
évolution du Web, permettant ainsi
une meilleure mise à disposition des »»
I
ntégration possible du moteur de recherche Isidore et des données
ressources, de leurs relations et de exposées dans un autre environnement par la mise à disposition d'API Web.
leurs échanges.
A l'issu d'un appel d'offres, le CNRS a retenu les solutions
Information Factory (AIF) et Finder Suite (AFS) d'Antidot
pour la réalisation de la plateforme Isidore.
www.antidot.net
2. Information Factory
Antidot Information Factory (AIF) est une solution logicielle conçue spécialement pour répondre aux enjeux de valorisation
et d'exploitation des données non structurées ou semi structurées. Information Factory est une « machine à produire de
l'information » qui industrialise la captation et le traitement des données existantes puis la mise à disposition automatisée
d'informations enrichies.
AIF s'utilise comme un jeu de construction : pour créer des chaines de
traitement, il suffit d'assembler et de paramétrer des modules prêts à
l'emploi. Il en existe plus de 50 disponibles :
odules de captation qui se connectent aux sources et
m
récupèrent les données ciblées ;
modules de normalisation et de nettoyage des données ;
odules d'enrichissement pour la classification, l'annotation et
m
la mise en relation.
En bout de chaine, les données enrichies ou créées peuvent être
exposées / publiées de plusieurs façons telles que la génération de
fichiers ou l'injection dans une base ou un triplestore RDF.
Bien évidemment en bout de chaine il est possible connecter le moteur de recherche AFS afin d'offrir en plus un service de
recherche performant et riche sur l'ensemble des données.
Classification des données
Parmi les 750 sources, il en est une, l'archive en ligne HAL-SHS (http://halshs.archives-
ouvertes.fr) qui propose près de 30 000 documents déjà tous affectés dans un plan de
classement. Cette taxonomie est assez simple et représentative du domaine des SHS, si bien
qu'il a été décidé de l'étendre à l'ensemble de 750 sources grâce au module de classification
d'AIF. Cela signifie que les millions de documents du corpus Isidore doivent être rangés dans
ces catégories. Vu les volumes, toute intervention manuelle est bien évidemment exclue.
La première étape consiste à utiliser les 30 000 documents de HAL-SHS
déjà catégorisés pour entrainer le module de classification. Celui-ci regarde
pour chaque document la ou les catégories dans lesquelles ce dernier est
rangé afin d'apprendre. A l'issu de cette phase, le classifieur génère une
base de signatures sémantiques.
La base de signatures ainsi générée est exploitée lors de la
phase de traitement. Lorsqu'un document passe à travers le
module de classification, il se voit automatiquement attribuer
une ou plusieurs catégories de la taxonomie HAL-SHS. Même les
documents de HAL-SHS sont retraités et certains qui n'avaient qu'une catégorie s'en voient affecter une seconde.
Une des applications de cette classification est de pouvoir offrir, lors de la
recherche, une facette (un filtre) qui s'applique à l'ensemble des documents et pas
seulement à ceux issus de HAL-SHS.
Les résultats obtenus ont été évalués et sont d'excellente qualité puisque le score
de précision est supérieur à 90%. Ce sont en tout 4 classifications différentes qui
sont réalisées dans Isidore puisque les éléments du corpus sont analysés et rangés
selon d'autres taxonomies comme les sujets et les époques historiques.
3. Gestion des sources
1 Pour chacune des 750 sources à
capter et enrichir, ce sont plus de 30
modules de traitement qui s'enchainent.
Certains sont spécifiques au type de la
1
source (flux RSS, site, entrepôt OAI...).
D'autres sont génériques. Générique ou
spécifique, chaque module est configuré
par des paramètres qui déterminent son
comportement.
2 La définition des sources et de leurs
caractéristiques est réalisée à travers
une application dédiée qui fournit ces
paramètres sous forme de fichiers XML.
3 Une chaine de traitement AIF a été
configurée afin de transformer ces fichiers 2 3
XML de définition des sources en fichiers
de configuration de la chaine et des
modules AIF.
Ainsi la configuration de la captation et
de l'enrichissement des 750 sources est
auto générée et chaque ajout/modification
de source depuis l'interface de gestion
modifie dynamiquement le comportement de l'ensemble de la solution.
Web de données
Afin de rendre les documents SHS compatibles avec le Web de données, une URI pérenne leur est attribuée si elles n'en
possèdent pas déjà. En effet, seules quelques rares sources (telles que la BnF) attribuent à leurs données des URI (Uniform
Resource Identifier) stables et pérennes. Or l'URI est l'élément fondamental
du Web de données : c'est l'identifiant unique de la ressource par lequel le lien
entre éléments est fait. Ainsi, lorsqu'un document a déjà une URI, celle-ci est
repérée et utilisée. Sinon une URI pérenne lui est attribuée lors de la phase de
normalisation. Le système de gestion des URI est Handle (www.handle.net).
Un module AIF dédié est chargé de repérer si un document possède déjà une
URI et sinon d'en demander une au système Handle.
En bout de chaine AIF, un sous-ensemble choisi de
métadonnées est transformé en RDF selon une ontologie
cible, et ces triplets RDF sont injectés dans des entrepôts.
Plusieurs triplestore sont constitués, contenant chacun les
triplets nécessaires à des usages spécifiques.
Ces entrepôts sont rendus accessibles par un point d'accès SPARQL. Les données SHS sont ainsi exposées dans le Web de
données dans une perspective d'Open Data. Respectant les principes de la négociation de contenu en vigueur sur le Web,
chaque ressource informationnelle est accessible selon plusieurs formats : HTML, RDF/XML, N3.
4. Moteur de recherche
Les données captées et enrichies par Antidot Information Factory sont
indexées par le moteur de recherche AFS.
Le moteur permet d'offrir un accès fonctionnellement riche sur
l'ensemble des données constituées :
autocomplétion tolérante et structurée lors de la saisie ;
ffinage dynamique des réponses grâce aux facettes. Les facettes
a
proposées proviennent pour certaines des métadonnées des
documents, alors que d'autres ont été générées par AIF lors de
l'enrichissement : catégories issues des étapes de classification,
alignement sur des référentiels ;
avigation transversale dans le corpus grâce à des fonctions
n
de rebond et de liens inter documents pour une assistance à la
découverte d'information ;
echerche visuelle grâce à des représentations cartographiques
r
ou par le positionnement des documents clés sur des échelles
temporelles.
Résultat projet
La maîtrise d'ouvrage, le TGE Adonis, avait posé un cahier des charges ambitieux et visionnaire. Grâce au travail commun
de la maitrise d'oeuvre CNRS (le CCSD), de l'intégrateur (Sword) et du fournisseur des composants technologiques (Antidot),
l'ensemble des défis fonctionnels et techniques ont été relevés et résolus avec succès.
Le résultat est reconnu par la communauté comme une réussite indéniable. Le CNRS dispose à présent d'une plateforme
«L
ouverte dont les services (enrichissement, maillage, recherche, navigation) peuvent être intégrés à des applications variées.
Le portail Isidore en est le premier représentant.
a mission principale du projet, réalisé par le très grand équipement Adonis du CNRS, était de proposer un accès
unifié à des données hétérogènes et distribuées. Il s'agit de valoriser des données structurées et le texte intégral
associé, produits dans les laboratoires et les bibliothèques de recherche. L'unification des données et l'enrichissement
offre la possibilité de naviguer dans un espace documentaire et informationnel étendu permettant d'explorer des
questions scientifiques nouvelles mais aussi les frontières scientifiques des disciplines. Les trois modes d'accès (web,
api, 3store RDF) sont complémentaires et permettent de développer des outils à géométrie variable suivant les
»
usages. Ainsi, la solution Information Factory d'Antidot, qui est au coeur d'ISIDORE, correspond pleinement aux
attentes du TGE Adonis car elle permet de traiter à la fois les données structurées, le texte intégral, l'enrichissement,
les modes accès dans le respect des standards du web sémantique ce qui est un réel plus pour nous.
M. Stéphane Pouyllau
co-directeur du projet
Paris | Lyon | Aix-en-Provence www.antidot.net info@antidot.net +33 (0)4 72 76 03 80