1. Antidot Information Factory
Etes-vous sûr d’exploiter pleinement le potentiel informationnel
de votre organisation ?
Vos utilisateurs disposent de nombreuses données et L’évolution de votre écosystème nécessite de partager
applications. Pourtant ils se plaignent de leur difficulté à avec vos partenaires via Internet des données choisies
trouver la bonne information. (catalogues, fiches produit, etc).
Pour satisfaire rapidement les demandes fonctionnelles, vous Le schéma directeur du système d’information inclut une
devez créer des applications métier agrégeant des données phase d’urbanisation des données afin de repousser les
éparses dans et hors de votre entreprise. limites du SOA qui n’autorise que les échanges applicatifs.
Aujourd’hui les données de votre organisation sont enfermées dans des applications. Email, serveurs de fichiers, sites web, intranet, GED-
CMS, bases relationnelles, CRM, ERP... constituent autant de silos par essence hétérogènes qui imposent des structures et des méthodes
d’accès spécifiques.
Pour mettre en synergie de façon agile vos différentes sources, il convient de rendre vos données interopérables. Sans modifier l’existant,
un outil dédié doit agréger, normaliser, articuler et exposer les données de ces sources. Dès lors, pour chaque nouveau besoin, les don-
nées seront déjà disponibles, prêtes à être assemblées selon votre objectif.
Antidot Information Factory (AIF) est une solution Antidot Information Factory permet de :
logicielle conçue spécialement pour répondre à • capter les données contenues dans les différents silos internes ou externes
ces enjeux de valorisation et d’exploitation des à votre entreprise ;
données non structurées ou semi-structurées. • transformer ces données : nettoyage, normalisation, mise en format cible ;
Antidot Information Factory est une « machine à • les enrichir en les catégorisant selon des plans de classement, en les anno-
produire de l’information » qui industrialise le trai- tant automatiquement et en les alignant avec des référentiels métier ;
tement des données existantes et la mise à disposi- • relier vos données afin de les mettre en synergie et de faire émerger
tion automatisée d’informations riches. AIF permet l’information pertinente pour votre métier ;
de créer un véritable « espace informationnel en- • publier cette information enrichie selon des protocoles standardisés afin
richi » au service de vos utilisateurs et de vos appli- de les exposer aux applications de votre système d’information, à vos
cations. utilisateurs ou à vos partenaires.
Une solution souple et modulaire
AIF s’utilise comme un jeu de construction : pour créer des chaines de traitement,
il suffit d’assembler et de paramétrer des modules prêts à l’emploi :
• modules de captation qui se connectent aux sources et
récupèrent les données ciblées ;
• modules de normalisation et de nettoyage des données ;
• modules d’enrichissement pour la classification, l’annotation et
la mise en relation.
Information Factory permet de créer rapidement des chaines de traitement faciles à maintenir : AIF propose un catalogue de plus de 50
modules standard. C’est également une plateforme ouverte : grâce à des interfaces accessibles vous pouvez rapidement développer
vos propres modules pour réaliser des traitements spécifiques.
2. chnologie Technologie Technologie Technologie
Antidot Information Factory est une solution logicielle industrielle et puissante qui
repose intégralement sur des standards récents et plébiscités
Technologies XML (schémas, XSL, XPath, XQuery) ; Web Services de type REST pour les échanges ; technologies du Web Sémantique (RDF,
OWL, SPARQL) pour la modélisation et le traitement.
En bout de chaine, les données enrichies ou créées peuvent être
exposées / publiées de plusieurs façons selon les besoins projet :
• génération de fichiers ad hoc ;
• injection dans une base relationnelle ;
• njection dans un entrepôt RDF offrant une interface d’accès de
i
type Web Service normalisé (SPARQL) ;
• xposition à travers le composant Antidot Content Repository qui
e
fournit un service d’accès aux contenus.
Bien évidemment en bout de chaine vous pouvez également connecter
le moteur de recherche AFS afin d’offrir à vos utilisateurs un service de
recherche performant et riche sur l’ensemble des informations.
Architecture
Antidot Information Factory est architecturé autour de 3 composants :
• Un framework (C++ et Python) à partir duquel sont développés tous les modules de traitement
et qui fournit les fonctions essentielles : récupération et transmission des données à traiter,
gestion des erreurs, reporting, accès de haut niveau aux documents sans avoir à se soucier de
l’implémentation du stockage.
• Le scheduler est le chef d’orchestre : il construit dynamiquement les chaines de traitements
déclarées, lance les instances des modules, pilote l’avancement des documents dans la
chaine. Il est interconnecté avec le back-office afin de fournir en temps réel des indicateurs
sur les traitements en cours.
• Le back-office permet d’interagir avec AIF pour démarrer, programmer, arrêter et suivre les
chaines de traitement.
Modélisation des unités documentaires
Une ressource documentaire est dans la plupart des cas composée Et la richesse du corpus et des documents ne s’arrête pas là :
de plusieurs éléments :
• es modules de traitement d’AIF génèrent des données
L
• n « fichier bureautique » est une unité documentaire
U supplémentaires qui enrichissent le document initial : sujets
constituée du fichier lui-même, mais également de extraits, entités nommées, annotations sémantiques vers des
ses métadonnées (serveur et répertoire de stockage, référentiels, liens vers des documents similaires …
propriétaire, auteur, date de création, …), de ses droits • haque document source peut exister en plusieurs versions
C
d’accès, etc. et il est nécessaire de regrouper ces versions dans la même
• e document représentant une page Web peut comporter
L unité documentaire.
le code source HTML, les commentaires et les informations • e nouvelles unités documentaires peuvent être créées à
D
des réseaux sociaux (le « I like » de Facebook par exemple), partir de données source.
les métadonnées extraites des balises RDFa, ou encore une
vignette de la page.
Toutes ces problématiques étaient jusqu’à présent adressées au cas par cas avec des développements spécifiques, ce qui crée un
risque projet fort et génère des coûts de maintenance élevés. Antidot Information Factory apporte une réponse opérationnelle et des
technologies éprouvées pour résoudre de façon simple et puissante l’ensemble de ces enjeux sur la structuration et le stockage des
unités documentaires.
3. Innovation Innovation Innovation Innovation In
En effet, Antidot Information Factory ne se contente pas de travailler sur des
fichiers. Chaque document est un objet composite, constitué de plusieurs
couches (layers) qui représentent les différents aspects de ce document :
contenu, méta données, vignette, signature sémantique…
De nouvelles couches peuvent être créées dynamiquement par des modules
réalisant des traitements spécifiques (ex : extraction des entités nommées du
document).
Chaque couche intègre un système de gestion des révisions si bien qu’une
même vue du document peut exister en plusieurs versions, sans avoir à dupliquer
le document. Le document stocke pour chaque couche les différentes versions
ainsi que des indicateurs techniques (nombre de fois qu’une version a été
obtenue, etc).
La création, la lecture, la suppression des unités documentaires et de couches ou de versions
sont des opérations rendues très simples grâce à des méthodes de haut niveau fournies par le
framework AIF qui permettent de masquer la complexité technique et de se concentrer sur les
besoins fonctionnels.
Pour cela, le framework interagit avec le Document Manager qui est en charge du stockage
des unités documentaires. La complexité du stockage physique est prise en charge de façon
centralisée, garantissant des performances et une scalabilité optimales avec une administration
simplifiée.
Intégration à votre environnement
Conçue pour être exploitée dans les environnements d’entreprise les plus exigeants en matière de sécurité, de performance et de
disponibilité, Antidot Information Factory intègre un ensemble de mécanismes à même de répondre à des contraintes avancées de
protection des données, de sécurité applicative et de montée en charge.
Antidot Information Factory propose en standard une bibliothèque de plus de 50 modules prêts à l’emploi, pour créer les chaînes de
captation et de traitement :
• onnecteurs en charge de la captation des données dans les sources en mode pull - AIF va chercher les données en « crawling »
C
- comme en mode push - les données sont envoyées à AIF - pour des traitements synchrones ou asynchrones.
Sont disponibles : crawler web (HTTP, HTTPS, RSS et Atom), accès aux bases de données (Oracle, SQLServer, Sybase, MySQL,
PostgreSL …), annuaires (LDAP, AD), serveurs de fichiers, GED (par CMIS), solutions de publication Web (CMS), entrepôts
documentaires (OAI)...
• Filtres de traitement pour les manipulations de données :
»» gestion des archives (zip, tar, …) pour la réception des données groupées.
»» anipulation des données au format XML et des données structurées : validation, transformation, fusion, découpage,
m
dédoublonnage…
»» normalisation de champs : dates, noms, codes…
»» alignement sur des référentiels métier
»» classification automatique
»» connexion à des produits de text mining tiers : Arisem, Gate, Temis
»» traitements linguistiques d’extraction de concepts ou de mise en relation des documents.
4. Exemple d’application : Linked Data - Open Data
Le Linked Data (Web de données) décrit une méthode de publication les données structurées
de telle façon que ces données puissent être liées entre elles et ainsi devenir plus utiles.
A l’instar du Web qui relie les pages Web, le Linked Data permet de lier des données au niveau
le plus fin : ces liens sont comme des jointures dans les bases relationnelles, mais ici à l’échelle
du Web qui devient alors une immense base de données distribuée.
Le Web de données utilise les normes du Web Sémantique qui ont été développées par le
W3C depuis plus de 10 ans : modélisation par OWL, représentation des données en RDF,
interrogation en SPARQL, échanges de règles en RIF.
Antidot Information Factory intègre l’ensemble de ces technologies de façon native ce qui en fait l’outil idéal pour tous vos projets
d’exposition et de partage des données, que ce soit de façon publique sur le Web, comme de façon privée au sein de l’entreprise et
avec vos partenaires. AIF permet en effet de sélectionner les données à publier au sein de vos différentes sources, de les normaliser
et de les unifier, puis de les publier dans un format adapté. Ainsi, plus besoin de définir des flux et des API spécifiques, ni de concevoir
des mécanismes complexes à base de Web Services ad hoc ou d’échange de fichiers difficiles à suivre et à maintenir, car AIF intègre
l’ensemble des composants nécessaires à l’exposition des données.
De la même façon, AIF vous permet de récupérer des données externes et de les intégrer dans votre système d’information pour
l’enrichir et créer une valeur supplémentaire pour vos utilisateurs. Avez-vous déjà songé à la puissance qu’apportera l’ajout des données
de Wikipédia ou des statistiques de l’Insee à vos données ? Tel client vend x produits sur Angoulême. Mais combien y a-t-il d’habitants à
Angoulême ? Combien de jours de pluie par an ? Et si vous pouviez intégrer toutes les données nécessaires à la prise de décision dans
vos applications ?
L’Open Data (littéralement Données Ouvertes) est un mouvement qui vise à rendre accessibles les données sans mécanisme de sécurité
ni de droit afin de promouvoir leur réutilisation et d’encourager le développement d’applications nouvelles. De par ses objectifs, il a
naturellement rencontré et adopté les principes de Linked Data. A cet égard, AIF s’impose comme une solution mature pour les projets
de Données Ouvertes.
Cas client : Isidore - TGE Adonis / CNRS
Le Très Grand Equipement Adonis du CNRS est destiné à offrir aux Sciences Humaines et
Sociales (SHS) les moyens dont elles ont besoin pour assurer leur rayonnement : conservation
pérenne des données, diffusion des savoirs, partage. Isidore en est le composant clé : il
s’agit de la plateforme d’agrégation et d’enrichissement, le moteur de recherche et de
diffusion de toutes les données SHS.
Isidore a été réalisé à partir des solutions Information Factory (AIF) et Finder Suite (AFS) d’Antidot.
Isidore agrège plus de 750 sources de données différentes de formats variés : entrepôts de données semi-
structurées (thèses, fonds multimédia, livres), sites Web, blogs et carnets de recherche, flux RSS. Toutes ces
données sont par nature structurellement et qualitativement très hétérogènes.
Information Factory permet de collecter les contenus des 750 silos représentant plus d’un million
d’éléments, puis de nettoyer et normaliser toutes les données, de les enrichir et de les aligner sur des
référentiels partagés par la communauté scientifique. Ce sont en tout plus de 30 traitements distincts qui
sont réalisés par autant de modules AIF sur chaque document collecté.
Les données enrichies sont rendues accessibles à travers un moteur de recherche sémantique offrant des fonctionnalités riches (AFS),
ainsi qu’un point accès SPARQL afin d’exposer les données selon les principes de l’Open Data.
Le cas client Isidore est décrit plus en détail dans un document dédié, avec un focus particulier sur quelques traitements clés réalisés
par Information Factory tels que la classification de l’ensemble des données selon plusieurs plans de classements (taxonomies) métier.
www.antidot.net
Paris | Lyon | Aix-en-Provence +33 (0)4 72 76 03 80
info@antidot.net