SlideShare uma empresa Scribd logo
1 de 4
Baixar para ler offline
Antidot Information Factory
Etes-vous sûr d’exploiter pleinement le potentiel informationnel
de votre organisation ?

  Vos utilisateurs disposent de nombreuses données et                         L’évolution de votre écosystème nécessite de partager
  applications. Pourtant ils se plaignent de leur difficulté à                avec vos partenaires via Internet des données choisies
  trouver la bonne information.                                               (catalogues, fiches produit, etc).



  Pour satisfaire rapidement les demandes fonctionnelles, vous                Le schéma directeur du système d’information inclut une
  devez créer des applications métier agrégeant des données                   phase d’urbanisation des données afin de repousser les
  éparses dans et hors de votre entreprise.                                   limites du SOA qui n’autorise que les échanges applicatifs.



Aujourd’hui les données de votre organisation sont enfermées dans des applications. Email, serveurs de fichiers, sites web, intranet, GED-
CMS, bases relationnelles, CRM, ERP... constituent autant de silos par essence hétérogènes qui imposent des structures et des méthodes
d’accès spécifiques.

Pour mettre en synergie de façon agile vos différentes sources, il convient de rendre vos données interopérables. Sans modifier l’existant,
un outil dédié doit agréger, normaliser, articuler et exposer les données de ces sources. Dès lors, pour chaque nouveau besoin, les don-
nées seront déjà disponibles, prêtes à être assemblées selon votre objectif.


Antidot Information Factory (AIF) est une solution         Antidot Information Factory permet de :
logicielle conçue spécialement pour répondre à                   •	 capter les données contenues dans les différents silos internes ou externes
ces enjeux de valorisation et d’exploitation des                   à votre entreprise ;
données non structurées ou semi-structurées.                     •	 transformer ces données : nettoyage, normalisation, mise en format cible ;
Antidot Information Factory est une «  machine à                 •	 les enrichir en les catégorisant selon des plans de classement, en les anno-
produire de l’information » qui industrialise le trai-             tant automatiquement et en les alignant avec des référentiels métier ;
tement des données existantes et la mise à disposi-              •	 relier vos données afin de les mettre en synergie et de faire émerger
tion automatisée d’informations riches. AIF permet                 l’information pertinente pour votre métier ;
de créer un véritable « espace informationnel en-                •	 publier cette information enrichie selon des protocoles standardisés afin
richi » au service de vos utilisateurs et de vos appli-            de les exposer aux applications de votre système d’information, à vos
cations.                                                           utilisateurs ou à vos partenaires.




Une solution souple et modulaire
AIF s’utilise comme un jeu de construction : pour créer des chaines de traitement,
il suffit d’assembler et de paramétrer des modules prêts à l’emploi :

  •	 modules de captation qui se connectent aux sources et
    récupèrent les données ciblées ;
  •	 modules de normalisation et de nettoyage des données ;
  •	 modules d’enrichissement pour la classification, l’annotation et
    la mise en relation.

Information Factory permet de créer rapidement des chaines de traitement faciles à maintenir : AIF propose un catalogue de plus de 50
modules standard. C’est également une plateforme ouverte : grâce à des interfaces accessibles vous pouvez rapidement développer
vos propres modules pour réaliser des traitements spécifiques.
chnologie Technologie Technologie Technologie
   Antidot Information Factory est une solution logicielle industrielle et puissante qui
   repose intégralement sur des standards récents et plébiscités
   Technologies XML (schémas, XSL, XPath, XQuery) ; Web Services de type REST pour les échanges ; technologies du Web Sémantique (RDF,
   OWL, SPARQL) pour la modélisation et le traitement.



   En bout de chaine, les données enrichies ou créées peuvent être
   exposées / publiées de plusieurs façons selon les besoins projet :

     •	 génération de fichiers ad hoc ;
     •	 injection dans une base relationnelle ;
     •	 njection dans un entrepôt RDF offrant une interface d’accès de
        i
       type Web Service normalisé (SPARQL) ;
     •	  xposition à travers le composant Antidot Content Repository qui
        e
       fournit un service d’accès aux contenus.

   Bien évidemment en bout de chaine vous pouvez également connecter
   le moteur de recherche AFS afin d’offrir à vos utilisateurs un service de
   recherche performant et riche sur l’ensemble des informations.



   Architecture

                                          Antidot Information Factory est architecturé autour de 3 composants :

                                          •	 Un framework (C++ et Python) à partir duquel sont développés tous les modules de traitement
                                            et qui fournit les fonctions essentielles : récupération et transmission des données à traiter,
                                            gestion des erreurs, reporting, accès de haut niveau aux documents sans avoir à se soucier de
                                            l’implémentation du stockage.
                                          •	 Le scheduler est le chef d’orchestre : il construit dynamiquement les chaines de traitements
                                            déclarées, lance les instances des modules, pilote l’avancement des documents dans la
                                            chaine. Il est interconnecté avec le back-office afin de fournir en temps réel des indicateurs
                                            sur les traitements en cours.
                                          •	 Le back-office permet d’interagir avec AIF pour démarrer, programmer, arrêter et suivre les
                                            chaines de traitement.




   Modélisation des unités documentaires
   Une ressource documentaire est dans la plupart des cas composée          Et la richesse du corpus et des documents ne s’arrête pas là :
   de plusieurs éléments :
                                                                               •	  es modules de traitement d’AIF génèrent des données
                                                                                  L
     •	  n « fichier bureautique » est une unité documentaire
        U                                                                        supplémentaires qui enrichissent le document initial : sujets
       constituée du fichier lui-même, mais également de                         extraits, entités nommées, annotations sémantiques vers des
       ses métadonnées (serveur et répertoire de stockage,                       référentiels, liens vers des documents similaires …
       propriétaire, auteur, date de création, …), de ses droits               •	  haque document source peut exister en plusieurs versions
                                                                                  C
       d’accès, etc.                                                             et il est nécessaire de regrouper ces versions dans la même
     •	  e document représentant une page Web peut comporter
        L                                                                        unité documentaire.
       le code source HTML, les commentaires et les informations               •	  e nouvelles unités documentaires peuvent être créées à
                                                                                  D
       des réseaux sociaux (le « I like » de Facebook par exemple),              partir de données source.
       les métadonnées extraites des balises RDFa, ou encore une
       vignette de la page.


   Toutes ces problématiques étaient jusqu’à présent adressées au cas par cas avec des développements spécifiques, ce qui crée un
   risque projet fort et génère des coûts de maintenance élevés. Antidot Information Factory apporte une réponse opérationnelle et des
   technologies éprouvées pour résoudre de façon simple et puissante l’ensemble de ces enjeux sur la structuration et le stockage des
   unités documentaires.
Innovation Innovation Innovation Innovation In
 En effet, Antidot Information Factory ne se contente pas de travailler sur des
 fichiers. Chaque document est un objet composite, constitué de plusieurs
 couches (layers) qui représentent les différents aspects de ce document :
 contenu, méta données, vignette, signature sémantique…

 De nouvelles couches peuvent être créées dynamiquement par des modules
 réalisant des traitements spécifiques (ex : extraction des entités nommées du
 document).

 Chaque couche intègre un système de gestion des révisions si bien qu’une
 même vue du document peut exister en plusieurs versions, sans avoir à dupliquer
 le document. Le document stocke pour chaque couche les différentes versions
 ainsi que des indicateurs techniques (nombre de fois qu’une version a été
 obtenue, etc).




                                        La création, la lecture, la suppression des unités documentaires et de couches ou de versions
                                        sont des opérations rendues très simples grâce à des méthodes de haut niveau fournies par le
                                        framework AIF qui permettent de masquer la complexité technique et de se concentrer sur les
                                        besoins fonctionnels.

                                        Pour cela, le framework interagit avec le Document Manager qui est en charge du stockage
                                        des unités documentaires. La complexité du stockage physique est prise en charge de façon
                                        centralisée, garantissant des performances et une scalabilité optimales avec une administration
                                        simplifiée.




 Intégration à votre environnement
 Conçue pour être exploitée dans les environnements d’entreprise les plus exigeants en matière de sécurité, de performance et de
 disponibilité, Antidot Information Factory intègre un ensemble de mécanismes à même de répondre à des contraintes avancées de
 protection des données, de sécurité applicative et de montée en charge.

 Antidot Information Factory propose en standard une bibliothèque de plus de 50 modules prêts à l’emploi, pour créer les chaînes de
 captation et de traitement :

   •	  onnecteurs en charge de la captation des données dans les sources en mode pull - AIF va chercher les données en « crawling »
      C
     - comme en mode push - les données sont envoyées à AIF - pour des traitements synchrones ou asynchrones.
     Sont disponibles : crawler web (HTTP, HTTPS, RSS et Atom), accès aux bases de données (Oracle, SQLServer, Sybase, MySQL,
     PostgreSL …), annuaires (LDAP, AD), serveurs de fichiers, GED (par CMIS), solutions de publication Web (CMS), entrepôts
     documentaires (OAI)...

   •	 Filtres de traitement pour les manipulations de données :
      »» gestion des archives (zip, tar, …) pour la réception des données groupées.
      »»  anipulation des données au format XML et des données structurées : validation, transformation, fusion, découpage,
         m
         dédoublonnage…
      »» normalisation de champs : dates, noms, codes…
      »» alignement sur des référentiels métier
      »» classification automatique
      »» connexion à des produits de text mining tiers : Arisem, Gate, Temis
      »» traitements linguistiques d’extraction de concepts ou de mise en relation des documents.
Exemple d’application : Linked Data - Open Data
Le Linked Data (Web de données) décrit une méthode de publication les données structurées
de telle façon que ces données puissent être liées entre elles et ainsi devenir plus utiles.
A l’instar du Web qui relie les pages Web, le Linked Data permet de lier des données au niveau
le plus fin : ces liens sont comme des jointures dans les bases relationnelles, mais ici à l’échelle
du Web qui devient alors une immense base de données distribuée.

Le Web de données utilise les normes du Web Sémantique qui ont été développées par le
W3C depuis plus de 10 ans : modélisation par OWL, représentation des données en RDF,
interrogation en SPARQL, échanges de règles en RIF.

Antidot Information Factory intègre l’ensemble de ces technologies de façon native ce qui en fait l’outil idéal pour tous vos projets
d’exposition et de partage des données, que ce soit de façon publique sur le Web, comme de façon privée au sein de l’entreprise et
avec vos partenaires. AIF permet en effet de sélectionner les données à publier au sein de vos différentes sources, de les normaliser
et de les unifier, puis de les publier dans un format adapté. Ainsi, plus besoin de définir des flux et des API spécifiques, ni de concevoir
des mécanismes complexes à base de Web Services ad hoc ou d’échange de fichiers difficiles à suivre et à maintenir, car AIF intègre
l’ensemble des composants nécessaires à l’exposition des données.

De la même façon, AIF vous permet de récupérer des données externes et de les intégrer dans votre système d’information pour
l’enrichir et créer une valeur supplémentaire pour vos utilisateurs. Avez-vous déjà songé à la puissance qu’apportera l’ajout des données
de Wikipédia ou des statistiques de l’Insee à vos données ? Tel client vend x produits sur Angoulême. Mais combien y a-t-il d’habitants à
Angoulême ? Combien de jours de pluie par an ? Et si vous pouviez intégrer toutes les données nécessaires à la prise de décision dans
vos applications ?

L’Open Data (littéralement Données Ouvertes) est un mouvement qui vise à rendre accessibles les données sans mécanisme de sécurité
ni de droit afin de promouvoir leur réutilisation et d’encourager le développement d’applications nouvelles. De par ses objectifs, il a
naturellement rencontré et adopté les principes de Linked Data. A cet égard, AIF s’impose comme une solution mature pour les projets
de Données Ouvertes.




Cas client : Isidore - TGE Adonis / CNRS
Le Très Grand Equipement Adonis du CNRS est destiné à offrir aux Sciences Humaines et
Sociales (SHS) les moyens dont elles ont besoin pour assurer leur rayonnement : conservation
pérenne des données, diffusion des savoirs, partage. Isidore en est le composant clé : il
s’agit de la plateforme d’agrégation et d’enrichissement, le moteur de recherche et de
diffusion de toutes les données SHS.

Isidore a été réalisé à partir des solutions Information Factory (AIF) et Finder Suite (AFS) d’Antidot.

Isidore agrège plus de 750 sources de données différentes de formats variés : entrepôts de données semi-
structurées (thèses, fonds multimédia, livres), sites Web, blogs et carnets de recherche, flux RSS. Toutes ces
données sont par nature structurellement et qualitativement très hétérogènes.

Information Factory permet de collecter les contenus des 750 silos représentant plus d’un million
d’éléments, puis de nettoyer et normaliser toutes les données, de les enrichir et de les aligner sur des
référentiels partagés par la communauté scientifique. Ce sont en tout plus de 30 traitements distincts qui
sont réalisés par autant de modules AIF sur chaque document collecté.

Les données enrichies sont rendues accessibles à travers un moteur de recherche sémantique offrant des fonctionnalités riches (AFS),
ainsi qu’un point accès SPARQL afin d’exposer les données selon les principes de l’Open Data.

Le cas client Isidore est décrit plus en détail dans un document dédié, avec un focus particulier sur quelques traitements clés réalisés
par Information Factory tels que la classification de l’ensemble des données selon plusieurs plans de classements (taxonomies) métier.




                                                                                           www.antidot.net
                                       Paris | Lyon | Aix-en-Provence                                                  +33 (0)4 72 76 03 80
                                                                                           info@antidot.net

Mais conteúdo relacionado

Mais procurados

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
Bases de donnees fondamentaux
Bases de donnees fondamentauxBases de donnees fondamentaux
Bases de donnees fondamentauxRokhaya CISSE
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueGautier Poupeau
 
Documation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéDocumation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéAntidot
 
Présentation GED Sollan Documation 2008
Présentation GED Sollan Documation 2008Présentation GED Sollan Documation 2008
Présentation GED Sollan Documation 2008mlefebvre
 
File Director Brochure V2 -french
File Director Brochure V2 -frenchFile Director Brochure V2 -french
File Director Brochure V2 -frenchFileDirector
 
Une nouvelle plateforme de donnée pour vos applications transactionnelles et ...
Une nouvelle plateforme de donnée pour vos applications transactionnelles et ...Une nouvelle plateforme de donnée pour vos applications transactionnelles et ...
Une nouvelle plateforme de donnée pour vos applications transactionnelles et ...Robert Bira
 
Cloud Privé, Cloud Public, pourquoi choisir? Cloud Hybride, le meilleur des d...
Cloud Privé, Cloud Public, pourquoi choisir? Cloud Hybride, le meilleur des d...Cloud Privé, Cloud Public, pourquoi choisir? Cloud Hybride, le meilleur des d...
Cloud Privé, Cloud Public, pourquoi choisir? Cloud Hybride, le meilleur des d...Microsoft Ideas
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
Analyse fonctionnelle anmesty international
Analyse fonctionnelle   anmesty internationalAnalyse fonctionnelle   anmesty international
Analyse fonctionnelle anmesty internationalAnnik Ethier
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
 
Webinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoWebinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoJean Francois DONIKIAN
 
Archivage, sauvegarde et restauration pour une virtualisation réussie
Archivage, sauvegarde et restauration pour une virtualisation réussieArchivage, sauvegarde et restauration pour une virtualisation réussie
Archivage, sauvegarde et restauration pour une virtualisation réussieAquastar Consulting
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
 
Linked Enterprise Data ou comment disposer d'une vue consolidée des données
Linked Enterprise Data ou comment disposer d'une vue consolidée des donnéesLinked Enterprise Data ou comment disposer d'une vue consolidée des données
Linked Enterprise Data ou comment disposer d'une vue consolidée des donnéesAntidot
 
Nuxeo DAM, l'approche plateforme
Nuxeo DAM, l'approche plateformeNuxeo DAM, l'approche plateforme
Nuxeo DAM, l'approche plateformeAlain Escaffre
 

Mais procurados (19)

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Bases de donnees fondamentaux
Bases de donnees fondamentauxBases de donnees fondamentaux
Bases de donnees fondamentaux
 
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physiqueVisite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
Visite guidée au pays de la donnée - Du modèle conceptuel au modèle physique
 
Documation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéDocumation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifié
 
Présentation GED Sollan Documation 2008
Présentation GED Sollan Documation 2008Présentation GED Sollan Documation 2008
Présentation GED Sollan Documation 2008
 
File Director Brochure V2 -french
File Director Brochure V2 -frenchFile Director Brochure V2 -french
File Director Brochure V2 -french
 
Une nouvelle plateforme de donnée pour vos applications transactionnelles et ...
Une nouvelle plateforme de donnée pour vos applications transactionnelles et ...Une nouvelle plateforme de donnée pour vos applications transactionnelles et ...
Une nouvelle plateforme de donnée pour vos applications transactionnelles et ...
 
Cloud Privé, Cloud Public, pourquoi choisir? Cloud Hybride, le meilleur des d...
Cloud Privé, Cloud Public, pourquoi choisir? Cloud Hybride, le meilleur des d...Cloud Privé, Cloud Public, pourquoi choisir? Cloud Hybride, le meilleur des d...
Cloud Privé, Cloud Public, pourquoi choisir? Cloud Hybride, le meilleur des d...
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Analyse fonctionnelle anmesty international
Analyse fonctionnelle   anmesty internationalAnalyse fonctionnelle   anmesty international
Analyse fonctionnelle anmesty international
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Webinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoWebinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfresco
 
Archivage, sauvegarde et restauration pour une virtualisation réussie
Archivage, sauvegarde et restauration pour une virtualisation réussieArchivage, sauvegarde et restauration pour une virtualisation réussie
Archivage, sauvegarde et restauration pour une virtualisation réussie
 
Big Data, Kesako ?
Big Data, Kesako ?Big Data, Kesako ?
Big Data, Kesako ?
 
Ged sharepoint 2010
Ged   sharepoint 2010Ged   sharepoint 2010
Ged sharepoint 2010
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
Linked Enterprise Data ou comment disposer d'une vue consolidée des données
Linked Enterprise Data ou comment disposer d'une vue consolidée des donnéesLinked Enterprise Data ou comment disposer d'une vue consolidée des données
Linked Enterprise Data ou comment disposer d'une vue consolidée des données
 
Ged
Ged Ged
Ged
 
Nuxeo DAM, l'approche plateforme
Nuxeo DAM, l'approche plateformeNuxeo DAM, l'approche plateforme
Nuxeo DAM, l'approche plateforme
 

Semelhante a ANTIDOT - Antidot information factory

Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Converteo
 
Quelques domaines de maturité des Logiciels Libres
Quelques domaines de maturité des Logiciels LibresQuelques domaines de maturité des Logiciels Libres
Quelques domaines de maturité des Logiciels LibresJibril Touzi
 
Emna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna Borgi
 
Comment retrouver, nettoyer, organiser et gérer l’information dans votre entr...
Comment retrouver, nettoyer, organiser et gérer l’information dans votre entr...Comment retrouver, nettoyer, organiser et gérer l’information dans votre entr...
Comment retrouver, nettoyer, organiser et gérer l’information dans votre entr...Everteam
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesConverteo
 
Monticolo sem-know
 Monticolo sem-know Monticolo sem-know
Monticolo sem-knowADIL LAOUFI
 
Espace Collaboratif - Gestion de projet
Espace Collaboratif - Gestion de projetEspace Collaboratif - Gestion de projet
Espace Collaboratif - Gestion de projetMarie-Anne Comte
 
Solution Hitachi Content Platform
Solution Hitachi Content PlatformSolution Hitachi Content Platform
Solution Hitachi Content PlatformBertrand LE QUELLEC
 
Présentation Ecreall - Mickaël Launay
Présentation Ecreall - Mickaël LaunayPrésentation Ecreall - Mickaël Launay
Présentation Ecreall - Mickaël LaunayTechnocite
 
La documentation du système d'information
La documentation du système d'informationLa documentation du système d'information
La documentation du système d'informationChiheb Ouaghlani
 
Séminaire sur l'information structurée
Séminaire sur l'information structuréeSéminaire sur l'information structurée
Séminaire sur l'information structuréeSEGIC
 
OpenDataSoft -Transformez votre organisation en plateforme d'innovation
OpenDataSoft -Transformez votre organisation en plateforme d'innovationOpenDataSoft -Transformez votre organisation en plateforme d'innovation
OpenDataSoft -Transformez votre organisation en plateforme d'innovationOpenDataSoft
 
cours-intro-base-donnees.pdf
cours-intro-base-donnees.pdfcours-intro-base-donnees.pdf
cours-intro-base-donnees.pdfdjamelbentorkia
 

Semelhante a ANTIDOT - Antidot information factory (20)

Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 
Quelques domaines de maturité des Logiciels Libres
Quelques domaines de maturité des Logiciels LibresQuelques domaines de maturité des Logiciels Libres
Quelques domaines de maturité des Logiciels Libres
 
Emna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouse
 
Parc info
Parc infoParc info
Parc info
 
Présentation OCARA
Présentation OCARAPrésentation OCARA
Présentation OCARA
 
Comment retrouver, nettoyer, organiser et gérer l’information dans votre entr...
Comment retrouver, nettoyer, organiser et gérer l’information dans votre entr...Comment retrouver, nettoyer, organiser et gérer l’information dans votre entr...
Comment retrouver, nettoyer, organiser et gérer l’information dans votre entr...
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
Base donnes my_sql
Base donnes my_sqlBase donnes my_sql
Base donnes my_sql
 
Monticolo sem-know
 Monticolo sem-know Monticolo sem-know
Monticolo sem-know
 
Si bdd
Si bddSi bdd
Si bdd
 
Web content management wcm
Web content management wcmWeb content management wcm
Web content management wcm
 
Espace Collaboratif - Gestion de projet
Espace Collaboratif - Gestion de projetEspace Collaboratif - Gestion de projet
Espace Collaboratif - Gestion de projet
 
4 Solutions Linux Spar
4 Solutions Linux Spar4 Solutions Linux Spar
4 Solutions Linux Spar
 
Solution Hitachi Content Platform
Solution Hitachi Content PlatformSolution Hitachi Content Platform
Solution Hitachi Content Platform
 
Intro SQL
Intro SQL Intro SQL
Intro SQL
 
Présentation Ecreall - Mickaël Launay
Présentation Ecreall - Mickaël LaunayPrésentation Ecreall - Mickaël Launay
Présentation Ecreall - Mickaël Launay
 
La documentation du système d'information
La documentation du système d'informationLa documentation du système d'information
La documentation du système d'information
 
Séminaire sur l'information structurée
Séminaire sur l'information structuréeSéminaire sur l'information structurée
Séminaire sur l'information structurée
 
OpenDataSoft -Transformez votre organisation en plateforme d'innovation
OpenDataSoft -Transformez votre organisation en plateforme d'innovationOpenDataSoft -Transformez votre organisation en plateforme d'innovation
OpenDataSoft -Transformez votre organisation en plateforme d'innovation
 
cours-intro-base-donnees.pdf
cours-intro-base-donnees.pdfcours-intro-base-donnees.pdf
cours-intro-base-donnees.pdf
 

Mais de Documation Gestion de l'information et du document numérique en entreprise

Mais de Documation Gestion de l'information et du document numérique en entreprise (20)

ZYNCRO - Zyncro, la solution de réseau social d'entreprise la plus complète ...
ZYNCRO  - Zyncro, la solution de réseau social d'entreprise la plus complète ...ZYNCRO  - Zyncro, la solution de réseau social d'entreprise la plus complète ...
ZYNCRO - Zyncro, la solution de réseau social d'entreprise la plus complète ...
 
W4 - L'IT et le métier ensemble pour des applications sur mesure
W4 - L'IT et le métier ensemble pour des applications sur mesureW4 - L'IT et le métier ensemble pour des applications sur mesure
W4 - L'IT et le métier ensemble pour des applications sur mesure
 
SQLI - Mise en place d'un private cloud avec SharePoint 2010 et les solutions...
SQLI - Mise en place d'un private cloud avec SharePoint 2010 et les solutions...SQLI - Mise en place d'un private cloud avec SharePoint 2010 et les solutions...
SQLI - Mise en place d'un private cloud avec SharePoint 2010 et les solutions...
 
SQLI - Réduire vos coûts et augmenter la productivité de vos équipes au trav...
SQLI -  Réduire vos coûts et augmenter la productivité de vos équipes au trav...SQLI -  Réduire vos coûts et augmenter la productivité de vos équipes au trav...
SQLI - Réduire vos coûts et augmenter la productivité de vos équipes au trav...
 
SPOTTER - Aide à la décision: technologies et indicateurs pour le marketing e...
SPOTTER - Aide à la décision: technologies et indicateurs pour le marketing e...SPOTTER - Aide à la décision: technologies et indicateurs pour le marketing e...
SPOTTER - Aide à la décision: technologies et indicateurs pour le marketing e...
 
SCENARI - Scenari 4 comment optimiser la rédaction collaborative et la gestio...
SCENARI - Scenari 4 comment optimiser la rédaction collaborative et la gestio...SCENARI - Scenari 4 comment optimiser la rédaction collaborative et la gestio...
SCENARI - Scenari 4 comment optimiser la rédaction collaborative et la gestio...
 
Mondeca - Smart content ou comment rendre vos contenus plus intelligents par...
Mondeca  - Smart content ou comment rendre vos contenus plus intelligents par...Mondeca  - Smart content ou comment rendre vos contenus plus intelligents par...
Mondeca - Smart content ou comment rendre vos contenus plus intelligents par...
 
Klee Group / Spark Archives - Gel des documents & e-discovery - comment arch...
Klee Group /  Spark Archives - Gel des documents & e-discovery - comment arch...Klee Group /  Spark Archives - Gel des documents & e-discovery - comment arch...
Klee Group / Spark Archives - Gel des documents & e-discovery - comment arch...
 
KODAK - Gestion documentaire enrichie pour SharePoint 2010 - capture, recher...
KODAK  - Gestion documentaire enrichie pour SharePoint 2010 - capture, recher...KODAK  - Gestion documentaire enrichie pour SharePoint 2010 - capture, recher...
KODAK - Gestion documentaire enrichie pour SharePoint 2010 - capture, recher...
 
ISIS PAPYRUS - Comment optimiser la gestion des cas dossiers pour améliorer...
ISIS PAPYRUS   - Comment optimiser la gestion des cas dossiers pour améliorer...ISIS PAPYRUS   - Comment optimiser la gestion des cas dossiers pour améliorer...
ISIS PAPYRUS - Comment optimiser la gestion des cas dossiers pour améliorer...
 
INGE COM - Optimisez vos processus métiers en dématérialisant vos courriers e...
INGE COM - Optimisez vos processus métiers en dématérialisant vos courriers e...INGE COM - Optimisez vos processus métiers en dématérialisant vos courriers e...
INGE COM - Optimisez vos processus métiers en dématérialisant vos courriers e...
 
FLA Consultants - Présentation des principaux serveurs agrégateurs
FLA Consultants  - Présentation des principaux serveurs agrégateursFLA Consultants  - Présentation des principaux serveurs agrégateurs
FLA Consultants - Présentation des principaux serveurs agrégateurs
 
ESKER - Diminuez vos coûts et augmentez votre productivité en dématérialisant...
ESKER - Diminuez vos coûts et augmentez votre productivité en dématérialisant...ESKER - Diminuez vos coûts et augmentez votre productivité en dématérialisant...
ESKER - Diminuez vos coûts et augmentez votre productivité en dématérialisant...
 
Coexel - Retour d'expérience du centre national RFID mytwip® – solution col...
Coexel  - Retour d'expérience  du centre national RFID mytwip® – solution col...Coexel  - Retour d'expérience  du centre national RFID mytwip® – solution col...
Coexel - Retour d'expérience du centre national RFID mytwip® – solution col...
 
Campana & Schott - MS Project et SharePoint Serve, des projets plus performa...
Campana & Schott  - MS Project et SharePoint Serve, des projets plus performa...Campana & Schott  - MS Project et SharePoint Serve, des projets plus performa...
Campana & Schott - MS Project et SharePoint Serve, des projets plus performa...
 
Calinda Software - Comment accélérer le déploiement et l'adoption progressive...
Calinda Software - Comment accélérer le déploiement et l'adoption progressive...Calinda Software - Comment accélérer le déploiement et l'adoption progressive...
Calinda Software - Comment accélérer le déploiement et l'adoption progressive...
 
Bentley Systems - Les avantages de Project Wise, solution logicielle permetta...
Bentley Systems - Les avantages de Project Wise, solution logicielle permetta...Bentley Systems - Les avantages de Project Wise, solution logicielle permetta...
Bentley Systems - Les avantages de Project Wise, solution logicielle permetta...
 
Armadillo - Web sémantique, les outils d’un open data culturel
Armadillo  - Web sémantique, les outils d’un open data culturelArmadillo  - Web sémantique, les outils d’un open data culturel
Armadillo - Web sémantique, les outils d’un open data culturel
 
ADBS & Veille Magazine - Pratiques et usages de l'information professionnelle...
ADBS & Veille Magazine - Pratiques et usages de l'information professionnelle...ADBS & Veille Magazine - Pratiques et usages de l'information professionnelle...
ADBS & Veille Magazine - Pratiques et usages de l'information professionnelle...
 
ERIC Archivage et MULTIGEST
ERIC Archivage et MULTIGESTERIC Archivage et MULTIGEST
ERIC Archivage et MULTIGEST
 

ANTIDOT - Antidot information factory

  • 1. Antidot Information Factory Etes-vous sûr d’exploiter pleinement le potentiel informationnel de votre organisation ? Vos utilisateurs disposent de nombreuses données et L’évolution de votre écosystème nécessite de partager applications. Pourtant ils se plaignent de leur difficulté à avec vos partenaires via Internet des données choisies trouver la bonne information. (catalogues, fiches produit, etc). Pour satisfaire rapidement les demandes fonctionnelles, vous Le schéma directeur du système d’information inclut une devez créer des applications métier agrégeant des données phase d’urbanisation des données afin de repousser les éparses dans et hors de votre entreprise. limites du SOA qui n’autorise que les échanges applicatifs. Aujourd’hui les données de votre organisation sont enfermées dans des applications. Email, serveurs de fichiers, sites web, intranet, GED- CMS, bases relationnelles, CRM, ERP... constituent autant de silos par essence hétérogènes qui imposent des structures et des méthodes d’accès spécifiques. Pour mettre en synergie de façon agile vos différentes sources, il convient de rendre vos données interopérables. Sans modifier l’existant, un outil dédié doit agréger, normaliser, articuler et exposer les données de ces sources. Dès lors, pour chaque nouveau besoin, les don- nées seront déjà disponibles, prêtes à être assemblées selon votre objectif. Antidot Information Factory (AIF) est une solution Antidot Information Factory permet de : logicielle conçue spécialement pour répondre à • capter les données contenues dans les différents silos internes ou externes ces enjeux de valorisation et d’exploitation des à votre entreprise ; données non structurées ou semi-structurées. • transformer ces données : nettoyage, normalisation, mise en format cible ; Antidot Information Factory est une «  machine à • les enrichir en les catégorisant selon des plans de classement, en les anno- produire de l’information » qui industrialise le trai- tant automatiquement et en les alignant avec des référentiels métier ; tement des données existantes et la mise à disposi- • relier vos données afin de les mettre en synergie et de faire émerger tion automatisée d’informations riches. AIF permet l’information pertinente pour votre métier ; de créer un véritable « espace informationnel en- • publier cette information enrichie selon des protocoles standardisés afin richi » au service de vos utilisateurs et de vos appli- de les exposer aux applications de votre système d’information, à vos cations. utilisateurs ou à vos partenaires. Une solution souple et modulaire AIF s’utilise comme un jeu de construction : pour créer des chaines de traitement, il suffit d’assembler et de paramétrer des modules prêts à l’emploi : • modules de captation qui se connectent aux sources et récupèrent les données ciblées ; • modules de normalisation et de nettoyage des données ; • modules d’enrichissement pour la classification, l’annotation et la mise en relation. Information Factory permet de créer rapidement des chaines de traitement faciles à maintenir : AIF propose un catalogue de plus de 50 modules standard. C’est également une plateforme ouverte : grâce à des interfaces accessibles vous pouvez rapidement développer vos propres modules pour réaliser des traitements spécifiques.
  • 2. chnologie Technologie Technologie Technologie Antidot Information Factory est une solution logicielle industrielle et puissante qui repose intégralement sur des standards récents et plébiscités Technologies XML (schémas, XSL, XPath, XQuery) ; Web Services de type REST pour les échanges ; technologies du Web Sémantique (RDF, OWL, SPARQL) pour la modélisation et le traitement. En bout de chaine, les données enrichies ou créées peuvent être exposées / publiées de plusieurs façons selon les besoins projet : • génération de fichiers ad hoc ; • injection dans une base relationnelle ; • njection dans un entrepôt RDF offrant une interface d’accès de i type Web Service normalisé (SPARQL) ; • xposition à travers le composant Antidot Content Repository qui e fournit un service d’accès aux contenus. Bien évidemment en bout de chaine vous pouvez également connecter le moteur de recherche AFS afin d’offrir à vos utilisateurs un service de recherche performant et riche sur l’ensemble des informations. Architecture Antidot Information Factory est architecturé autour de 3 composants : • Un framework (C++ et Python) à partir duquel sont développés tous les modules de traitement et qui fournit les fonctions essentielles : récupération et transmission des données à traiter, gestion des erreurs, reporting, accès de haut niveau aux documents sans avoir à se soucier de l’implémentation du stockage. • Le scheduler est le chef d’orchestre : il construit dynamiquement les chaines de traitements déclarées, lance les instances des modules, pilote l’avancement des documents dans la chaine. Il est interconnecté avec le back-office afin de fournir en temps réel des indicateurs sur les traitements en cours. • Le back-office permet d’interagir avec AIF pour démarrer, programmer, arrêter et suivre les chaines de traitement. Modélisation des unités documentaires Une ressource documentaire est dans la plupart des cas composée Et la richesse du corpus et des documents ne s’arrête pas là : de plusieurs éléments : • es modules de traitement d’AIF génèrent des données L • n « fichier bureautique » est une unité documentaire U supplémentaires qui enrichissent le document initial : sujets constituée du fichier lui-même, mais également de extraits, entités nommées, annotations sémantiques vers des ses métadonnées (serveur et répertoire de stockage, référentiels, liens vers des documents similaires … propriétaire, auteur, date de création, …), de ses droits • haque document source peut exister en plusieurs versions C d’accès, etc. et il est nécessaire de regrouper ces versions dans la même • e document représentant une page Web peut comporter L unité documentaire. le code source HTML, les commentaires et les informations • e nouvelles unités documentaires peuvent être créées à D des réseaux sociaux (le « I like » de Facebook par exemple), partir de données source. les métadonnées extraites des balises RDFa, ou encore une vignette de la page. Toutes ces problématiques étaient jusqu’à présent adressées au cas par cas avec des développements spécifiques, ce qui crée un risque projet fort et génère des coûts de maintenance élevés. Antidot Information Factory apporte une réponse opérationnelle et des technologies éprouvées pour résoudre de façon simple et puissante l’ensemble de ces enjeux sur la structuration et le stockage des unités documentaires.
  • 3. Innovation Innovation Innovation Innovation In En effet, Antidot Information Factory ne se contente pas de travailler sur des fichiers. Chaque document est un objet composite, constitué de plusieurs couches (layers) qui représentent les différents aspects de ce document : contenu, méta données, vignette, signature sémantique… De nouvelles couches peuvent être créées dynamiquement par des modules réalisant des traitements spécifiques (ex : extraction des entités nommées du document). Chaque couche intègre un système de gestion des révisions si bien qu’une même vue du document peut exister en plusieurs versions, sans avoir à dupliquer le document. Le document stocke pour chaque couche les différentes versions ainsi que des indicateurs techniques (nombre de fois qu’une version a été obtenue, etc). La création, la lecture, la suppression des unités documentaires et de couches ou de versions sont des opérations rendues très simples grâce à des méthodes de haut niveau fournies par le framework AIF qui permettent de masquer la complexité technique et de se concentrer sur les besoins fonctionnels. Pour cela, le framework interagit avec le Document Manager qui est en charge du stockage des unités documentaires. La complexité du stockage physique est prise en charge de façon centralisée, garantissant des performances et une scalabilité optimales avec une administration simplifiée. Intégration à votre environnement Conçue pour être exploitée dans les environnements d’entreprise les plus exigeants en matière de sécurité, de performance et de disponibilité, Antidot Information Factory intègre un ensemble de mécanismes à même de répondre à des contraintes avancées de protection des données, de sécurité applicative et de montée en charge. Antidot Information Factory propose en standard une bibliothèque de plus de 50 modules prêts à l’emploi, pour créer les chaînes de captation et de traitement : • onnecteurs en charge de la captation des données dans les sources en mode pull - AIF va chercher les données en « crawling » C - comme en mode push - les données sont envoyées à AIF - pour des traitements synchrones ou asynchrones. Sont disponibles : crawler web (HTTP, HTTPS, RSS et Atom), accès aux bases de données (Oracle, SQLServer, Sybase, MySQL, PostgreSL …), annuaires (LDAP, AD), serveurs de fichiers, GED (par CMIS), solutions de publication Web (CMS), entrepôts documentaires (OAI)... • Filtres de traitement pour les manipulations de données : »» gestion des archives (zip, tar, …) pour la réception des données groupées. »» anipulation des données au format XML et des données structurées : validation, transformation, fusion, découpage, m dédoublonnage… »» normalisation de champs : dates, noms, codes… »» alignement sur des référentiels métier »» classification automatique »» connexion à des produits de text mining tiers : Arisem, Gate, Temis »» traitements linguistiques d’extraction de concepts ou de mise en relation des documents.
  • 4. Exemple d’application : Linked Data - Open Data Le Linked Data (Web de données) décrit une méthode de publication les données structurées de telle façon que ces données puissent être liées entre elles et ainsi devenir plus utiles. A l’instar du Web qui relie les pages Web, le Linked Data permet de lier des données au niveau le plus fin : ces liens sont comme des jointures dans les bases relationnelles, mais ici à l’échelle du Web qui devient alors une immense base de données distribuée. Le Web de données utilise les normes du Web Sémantique qui ont été développées par le W3C depuis plus de 10 ans : modélisation par OWL, représentation des données en RDF, interrogation en SPARQL, échanges de règles en RIF. Antidot Information Factory intègre l’ensemble de ces technologies de façon native ce qui en fait l’outil idéal pour tous vos projets d’exposition et de partage des données, que ce soit de façon publique sur le Web, comme de façon privée au sein de l’entreprise et avec vos partenaires. AIF permet en effet de sélectionner les données à publier au sein de vos différentes sources, de les normaliser et de les unifier, puis de les publier dans un format adapté. Ainsi, plus besoin de définir des flux et des API spécifiques, ni de concevoir des mécanismes complexes à base de Web Services ad hoc ou d’échange de fichiers difficiles à suivre et à maintenir, car AIF intègre l’ensemble des composants nécessaires à l’exposition des données. De la même façon, AIF vous permet de récupérer des données externes et de les intégrer dans votre système d’information pour l’enrichir et créer une valeur supplémentaire pour vos utilisateurs. Avez-vous déjà songé à la puissance qu’apportera l’ajout des données de Wikipédia ou des statistiques de l’Insee à vos données ? Tel client vend x produits sur Angoulême. Mais combien y a-t-il d’habitants à Angoulême ? Combien de jours de pluie par an ? Et si vous pouviez intégrer toutes les données nécessaires à la prise de décision dans vos applications ? L’Open Data (littéralement Données Ouvertes) est un mouvement qui vise à rendre accessibles les données sans mécanisme de sécurité ni de droit afin de promouvoir leur réutilisation et d’encourager le développement d’applications nouvelles. De par ses objectifs, il a naturellement rencontré et adopté les principes de Linked Data. A cet égard, AIF s’impose comme une solution mature pour les projets de Données Ouvertes. Cas client : Isidore - TGE Adonis / CNRS Le Très Grand Equipement Adonis du CNRS est destiné à offrir aux Sciences Humaines et Sociales (SHS) les moyens dont elles ont besoin pour assurer leur rayonnement : conservation pérenne des données, diffusion des savoirs, partage. Isidore en est le composant clé : il s’agit de la plateforme d’agrégation et d’enrichissement, le moteur de recherche et de diffusion de toutes les données SHS. Isidore a été réalisé à partir des solutions Information Factory (AIF) et Finder Suite (AFS) d’Antidot. Isidore agrège plus de 750 sources de données différentes de formats variés : entrepôts de données semi- structurées (thèses, fonds multimédia, livres), sites Web, blogs et carnets de recherche, flux RSS. Toutes ces données sont par nature structurellement et qualitativement très hétérogènes. Information Factory permet de collecter les contenus des 750 silos représentant plus d’un million d’éléments, puis de nettoyer et normaliser toutes les données, de les enrichir et de les aligner sur des référentiels partagés par la communauté scientifique. Ce sont en tout plus de 30 traitements distincts qui sont réalisés par autant de modules AIF sur chaque document collecté. Les données enrichies sont rendues accessibles à travers un moteur de recherche sémantique offrant des fonctionnalités riches (AFS), ainsi qu’un point accès SPARQL afin d’exposer les données selon les principes de l’Open Data. Le cas client Isidore est décrit plus en détail dans un document dédié, avec un focus particulier sur quelques traitements clés réalisés par Information Factory tels que la classification de l’ensemble des données selon plusieurs plans de classements (taxonomies) métier. www.antidot.net Paris | Lyon | Aix-en-Provence +33 (0)4 72 76 03 80 info@antidot.net