More than Just Lines on a Map: Best Practices for U.S Bike Routes
Scribo - Extraction automatique de connaissances à partir d'images
1. Scribo
Extraction automatique de connaissances `a partir d’images
Guillaume Lazzara
Z@lrde.epita.fr
Thierry G´eraud
Yann Jacquelet
Arthur Cr´epin-Leblond
Roland Levillain
Julien Marquegnies
EPITA Research and Development Laboratory
http://www.lrde.epita.fr
Guillaume Lazzara Scribo 1 / 15
3. Introduction (1/2)
Constat :
Gros volumes de donn´ees :
au format papier (documents d’entreprises, d’institutions...),
ou d´eja num´eris´es (sous forme d’images).
Pr´esence de texte :
non manipulable (au format image, pas texte ! ),
`a exploiter (nombreuses applications).
Id´ee : `a partir d’une image de document :
pr´eserver la structure du document,
conserver les informations de style.
Identifier les objets non texte (traits, cadres, cartouches, images (!)...)
Guillaume Lazzara Scribo 3 / 15
4. Introduction (2/2)
But de notre participation dans Scribo :
d´emat´erialiser des documents papiers,
fournir une solution libre et gratuite,
enrichir notre biblioth`eque de traitement d’images (Licence GNU
GPLv2).
Guillaume Lazzara Scribo 4 / 15
5. Cas d’application
2 chaˆınes de traitement principales :
Extraction et reconstruction d’un document complexe.
D´etection de texte dans les photos.
Des cas d’application :
Nepomuk KDE : recherche de mots cl´es dans les images.
AFP : extraction de texte dans les photos de presse pour indexation.
Nuxeo/XWiki : extraction de texte dans les images pour enrichir les
m´eta-donn´ees.
Guillaume Lazzara Scribo 5 / 15
7. Olena
Scribo s’appuie sur la plateforme Olena :
d´edi´ee au traitement d’images,
collection d’outils g´en´eraux (structures et algorithmes)
10 ans d’ˆage,
version 1.0 sortie en juillet 2009,
Module Scribo pour la d´emat´erialisation
outils sp´ecifiques,
disponible sur Internet http://olena.lrde.epita.fr
Guillaume Lazzara Scribo 7 / 15
8. Fonctionnalit´es de Scribo (1/3)
Nettoyage de l’image.
suppression de bruit,
s´eparation objets/fond,
= +
Binarisation.
→
Guillaume Lazzara Scribo 8 / 15
9. Fonctionnalit´es de Scribo (2/3)
Extraction de primitives :
lignes,
motifs (tableaux),
images.
Groupement d’objets :
passage de composantes `a un
graphe,
plusieurs strat´egies
disponibles,
identification de lignes de
texte.
Guillaume Lazzara Scribo 9 / 15
10. Fonctionnalit´es de Scribo (3/3)
Extraction de tableaux :
reconstruction `a partir des
lignes verticales et
horizontales,
d´ecoupage en cellules,
obtention de la structure.
Reconnaissance de caract`eres :
am´elioration de la qualit´e des
zones de texte,
int´egration du logiciel OCR
Tesseract. →
Guillaume Lazzara Scribo 10 / 15
14. Conclusion (1/2)
Diss´eminations logicielles :
d´eveloppement ouvert sur d´epˆot Git,
sortie d’Olena Version 1.1 bientˆot,
nouvelle version du module Scribo.
Diss´eminations scientifiques :
publications (ISMM 2009, ICIP 2010, WADGMM 2010),
2 publications en cours,
2 concours (HSC 2009, H-DIBCO 2009).
Guillaume Lazzara Scribo 14 / 15
15. Conclusion (2/2)
En cours de packaging pour Mandriva Linux,
D´ej`a utilis´e par :
KDE (Nepomuk),
XWiki,
Nuxeo.
Plus d’informations et d´emos en ligne sur :
http://olena.lrde.epita.fr/
Guillaume Lazzara Scribo 15 / 15