SlideShare uma empresa Scribd logo
1 de 22
Baixar para ler offline
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




OCR Adaptativo – CONCERT

 SESIÓN DE DEMOSTRACIÓN IMPACT,
 Biblioteca Nacional de España, 5 de octubre de 2011
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




                                            Esquema del proceso OCR

            CONVERSIÓN
             DE FICHEROS




                                                                                                                                                         POST-PROCESO
          “BINARIZACIÓN”                                                           OCR                                                                         +
                                                                                                                                                          EVALUACIÓN




          CORRECCIONES
      GEOMÉTRICAS/ELIM.
              MÁRGENES




                                                                                                                                                                        2
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Ante los múltiples retos de IMPACT tiene una visión
integradora de varias soluciones:
OCR ADAPTATIVO
 MEJORA en el reconocimiento del texto …¿cómo?
    • Adaptabilidad (sistema que aprende)
    • Integración de diversas herramientas IMPACT
            • Kit herramientas preprocesamiento imagen
            • Motor OCR Omni-font de ABBY FineReader
            • Módulo postcorrección
            • Recursos léxicos

                                                                                                                                                          3
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Algunos de los componentes de OCR adaptativo
        Motor de agrupación de caracteres (grupos con variaciones similares)

        Creación de un “super-símbolo”

        Filtración de segmentaciones no relevantes

        Corrección de curvatura de papel y la página

        Valoración de diferencias mínimas




                                                                                                                                                         4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




                                                                                                                          “Crowd sourcing”




                                                                                                                                                         5
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Visión de IMPACT:
Nuevo paradigma de la digitalización



Participación del público esfuerzos de digitalización a gran escala.



Herramientas avanzadas vayan más allá sistemas actuales (sistema
aprende = optimización del feedback recibido)


                                                                                                                                                         6
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Proyecto Gutenberg (1ª generación)




                                                                                                                                                           7
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Biblioteca Nacional de Australia (2ª)




www.nla.gov.au/ndp/project_details/documents/ANDP_ManyHands.pdf
                                                                                                                                                            8
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Biblioteca Nacional de Finlandia




                                               http://www.digitalkoot.fi/en/splash
                                                                                                                                                           9
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




CORRECCIÓN EN COLABORACIÓN - ¿cómo funciona?
        Sistemas de corrección basados en web
          – No hay instalaciones en la parte cliente
          – Intituitivo para permitir uso público en general
        Participación mediante petición (opcional)
          – Sitio web de la biblioteca
          – En función de colecciones
        Voluntarios interesados en contribuir a la preservación del patrimonio cultural
          – Listas con los colaboradores destacados
          – Premios de reconocimiento de la biblioteca




                                                                                                                                                         10
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




SISTEMAS ACTUALES
        Simplemente se muestra imagen y resultados de OCR a corregir,

        Inconvenientes:
         – Proceso lento y poco productivo
         – Dos revisiones que garanticen la calidad

        Resultados:

                     mucho trabajo manual
                     contribución limitada y puntual




                                                                                                                                                         11
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




CONCERT (Cooperative Engine for Correction of Extracted Text)
        Plataforma de corrección en colaboración adaptativa
          – Aprovecha feedback para mejorar la productividad
          – Conexión con el OCR adaptativo
        Énfasis en herramientas de productividad
          – Reducir el tiempo para la verificación/corrección
                           Patented smart-key approach
          – Motivar a los voluntarios
        Separación del proceso de introducción de datos en varias tareas complementarias
          – Aplicación optimizada para cada tarea
          – Tareas y subtareas
          – Posibilitar el procesamiento en paralelo



                                                                                                                                                         12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Arquitectura del sistema
        Login seguro
        Carga de libros como archivos de imágenes o mediante URL
        Omni-OCR con selección de idioma
        Descarga de metadatos de OCR compilados antes y depués de la introducción




                                                                                                                                                         13
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Flujo de trabajo del sistema:
Tres sesiones en las que el usuario sólo aquello que el OCR ha marcado como
   sospechoso:

        A nivel de carácter – para validación rápida de resultados OCR

•       A nivel de palabra – (información contextual para validar caracteres)

•       A nivel de página – (página completa para interpretar resultados)




                                                                                                                                                         14
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.


Sesión a nivel de carácter (character session)
            – Resultados con nivel de confianza elevado no precisan verificación
            – Sin embargo, algunos niveles elevados de confianza pueden corresponderse
              con errores de reconocimiento
            – Se extraen imágenes de caracteres individuales y se agrupan en función de
              los resultados de reconocimiento
            – Usuario aprueba, rechaza o señala como sospechosos caracteres ofrecidos
              por el sw




                                                                                                                                                         15
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Sesión a nivel de palabra (word session)
        Muestra palabras que contienen caracteres con un nivel de confianza bajo
        Muestra palabras que contienen caracteres señalados como sospechosos
        Muestra el reconocimiento de OCR original con sugerencias (diccionarios)
        Los usuarios validan/corrigen la ortografía




                                                                                                                                                         16
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Sesión a nivel de página (page session)
    Principalmente cuando un fallo en la segmentación ha llevado a un mal
    reconocimiento o ausencia de reconocimiento
    La segmentación puede verse de distintas formas: palabra, línea, párrafo,
    etiquetado…
    Puede automatizarse el paso de una palabra problemática a la siguiente
    Sólo aquí se ve la corrección del OCR




                                                                                                                                                            17
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Demostración del sistema
        http://fue.onb.ac.at/impact/gwsw/vid/EE1_showcase.html
                                                                                       Simulación creada por Gerd Zechmeister (Biblioteca Nacional de Austria, ONB)




                                                                                                                                                              18
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




 ESCENARIOS POSIBLES DE INCORPORACIÓN
        Como parte de la                                         Una vez la colección está
                                                                                                                                                       MIXTA
         digitalización                                                 disponible

       +                                 -                              +                                  -                              +                        -
   Refuerzo                       Variación                                                     Grandes grupos
                                                                No adaptación
  CONCERT y                        acuerdos                                                         usuarios-
                                                                     WF
  motor OCR                      proveedores                                                       formación
                                                                Corrección de                       re-OCR y
 Reindexación
                                                                 colecciones                      reindexación
OCR mejorado no              Modificación WF
                                                                 nuevas y ya                      (cada nueva
   necesario
                                                                 disponibles                       corrección)                   COMBINACIÓN                   COMBINACIÓN
                                                                                                  ALTOs con
                                 Corrección                                                    suficiente detalle
   Implicación                                                  No límite de tº
                              limitada en el tº                                                  para sesión
usuarios/expertos                                                                                   carácter
  monitorizable
                                    OCR                                                           Integración
                              retrospectivo ¿?                                                  plataforma web
                                                                                                                                                                             19
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




PRUEBAS PILOTO
        Koninklijke Bibliotheek, British Library, Bavarian State Library (Marzo-Mayo 2011)
        Observaciones generales:
          –      Muchas posibilidades
          –      Sencillez, rapidez
          –      Formación, usuarios expertos/comunidad global
          –      Contexto social de apoyo entre colaboradores, My Concert Page; Progreso…




BSB, Pilot (mayo 2011)                                                                                                                                   20
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




Futuro CONCERT
   Lista mejores colaboradores
   Integración con sitios webs externos, con otros sistemas
   Smartphones
   Edición e-books.


                                                                   …. Y MUCHO MÁS




                                                                                                                                                         21
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.




                                      GRACIAS POR SU ATENCIÓN
                                                          Isabel Bordes Cabrera
                                                Jefe de Servicio de Biblioteca Digital, BNE
                                                          isabel.bordes@bne.es




                                                                                                                                                         22

Mais conteúdo relacionado

Semelhante a OCR Adaptativo - Concert. Isabel Bordes Cabrera

Jornades "Comunicació 3.0 i accessibilitat total". Ponència David Zanoletti: ...
Jornades "Comunicació 3.0 i accessibilitat total". Ponència David Zanoletti: ...Jornades "Comunicació 3.0 i accessibilitat total". Ponència David Zanoletti: ...
Jornades "Comunicació 3.0 i accessibilitat total". Ponència David Zanoletti: ...
Museu Marítim de Barcelona
 
Taller netbooks Encuentro 1
Taller netbooks Encuentro 1Taller netbooks Encuentro 1
Taller netbooks Encuentro 1
creandotic
 
Unidad iii herramientas para la creación y publicación de contenidos didáct...
Unidad iii   herramientas para la creación y publicación de contenidos didáct...Unidad iii   herramientas para la creación y publicación de contenidos didáct...
Unidad iii herramientas para la creación y publicación de contenidos didáct...
Marina_Velasquez
 

Semelhante a OCR Adaptativo - Concert. Isabel Bordes Cabrera (20)

I ntroduccion a_impact_051011
I ntroduccion a_impact_051011I ntroduccion a_impact_051011
I ntroduccion a_impact_051011
 
Creacion del plugin fototeca historica para el proyecto icvgeo del institut c...
Creacion del plugin fototeca historica para el proyecto icvgeo del institut c...Creacion del plugin fototeca historica para el proyecto icvgeo del institut c...
Creacion del plugin fototeca historica para el proyecto icvgeo del institut c...
 
cOncienS: un nuevo paradigma de IA para juegos
cOncienS: un nuevo paradigma de IA para juegoscOncienS: un nuevo paradigma de IA para juegos
cOncienS: un nuevo paradigma de IA para juegos
 
Jornades "Comunicació 3.0 i accessibilitat total". Ponència David Zanoletti: ...
Jornades "Comunicació 3.0 i accessibilitat total". Ponència David Zanoletti: ...Jornades "Comunicació 3.0 i accessibilitat total". Ponència David Zanoletti: ...
Jornades "Comunicació 3.0 i accessibilitat total". Ponència David Zanoletti: ...
 
Los retos TIC en las Convocatorias 8 & 9 del VII PM
Los retos TIC en las Convocatorias 8 & 9 del VII PMLos retos TIC en las Convocatorias 8 & 9 del VII PM
Los retos TIC en las Convocatorias 8 & 9 del VII PM
 
Presentación INREDIS en eVIA
Presentación INREDIS en eVIAPresentación INREDIS en eVIA
Presentación INREDIS en eVIA
 
Ws_Plan_Internacionalización_Consorcio_INREDIS
Ws_Plan_Internacionalización_Consorcio_INREDISWs_Plan_Internacionalización_Consorcio_INREDIS
Ws_Plan_Internacionalización_Consorcio_INREDIS
 
Taller virtual
Taller virtualTaller virtual
Taller virtual
 
Unidad iii de tecnologia graciela
Unidad iii   de tecnologia gracielaUnidad iii   de tecnologia graciela
Unidad iii de tecnologia graciela
 
Welcome to HUELVA Conference
Welcome to HUELVA ConferenceWelcome to HUELVA Conference
Welcome to HUELVA Conference
 
Proyecto Diplomado Ing. Juan Carlos Peinado
Proyecto Diplomado Ing. Juan Carlos PeinadoProyecto Diplomado Ing. Juan Carlos Peinado
Proyecto Diplomado Ing. Juan Carlos Peinado
 
4 Lacnic Y Soc Informacion Ec 0909
4 Lacnic Y Soc Informacion Ec 09094 Lacnic Y Soc Informacion Ec 0909
4 Lacnic Y Soc Informacion Ec 0909
 
Presentacion ana arconada_sheila_capon_estela_gil_natalia_jimeno
Presentacion ana arconada_sheila_capon_estela_gil_natalia_jimenoPresentacion ana arconada_sheila_capon_estela_gil_natalia_jimeno
Presentacion ana arconada_sheila_capon_estela_gil_natalia_jimeno
 
Taller netbooks Encuentro 1
Taller netbooks Encuentro 1Taller netbooks Encuentro 1
Taller netbooks Encuentro 1
 
Unidad iii herramientas para la creación y publicación de contenidos didáct...
Unidad iii   herramientas para la creación y publicación de contenidos didáct...Unidad iii   herramientas para la creación y publicación de contenidos didáct...
Unidad iii herramientas para la creación y publicación de contenidos didáct...
 
Metaltic
MetalticMetaltic
Metaltic
 
Guixa v. 1.1
Guixa v. 1.1Guixa v. 1.1
Guixa v. 1.1
 
Cuadernia Por Julio Peña
Cuadernia Por Julio PeñaCuadernia Por Julio Peña
Cuadernia Por Julio Peña
 
Unidad iii herramientas para la creación y publicación de contenidos didáct...
Unidad iii   herramientas para la creación y publicación de contenidos didáct...Unidad iii   herramientas para la creación y publicación de contenidos didáct...
Unidad iii herramientas para la creación y publicación de contenidos didáct...
 
Unidad iii herramientas para la creación y publicación de contenidos didáct...
Unidad iii   herramientas para la creación y publicación de contenidos didáct...Unidad iii   herramientas para la creación y publicación de contenidos didáct...
Unidad iii herramientas para la creación y publicación de contenidos didáct...
 

Mais de Biblioteca Nacional de España

Mais de Biblioteca Nacional de España (20)

La colección de relaciones de sucesos en la Biblioteca Nacional de España
La colección de relaciones de sucesos en la Biblioteca Nacional de EspañaLa colección de relaciones de sucesos en la Biblioteca Nacional de España
La colección de relaciones de sucesos en la Biblioteca Nacional de España
 
Identidad común: las fuentes del patrimonio bibliográfico. Ana Santos Aramburo
Identidad común: las fuentes del patrimonio bibliográfico. Ana Santos AramburoIdentidad común: las fuentes del patrimonio bibliográfico. Ana Santos Aramburo
Identidad común: las fuentes del patrimonio bibliográfico. Ana Santos Aramburo
 
La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...
La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...
La Biblioteca Nacional de España como centro de apoyo a la investigación. Ana...
 
Data privacy in library authority files: a survey
Data privacy in library authority files: a surveyData privacy in library authority files: a survey
Data privacy in library authority files: a survey
 
Perfil de RDA de la BNE. Resumen de cambios
Perfil de RDA de la BNE. Resumen de cambiosPerfil de RDA de la BNE. Resumen de cambios
Perfil de RDA de la BNE. Resumen de cambios
 
RDA. Autoridades. Fundamentos. Identificación de entidades. Relaciones
RDA. Autoridades. Fundamentos. Identificación de entidades. RelacionesRDA. Autoridades. Fundamentos. Identificación de entidades. Relaciones
RDA. Autoridades. Fundamentos. Identificación de entidades. Relaciones
 
RDA: el nuevo texto
RDA: el nuevo textoRDA: el nuevo texto
RDA: el nuevo texto
 
Pleno del Real Patronato. Biblioteca Nacional de España
Pleno del Real Patronato. Biblioteca Nacional de EspañaPleno del Real Patronato. Biblioteca Nacional de España
Pleno del Real Patronato. Biblioteca Nacional de España
 
Objetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de España
Objetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de EspañaObjetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de España
Objetivos 2019. Pleno del Real Patronato. Biblioteca Nacional de España
 
Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...
Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...
Pleno del Real Patronato. Biblioteca Nacional de España. Evaluación actuacion...
 
Evaluación actuaciones 2018. Planificación actuaciones 2019
Evaluación actuaciones 2018. Planificación actuaciones 2019Evaluación actuaciones 2018. Planificación actuaciones 2019
Evaluación actuaciones 2018. Planificación actuaciones 2019
 
Dirección Técnica. Objetivos 2019
Dirección Técnica. Objetivos 2019Dirección Técnica. Objetivos 2019
Dirección Técnica. Objetivos 2019
 
Evaluación 2018. Objetivos 2019
Evaluación 2018. Objetivos 2019Evaluación 2018. Objetivos 2019
Evaluación 2018. Objetivos 2019
 
Evaluación actuaciones 2018. Dirección Cultural
Evaluación actuaciones 2018. Dirección CulturalEvaluación actuaciones 2018. Dirección Cultural
Evaluación actuaciones 2018. Dirección Cultural
 
Pleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos Aramburo
Pleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos AramburoPleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos Aramburo
Pleno CCB. Consejo de Cooperación Bibliotecaria. Ana Santos Aramburo
 
Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...
Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...
Descubrir, aprender, disfrutar en la Biblioteca Nacional de España. Ana Santo...
 
VIAF GDPR
VIAF GDPRVIAF GDPR
VIAF GDPR
 
Renacer prensa historica
Renacer prensa historicaRenacer prensa historica
Renacer prensa historica
 
RDA y Linked data (Ricardo Santos Muñoz)
RDA y Linked data (Ricardo Santos Muñoz)RDA y Linked data (Ricardo Santos Muñoz)
RDA y Linked data (Ricardo Santos Muñoz)
 
Desarrollo actual de RDA (Pilar Tejero López)
Desarrollo actual de RDA (Pilar Tejero López)Desarrollo actual de RDA (Pilar Tejero López)
Desarrollo actual de RDA (Pilar Tejero López)
 

Último

POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
silviayucra2
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
241521559
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
FagnerLisboa3
 

Último (10)

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 

OCR Adaptativo - Concert. Isabel Bordes Cabrera

  • 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. OCR Adaptativo – CONCERT SESIÓN DE DEMOSTRACIÓN IMPACT, Biblioteca Nacional de España, 5 de octubre de 2011
  • 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Esquema del proceso OCR CONVERSIÓN DE FICHEROS POST-PROCESO “BINARIZACIÓN” OCR + EVALUACIÓN CORRECCIONES GEOMÉTRICAS/ELIM. MÁRGENES 2
  • 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ante los múltiples retos de IMPACT tiene una visión integradora de varias soluciones: OCR ADAPTATIVO MEJORA en el reconocimiento del texto …¿cómo? • Adaptabilidad (sistema que aprende) • Integración de diversas herramientas IMPACT • Kit herramientas preprocesamiento imagen • Motor OCR Omni-font de ABBY FineReader • Módulo postcorrección • Recursos léxicos 3
  • 4. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Algunos de los componentes de OCR adaptativo Motor de agrupación de caracteres (grupos con variaciones similares) Creación de un “super-símbolo” Filtración de segmentaciones no relevantes Corrección de curvatura de papel y la página Valoración de diferencias mínimas 4
  • 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Crowd sourcing” 5
  • 6. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Visión de IMPACT: Nuevo paradigma de la digitalización Participación del público esfuerzos de digitalización a gran escala. Herramientas avanzadas vayan más allá sistemas actuales (sistema aprende = optimización del feedback recibido) 6
  • 7. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Proyecto Gutenberg (1ª generación) 7
  • 8. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Biblioteca Nacional de Australia (2ª) www.nla.gov.au/ndp/project_details/documents/ANDP_ManyHands.pdf 8
  • 9. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Biblioteca Nacional de Finlandia http://www.digitalkoot.fi/en/splash 9
  • 10. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. CORRECCIÓN EN COLABORACIÓN - ¿cómo funciona? Sistemas de corrección basados en web – No hay instalaciones en la parte cliente – Intituitivo para permitir uso público en general Participación mediante petición (opcional) – Sitio web de la biblioteca – En función de colecciones Voluntarios interesados en contribuir a la preservación del patrimonio cultural – Listas con los colaboradores destacados – Premios de reconocimiento de la biblioteca 10
  • 11. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. SISTEMAS ACTUALES Simplemente se muestra imagen y resultados de OCR a corregir, Inconvenientes: – Proceso lento y poco productivo – Dos revisiones que garanticen la calidad Resultados: mucho trabajo manual contribución limitada y puntual 11
  • 12. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. CONCERT (Cooperative Engine for Correction of Extracted Text) Plataforma de corrección en colaboración adaptativa – Aprovecha feedback para mejorar la productividad – Conexión con el OCR adaptativo Énfasis en herramientas de productividad – Reducir el tiempo para la verificación/corrección Patented smart-key approach – Motivar a los voluntarios Separación del proceso de introducción de datos en varias tareas complementarias – Aplicación optimizada para cada tarea – Tareas y subtareas – Posibilitar el procesamiento en paralelo 12
  • 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Arquitectura del sistema Login seguro Carga de libros como archivos de imágenes o mediante URL Omni-OCR con selección de idioma Descarga de metadatos de OCR compilados antes y depués de la introducción 13
  • 14. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Flujo de trabajo del sistema: Tres sesiones en las que el usuario sólo aquello que el OCR ha marcado como sospechoso: A nivel de carácter – para validación rápida de resultados OCR • A nivel de palabra – (información contextual para validar caracteres) • A nivel de página – (página completa para interpretar resultados) 14
  • 15. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Sesión a nivel de carácter (character session) – Resultados con nivel de confianza elevado no precisan verificación – Sin embargo, algunos niveles elevados de confianza pueden corresponderse con errores de reconocimiento – Se extraen imágenes de caracteres individuales y se agrupan en función de los resultados de reconocimiento – Usuario aprueba, rechaza o señala como sospechosos caracteres ofrecidos por el sw 15
  • 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Sesión a nivel de palabra (word session) Muestra palabras que contienen caracteres con un nivel de confianza bajo Muestra palabras que contienen caracteres señalados como sospechosos Muestra el reconocimiento de OCR original con sugerencias (diccionarios) Los usuarios validan/corrigen la ortografía 16
  • 17. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Sesión a nivel de página (page session) Principalmente cuando un fallo en la segmentación ha llevado a un mal reconocimiento o ausencia de reconocimiento La segmentación puede verse de distintas formas: palabra, línea, párrafo, etiquetado… Puede automatizarse el paso de una palabra problemática a la siguiente Sólo aquí se ve la corrección del OCR 17
  • 18. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Demostración del sistema http://fue.onb.ac.at/impact/gwsw/vid/EE1_showcase.html Simulación creada por Gerd Zechmeister (Biblioteca Nacional de Austria, ONB) 18
  • 19. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. ESCENARIOS POSIBLES DE INCORPORACIÓN Como parte de la Una vez la colección está MIXTA digitalización disponible + - + - + - Refuerzo Variación Grandes grupos No adaptación CONCERT y acuerdos usuarios- WF motor OCR proveedores formación Corrección de re-OCR y Reindexación colecciones reindexación OCR mejorado no Modificación WF nuevas y ya (cada nueva necesario disponibles corrección) COMBINACIÓN COMBINACIÓN ALTOs con Corrección suficiente detalle Implicación No límite de tº limitada en el tº para sesión usuarios/expertos carácter monitorizable OCR Integración retrospectivo ¿? plataforma web 19
  • 20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. PRUEBAS PILOTO Koninklijke Bibliotheek, British Library, Bavarian State Library (Marzo-Mayo 2011) Observaciones generales: – Muchas posibilidades – Sencillez, rapidez – Formación, usuarios expertos/comunidad global – Contexto social de apoyo entre colaboradores, My Concert Page; Progreso… BSB, Pilot (mayo 2011) 20
  • 21. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Futuro CONCERT Lista mejores colaboradores Integración con sitios webs externos, con otros sistemas Smartphones Edición e-books. …. Y MUCHO MÁS 21
  • 22. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. GRACIAS POR SU ATENCIÓN Isabel Bordes Cabrera Jefe de Servicio de Biblioteca Digital, BNE isabel.bordes@bne.es 22