Avances tecnológicos del siglo XXI y ejemplos de estos
Linked Data: un caso de uso en la BNE. Ana Manchado Mangas, Daniel Vila Suero.
1. Un caso de uso en la BNE
Ana Manchado
Daniel Vila Suero
1
2. Índice
• Origen del proyecto
• Proyecto de colaboración con la UPM
• Análisis y selección de las ontologías y vocabularios
• Identificar alcance y fuente de datos
• Desarrollo del proyecto
• Tareas en curso
• Posibles proyectos futuros
2
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
3. Origen del proyecto
• Proyecto de cooperación de la BNE y las Bibliotecas
Nacionales y Regionales de las Comunidades Autónomas
• Objetivo: Creación de un Sistema Nacional de
Autoridades (Fichero de Autoridades compartido – “tipo
VIAF”)
• Principal dificultad: Multilingüismo en los nombres de
persona y entidad.
3
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
4. Origen del proyecto
• Primeras aproximaciones:
Desarrollo dentro de nuestro SIGB
Desarrollo por parte de una empresa privada
Proyecto Piloto
Elevado presupuesto
4
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
5. Proyecto de colaboración con la UPM
• En Octubre de 2010 se firma un Convenio de
colaboración con la UPM.
• Primeras acciones: Formación / Consultoría de la
persona designada por la UPM en el ámbito, organización
y necesidades de la información bibliográfica.
• Objetivos: Conocimiento y dominio de nuestros
estándares y modelos de datos
5
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
6. Análisis y selección de las ontologías y
vocabularios
• Estudio de otras iniciativas y proyectos de Library Linked
Data otros proyectos no estaban basados en
estándares de la IFLA
• Selección de FRBR, FRAD e ISBD
por tratarse de las ontologías proporcionadas por el
trabajo realizado en la IFLA
por ser más exhaustivas y más precisas
se encuentran inscritas en el Open Metadata
Registry
6
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
7. Análisis y selección de las ontologías y
vocabularios
7
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
8. Identificar alcance y fuente de datos
• FASE 1:
Autoridades Cervantes
Bibliográficos asociados
• FASE 2:
Autoridades asociadas
Ficheros en formato ISO2709 enviados por ftp.
8
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
9. Identificar alcance y fuente de datos
FASE 1:
Seleccionamos en nuestro catálogo de autoridades
todos los registros que comienzan por
Cervantes Saavedra, Miguel de (1547-1616)
550 registros de autoridad
De esta forma hemos seleccionado, además del propio
registro de autor, registros de
Autor-título
Autor-título-lengua
Autor-título-subencabezamiento
Autor-subencabezamiento
9
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
10. Identificar alcance y fuente de datos
Ejemplos:
Cervantes Saavedra, Miguel de (1547-1616). Novelas
ejemplares
Cervantes Saavedra, Miguel de (1547-1616). Novelas
ejemplares. Francés
Cervantes Saavedra, Miguel de (1547-1616). Don
Quijote de la Mancha-Influencia
Cervantes Saavedra, Miguel de (1547-1616)-Familia
10
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
11. Identificar alcance y fuente de datos
FASE 1:
Seleccionamos en nuestro catálogo los bibliográficos
asociados a estas autoridades
Aparecen en el registro bibliográfico como
autor/título/materia
8.512 registros bibliográficos
1 mapa
61 grabaciones sonoras
924 grabados, dibujos o fotografías
18 manuscritos
509 monografías antiguas
6897 monografías modernas
37 partituras
4 registros electrónicos
8 publicaciones periódicas
48 vídeos 11
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
12. Identificar alcance y fuente de datos
FASE 1 – Ejemplo 1:
.001. |abimo0000768982
.005. |a20090113
.008. |a980120s1997 esp| ||| ||spa
.016. 7 |abimoBNE19980014836|2SpMaBN
.017. |aM 7218-1997|bOficina Depósito Legal Madrid
.020. |a84-239-4133-7
.040. |aSpMaBN|bspa|cSpMaBN|erdc
.080. 0|a821.134.2-31"15"
.100. 20|aCervantes Saavedra, Miguel de|d1547-1616
.245. 13|aEl ingenioso hidalgo Don Quijote de la Mancha|h[Texto impreso]
|cMiguel de Cervantes Saavedra ; ilustrado por José Segrelles
.260. 0 |aMadrid|bEspasa Calpe|c[1997]
.300. |a2 v.|bil. col.|c32 cm
.700. 11|aSegrelles, José
12
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
13. Identificar alcance y fuente de datos
FASE 1 – Ejemplo 2:
. .001. |aa4731194
.005. |a20100713
.008. |a100419s2010 esp | |||| 000 0 spa
.015. |aMON1005
.017. |aVG 287-2010|bOficina Depósito Legal Vigo
.020. |a978-84-96915-67-1
.040. |aSpMaBN
.080. |a821.134.2-22.09"15/16"
.080. |a821.134.2 Cervantes Saavedra, Miguel de 7 Novelas ejemplares.07
.100. 1 |aVaiopoulos, Katerina
.245. 10|aDe la novela a la comedia|h[Texto impreso] :|blas "Novelas
ejemplares" de Cervantes en el teatro del Siglo de Oro|cKaterina Vaiopoulos
.260. |aVigo, Pontevedra|bAcademia del Hispanismo|c2010
.300. |a295 p.|c21 cm
.490. 0 |aBiblioteca Cátedra Miguel de Cervantes|v15
.504. |aBibliografía: p. 281-295
.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|tNovelas ejemplares
.650. 7|aIntertextualidad
.650. 7|aComedia española|yS.XVI-XVII|xHistoria y crítica
13
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
14. Identificar alcance y fuente de datos
FASE 1 – Ejemplo 3:
.001. |aMimo0000660591
.005. |a20090514
.008. |a900725n fra r fre
.010. |zIND9100156998|zIND9100156999
.016. 7 |abimoBNE19971409228|2SpMaBN
.040. |aSpMaBN|bspa|cA2
.080. 0|a86-321.2"16"
.100. 1 |aCervantes Saavedra, Miguel de|d1547-1616
.240. 10|aNovelas ejemplares|lFrancés
.245. 14|aLes Nouvelles exemplaires|h[Texto impreso]|cTraduction de Louis
Viardot. Avec préface... et notes par Maurice Bardon...
.260. 1 |aParis|b[s.n.|cS.a.|fImp. Paul Dupont]
.300. |aXXVIII + 528 p. + 1 h.|c18 cm
.490. 0 |aClassiques Garnier
.700. 1 |aViardot, Louis|d1800-1883
.700. 1 |aBardon, Maurice.
14
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
15. Identificar alcance y fuente de datos
FASE 1 – Ejemplo 4:
.001. |aMimo0002138672
.005. |a20071219
.008. |a061025s2005 rus| ||| ||rus
.016. 7 |abimoBNE20061026593|2SpMaBN
.020. |a5-02-027028-8
.245. 00|aIberica|h[Texto impreso]|b : k 400-letiiu romana servantesa "Don
Kijot"
.260. |aSant-Peterburg|bNauka|c2005
.300. |a293 p.|c22 cm
.500. |aSelección de ponencias presentadas en las XXVIII, XXIX y XXX
'Lecturas Cervantinas' que anualmente se celebran en la Universidad Estatal de
San Petersburgo
.594. |aPrecede al tít.: Rossiiskaia akademiia nauk
.594. |aPort. adicional en español
.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|xInfluencia|2embne
.650. 7|aLiteratura rusa|yS.XX|xHistoria y crítica
.650. 7|aLiteratura española|yS.XVI-XVII|xHistoria y crítica
.710. 2 |aRossiiskaia akademiia nauk
.730. 0 |aLecturas cervantinas 15
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
16. Identificar alcance y fuente de datos
FASE 1 – Ejemplo 5:
.001. |aa4696572
.005. |a20100406
.008. |a100305s2010 espa | |||| 000 0 spa
.015. |aMON1003
.017. |aM 2148-2010|bOficina Depósito Legal Madrid
.020. |a978-84-613-7663-6
.100. 1 |aBarros Campos, José
.245. 10|aArganda del Rey, cuna de Miguel de Cervantes|h[Texto impreso]|cJosé
Barros Campos
.260. |a[Madrid]|bJ. Barros|cimp. 2010|eMadrid|fReprografía Simancas y
Casanova
.300. |a573 p.|bil.|c30 cm
.504. |aBibliografía: p. 567-573
.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|xFamilia
.600. 17|aCervantes (Familia)|xGenealogía
.651. 7|aArganda del Rey|xHistoria
16
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
17. Identificar alcance y fuente de datos
FASE 2:
Seleccionamos en nuestro catálogo las autoridades
relacionadas con los bibliográficos anteriores
7.351 registros de autoridad en total
17
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
18. Identificar alcance y fuente de datos
FASE 2 – Ejemplo 1:
.001. |abimo0000768982
.005. |a20090113
.008. |a980120s1997 esp| ||| ||spa
.016. 7 |abimoBNE19980014836|2SpMaBN
.017. |aM 7218-1997|bOficina Depósito Legal Madrid
.020. |a84-239-4133-7
.040. |aSpMaBN|bspa|cSpMaBN|erdc
.080. 0|a821.134.2-31"15"
.100. 20|aCervantes Saavedra, Miguel de|d1547-1616
.245. 13|aEl ingenioso hidalgo Don Quijote de la Mancha|h[Texto impreso]
|cMiguel de Cervantes Saavedra ; ilustrado por José Segrelles
.260. 0 |aMadrid|bEspasa Calpe|c[1997]
.300. |a2 v.|bil. col.|c32 cm
.700. 11|aSegrelles, José
18
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
19. Identificar alcance y fuente de datos
FASE 2 – Ejemplo 2:
.001. |aa4731194
.005. |a20100713
.008. |a100419s2010 esp | |||| 000 0 spa
.015. |aMON1005
.017. |aVG 287-2010|bOficina Depósito Legal Vigo
.020. |a978-84-96915-67-1
.040. |aSpMaBN
.080. |a821.134.2-22.09"15/16"
.080. |a821.134.2 Cervantes Saavedra, Miguel de 7 Novelas ejemplares.07
.100. 1 |aVaiopoulos, Katerina
.245. 10|aDe la novela a la comedia|h[Texto impreso] :|blas "Novelas
ejemplares" de Cervantes en el teatro del Siglo de Oro|cKaterina Vaiopoulos
.260. |aVigo, Pontevedra|bAcademia del Hispanismo|c2010
.300. |a295 p.|c21 cm
.490. 0 |aBiblioteca Cátedra Miguel de Cervantes|v15
.504. |aBibliografía: p. 281-295
.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|tNovelas ejemplares
.650. 7|aIntertextualidad
.650. 7|aComedia española|yS.XVI-XVII|xHistoria y crítica 19
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
20. Identificar alcance y fuente de datos
FASE 2 – Ejemplo 3:
.001. |aMimo0000660591
.005. |a20090514
.008. |a900725n fra r fre
.010. |zIND9100156998|zIND9100156999
.016. 7 |abimoBNE19971409228|2SpMaBN
.040. |aSpMaBN|bspa|cA2
.080. 0|a86-321.2"16"
.100. 1 |aCervantes Saavedra, Miguel de|d1547-1616
.240. 10|aNovelas ejemplares|lFrancés
.245. 14|aLes Nouvelles exemplaires|h[Texto impreso]|cTraduction de Louis
Viardot. Avec préface... et notes par Maurice Bardon...
.260. 1 |aParis|b[s.n.|cS.a.|fImp. Paul Dupont]
.300. |aXXVIII + 528 p. + 1 h.|c18 cm
.490. 0 |aClassiques Garnier
.700. 1 |aViardot, Louis|d1800-1883
.700. 1 |aBardon, Maurice.
20
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
21. Identificar alcance y fuente de datos
FASE 2 – Ejemplo 4:
.001. |aMimo0002138672
.005. |a20071219
.008. |a061025s2005 rus| ||| ||rus
.016. 7 |abimoBNE20061026593|2SpMaBN
.020. |a5-02-027028-8
.245. 00|aIberica|h[Texto impreso]|b : k 400-letiiu romana servantesa "Don
Kijot"
.260. |aSant-Peterburg|bNauka|c2005
.300. |a293 p.|c22 cm
.500. |aSelección de ponencias presentadas en las XXVIII, XXIX y XXX
'Lecturas Cervantinas' que anualmente se celebran en la Universidad Estatal de
San Petersburgo
.594. |aPrecede al tít.: Rossiiskaia akademiia nauk
.594. |aPort. adicional en español
.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|xInfluencia|2embne
.650. 7|aLiteratura rusa|yS.XX|xHistoria y crítica
.650. 7|aLiteratura española|yS.XVI-XVII|xHistoria y crítica
.710. 2 |aRossiiskaia akademiia nauk
.730. 0 |aLecturas cervantinas 21
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
22. Identificar alcance y fuente de datos
FASE 2 – Ejemplo 5:
.001. |aa4696572
.005. |a20100406
.008. |a100305s2010 espa | |||| 000 0 spa
.015. |aMON1003
.017. |aM 2148-2010|bOficina Depósito Legal Madrid
.020. |a978-84-613-7663-6
.100. 1 |aBarros Campos, José
.245. 10|aArganda del Rey, cuna de Miguel de Cervantes|h[Texto impreso]|cJosé
Barros Campos
.260. |a[Madrid]|bJ. Barros|cimp. 2010|eMadrid|fReprografía Simancas y
Casanova
.300. |a573 p.|bil.|c30 cm
.504. |aBibliografía: p. 567-573
.600. 17|aCervantes Saavedra, Miguel de|d1547-1616|xFamilia
.600. 17|aCervantes (Familia)|xGenealogía
.651. 7|aArganda del Rey|xHistoria
22
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
23. Proceso de transformación de los datos
• OBJETIVOS:
1. Encontrar una metodología de transformación
sistemática y repetible
2. Diseño e implementación de aplicaciones que
automaticen el proceso.
3. Demostrar la aplicabilidad de los modelos de IFLA
• Ciclo de vida del proceso: Iterativo e incremental
• Esfuerzo conjunto para aunar los dos mundos:
Bibliotecas y Web Semántica (Linked Data)
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
24. Principales fases del proceso
1. Análisis de los datos:
Entender la organización de los registros de autoridades y
bibliográficos
Desarrollo de herramientas de apoyo (informe de
combinaciones de subcampos, nº de apariciones de
campos…)
2. Correspondencias registros MARC21 y Modelos
Proceso complejo y difícil de sistematizar
MEJORA: Herramienta que permite sistematizar el
proceso de generación de correspondencias (mediante
Hojas de cálculo).
3. Transformación de los datos:
Herramienta ad-hoc de transformación automática
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
25. XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
26. Principales fases del proceso
4. Creación del dominio cultura.linkeddata.es
5. Publicación de los datos en RDF:
Virtuoso Server
Pubby
6. Enlazado con otros datasets:
FASE 1: VIAF y otras Bibliotecas
FASE 2: DBPEDIA, Geo, etc.
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
27. Desarrollo de interfaz (en proceso)
• Búsqueda y navegación del catálogo
• Utilizando los datos en RDF
• Basada en FRBR
• Tecnologías de software libre
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
28. Algunos resultados
Nº total tripletas:
344.439
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
29. Tareas en curso
• Expediente de adquisición del servidor para almacenar
los datos del catálogo en RDF
Configuración recomendada:
2 procesadores Intel Xeon E5506 Processor (2.13GHz, 4M Cache, 4.86 GT/s QPI),
800MHz Max Memory
16Gb de memoria RAM
4 Discos duros de 450Gb SAS 15000 rpm en raid 5 + controladora RAID
2 fuentes de alimentacion redundantes de 500W
• Evaluación enlaces
Comprobar si enlazan correctamente
• Formación
Curso de Linked Data incluido en el Plan de Formación de la
BNE 29
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
30. Posibles proyectos futuros
• Transformación a RDF de todo el catálogo -
actualizaciones
• Catálogos colectivos multilingües de autoridades – idea
original
• Enlazado con Dataset de Geonames y de
GeoLinkedData.
•Ejemplos:
Obtención de bibliografías locales: dependiendo del lugar de
publicación
Ubicación de mapas antiguos y otros objetos digitalizados, por
medio del lugar geográfico
30
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011
31. Gracias por su atención
www.bne.es
http://catalogo.bne.es
http://bdh.bne.es
www.facebook.com/bne
www.youtube.com/bibliotecaBNE
http://www.flickr.com/photos/bibliotecabne
www.oeg-upm.net
dvila@delicias.dia.fi.upm.es
31
XII Jornadas Españolas de Documentación / EBLIDA-NAPLE Conference 2011 in Cooperation with FESABID / XVI Jornadas Bibliotecarias de Andalucía
Málaga 25, 26 y 27 de Mayo de 2011