2. Que es una “biblioteca digital”?
Es una colección de objetos digitales (texto, video,
audio) junto a métodos de acceso y recuperación
locales o remotos.
Las computadoras hacen activa a la información
WWW ≠ BD!— organización, selección
3. Para qué sirven las BD?
Adm. de conocimientos/contenidos
Administrar y acceder a repositorios de información
internos
Comunicación, educación, investigación
E-journals, e-prints, e-books, e-learning
Acceso a colecciones culturales
Archivo y preservación
…
4. Software BD: requerimientos claves
Tipos de documentos (libros, periódicos, páginas web, …)
Formatos (texto, PDF, Word, PS, HTML …)
Adquisición de contenidos (online y offline)
Metadata, content tagging
Indexación y recuperación
Indexación estructurada / full text
Extracción automática de metadatos
Almacenamiento
Compresión de datos
Almacenamiento eficiente de metadatos
Ubicación rápida de metadatos y documentos
Acceso y entrega
Búsquedas estructuradas, navegación jerárquica
Distribución en CD/DVD
5. Software BD: Más requerimientos
Escalable para grandes colecciones
Soporte Multilingual
Adm. de seguridad de acceso
Monitoreo y reporte de utilización
Conformidad con estándares
XML, Dublin Core, Unicode
Interoperación
OAI, Z39.50, MARC, CDS/ISIS, …
6. A qué se apunta…
“Colecciones” de material digital
Hasta varios Gb de texto …
… + imágenes asociadas, películas, mp3,etc, etc
Totalmente “indexada”
Servida en WWW, o publicada en CD-ROM
Multi-plataforma (Unix + Windows + Mac)
Multi-formato de documentos y metadata
Multi-lingual: documentos e interfases
Multimedia
Metadata: estándar y no-estándar
7. Qué es Greenstone?
Greenstone ha sido elaborado como parte del
proyecto de Biblioteca Digital de Nueva Zelanda
por la Universidad de Waikato y actualmente es
desarrollado y distribuido en colaboración con la
UNESCO y la ONG Human Info.
Es un software de código abierto disponible en
http://www.greenstone.org bajo los términos y
condiciones de la Licencia Pública General de
GNU.
8. Qué es Greenstone?
Paquete de software para crear, mantener y distribuir
colecciones digitales
Código abierto (Open-source)
Desarrollado por la University de Waikato
Socios para su distribución:
UNESCO
Human Info NGO, Bélgica
9. Greenstone
Acceso Accesible via Web browser
El Servidor corre en Windows y Unix
Colecciones publicadas en CD-ROM
Búsqueda/ Full-text y por campos
navegación Opciones flexibles de navegación
Basado en Metadata (Dublin Core)
Independiente en cada colección
Búsqueda jerárquica de frases
Extensible Plugins — documento nuevo, formatos de metadatos
Clasificadores — creación libre
Multilingual Documentos e interfases
Chino, Arabe, Maori, Ruso, etc
Multimedia: video, audio
10. Proceso de construcción de una
colección
Nº 1 Definición del alcance de la colección.
Nº 2 Configuración de la colección.
Nº 3 Selección e importación de los documentos.
Nº 4 Agregado de metadatos.
Nº 5 Construcción de la colección.
Nº 6 Puesta en servicio / Recuperación de la información.
11. Proceso de construcción de una
colección
Input: un conjunto de documentos
Greenstone “importa” esos documentos y los convierte al formato
GA (XML/HTML)
Greenstone “construye” los índices y las estructuras de navegación
usando los archivos GA
El archivo de configuración de la colección determina la conversión
del contenido, la extracción y construcción de índices y los
clasificadores
La presentación de los resultados de las búsquedas y/o
clasificadores y de la interfase se determina con las cadenas de
formateo y las macros
12. Documentos
Conversion al formato GA
Collect.cfg Import Extracción de metadatos
(plugins)
GA + docs fuente
Metadatos
GLI
adicionales
Collect.cfg Build
(índices, Estructuras de índices y
clasificadores) navegación, compresión…
Colección
Greenstone
Collect.cfg + Resultados
Buscar
macros
(main.cfg)
17. Plugins (conectores)
Usados en la construcción para poder TEXTPlug
procesar los documentos de origen. HTMLPlug
EMAILPlug
Circuito del Plugin: los archivos son
WORDPlug
pasados por cada uno, en orden, hasta
encontrar uno que pueda procesarlo. RTFPlug
PDFPlug
PSPlug
FoxPlug
…
GAPlug procesa archivos GA generados durante el import
ArcPlug procesa archivos GA listados en archives.inf
RecPlug recorre estructuras de carpetas recursivamente
22. Cadenas de Formateo
Se interpretan al mostrar la interfase o el documento
format texto de documentos
clasificadores (HList o VList separadas)
resultados de búsquedas
componentes HTML
[Text]: muestra el texto del doc.
[Title], [Howto] …: muestra metadata
[link] … [/link]: link al documento
[parent]: refiere al documento “padre”
[icon]: icono de carpeta o página
sentencias if / or statement
23. Plataformas
Sistemas operativos:
Windows (+95)
Linux (cualquier versión)
Unix
Mac OS X (algunos problemas con GLI)
Restricciones:
No corre sobre Windows 3.1/3.11
Para la Interfase de Bibliotecario (GLI) se necesita
Java— el cual no está mas soportado en Windows
95
Espacio en disco
50 MB para el programa
250 MB para la colección de demo (opcional)
25 MB para la función “exportar a CD”
24. Métodos de instalación
Instalar desde el ejecutable
Windows
Linux
Instalar compilando el código fuente
Windows
Linux
Unix
Mac
25. Instalación de Greenstone
Windows o Unix?
Windows Unix
Binarios para todas Se necesita usuario
las versiones “root” para instalar
3.x 95/98/Me NT/2000 Linux Sun Solaris o Otros
Macintosh OS/X
?????? Versión Versión Versión Versión Versión
completa completa completa completa completa
Solo “Administradores” Código probado Código No probado
pueden instalarlo probado
26. Biblioteca Local
El paquete de instalación de Windows contiene todos los
componentes necesarios para instalar Greenstone con la
colección de demo.
Directorio de instalación por defecto:
C:archivos de programagreenstone
Levantar la aplicación:
Inicio Greenstone digital library
Usar la Interfase de Bibliotecario(GLI):
Inicio Greenstone digital library
27. Biblioteca Local vs Biblioteca Web
Biblioteca local: standalone
Sirve colecciones en una PC …
Y a otros en una misma red
Incluye un servidor Web integrado
Biblioteca Web: usa un server web externo
Apache, Microsoft PWS/IIS
28. Biblioteca Local vs Biblioteca Web
Windows: ambas opciones
Todas las versiones: 95, 98, NT, 2000, ME, XP
Binarios
Generalmente se usa la biblioteca local (sino hay que
configurar el servidor web)
Biblioteca web funciona con Microsoft PWS, IIS
Unix, Mac OS/10: biblioteca web solo
Usa Apache (u otro servidor web)
Linux binaries supplied
Probado en SUN Solaris, Mac OS/10
Necesita GDBM (estandar en Linux)
29. Práctica
Instalación de Greenstone y
colecciones de demo
(Práctica)
31. Documento
Metadatos
Ambos
Extracción de
metadatos
Conversión del
Documento
Import
Formateo interno
Indices Clasificadores Build
Indice texto Base de Archivos
completo datos asociados
32. Documento
Metadatos
Ambos
Extraer metadatos
Procesos
Conversión del
Documento
XML
Incluye Metadatos
Formateo interno División en secciones
Links a archivos externos
txts, PDF, PostScript, codigo fuente, imágenes …
Formato XML , BibTex, OAI, MARC, …
HTML, WORD, Email, TIFF, …
Identificar idioma, acrónimos, miniaturas de imágenes
Recorrer estructuras de directorios, partir archivos, abrir ZIPs
…
33. Herramienta GLI
Ejercicio:
Descripción y armado de una pequeña colección