Este documento describe los metadatos y su uso para la organización del conocimiento y la gestión de recursos digitales. Explica que los metadatos son datos sobre otros datos y proveen información estructurada sobre un recurso. También describe estándares como Dublin Core, SKOS y FRBR que definen elementos y relaciones para describir recursos de manera normalizada.
1. TIC APLICADA A LA
HISTORIA DEL ARTE
6 - Repositorios y Gestión de Activos
Digitales
6.2 Metadatos
2. Repositorios y Gestión Activos
Digitales
Contenidos Metadatos
Definiciones
Organización del conocimiento
La Web
La Web Semántica
Aplicaciones para Historia del Arte
3. Recursos
Recurso: Cualquier cosa, concreta o
abstracta
Concretos: libro, obra de arte, foto, página web, ...
Abstractos: una colección, un estilo, un conjunto, ...
Recurso
Un árbol
Recurso
Una foto
Recurso
Un álbum de fotos
4. Dato
Dato: Un valor cualquiera, un símbolo
No es verdadero ni falso
Ejemplos: "1984", "verde"
Nivel de abstracción más bajo
Puede pertenecer a un conjunto
Fecha, nº habitantes, colores
verde
5. Información
Información: Valor asociado a una
interpretación
Puede ser verdadero o falso según interpretación
Interpretación: asignación de significado en un
contexto
"La Regenta fue publicada en 1984"
"El árbol de mi casa es de color verde"
6. Conocimiento
Información adquirida por un agente
Ejemplo: "Ana sabe que el árbol de su casa es
verde"
Tradicionalmente el agente era una persona
Pero el agente también puede ser una máquina
Recursos
Agente
Conocimiento
8. Catalogación
Proceso de indexar un recurso para que
pueda ser encontrado posteriormente
Objetivo: Facilitar búsqueda y recuperación del
recurso
Catalogación = Gestionar metadatos de un
recurso
9. Sistemas de catalogación:
evolución
Orígenes: archivos y bibliotecas
Más de 4000 años de antigüedad
3 etapas
Catálogos como colecciones impresas
Estaban desfasados en el mismo momento de su
impresión
Tarjetas
Charles A. Cutter (1876)
Uso masivo en s. XX
Catálogos en la Web
s. XXI
10.
11. Evolución de la Web
Crecimiento casi exponencial
Fuente: Netcraft webserver survey
13. Catálogos en la Web
Estamos en la era de los datos en la Web
Catálogos en el s. XXI
Si no está en la Web, no está
Catalogación vs Posicionamiento
Si está en la Web, pero no se encuentra, no está
Catálogos Web = publicación de metadatos
Algunos Problemas/retos:
Ingentes cantidades de datos
Confianza y Sistemas abiertos
14. Catalogación y Metadatos
Metadatos
Etimológicamente: "Datos acerca de otros datos"
Otra definición:
"Información estructurada que describe ó explica un
recurso"
Autor: Juan Torres
Lugar: Jardín de su casa
Álbum: Personal
Fecha: 22/02/2013
Resolución: 5Mpx
Metadatos
Recurso
15. Tipos de metadatos
Descriptivos: describen un recurso
Título, autor, lugar,...
Estructurales: relaciones entre objetos
Colección, álbum, ...
Administrativos: ayudan a gestionar el
recurso.
Fecha, nº de versión, derechos digitales, etc.
Autor: Juan Torres
Lugar: Jardín de su casa
Álbum: Personal
Fecha: 22/02/2013
Resolución: 5Mpx
Metadatos
Recurso
16. Proceso de metadatos
Metadatos deben ser procesables
automáticamente
Generación
Almacenamiento, catalogación
Transmisión
Búsqueda
Metadatos
Autor: Juan Torres
Lugar: Jardín de su casa
Álbum: Personal
Fecha: 22/02/2013
Resolución: 5Mpx
Fotos de
jardines
en
invierno
胡安花園照片
17. Sintaxis para metadatos
Solución de compromiso
Procesado automático por ordenadores
Manipulación por personas
001010000100
100010010010
010000010001
Formato ideal Formato ideal
El texto en lenguaje
natural es el formato
ideal para tí...
18. Codificaciones
MARC (MAchine Readable Cataloging)
Utilizado para información bibliográfica
001010000100
100010010010
010000010001
Formato ideal Formato ideal
El texto en lenguaje
natural es el formato
ideal para tí...
MARC
19. Vocabularios controlados
Tesauro
Utilizado para clasificación
001010000100
100010010010
010000010001
Formato ideal Formato ideal
El texto en lenguaje
natural es el formato
ideal para tí...
Tesauro
20. Lenguajes de marcado
Mezclan texto en lenguaje natural con marcas
Las marcas proporcionan metadatos
Lenguajes genéricos: SGML, XML
001010000100
100010010010
010000010001
Formato ideal Formato ideal
El texto en lenguaje
natural es el formato
ideal para tí...
XML
<work>
<artist id="23">Leonardo da Vinci</artist>
<title>La Gioconda</title>
<commentarios>Pudo haber sido realizado
por <artist id="24">Miguel Ángel</artist>
</comentarios>
</work>
21. RDF
Modelo de grafo.
Base para Web Semántica
Varias sintaxis procesables automáticamente
001010000100
100010010010
010000010001
Formato ideal Formato ideal
El texto en lenguaje
natural es el formato
ideal para tí...
RDF
http://museo.org/obras/23
2 Leonardo da
Vinci
La
Gioconda
http://museo.org/autores/4
3
http://xmlns.com/foaf/0.1/namehttp://purl.org/dc/elements/1.1/author
http://purl.org/dc/elements/1.1/title
23. Clasificación facetada
Facetas: atributos de un recurso
Ejemplo: color, resolución, estilo,...
Permite búsqueda de recursos a partir de
valores de dichos atributos
Algunos sistemas
CC. Colon Classification
Clasificación deciman de Dewey
CDU, Clasificación decimal universal
24. Vocabularios controlados
Disposición organizada de palabras o frases
Permiten indexar/buscar/recuperar recursos
Normalmente, en un dominio acotado
Ejemplos:
Conjuntos de términos
Encabezados de materia: Listas subject/heading
Enumeraciones
Anillos de sinónimos
Taxonomía
Tesauro
25. Conjuntos de términos
Definen un conjunto de términos y propiedades
que se pueden asignar a un recurso
Ejemplo: Dublin-core
15 elementos
Utilizado para catálogos online
1. Title
2. Creator
3. Subject
4. Description
5. Publisher
6. Contributor
7. Date
8. Type
9. Format
10.Identifier
11.Source
12.Language
13.Relation
14.Coverage
15.Rights
26. Encabezamientos de materia
Listas subject/heading
Ejemplos:
LEMBP: lista encabezamientos bibliotecas
públicas
LCSH: Library of Congress Subject Heading
Charles A. Cutter
Fuente: Wikipedia
Lista encabezamientos materias bibliotecas públicas
Fuente: http://www.mcu.es/bibliotecas/docs/MC/LEMBP/LEMBP.pdf
27. Enumeraciones
Una enumeración es una lista de términos
Preferiblemente únicos
Suelen aparecer como listas desplegables
Es posible enlazar términos entre diferentes
vocabularios
Gato
Perro
Animal
Persona
Objeto
28. Anillos de sinónimos
Una lista que incluye conjuntos de términos
que son equivalentes
Utilizada para búsquedas y recuperación
Enriquecimiento de términos de búsqueda
Pueden incluirse términos relacionados
30. Tesauro
Lista de términos y relaciones
Jerárquicas: todo/parte, ámbito más
amplio/estrecho
Equivalencias: sinonimia, homonimia, antonimia,
...
Asociativas: términos relacionados
No tiene porqué incluir definiciones
En ese caso sería un diccionario
Múltiples tesauros especializados
31. SKOS
SKOS = Simple Knowledge Organization
System
Lenguaje para definir tesauros y vocabularios
controlados
Sintaxis RDF
Permite expresar términos, relaciones y
jerarquías
Muchos vocabularios han migrado a SKOS
Eurovoc, LCSH, MeSH, ...
32. Modelos entidad-relación
Técnica para describir bases de datos
Entidades: pueden identificarse de forma única
Relaciones entre entidades
Atributos: propiedades de entidades o relaciones
Artista Obra
nombre estilo
realiza
fecha
nombre
33. FRBR
FRBR - Functional Requirements for Bibliographical
Records
Modelo entidad-relación
Desarrollado por IFLA (Asociación Intl. de
bibliotecas)Work
Expression
Manifestation
Item
realization
embodime
nt
examplar
El Quijote
Versión inglés
Traductor John Ormsby
1885
1604
2011Publicación
Simon&Brown
2013Ejemplar
comprado
1
n
1
n
1
n
34. Ontologías
Definición formal del conocimiento de un
dominio
Objetivo: representación de conocimiento
Contiene
Vocabulario de términos: clases, individuos
Relaciones entre términos: propiedades
Reglas y axiomas
37. Mayor almacén de información jamás recopilado
por la humanidad
Acceso casi instantáneo desde cualquier lugar
No centralizado Cualquiera puede añadir
cosas
Multimedia (Texto, Imágenes, Vídeo, etc.)
Identificación de recursos unificada (URIs)
Interactividad: Aplicaciones Web
Características de la Web
38. Pilares de la Web
3 pilares
Protocolo: HTTP
Identificación: URIs
Formatos de representación: HTML, JSON, XML,
...
Identificación
URI
Protocolo
HTTP
Formatos
HTML, JSON,...
WWW
39. Funcionamiento de la Web
Usuario Navegador
Cliente
Servidor
URI
Representación
WWW
HTTP
Protocolo HTTP:
Cliente (petición) - Servidor (respuesta)
URIs para identificar recursos
Lenguajes de representación: HTML, XML,
etc.
40. Protocolo HTTP
HTTP (Hypertext transfer protocol):
Arquitectura cliente/servidor (petición / respuesta)
Conjunto de acciones reducido:
GET, PUT, POST, DELETE, etc.
Mensajes de texto
línea inicial
cabecera del mensaje*
cuerpo del mensaje ?
Formato de mensajes
41. URIs
URI = Identificación de recurso
Recurso = Unidad básica, Cualquier cosa
URI ≠ Recurso ≠ Representación
URI http://tiempo.com/Asturias/Oviedo
Metadatos:
Content-type: text/html
Datos:
<html>
<head><title>Tiempo</title></head>
<body>
<h1>Tiempo en Oviedo</h1>
<p>Nubes y claros</p>
</body>
</html>
Representación
Recurso
Tiempo en Oviedo
42. ¿Qué se puede identificar con una
URI?
Cualquier cosa concreta o abstracta
http://www.uniovi.es
<!DOCTYPE html>
<html>
<head>
<title>Universidad de Oviedo</title>
</head>
<body>
<h1>Universidad de Oviedo</h1>
<p>Fundada en el año 1608 en
<a
href="http://www.wikipedia.org/Oviedo">
Oviedo</a></p>
. . .
</body>
</html>
identifica
Ejemplo: Una página Web
Una página Web
Recurso de información
Formato HTML
43. ¿Qué se puede identificar con una
URI?
Cualquier cosa concreta o abstracta
http://www.di.uniovi.es/~labra/images/asturias.jpg
identifica
Ejemplo: Una fotografía (recurso multimedia)
Una fotografía
Recurso de información
Formato JPG
44. ¿Qué se puede identificar con una
URI?
Cualquier cosa concreta o abstracta
http://www.w3.org/People/Berners-Lee/card#i
identifica
Ejemplo: Una persona
Una persona (Tim Berners-Lee)
Recurso de no información
45. ¿Qué se puede identificar con una
URI?
Cualquier cosa concreta o abstracta
http://xmlns.com/foaf/0.1/Person
identifica
Ejemplo: Conjunto de todas las personas
Conjunto de Personas (concepto abstracto)
Recurso de no información
46. ¿Qué se puede identificar con una
URI?
Cualquier cosa concreta o abstracta
http://purl.org/dc/terms/creator
identifica
Ejemplo: Propiedad de creación
Propiedad de creación (concepto abstracto)
Recurso de no información
47. ¿Qué se puede identificar con una
URI?
Cualquier cosa concreta o abstracta
http://purl.org/dc/terms
identifica
Ejemplo: Espacio de nombres
Espacio de nombres (concepto)
Recurso de no información
description
language
publisher
. . .
48. Dereferenciación
Dereferenciar URI = Acceder al contenido de URI
Obtener una representación del recurso identificado por la
URI
Habitualmente se utiliza protocolo HTTP
Pueden existir diferentes representaciones
La representación puede incluir enlaces a otras URIs
con información relacionada
Principio: Follow your nose (“Sigue tu instinto”)
A partir de una URI, se puede ir encontrando más
información y más recursos relacionados fácilmente y de
49. Estabilidad de las URIs
URIs = base de cualquier aplicación Web
Objetivo: Esquema de URIs estable
Lema: Cool URIs don’t change
Modificar una URI puede romper aplicaciones
existentes
Evitar URIs que dependen de detalles de
implementación
Ejemplo: http://156.35.41.34:8080/pagina.php
URI
51. Formatos de representación
En la Web, el formato más habitual es HTML
Existen muchos más: XML, JSON, RDF, PNG, …
Un recurso puede tener diferentes tipos de
representación
Cada tipo de representación sirve para un
propósito
52. HTML
Tipo de representación más popular en la Web
Objetivo: representar hipertexto
Ejemplo:
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>Ejemplo</title>
</head>
<body>
<h1>Lista de enlaces</h1>
<p>Mis enlaces preferidos</p>
<ul>
<li><a href="http://www.wikipedia.org">Wikipedia</a>
<li><a href="http://www.w3c.org">Consorcio W3c</a>
</ul>
</body>
</html>
53. XML
Lenguaje de marcado generalizado
Objetivo: intercambio de información
Procesamiento automático y comercio electrónico
<?xml version="1.0">
<pedido>
<producto codigo="R23">
<nombre>Rotulador RX2</nombre>
<cantidad>20</cantidad>
<comentarios>Comprobad que escriben</comentarios>
</producto>
<producto codigo="G56">
<nombre>Grapadora Lin</nombre>
<cantidad>2</cantidad>
<comentarios>Envuelta para regalo</comentarios>
</producto>
</pedido>
54. Tipos de representación
Los tipos de representación se identifican con
MIME
MIME (Multipurpose Internet Mail Extensions)
Identificar el tipo de contenido (Cabecera Content-
type)
Formato tipo/subtipo
Ejemplos:
text/html: Página Web en formato HTML
text/xml, application/xml : Documento XML
application/json: Documento JSON
application/pdf: Fichero PDF
image/jpeg: Imagen JPEG
Lista oficial: http://www.iana.org/assignments/media-types
55. Funcionamiento de la Web
2 computadores conceptuales: Cliente y
Servidor
La representación puede calcularse
dinámicamente
Computación en Cliente
Computación en servidor
Usuario Navegador
Cliente
Servidor
URI
Representación
WWW
HTTP
56. Cliente
También se conoce como Agente de Usuario
Normalmente es un navegador (browser)
Múltiples tipos de agentes de usuarios y
navegadores
Navegadores: Internet Explorer, Chrome, Firefox,
Lynx, …
Dispositivos móviles
Lectores de pantalla
eBooks
TVs
…
57. Componentes de un navegador
Interfaz
Analizador
Motor visualización
Intérprete ECMAScript: procesa eventos
Usuario
Navegador
Cliente
URI
Representación
WWW
HTTP
Analizador
Árbol
DOM
Motor
VisualizaciónInterfaz
Usuario
Intérprete
ECMAscript
URI
58. Motor de visualización
A veces los navegadores comparten el
mismo motor de visualización (rendering
engine)
Navegadores Motor de
visualización
Internet Explorer Trident
Firefox Gecko
Opera Presto
Chrome Webkit (Webcore)
Safari (iPhone, iPad) Webkit
59. Componentes de un Servidor
La arquitectura del servidor suele
descomponerse en varias capas
Vista: Se encarga de preparar la representación
Negocio: Gestión de objetos de negocio
Datos: Modelos de datos
Capa
Vista
Capa
Negocio
URI
Capa
Datos
Representación
URI
WWW
HTTP
61. Razones para liberar datos
Facilitan la investigación
Tasa de descubrimiento se
acelera con mejores
accesos a los datos
Por el bien común de la
humanidad
62. Razones para liberar datos
Los sistemas abiertos facilitan las contribuciones
externas
63. Razones para liberar datos
Trasparencia
Fomentar participación
Generar confianza
Evaluar al gobierno
69. El mayor reto = Integración
En general, el problema no es informatizar algo
El problema es integrar los sistemas
Interoperabilidad
No basta con publicar datos…
70. Modelo de Estrellas *
★ Publicar los datos en la Web
(en cualquier formato)
★★ Utilizar formato estructurado
(Excel en lugar de imágenes escaneadas)
★★★ Usar formatos no propietarios
(CSV en lugar de Excel)
★★★★ Usar URIs para identificar datos
(otros sistemas puedan enlazar nuestros
datos)
★★★★★ Enlazar con otros datos externos
(proporcionar contexto)* Enunciado por Tim Berners-Lee en Gov 2.0 Expo 2010
http://www.youtube.com/watch?v=ga1aSJXCFe0
71. Formatos no
estructurados
Formatos “caja negra”: Imágenes, vídeos,
música, etc.
Formatos binarios: PDF, PS, etc.
Requieren técnicas de tratamiento de la señal,
reconocimiento de patrones, etc.
★
73. Formatos estructurados
Los datos tienen una estructura
Pueden procesarse automáticamente
Ejemplo: Hojas de cálculo
Problema con formatos propietarios
Requieren herramientas que no son
públicas
★ ★
74. Ejemplo: Servicio Público de
empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/9
★ ★
75. Formatos no
propietarios
Formatos abiertos estructurados
Ejemplos: CSV, HTML
Pueden manipularse de forma
independiente
No se requiere un software concreto
Problema: Contenido depende del
contexto
★ ★ ★
81. Principios de Linked Open
Data
1. Utilizar URIs para denotar cosas
2. Permitir que las URIs sean dereferenciables
3. Proporcionar información útil
Para personas (HTML) y máquinas (RDF)
4. Incluir enlaces a otras cosas relacionadas
★ ★ ★ ★ ★
La mejor manera de explotar tus
datos se le ocurrirá a otro
Jo Walsh, Rufus Pollock, http://www.okfn.org/files/talks/xtech_2007/
87. Web Semántica
Propuesta de la Web semántica (Tim Berners-Lee):
“disponer datos en la Web definidos y enlazados
de forma que puedan ser utilizados por las
máquinas no solamente para visualizarlos sino
también para:
automatizar tareas,
integrar y
reutilizar datos entre aplicaciones”
88. Web Semántica
Características de la Web...
No centralizada: problemas para garantizar integridad de la
información)
Información Dinámica: puede cambiar la información e incluso el
conocimiento sobre esa información
Mucha información: El sistema no puede pretender acaparar toda
la información
Es abierta: Muchos sistemas anteriores usaban la Closed World
Assumption
En inglés: Principio AAA: Anyone can say Anything about Any topic
Fuente: Semantic Web for the Working Ontologist, D. Allemang, J. Hendler
89. Tarta de la Web
URIUnicode
XML + Namespaces + XML Schema
Demostración
RDF + RDF Schema
Ontologías
Lógica
Confianza
Versión propuesta por Tim Berners Lee, año 2000
http://www.w3.org/2000/Talks/1206-xml2k-tbl/slide10-0.html
90. Cambios en la tarta…
URIUnicode
XML
Intercambio de datos: RDF
Consultas:
SPARQL
Lógica unificadora
Confianza
RDF Schema
Ontologías
OWL
Reglas
RIF
Demostración
Versión actual (desde 2007)
http://www.w3.org/2007/Talks/0130-sb-W3CTechSemWeb/#(24)
91. RDF
Resource Description Framework (1998)
Descripción de recursos
Recurso = se identifica con URI
Se basa en tripletas
Sujeto Predicado Objeto
92. Tripletas RDF
http://purl.org/dc/elements/1.1/creator
Sujeto
Puede ser:
URI
Nodo anónimo (bNode)
Predicado
Identificado por URI
Objeto
Valor de una propiedad
Puede ser:
URI
Literal
Nodo anónimo
@prefix dc: <http://purl.org/dc/elements/1.1/>.
@prefix uni: <http://uniovi.es/> .
uni:biologia dc:creator uni:juan .
http://uniovi.es/biology
http://uniovi.es/juan
<http://uniovi.es/biologia> <http://purl.org/dc/elements/1.1/creator> <http://uniovi.es/juan> .
Notación (turtle)
simplificado
98. SPARQL
Simple Protocol and RDF Query Language
Lenguaje de consultas para la web semántica
Encaje de grafos
Extrae información de modelos RDF
Un protocolo
Define un mecanismo para invocar un servicio
También define un vocabulario para resultados
99. SPARQL
Ejemplo:
Buscar páginas cuyo autor sea un profesor
prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
prefix uni: <http://uniovi.es/>
prefix dc: <http://purl.org/dc/elements/1.1/>
SELECT ?p ?c WHERE {
?p dc:creator ?c .
?c rdf:type uni:Profesor.
}
105. Ontologías
RDF Schema permite hacer inferencias
sencillas
Limitaciones de expresividad
OWL (Web Ontology Language)
Añade más expresividad
Formalizar dominios concretos: ontologías
Expresividad vs Complejidad
106. Mitos de la Web Semántica
Navegador inteligente
Una nueva Web
El cerebro global
La gran verdad: Una única ontología
Una etiqueta para cada cosa
Nadie querrá compartir datos
Demasiada apertura
Moda pasajera
No hay Killer application
107. El navegador inteligente
Mito:
El objetivo es conseguir sistemas que naveguen
por internet de forma inteligente
Realidad:
Objetivo = desarrollar tecnologías que faciliten el
procesamiento automático de la información de la
Web y su integración
No es Inteligencia Artificial pero sí se utilizan
técnicas de esa disciplina
108. Una nueva Web
Mito:
La Web Semántica ( Web 3.0) es una nueva
versión de la web que obligará a cambiar todo lo
que ya hay
Realidad:
Se propone transición gradual. Las tecnologías
ofrecerán valor añadido.
109. El cerebro global
Mito:
El proyecto de la Web semántica generará un
cerebro global
Realidad:
La web semántica facilitará un mejor uso de los
datos de la web.
Sí es un camino hacia la inteligencia colectiva
110. La gran verdad
Mito:
Se propone la creación de una única ontología
con todo el conocimiento de la humanidad
Realidad:
Múltiples ontologías para diferentes dominios
Facilitar la integración
Mejorar la descripción de dominios
111. Una etiqueta para cada cosa
Mito:
El objetivo es asignar una etiqueta similar a RFID
para cada cosa
Realidad
No es factible que cada cosa conlleve sus
propios metadatos
Pueden realizarse descripciones de recursos
externas
112. Nadie querrá compartir datos
Mito:
Los proveedores de información no tendrán
motivación para adoptar tecnologías nuevas
Realidad:
Lo harán cuando encuentren un retorno de
inversión adecuado
Posicionamiento semántico
113. Demasiada apertura
Mito:
Si se sacan los datos de las bases de datos, se
pierden
Realidad:
Tecnologías para limitar acceso y controlar
privacidad
Declarar de dónde provienen los datos
Establecer propiedad legal de los datos
114. Moda pasajera
Mito:
Mito1: La Web semántica es algo nuevo
Mito 2: La Web semántica es algo viejo
Realidad:
Planteada ya en 1994, visión a largo plazo
Exceso de entusiasmo vs escepticismo
Casos de éxito: RSS, microformatos, XBRL,…
"A little semantics goes a long way"
115. No hay killer application
Mito:
No se ha desarrollado una killer application
Realidad:
¿Es necesaria?
¿Podría ser el proyecto Linked Open Data?
116. Retos de la Web Semántica
Escalabilidad
¿Dónde están los agentes?
Privacidad y seguridad
Confianza
Manejar ambigüedad e imprecisión
Cantidad vs Calidad
¿Servicios web semánticos?
118. CDWA
Categories for the description of Works of Art
Financiado por fundación Getty
31 categorías, +380 subcategorías
Distingue
Work
Imagen (Representación)
CDWA Lite
Subconjunto de CDWA
Vocabulario XML
119. VRA
VRA (Visual Resources Association)
Creado en 2007
Descripción de imágenes y objetos culturales
Vocabulario XML
Estructura de los datos