Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Datos semiestructurados Xml
1. El XML y las bases de datos
http://en.wikipedia.org/wiki/XML_database
2. Definiciones
• Marcado o etiquetado en un documento electrónico, son
los códigos que las aplicaciones incluyen dentro del
mismo archivo, donde se guardan la información
requerida para definir el formato (tipo de letra, tamaño,
justificación, negritas, itálicas, etcétera) y estructura.
• Hipertexto es texto con enlaces o conexiones a otro
texto, documentos, recursos o informaciones.
– Enlaces, links o vínculos, son el medio que permite encontrar
fácilmente y de forma inmediata, informaciones relacionadas.
• La Web Semántica es la Web actual dotada de
significado, se interpretar el sentido de esta información.
– información tendría un significado bien definido.
– Puede ser interpretada por agentes humanos y computarizados
JOSÉ CUARTAS BASES DE DATOS 2
3. Definiciones
• Ontologías define los términos y las relaciones básicas
para la compresión de un área del conocimiento, así
como las reglas para poder combinar los términos para
definir las extensiones de este tipo de vocabulario
controlado.
– trata de convertir la información en conocimiento mediante unas
estructuras de conocimiento formalizadas (las ontologías) que
referencien los datos(metadata).
• Tesauro La norma ISO 2788-1986 define un tesauro
como "un vocabulario controlado y dinámico, compuesto
por términos que tienen entre ellos relaciones semánticas
y genéricas y que se aplica a un dominio particular del
conocimiento".
JOSÉ CUARTAS BASES DE DATOS 3
4. Motivaciones
• Los documentos (tanto físicos como electrónicos) son
el mejor lugar donde la humanidad ha guardado su
conocimiento.
• La información y el conocimiento contenidos en
documentos, forman sin duda una de las partes más
importantes en cualquier campo de aplicación.
• la habilidad de comunicar información rápida y
eficientemente es cada vez más importante.
– Es uno de los factores de crecimiento de muchas
organizaciones.
JOSÉ CUARTAS BASES DE DATOS 4
5. Motivaciones
• Se necesita saber que dice lo que la información es.
• Se necesita poder compartir documentos electrónicos
entre plataformas de hardware y software diferentes.
– Esta es la razón de la existencia de los “Lenguajes de Marcado”.
• La información se presente de tal forma que permita
ser reutilizada en diferentes formas para disminuir
tiempos y esfuerzos.
• Se necesitan un sistema que pueda utilizarse para
añadir al contenido cualquier clase de metadatos
JOSÉ CUARTAS BASES DE DATOS 5
6. Problemas
• Intercambios de la información digital.
– No se tiene la aplicación con el que la información original fue
creada, por lo tanto no tienen como visualizarla o analizarla.
– El HTML generalmente cuanta con un formato de presentación, mas
no con la estructura.
• La búsqueda de información está relacionado con la
estructuración de documentos.
• Se necesita un mecanismo por medio del cual se pueda estructurar y
filtrar, de manera que sólo se acceda a la información que nos
interesa.
• Los errores humanos y los tiempos de espera
– Se necesita evitar errores humanos en el manejo de la información,
además, de los tiempos de espera en la generación de información
estructurada manualmente.
JOSÉ CUARTAS BASES DE DATOS 6
7. Problemas
• El problema de búsqueda de información está
relacionado con la estructuración de documentos, LA
WEB SEMÁNTICA.
– La estructura, es el orden, la lógica o las reglas que tienen que seguir
las partes o elementos que componen un documento.
– La estructura de un documento depende de una serie de reglas
previamente establecidas para la escritura de cierto tipo de
documentos.
– la estructura no sólo sirve para hacer que un documento sea más
comunicativo, sino que además sirve para que el usuario localice con
mayor facilidad el contenido del documento.
JOSÉ CUARTAS BASES DE DATOS 7
8. Historia
• Las marcas o etiquetas, se originaron en la industria
editorial.
• El concepto de lenguaje de marcas fue expuesto por
vez primera por William W. Tunnicliffe en 1967.
– La mayor novedad consistía en la separación entre la
presentación y la estructura del texto.
• En los 70s, un comité llamado Graphic
Communications Association (CGA) creó uno de los
primeros Lenguajes de Marcado llamado GenCode.
• Entre los 70 y 80 Charles F. Goldfarb, junto con
Edward Mosher y Raymond Lorie, crearon el lenguaje
GML(Derivado de Gencode), de cual se desprende el
estándar SGML.
JOSÉ CUARTAS BASES DE DATOS 8
9. Historia hacia el “FUTURO”
• En 1986 se crea el SGML (Standard Generalized
Markup Language) es el estándar ISO 8879:1986.
• El XML es una simplificación y adaptación del SGML
• Los lenguajes de marcado son la herramienta
fundamental en el diseño de la web semántica:
– Descripción del contenido, el significado y la relación de los
datos.
– RDF (Resource descriptión framework-Plataforma de
descripción de recursos)
– OWL (Web Ontology Language-Lenguaje de ontologías para la
web)
– Ambos lenguajes derivados de XML.
– Lenguajes para agregar semántica a los documentos.
JOSÉ CUARTAS BASES DE DATOS 9
10. Motivaciones
• SGML tiene tres características principales:
– Extensibilidad. Permite definir nuevas etiquetas y nombres de
atributos para los documentos
– Estructura. Los documentos pueden ser contenedores para
otros documentos, con un anidamiento arbitrario. Esto permite
construir documentos complejos a partir de documentos más
simples.
– Validación. Si se desea, cualquier documento en SGML
puede hacer referencia a una descripción de su gramática, de
manera que las aplicaciones pueden validar que un documento
cumpla con la estructura especificada.
JOSÉ CUARTAS BASES DE DATOS 10
11. eXtensible Markup Language (XML)
• Estándar para el intercambio y representación de datos.
• XML o Lenguaje de Marcado Extensible : es un
metalenguaje por medio del cual podemos definir
nuestros propios lenguajes de marcado.
– Es un estándar para crear documentos.
– Derivado del SGML, siendo un subconjunto del SGML, del cual
adquiere las propiedades más relevantes, y sencillas.
• XML se basa en el concepto de documentos compuestos
por una serie de entidades.
• Los archivos XML son organizaciones jerárquicas en
forma de árbol
• XML fue diseñado para transportar y almacenar datos,
focalizado en saber decir lo que el datos es.
JOSÉ CUARTAS BASES DE DATOS 11
12. eXtensible Markup Language (XML)
• Muy similar al HTML
– Las etiquetas describen el contenido en lugar del formato.
– También, permite formato continuo en el intercambio.
• Es muy auto descriptivo
JOSÉ CUARTAS BASES DE DATOS 12
13. XML estructura
• Los elementos son los que identifican secciones de
información.
• Los atributos son una forma de enunciar características
o propiedades a los elementos de un documento.
• El TEXTO
JOSÉ CUARTAS BASES DE DATOS 13
14. eXtensible Markup Language (XML)
XML vs Relacional
XML Relacional
Estructura Jerárquicas Tablas
Esquema Flexible, Auto-descripción Rígido, definición de columna
Ordenamiento Implícito Ninguno, solo por ORDER BY
Consulta Mejorando Simple
JOSÉ CUARTAS BASES DE DATOS 14
15. XML bien formado
• Único elemento raíz.
• Etiquetas combinadas, con un correcto anidamiento.
• Atributos únicos dentro de los elementos.
JOSÉ CUARTAS BASES DE DATOS 15
16. XML bien formado
• Único elemento raíz.
• Etiquetas combinadas, con un correcto anidamiento.
• Atributos únicos dentro de los elementos.
Documento Analizador
XML
XML XML validado
“parsers” SAX y DOM
“No esta bien formado”
http://es.wikipedia.org/wiki/Validación_XML
JOSÉ CUARTAS BASES DE DATOS 16
17. Presentación de un XML
• Son las reglas para la presentación en un medio.
– Impresora
– HTML
• Utilizar reglas para traducir a HTML.
– Hojas de estilo en cascada (CSS).
– Extensible Stylesheet Language (XSL).
Reglas
Documento CSS/XSL Documento
XML interprete HTML
(datos) (mirar)
http://es.wikipedia.org/wiki/Extensible_Stylesheet_Language
JOSÉ CUARTAS BASES DE DATOS 17