Bases de Datos - Parte 10/10 XPath

Sistemas de Información II
Tema 10. XPath

Carlos Castillo
UPF – 2007

1

XPath
Base para otras tecnologías
XQuery
XSLT
XPointer
Lenguaje “básico” para buscar en XML
Tan importante para documentos
estructurados como es SQL para BD
relacionales

2

Tecnologías interdependientes

XQuery XSLT ...

XPath (direccionamiento)

XML (Modelo de datos)

3

Ejemplo:
XQuery requiere XPath
<bookswithprices>
 { FOR $a in document(quot;A/bib.xmlquot;)//book,
 $b in document(quot;B/reviews.xmlquot;)//entry
 WHERE $b/title = $a/title
 RETURN
 <bookwithprices>
 { $b/title }
 <priceA>
 { $a/price/text() }
 </priceA>
 <priceB>
 { $b/price/text() }
 </priceB>
 </bookwithprices>
 }
 </bookswithprices>

4

Ejemplo:
XSLT requiere XPath

<xsl:template match=quot;/docquot;>
 <otherdoc>
 <xsl:foreach select=quot;itemquot;>
 <otheritem>
 <xsl:valueof select=quot;subitem/*quot;/>
 </otheritem>
 </xsl:foreach>
 </otherdoc>
</xsl:template>
</xsl:stylesheet>

5

Un documento como un árbol
d.xml
d.xml <Persona>
<Apellido>
Persona <Paterno>
 Perez
 </Paterno>
 <Materno>
Apellido Email Tapia
Edad </Materno>
</Apellido>
<Edad>42</Edad>
42 <Email>jperez@</Email>
@ </persona>
Paterno
Materno

P T

6

Una ruta en el árbol
d.xml
d.xml <Persona>
<Apellido>
Persona <Paterno>
 Perez
 </Paterno>
 <Materno>
Apellido Email Tapia
Edad </Materno>
</Apellido>
<Edad>42</Edad>
42 <Email>jperez@</Email>
@ </persona>
Paterno
Materno

P T /persona/apellido/paterno
=
“Perez”
7

Objetivo de XPath
Identificar elementos
A una profundidad arbitraria
En base al conjunto de nodos en el camino
Importante: siempre hay un nodo de
contexto

8

Expresiones XPath
Tienen la forma
nodo1/nodo2/.../nodoN
En el ejemplo: persona/apellido/materno
Describen un camino (path)
Resultado:
Un conjunto de nodos
String, número o boolean
El resultado podría no ser un doc. XML

9

Parecido a sist. de archivos
Nodos dentro de
Ficheros y directorios nodos

Respecto a directorio Respecto a nodo
actual actual o de contexto

* = cualquier cosa * = cualquier nodo

Un fichero por ruta Uno o varios nodos
por ruta
10

Expresiones XPath
Falta: cómo seleccionar entre múltiples
posibilidades
Para esto se usan predicados entre corchetes [ ... ]
Falta: cómo buscar en múltiples
documentos
No pueden realizar “joins”

11

Ventajas
Compacto, eficiente
“Encontrar en la lista de autores el apellido
de un autor que tenga el atributo tipo con
el valor clásico”
autores/autor[tipo='clasico']/apellido

Funciones básicas
Strings, números

12

Rutas “child” (nodos hijo)
doc.xml child::fuente
<noticia> <fuente>upi</fuente>
<titulo>Título</titulo>
<fuente>upi</fuente> child::*
<cuerpo fecha=”hoy”>
<titulo>...</cuerpo>
 <reportero cod=”3”>
 Juan child::text()
 </reportero>
(nada)
 Párrafo
 uno child::cuerpo/child::reportero
 Párrafo dos
</cuerpo> <reportero>Juan</reportero>
</noticia> child::cuerpo/child::p/child::text()
Párrafo
Abreviado: “child::p” es igual a
“p”

13

“parent”, “ancestor”, “self”
doc.xml parent::cuerpo/parent::noticia
<noticia> <noticia>...</noticia>
<fuente>upi</fuente> Abreviado: “parent::*” es igual a
<cuerpo fecha=”hoy”> “..”
../../fuente
 Juan
 </reportero> <fuente>upi</fuente>
 Párrafo
 uno ancestor::noticia/titulo
 Párrafo dos <titulo>Título<titulo>
</cuerpo>
</noticia> self::reportero
<reportero>Juan</reportero>
Abreviado: “self::*” es igual a “.”

14

“attribute”,“descendant”,“root”
attribute::fecha
doc.xml
<noticia> hoy
<titulo>Título</titulo> Abreviado: “attribute::x” es igual
<fuente>upi</fuente> a “@x”
 <reportero cod=”3”> reportero/@cod
 Juan
3
 </reportero>
 Párrafo descendant::b
 uno
 Párrafo dos uno
</cuerpo> Abreviado: “descendant::b” igual
</noticia> a “.//b“
.//noticia
<noticia>...</noticia>
p/b/text()
uno 15

“preceding”, “following”
doc.xml preceding::*
<noticia> <reportero cod=”3”>Juan
<titulo>Título</titulo> </reportero>
<fuente>upi</fuente>
<cuerpo fecha=”hoy”> following::p
Párrafo dos
 Juan
 </reportero>
 Párrafo
 uno
 Párrafo dos
</cuerpo>
</noticia>

16

Partición
<noticia>
Los ejes definen una particion
No se intersectan como node-sets
<fuente>upi</fuente>
Ancestor
<cuerpo fecha=”hoy”> Preceding
 <reportero cod=”3”> Following
 Juan Self
 </reportero> Descendant
 Párrafo Sí pueden ser uno child:: de otro

 uno
 Párrafo dos
</cuerpo>
</noticia>
17

Predicados (condiciones)
doc.xml reportero[@cod=2]
<noticia> (nada)
<fuente>upi</fuente> p[position()=1]
Párrafo uno
 Juan p[position()=last()]
 </reportero>
Párrafo dos</o>
 Párrafo
 uno p[child::b] ó p[b]
 Párrafo dos
</cuerpo> Párrafo uno
</noticia> reportero[.='Juan']
<reportero cod=”3”> Juan
<reportero />
Se puede combinar ...
“/libro/capitulo[position()=3]/seccion[
position()=2]”
18

Resumen de sintaxis abreviada
1/2
X – hijo elemento “X”
* - todos los hijos elemento
text() - todos los hijos texto
@Y – atributo “Y”
X[1] – primer hijo “X”
X[last()] - último hijo “X”
*/X – nietos “X”
X//Y – descendientes “Y” de hijo “X”
19

Resumen de sintaxis abreviada
2/2
//Y – descendientes “Y” de la RAIZ
//Y/X - descendientes “Y” de HIJO “X”
.. - padre
//X[1][@Y=”Z”] - primeros hijos X con
atributo Y=”Z”

20

Valor de text() de un nodo

text(Este es un
nodo)
Este es un nodo
text()
(nada, string vacio)
text(Texto)
Texto

21

Buscar por contenido
libros.xml
<libros> libro[titulo =
<libro>
 <titulo>XXX</titulo>
'XXX']/año
 <año>1890</año>
</libro>
1890
<libro>
 <titulo>YYY</titulo>
libro[not(titulo =
 <año>1950</año> 'XXX')]
</libro>
<libro> 1950
 <año>1830</año>
<libro>
</libros>

22

Buscar con funciones
libros.xml concat(libro[1]/titulo,
<libros>
<libro>
libro[2]/año)
 <año>1890</año>
XXX1950
</libro>
<libro>
libro[starts-
 <titulo>YYY</titulo> with(titulo,'X')]/año
 <año>1950</año>
</libro> 1890
<libro>
 <año>1830</año> libro[contains(año,9)]/
<libro>
</libros> año
1950

23

Funciones básicas
libros.xml
<libros> libro[position()=last()]/
<libro>
año
 <año>1890</año>
</libro>
1830
<libro>
 <titulo>YYY</titulo>
count(libro)
 <año>1950</año>
</libro>
3
<libro>
 <año>1830</año> libro[count(titulo)=0]/a
<libro> ño
</libros>
1830
count(libro/titulo)
2 24

Funciones de strings (cont.)
Busqueda de caracteres
substringafter( 'axbyc','x')='byc'
substringbefore( 'axbyc','x')='a'
Los indices empiezan desde '1', tipico
de los estandares de XML
substring(“abcde”, 2, 4) = “bcd”
stringlength(“tres”) = 4
Traducir caracteres
string,fuente,destino
translate(“BAR”,”ABC”,”abc”) = “baR”
25

Experimentar con XPath
http://www.zvon.org:9001/
/saxon/cgi-bin/XLab/XML/extras.html
Buscar “Zvon Xpath Xlab”

26

Procesamiento de XPath

27

XPath funciona como un filtro,
no como un procedimiento
//*[position()=last()]
No es ir buscando el último hijo de cada nodo
Sí es ir verificando si cada nodo es un último hijo

doc.xml
<noticia> Respuesta correcta
<titulo>Titulo</titulo>
<fuente>upi</fuente> 1: <noticia> ...
<cuerpo fecha=quot;hoyquot;> </noticia>
<reportero cod=quot;3quot;> 2: <cuerpo>...</cuerpo>
Juan</reportero>
Parrafo 3: uno
uno 4: Parrafo dos
Parrafo dos
</cuerpo>
</noticia>

28

Procesamiento XPath usando
DOM

1.- Cargar documento a memoria
Usualmente 10x tamaño del documento
2.- Convertir expresión en funciones
DOM
Muy fácil de programar

Ineficiente si lo que buscamos es un
fragmento pequeño en un documento
grande 29

Ejemplo: //recipe[1]

public static void main(String[] args) {
      DOMParser p = new DOMParser();
      p.parse(args[0]);
      Document doc = p.getDocument();
      Node n = doc.getDocumentElement();
n = n.getFirstChild();
      while (n!=null &&
        !n.getNodeName().equals(quot;recipequot;))
        {
           n = n.getNextSibling();
        }
  }

30

Procesamiento XPath usando
SAX

1.- Procesar documento en línea
Muy difícil de programar
2.- Evitar volver atrás en el documento
A veces es inevitable
Estructuras necesarias
Consulta como lista de nodos
Stack (pila) con consulta parcialmente
resuelta
31

Ejemplo de procesamiento
usando SAX
libro[@titulo = “X”]/autor
<libro titulo=”z”><autor>z_a</autor></libro>
<libro titulo=”x”><autor>x_a</autor></libro>

libro[titulo=”X”]/autor
<libro><titulo>z</titulo><autor>z_a</autor>...
<libro><titulo>x</titulo><autor>x_a</autor>...

32

Problemas al buscar usando
SAX
libro[titulo=”X”]/autor
<libro><autor>z_a</autor><titulo>z</titulo>...
<libro><autor>x_a</autor><titulo>x</titulo>...

Casi siempre es necesario poder
devolverse
Necesitamos indexar estructura

33

Resumen
XPath
Lenguaje para consultar XML
Sintaxis abreviada
Base para otros lenguajes
Procesar XPath
Usando DOM
Usando SAX

34

Bases de Datos - Parte 10/10 XPath

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Carlos Castillo (ChaTo)

Mais de Carlos Castillo (ChaTo) (20)

Último

Último (15)

Bases de Datos - Parte 10/10 XPath