Bit wisem 2015-wieners-sitzung-13_Zusammenfassung II
IT-Zertifikat: Advanced Markup & Metadata - Handout XML
1. Universität zu Köln
Historisch-Kulturwissenschaftliche Informationsverarbeitung
IT-Zertifikat der Phil.-Fak.: Daten- und Metadatenstandards
Jan G. Wieners, MA / www.hki.uni-koeln.de/wieners
- 1/3 -
IT-Zertifikat: Daten- und Metadatenstandards
XML – Ein kurzer Überblick
XML ist eine Auszeichnungssprache, eine sog. „Markup“-Sprache. Wie HTML, so verwendet auch
XML Tags zur Auszeichnung von Elementen:
<tagname>Information, die durch das Tag „tagname“ ausgezeichnet
ist.</tagname>
Exkurs „Tags“: Ein Tag ist durch spitze Klammern gekennzeichnet; unterschieden wird zwischen
öffnenden Tags, z.B. <tagname> und schließenden Tags, z.B. </tagname>, charakterisiert durch den
Schrägstrich („/“). Zu jedem öffnenden Tag muss ein schließendes Tag vorhanden sein.
Leere Tags (<beispieltag> </beispieltag>) lassen sich abkürzen mit <beispieltag />.
XML ist deutlich allgemeiner als HTML: XML ist eine Auszeichnungssprache, die dazu dient,
beliebige Markupsprachen zu definieren. So lässt sich mit XML die Markupsprache HTML
definieren (vgl. XHTML als XML-basierte Version von HTML).
„Mit Hilfe von XML ist es möglich, die Struktur, den Inhalt und die Darstellung eines Dokuments
streng zu trennen und entsprechend dann auch unabhängig voneinander zu be- und verarbeiten.
Während die Tags in HTML in erster Linie festlegen, in welcher Form Inhalte in einem
entsprechenden Medium ausgegeben werden sollen, wird mit XML versucht, die Bedeutung von
Daten so festzuhalten, dass nicht nur Menschen, sondern auch Maschinen damit etwas anfangen
können. Das erlaubt zum einen eine Prüfung der Gültigkeit von Dokumenten, ist zugleich aber auch
die Basis für erweiterte Formen der Gestaltung und der Verknüpfung von Dokumenten.“1
Übersicht über die Sprachfamilie XML2
Ausgewählte XML-Anwendungen:
XHTML WML SMIL SOAP
Programmierschnittstellen:
DOM SAX
Co-Standards:
XSL / XSLT XPath Xpointer Xlink
Kern-Standards:
XML-Infoset XML 1.0 Namensräume XML-Schema
1 Vonhoegen, H.: Einstieg in XML: Aktuelle Standards: XML Schema, XSL, XLink. Bonn: Galileo Computing, 2009. S. 30.
2 Vgl.: ebenda, S.33.
2. Universität zu Köln
Historisch-Kulturwissenschaftliche Informationsverarbeitung
IT-Zertifikat der Phil.-Fak.: Daten- und Metadatenstandards
Jan G. Wieners, MA / www.hki.uni-koeln.de/wieners
- 2/3 -
XML (eXtensible Markup Language) in 10 Punkten
(http://www.w3.org/XML/1999/XML-in-10-points.html)
1. XML bietet eine Methode, um Daten zu strukturieren und mittels einer Textdatei abzubilden
2. XML ähnelt HTML ein wenig
3. XML wird von Maschinen gelesen, ist aber dem Menschen verständlich
4. XML umfasst eine ganze Familie von Technologien
5. XML ist wortreich
6. XML ist relativ neu, hat aber bedeutende Wurzeln
7. XML führt HTML nach XHTML
8. XML bietet die Möglichkeit, Modularität zu implementieren
9. XML bietet die Grundlage für RDF (Resource Description Framework) und das Semantic
Web
10.XML ist lizenzfrei, plattformunabhängig und wird breit unterstützt
(Grund)Aufbau eines XML-Dokumentes
XML-Deklaration: XML-Dokumente beginnen (üblicherweise) mit einer einleitenden XML-
Deklaration, die das Dokument als XML-Dokument kennzeichnet (xml), der Versionsnummer
(version=“1.0“) des verwendeten XML-Standards und der Angabe des Kodierungsformates zur
Festlegung der Zeichenkodierung (encoding=“utf-8“):
<?xml version=“1.0“ encoding=“utf-8“ ?>
Mit der vorangehenden Zeile wird die Übereinstimmung des XML-Dokumentes mit der (derzeit) gültigen
Spezifikation von XML deklariert.
Anforderungen an XML-Dokumente
XML-Dokumente müssen wohlgeformt (well-formed) sein, d.h. sie müssen den Regeln der XML-Syntax
genügen (Auszug aus den Syntax-Regeln):
Es existiert ein – und nur ein – Wurzelelement(!)
<emailadressen>
<adresse1>example@example.com</adresse1>
<adresse2>secondexample@example.com</adresse2>
</emailadressen>
Jedes Element muss ein Start- und ein Endtag besitzen
<beispiel> Element mit Kindelementen
<element1>Irgendein Textinhalt</element1>
<element2></element2>
<element3/>
</beispiel>
Falsch:
<beispiel> Element
<element1> Text
</beispiel>
3. Universität zu Köln
Historisch-Kulturwissenschaftliche Informationsverarbeitung
IT-Zertifikat der Phil.-Fak.: Daten- und Metadatenstandards
Jan G. Wieners, MA / www.hki.uni-koeln.de/wieners
- 3/3 -
Bitte beachten: Der Elementtypname im Start-Tag und im End-Tag müssen exakt übereinstimmen. Ungültig
wäre folgender XML-Code:
<titel> Ein Titel </TITEL>
Elemente dürfen geschachtelt sein, sich aber nicht überlappen
<strong><em> Beispielinhalt </strong></em> Falsch
<strong><em> Beispielinhalt </em></strong> Richtig
Es muss genau ein Wurzelelement existieren:
<wurzelelement>
<element1>Irgendein Textinhalt</element1>
</wurzelemenent>
Attributwerte müssen in Anführungszeichen stehen:
<element1 attributwert=500>Textinhalt</element1> Falsch
<element1 attributwert=“500“>Textinhalt</element1> Richtig
<name vorname=“Francis“ vorname=“Scott“ nachname=“Fitzgerald“/> Falsch
<name vorname=“Francis Scott“ nachname=“Fitzgerald“/> Richtig
Regeln für die Namensgebung
Ein Elementname muss mit einem Buchstaben oder mit Unterstrich oder Doppelpunkt beginnen.
„xml“ darf nicht am Beginn eines Namens stehen.
Die Länge der Namen ist nicht begrenzt – kürzere Namen erhöhen jedoch mitunter die Lesbarkeit.
XML-Namen sind fallsensitiv. <Name> … </name> ist nicht zulässig.
XML: wohlgeformt vs. gültig
XML-Dokumente können gültig sein. Gültige (valide) Dokumente müssen strengeren Anforderungen bzgl.
Ihrer Struktur genügen. Diese Struktur kann entweder in einer DTD (Document Type Definition) oder in einer
XML Schema-Datei beschrieben werden.
XML-Schema ist eine XML-Anwendung und nutzt die bekannte XML-Syntax.
Elemente vs. Attribute
Mit Hilfe von Attributen lassen sich Zusatzinformationen zur Information repräsentieren, die das Element
enthält. Notiert werden Attribute im öffnenden Tag nach der folgenden Syntax:
<kontakt name=“Jan Wieners“ email=“jan.wieners@uni-koeln.de“ />
Häufig sind Elemente den Attributen vorzuziehen, da Attribute keine Schachtelung zulassen und der Inhalt
von Elementen über Programmierschnittstellen („API“s wie SAX / DOM) leichter zugänglich ist.
Kommentare
Kommentare lassen sich in XML über die Zeichenfolge „<!--„ bzw. „-->“ einbetten:
<!--
Dieser Text wird nicht angezeigt
-->