Zur Langzeitarchivierung von Web 2.0 am Beispiel literarischer Blogs (Offene Archive 2.2)
1. Zur Langzeitarchivierung von Web 2.0
am Beispiel literarischer Blogs
Offene Archive 2.2 – Social Media im deutschen Sprachraum und
im internationalen Kontext, Siegen, 3. bis 4. Dezember 2015
Jochen Walter
8. Ingest
Technisches Verfahren Archivierung
1. Kurze Vorabanalyse der Quelle mit ArchiveReady
2. SWBcontent: Formulierung der Crawl-Bedingungen
3. SWBcontent: Crawl mit Httrack bzw. Heritrix
4. SWBcontent: Rechteverwaltung
5. Qualitätskontrolle
6. SWBcontent: URN-Vergabe
9. Einige Eigenschaften von Weblogs
- Content Management Systeme
- Datenbankbasiert
- Statisch: Beiträge, Gestaltungsanweisungen (style sheets)
- Dynamisch: Kommentare, Suche etc.
- Externe Inhalte
→ Technisch und inhaltlich verteilte Komponenten müssen
im Archiv zusammengeführt werden
10. ArchiveReady
analysiert die Quelltexte der Ausgangsseite einer Website
- html
- css
- js
- robots.txt, sitemaps
im Hinblick auf
- Erreichbarkeit
- Zusammenhang und Struktur
- Metadaten
- Einhaltung von Standards
13. Authentizität
– Entsprechung von Original und Kopie (Aussehen, Verhalten und
Funktionalität)
– Frage nach den signifikanten Eigenschaften
Zitierfähigkeit
– Unveränderlichkeit der archivierten Ressource
– Dauerhaftigkeit der archivierten Ressource
19. Grenzen
- Web 2.0-Quellen sind vor allem durch kollaborative
Dynamik (Serverseitiges) und Streuung ihrer Elemente
geprägt
- Quellen werden aus dem Netz „ausgeschnitten“ und damit
zu etwas, was sie nicht sind: abgeschlossen
- Große Verteiltheit (führt auch zu)
- Rechtlichen Schwierigkeiten
- Eine 1:1-Kopie ist bei Weblogs unmöglich, und das Ziel
der Archivierung liegt darin, die Originale in einer Weise
abzubilden, die möglichst viele ihrer wesentlichen
Eigenschaften erhält
Hallo, mein Name ist Jochen Walter. Ich arbeite als Bibliothekar in der Bibliothek des DLA Marbach.
Die Bibliothek des DLA sammelt, erschließt und archiviert die neuere deutschsprachige Literatur. Sie ist eine der größten Spezialbibliotheken für diesen Bereich und wird von Forschern aus aller Welt frequentiert. In seinen Sammlungen bildet das DLA das Netzwerk des literarischen Lebens in all seinen Facetten ab. Im Zentrum des quellenorientierten Sammelns und der Erschließung steht der Autor bzw. die Autorin. Die Literatur wird dokumentiert vom Entstehungsprozess eines Werks über die verschiedenen Ausgaben und die Rezeption bspw. in der Literaturkritik, seine dramaturgische Umsetzung in Hörfunk, Film, auf der Bühne und in der Musik.
Hier sehen Sie noch einmal das Sammelgebiet in aller Kürze. - Nun zur Geschichte von Literatur im Netz: Seit 2008 beziehen wir auch Internetqellen in unser Spektrum mit ein. Genauer gesagt sammeln wir literarische elektronische Zeitschriften, literarische Weblogs und Netzliteratur. Wir reagieren damit auf die zunehmende Bedeutung des Internets als Publikationsforum.
Das mittlerweile zur Anwendung kommende Modell weicht von unserem sonstigen archivarischen Verfahren, bei dem Sammlung und Archivierung in der Zuständigkeit des DLA liegen, ab. Wir haben den Bereich der Archivierung nach außen vergeben. Das heutige Konzept für LiN ruht auf den hier abgebildeten drei Säulen Kallías, ViFa Germanistik und BSZ. Dabei sind die Zuständigkeiten verteilt wie folgt: DLA: Ingest, Nachweis und Zugang; BSZ: Host, Archivinfrastruktur, LZA; DNB: Verwaltung der URNs; ViFa Germanistik: weiterer Nachweis. Der personelle Rahmen: 1 Bibliothekarin (Koordination und Zusammenarbeit mit externen Dienstleistern), 1 Bibliothekar (laufendes Geschäft, mehr dazu jetzt)
Jetzt möchte ich kurz den Geschäftsgang und die Überlegungen, die wir uns zu seinen einzelnen Stationen gemacht haben, überfliegen. So gut wie keine Rolle werden in diesem kleinen Vortrag die Erschließung und die Benutzung spielen, Bereiche, zu denen Sie aber gern Fragen stellen können. Im Folgenden geht es um die Bereiche Akzession (Auswahl und Rechteeinholung) und Archivierung (Ingest, Qualitätsprüfung, der technische Teil des Ganzen).
Auswahl und Bewertung. - Deutschsprachige Literatur findet sich im Internet an vielen Orten und in vielen Formen. Im Hinblick auf Machbarkeit haben wir uns daher auf drei Bereiche beschränkt: literarische Online-Zeitschriften, literarische Weblogs und Netzliteratur (kleiner Einschub: Mit letzterem sind die Titel der Pionierphase 1994 bis 2004 gemeint. Diese werden zur Zeit separat in einem DFG-geförderten Projekt bei uns im Haus bearbeitet). Bei all dem wollten wir uns auf originär digitale Publikationen beschränken. Trotz dieser aufgeräumt wirkenden Regel gab es am Anfang gewisse Schwierigkeiten: Einmal die unübersichtliche bibliographische Lage für Literatur im Netz und dann der Wegfall herkömmlicher Redaktionsverfahren wie Verlagslektorate und Zeitschriftenredaktionen. All das hat Folgen für das Auswahlverfahren: Konzeptionell: Einen Anspruch auf einen vollständigen Überblick halten wir für unrealistisch. Die bisherigen Sammelkriterien finden weiterhin Anwendung. Die materiellen Grundlagen der Auswahl sind Listen, Blogrolls, Linksammlungen der bereits archivierten Titel und Einzelmeldungen. Eine Erwerbungspolicy haben wir auf den Internetseiten von LiN veröffentlicht. Die Praxis der letzten Jahre hat zu einer weiteren Schärfung des Profils geführt: So werden inaktive Quellen aus der Routine genommen. Max. 2 gleichartige Titel (z. B. Lyrikblogs) von denselben AutorInnen. Zum Schluss wäre noch die Prüfung des literarischen Gehalts zu nennen (Stichworte: Tagebuch, Rezensionsorgan).
Nach der positiven Erwerbungsentscheidung folgt die Rechteeinholung für jeden Titel. Zu den rechtlichen Rahmenbedingungen ist zu sagen: Für das DLA gibt es keine Pflichtabgabe, und im Rahmen von LiN keine Kauferwerbung. Zu den benötigten Verwertungsrechten gehören das Vervielfältigungsrecht (Archivkopie) und das Verbreitungsrecht (öffentliche Präsentation). Diese müssen im Hinblick auf die freie Benutzung der Archivalien daher extra eingeholt werden, und zwar mit separaten Rechteanfragen (i. d. R. 1 hauptverantwortliche Person, Reaktionen insgesamt positiv, Rechteverwaltung in SWBcontent). Zu den Problemen hier zählt einmal, dass die vollständige Ermittlung aller Rechteinhaber nicht machbar ist. Desweiteren geht es, ähnlich wie bei aktuelleren Korrespondenzen in unseren Handschriften, auch um Fragen des Persönlichkeitsschutzes: So haben einige großes Interesse daran, ihr Leben im Netz und ihr „wirkliches“ Leben strikt voneinander zu trennen. Lösungen für die urheberrechtlichen Aspekte des Ganzen: Änderung der Gesetzeslage, Disclaimer, CC-Lizenzen. Nach Gewährung der Rechte: Erschliessung (wie gesagt: heute nichts dazu).
Der technische Ablauf der Archivierung umfasst (hier einmal kurz im Überblick) folgende Schritte und Werkzeuge: 1. Kurze Vorabanalyse der Quelle mit ArchiveReady: 2. SWBcontent: Formulierung der Crawl-Bedingungen; 3. SWBcontent: Crawl mit Httrack bzw. Heritrix; 4. SWBcontent: Rechteverwaltung; 5. Qualitätskontrolle; 6. SWBcontent: URN-Vergabe
Bevor ich auf den 1. Punkt im gerade genannten Ablauf und das damit verbundene Programm ArchiveReady komme, möchte ich ein paar Eigenschaften von Weblogs erwähnen: Blogs basieren immer auf CMS und entsprechenden Datenbanken. Sie haben statische und dynamische Bestandteile. Grundsätzlich: Zu ersteren gehören die Beiträge und die Gestaltungsanweisungen. Zu letzteren die Kommentar- und die Suchfunktionen und andere interaktive Funktionen, wie z. B. der scrollabhängige automatische Seitenaufbau, wie man ihn auch von Twitter her kennt. Desweiteren gibt es nicht wenige Blogs, die vom Einbinden externer Inhalte leben. Aus all dem folgt: Was sich da als Einheit präsentiert, ist unter der Oberfläche ein Mosaik aus weit verstreuten Teilchen, die für eine einigermaßen funktionierende Archivkopie zusammengeführt werden müssen.
Bei dieser Aufgabe ist ArchiveReady sehr hilfreich. Es analysiert die Quelltexte der Ausgangsseite einer Website im Hinblick auf Erreichbarkeit, Zusammenhang und Struktur, Metadaten und Einhaltung von Standards. Das Untersuchungsergebnis sind Aussagen über die Archivierbarkeit der Quelle. Diese Aussagen helfen bei der Formulierung der Crawlbedingungen.
SWBcontent ist ein Workflow-Tool des BSZ Konstanz und in seiner Funktion ähnlich z. B. dem Web Curator Tool. Mit Hilfe von SWBcontent wird man durch den Geschäftsgang der eigentlichen Archivierung geführt. Das beinhaltet einerseits die Metadaten, die Rechteverwaltung und die URN-Vergabe. Hauptaufgabe ist aber die Steuerung und Protokollierung der Crawls (oder, wie ich häufig sage: der Spiegelungen). Integriert in SWBcontent sind die beiden Crawler Httrack und Heritrix. Die Archivalie, oder im Sinne des OAIS Modells das AIP (Archival Information Package) ist dann letztendlich eine WARC-Datei. WARC ist als ISO-Norm der Standard zur Aufbewahrung gecrawlter Netz-Inhalte. Bei einer Spiegelung ist zu beachten, dass das Spiegelungsergebnis immer durch die Crawlparameter beeinflusst wird. Dazu gehören, wie teilweise auf der Folie zu sehen: Ausgangsadresse der Quelle, Filter für ein- bzw. auszuschließende Adressen, zeitliche und quantitative Limitierungen, interne und externe Spiegelungstiefe sowie das Verhalten gegenüber Anweisungen wie robots.txt.
Die zu spiegelnde Vorlage, um einen bibliothekarischen Terminus zu gebrauchen, ist im Gegensatz zu konventionellen Medien in ihrem Umfang also nicht definiert. Vielmehr werden ihre Grenzen erst vom Archivierenden durch die genannten Parameter gesetzt, z. B. wenn aus rechtlichen Gründen und/oder des Speicherplatzes externe Links nicht verfolgt werden. Jede Spiegelung einer Netzressource kann schon allein aus diesem Grund als Unikat betrachtet werden. Die Folie zeigt anhand einer Windows-Variante von Httrack die Vielzahl an Einstellungsmöglichkeiten, (die von Heritrix noch übertroffen wird.)
Für Websites, die sich nicht mehr im Netz befinden, hat das Archiv nicht nur die Funktion einer zentralen Nachweisstätte, sondern es wird zur primären Umgebung. Damit verschiebt sich der Fokus etwas von der Authentizität des Dokuments auf die Vertrauenswürdigkeit des Archivs. Hier gilt es, wie gesagt, in besonderem Maße zu beachten, dass „[...] die Archivierung das Ereignis im gleichen Maße hervorbringt, wie sie es aufzeichnet.“ Die Authentizität der archivierten Objekte hängt vor allem davon ab, was Urheber und Nutzer als deren signifikante Eigenschaften ansehen und ob es gelingt, diese im Archivierungsprozess und auch zukünftig zu bewahren und korrekt wiederzugeben. Was man tun muss, um die archivierten Quellen unter diesen Bedingungen objektiv nachvollziehbar und zitierfähig zu machen, ist die Ergänzung der bibliographischen Metadaten um die technischen Metadaten wie Crawlparameter und die Vergabe dauerhafter Identifikatoren, in unserem Fall URNs.
Wie gesagt: Für die Archivkopie müssen verteilt liegende vernetzte Bestandteile zusammengeführt werden. Das vom DLA betriebene punktuelle Harvesting einer relativ geringen Anzahl von Quellen erlaubt eine genaue Qualitätskontrolle, die bei großflächigen Vorgehensweisen wie z. B. im Internet Archive gar nicht möglich ist. Im Folgenden ein Beispiel für das schrittweise Erreichen einer vorzeigbaren Archivalie, also das mehrmalige jeweilige Ändern der Parameter nach der Qualitätsprüfung.
Ich geh hier nicht ins Detail, möchte nur den grundsätzlichen Effekt der Parameter auf das Ergebnis bildlich vorführen.
Nach erfolgreicher Spiegelung werden die Autoren angeschrieben und um Rückmeldung gebeten. Noch einmal: Häufig nähert man sich beim Webharvesting lediglich einer authentischen Kopie. Trotz aller Bemühungen stößt man an Grenzen, die manchmal den Quellen immanent sind.
Diese Grenzen, um zum Schluss zu kommen, hier noch einmal zusammengefasst: Webquellen werden aus dem Netz „ausgeschnitten“ und damit zu etwas, was sie nicht sind: abgeschlossen. Die Vorlage ist in ihrem Umfang nicht definiert, lediglich die Archivalie ist das. Mit der Archivierung geht immer eine Reduzierung einher. Eine hundertprozentige 1:1-Kopie ist bei Weblogs unmöglich und das Ziel der Archivierung liegt darin, die Originale in einer Art abzubilden, die möglichst viele ihrer wesentlichen Eigenschaften erhält.