Bibliotheken in der Verantwortung: "Literatur im Netz" authentisch archivieren und langfristig verfügbar machen [275]
Karin Schmidgall, Deutsches Literaturarchiv Marbach, Marbach
Jochen Walter, Deutsches Literaturarchiv Marbach, Marbach
Vortrag auf dem 100. DBT 2011 in Berlin im Rahmen des Kurzvortragsprogramms der Zukunftswerkstatt Kultur- und Wissensvermittlung e.V. im Raum Paris
Semelhante a Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Netz' authentisch archivieren und langfristig verfügbar machen (20)
Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Netz' authentisch archivieren und langfristig verfügbar machen
1. Bibliotheken in der Verantwortung: 'Literatur im Netz'
authentisch archivieren und langfristig verfügbar machen
Karin Schmidgall, Jochen Walter, Deutsches Literaturarchiv Marbach
Vortrag gehalten auf dem Bibliothekartag Berlin am 08.06.2011 (Block „Blick auf die
Informationslandschaft“ 09:00-11:00, Raum Paris)
1 Allgemeines
Das Deutsche Literaturarchiv gilt als Zentrum für Literatur und Geistesgeschichte; der
Schwerpunkt liegt auf der deutschsprachigen Literatur seit 1750
Es stellt Quellen für Wissenschaft und Forschung bereit, der Zugang ist für die
wissenschaftliche Nutzung frei und kostenlos
Im Zentrum des Sammelns stehen der Autor und sein Werk
Ziel ist eine möglichst umfassende Quellendokumentation, dazu gehört auch die
konsequente Ausweitung des Sammelprofils auf die im Internet publizierte Literatur
eines Autors
2 Ausgangsthesen
Was heißt es, Quellen für die Wissenschaft authentisch zu archivieren und langfristig
verfügbar zu machen? Thesenhaft beleuchten. Mit Auswahl, Erwerbung, Erschließung,
Aufbewahrung und Ausstellung von Quellen kennen sich Bibliotheken aus, verfügen über
Jahrhunderte lange Erfahrung. Wie sieht es aber mit dem Sammlungsgut „flüchtige Internet-
Quellen“ aus?
2.1 These 1: Man kann nicht jede Quelle sammeln
Für die Auswahl werden literaturgeschichtliche Kenntnisse und eindeutige Sammelkriterien
benötigt. Bei der Auswahl konventioneller Literatur helfen der Nachweis in der Deutschen
Nationalbibliographie oder die Veröffentlichung in einem literarisch einschlägigen Verlag
oder einer Zeitschrift. Diese redaktionellen Filter fehlen jedoch bei der Auswahl von Internet-
Quellen. Wird mit der Aufnahme in das Archiv ein wissenschaftlicher Kanon gebildet?
2.2 These 2: Eine Quelle muss authentisch sein
Eine Handschrift oder Erstausgabe mit handschriftlicher Widmung des Autors wird per se als
echt, „als Original“ befunden - wie sichert man aber die Authentizität eines Weblogs? Wie
weit entspricht eine Spiegelung dem Original? Wie sehr beeinflussen Zeitpunkt und
technische Parametereinstellungen das Ergebnis? Was passiert bei Migrationsprozessen?
2.3 These 3: eine Quelle muss zitierbar sein
Zitate in wissenschaftlichen Arbeiten müssen nachvollziehbar und nachprüfbar sein. Es gibt
zwar Zitierregeln für Internetquellen, aber was ist wenn die zitierte Quelle selbst nicht mehr
existiert? Wie sichert man langfristig die Zitierbarkeit?
2.4 These 4: eine Quelle muss angemessen aufbewahrt werden
Mit dem Sammeln übernimmt eine Institution die Verantwortung für die Aufbewahrung ihres
Sammelguts. Die optimalen Bedingungen für die Aufbewahrung von Handschriften und
Büchern sind seit vielen Jahren erforscht, es gibt dafür eine ganze Reihe von DIN/ISO -
2. Standards und viel Erfahrung. Wie aber sieht die optimale Langzeitarchvierung für Web-
Ressourcen aus, bei der für einige Quellen die gesamte Erstellungsumgebung (Daten,
Software und Lesegeräte) mitarchiviert werden müsste?
Auswahlkriterien und Erschließung sind übertragbar auf das „Digitale
Sammlungsprofil“, neu kommt hinzu, dass die Rechte zur Archivierung und
Verbreitung beim Autor eingeholt werden müssen.
Zugangswege und Aufbewahrung aber stellen eine Bibliothek vor Herausforderungen,
die sie nicht allein bewältigt werden kann und für die sie Partner suchen muss.
3 Abriss Projektverlauf LiN / Eckpunkte
1997: Meldung FAZ zum 2. Internet-Literaturpreis -> Damals war schon klar: Wir
müssen uns um die Archvierung kümmern“, ebenfalls klar war: Wir kommen nur
weiter, wenn wir direkt auf die Autoren zugehen - und diese hatten Interesse an der
Archivierung! Wir hatten aber nicht die technische Ausstattung und das Know How.
1999: wird das Netzwerk der Bestände im Erschließungssystem Kallías sichtbar
gemacht
2004: Aufbau der ViFa Germanistik. DLA übernimmt als Kooperationspartner im
Fachinformationsführer die Redaktion für die Literaturformen „literarische
Zeitschriften, Weblogs und Netzliteratur und erschließt Internetquellen mit
bibliothekarischen Metadaten und kurzer Inhaltsbeschreibung
2004: Beschäftigung mit dem Thema Web-Archivierung, Durchführung einer
Marktsichtung. Unser Anspruch: die Quellen müssen analog zum konventionellen
Sammlungsgut gesichert werden, auch wenn das Konzept der Virtuellen
Fachbibliotheken dies nicht vorsah. Erst seit diesem Jahr nimmt die Bayerische
Staatsbibliothek sich dieser Aufgabe für die dort geführten Virtuellen
Fachbibliotheken an und steigt gemeinsam mit Academic Linkshare in die
Langzeitarchvierung von Webseiten ein! Cooles Gefühl: bei einer aktuellen Thematik
einmal schneller reagiert zu haben als die BSB.
2008: Ausrichtung eines Nestor-Workshops „Langzeitarchivierung von
Netzliteratur“ gemeinsam mit der DNB Frankfurt. Archivare, Bibliothekare, Autoren,
Rechtswissenschaftler, Webarchivbetreiber und ein Vertreter des Börsenvereins
diskutieren. Es bleiben viel offene Fragen: technische, urheberrechtliche,
organisatorische. Eine Nestor-Überlegung war, den Autoren zu vermitteln, dass sie zur
Archivierbarkeit ihrer Publikationen beitragen können, wenn sie bereits bei der
Produktion die Anforderungen einer langfristigen Speicherung bedenken -> („Best-
Practices“). Doch wäre man jemals auf die Idee gekommen, Schriftstellern die Tinte
und das Papier für die ersten Überlegungen zu einem neuen Roman, den Umschlag der
Erstausgabe vorzuschreiben?
2009: Start der Plattform „Literatur im Netz“. Das BSZ Konstanz ist mit dem Betrieb
und dem Hosting beauftragt, zum Einsatz kommt das Workflowtool SWBcontent, das
zur Spiegelung und Archivierung der Quellen eingesetzt wird, für das Webharvesting
wird als Baustein HTTrack verwendet, die URN-Vergabe (persistenter Identifier)
erfolgt über ein vom BSZ zusammen mit der DNB entwickeltes Verfahren. Das BSZ
übernimmt als vertrauenswürdiges Archiv auch die Verantwortung für die
Langzeitarchivierung.
3. 2011: 170 literarische Weblogs und Zeitschriften, die in regelmäßigen Abständen
(4mal im Jahr) gespiegelt werden, 55 GB Speicherplatz, erwartete Zunahme 30% pro
Quartal. Nachweis der Quellen in SWB, ZDB, ViFa Germanistik und lokaler
Datenbank Kallías. Personal: DLA: 50%-Stelle für den gesamten Workflow
(Rechteeinholung, Katalogisierierung, Webharvesting)
„Authentisch, spannend und gesucht: Unsere neuen Weine im Mai“ las ich neulich -
übertragen auf unser Thema: Authentisch, spannend und gesucht: die Netzliteratur im Archiv
Übergabe an Jochn: [Präsentation Fokus: wie im Projekt Literatur im Netz Quellen für die
Wissenschaft authentisch archiviert und langfristig verfügbar gemacht werden.]
4 Archivierungspraxis konkret
4.1 Spiegelungsbedingungen und Folgen
Parameter-Folien
Einige Spiegelstriche zu den Bedingungen, unter denen gespiegelt wird: Die Zahl der
Downloadparameter des Crawlers Httrack (in SWBcontent integriert) geht in die Dutzende.
Die Netzquellen selbst zeichnen sich durch eine starke Veränderbarkeit aus. Wir archivieren
nicht das Netz, nicht einmal größere Teile dessen, sondern Ausschnitte. Das hat mit Kosten,
mit der Besinnung auf den fachlichen Kernbereich und mit dem zu tun, was uns das
Urheberrechtsgesetz gestattet bzw. nicht gestattet. Daraus und aus der oben erwähnten
Vielzahl an Einstellungsmöglichkeiten folgt, dass es keine standardisierten, also
quellenunabhängigen oder institutionsübergreifend anwendbaren Spiegelungsparameter geben
kann. Weiter ist keine Kollationierung möglich. Netzquellen sind im Unterschied zu bsp.
Büchern in ihrem Umfang nicht definiert. Unterschiedliche Interpretationen des Umfangs der
Vorlage sind daher nicht möglich oder wahrscheinlich sondern sicher. Der Umfang der
Vorlage wird erst durch die Archivierung definiert. Daher empfehlen wir auch allen
kontaktierten Rechteinhabern, von der Vorstellung einer hundertprozentigen 1:1-Kopie
Abstand zu nehmen.
4.2 Probleme
Über diese ganz allgemeinen Folgen hinaus gibt es Probleme, auch technischer, auch
rechtlicher Art, aber diese sollen hier und jetzt keine Rolle spielen. Stattdessen seien noch
einmal die beiden bereits angesprochenen Hauptanforderungen an die archivierten Quellen
genannt
als Folie
Authentizität
o Unveränderlichkeit der archivierten Ressource
o Entsprechung von Kopie und Original
Zitierfähigkeit
o Unveränderlichkeit der archivierten Ressource
o Dauerhaftigkeit der archivierten Ressource
Hauptproblem 1 vor dem Hintergrund dieser Anforderungen:
Die Archivierung der Quelle bereits verändert diese und erschafft ein Unikat. Das liegt in den
4. Spiegelungseinstellungen und in der Veränderbarkeit der Quellen begründet, die den
Zeitpunkt der Spiegelung zu einem bestimmenden Datum machen. Eine Lösung dieses
Problems, in dem Sinne, dass Gegebenheiten wie bei klassischen Printmedien geschaffen
würden, gibt es nicht und ist auch nicht vorstellbar. Was man tun kann, ist, die archivierten
Quellen objektiv nachvollziehbar machen, indem man die üblichen Metadaten um die
Archivierungsbedingungen, die Downloadparameter ergänzt. Die Zitierfähigkeit verschiebt
sich so von der Titel- auf die Einzelspiegelungsebene. Damit verschiebt sich auch der Fokus
etwas von der Authentizität des Dokuments auf die Vertrauenswürdigkeit des Archivs.
Hauptproblem 2 vor dem Hintergrund dieser Anforderungen:
Die langfristige Verfügbarkeit. Hier sieht die Arbeitsteilung so aus, dass das DLA für die
Überführung der Quellen ins Archiv (und alle damit zusammenhängenden Arbeiten)
zuständig ist. Bei allen Belangen der Langzeitarchivierung, sowohl konzeptionell wie auch
ganz konkret technisch, sind die Grenzen unserer Tätigkeit erreicht. Hier sind der SWB, die
Verbünde allgemein, aber auch Nestor und die DNB gefragt. Was aber schon jetzt dauerhaft
den Archivalien zugewiesen ist und deren Zitierfähigkeit befördert, sind URNs. Diese werden
den Quellen in Zusammenarbeit mit dem BSZ und der DNB zugeordnet.
Fazit für unsere Archivierungspraxis (Was geht denn dann noch?) Wir schreiben 1
Rechteinhaber an und spiegeln nach Erteilung der Rechte mit folgenden Parametern
als Folie
Ausgangsadresse
o http://quantenleser.de/mam/
Zeitbegrenzung
o 2 Tage
Volumenbegrenzung
o 2 GB
ggf. Filter
o weitere ein- bzw. auszuschließende Adressen bzw. Adressbereiche
Verhalten gegenüber robots.txt
o abhängig von den jeweiligen Gegebenheiten
interne Spiegelungstiefe
o 997
externe Spiegelungstiefe
o null
4.3 Netzressourcen vergleichen mit "monographischer" Netzliteratur
LiN umfasst die drei Bereiche elektronische Zeitschriften, Weblogs und Netzliteratur. Bei den
Zeitschriften (in der Regel Websites) und den Weblogs ist von einer periodischen, in den
meisten Fällen integrierenden Erscheinungsweise zu sprechen. Daraus ergibt sich auch eine
wiederholte, regelmäßige Archivierung jeweils der kompletten Quelle. Diese bestehen häufig
5. aus vorfabrizierten verteilten, vernetzten Bestandteilen, Stichwort: Web 2.0. Die im
Zusammenhang mit diesen Medien auftretenden Probleme können meist bewältigt werden.
Folien zu Maulle au Mer
Das vom DLA betriebene punktuelle Harvesting erlaubt eine derart genaue Qualitätskontrolle,
die beispielsweise bei großflächigen Vorgehensweisen gar nicht möglich ist. Da sich das
Harvesting nicht bzw. noch nicht vollständig automatisieren lässt, kann es in solchen
Bereichen auch zu Archivkopien kommen, die unseren Anssprüchen an Authentizität nicht
genügen würden.
Folien Vergleich DLA - IA
Die Netzliteratur-Projekte, die zu einem großen Teil aus den Neunziger Jahren stammen, sind
jedoch in der Regel in sich abgeschlossen. Eine einmalige Archivkopie ist für diese quasi
monographischen Fälle ausreichend. Es handelt sich weitgehend um eigenständig produzierte
Kunstwerke, deren Archivierung ihre eigenen Probleme hat. Diese können damit
zusammenhängen, dass, um Johannes Auer zu zitieren "Stück und Aufführungsbasis
untrennbar miteinander verbunden sind" (Auer, Archivierung von performativer Netzliteratur).
Die Archivierung von Systemumgebungen, also Betriebsystemen, Software bzw. bestimmten
Versionen von Programmen, kann so zum notwendigen Bestandteil einer authentischen
Archivkopie werden. Hinzu kommt die rasante technische Entwicklung im Netzbereich. Zum
Schluss noch einen recht typischen Netzliteratur-Titel:
Link-Folie zu Kill the poem
5 Ausblick
Die Titel aus dem Bereich der Netzliteratur bzw. der frühen Netzliteratur sind zum Teil noch
online verfügbar. Zum Teil befinden sie sich in Form von Speichermedien wie CD-ROMs in
Marbach, und zum Teil sind sie einfach bereits verschwunden. Daraus und aus den oben
erwähnten technischen Schwierigkeiten leiten wir für die Archivierung dieses Segments
folgenden Arbeitsplan für die Zukunft, eine teils webarchäologische Vorgehensweise, ab:
Webharvesting (wenn das scheitert, was wir im stärkerem Maße vermuten als
bislang:)
Direktlieferung (wenn das scheitert:)
Unterstützung durch Programmierer (wenn das scheitert:)
Archivierung nicht durchführbar, es bleibt bei der Dokumentation der Arbeit im
Projekt-Wiki zu Zwecken späterer Arbeit und Forschung (Vorbild: Web harvesting
survey der LoC)
6. Literatur im Netz
Bibliotheken in der Verantwortung: „Literatur im Netz“
authentisch archivieren und langfristig verfügbar machen,
100. Bibliothekartag, Berlin, 8. Juni 2011
Karin Schmidgall
Jochen Walter
7. Bibliothek Archiv
800.000 Bücher, Zeitschriften 1.200 Nachlässe und Sammlungen
144 Autoren, Gelehrten- Sammlerbibliotheken Verlagsarchive
353.000 andere Materialien 100.000 Bildnisse
51.000 literarische Autoren
Friedrich Schiller, Eduard Mörike, Rainer Maria Rilke, Gottfried Benn, Franz Kafka, Alfred
Döblin, Kurt Tuchholsky, Ricarda Huch, Carl Zuckmayer, Paul Celan, Sudabeh Mohafez, Ernst
Jünger, W.G. Sebald, Hannah Arendt, Martin Heidegger, Alban Nikolai Herbst, Erich Kästner,
Joachim Ringelnatz, Gertrud Kolmar, Elisabeth Langgässer, Justinus Kerner, Else Lasker-
Schüler, Thomas Mann, Georg Trakl, Uwe Timm, Hans Magnus Enzensberger, Thomas
Bernhard, Hilde Domin, Christa Wolf, Julian Heun, Martin Klein, Sascha Lobo, Anna Seghers,
Isolde Kurz, Reinhold Schneider, Oskar Loerke, Nikolaus Lenau, Günter Kunert, Wilhelm
Raabe, Martin Walser, Stefan Zweig, Stefan George, Karl Wolfskehl, Gabriele Wohmann, Ken
Yamamoto − haben Sie die Blogger entdeckt?
13. - Authentizität
– Entsprechung von Original und Kopie
- Zitierfähigkeit
– Unveränderlichkeit der archivierten Ressource
– Dauerhaftigkeit der archivierten Ressource
14. Ausgangsadresse
– http://quantenleser.de/mam/
Zeitbegrenzung
– 2 Tage
Volumenbegrenzung
– 2 GB
ggf. Filter
– weitere ein- bzw. auszuschließende Adressen bzw. Adressbereiche
Verhalten gegenüber robots.txt
– abhängig von den jeweiligen Gegebenheiten
interne Spiegelungstiefe
– 997
externe Spiegelungstiefe
– null