Zur Langzeitarchivierung von Web 2.0 am Beispiel literarischer Blogs (Offene Archive 2.2)

•Transferir como PPT, PDF•

0 gostou•2,795 visualizações

Offene Archive

Jochen Walter, Offene Archive 2.2

Ciências

Zur Langzeitarchivierung von Web 2.0
am Beispiel literarischer Blogs
Offene Archive 2.2 – Social Media im deutschen Sprachraum und
im internationalen Kontext, Siegen, 3. bis 4. Dezember 2015
Jochen Walter

Sammelkriterien DLA (allgemein)
Primärliteratur
1. neuere (= seit ca. 1750)
2. deutsche (= deutschsprachige)
3. Literatur (= Schöne Literatur: Lyrik, Dramatik, Epik)

Ingest
Technisches Verfahren Archivierung
1. Kurze Vorabanalyse der Quelle mit ArchiveReady
2. SWBcontent: Formulierung der Crawl-Bedingungen
3. SWBcontent: Crawl mit Httrack bzw. Heritrix
4. SWBcontent: Rechteverwaltung
5. Qualitätskontrolle
6. SWBcontent: URN-Vergabe

Einige Eigenschaften von Weblogs
- Content Management Systeme
- Datenbankbasiert
- Statisch: Beiträge, Gestaltungsanweisungen (style sheets)
- Dynamisch: Kommentare, Suche etc.
- Externe Inhalte
→ Technisch und inhaltlich verteilte Komponenten müssen
im Archiv zusammengeführt werden

ArchiveReady
analysiert die Quelltexte der Ausgangsseite einer Website
- html
- css
- js
- robots.txt, sitemaps
im Hinblick auf
- Erreichbarkeit
- Zusammenhang und Struktur
- Metadaten
- Einhaltung von Standards

Authentizität
– Entsprechung von Original und Kopie (Aussehen, Verhalten und
Funktionalität)
– Frage nach den signifikanten Eigenschaften
Zitierfähigkeit
– Unveränderlichkeit der archivierten Ressource
– Dauerhaftigkeit der archivierten Ressource

Grenzen
- Web 2.0-Quellen sind vor allem durch kollaborative
Dynamik (Serverseitiges) und Streuung ihrer Elemente
geprägt
- Quellen werden aus dem Netz „ausgeschnitten“ und damit
zu etwas, was sie nicht sind: abgeschlossen
- Große Verteiltheit (führt auch zu)
- Rechtlichen Schwierigkeiten
- Eine 1:1-Kopie ist bei Weblogs unmöglich, und das Ziel
der Archivierung liegt darin, die Originale in einer Weise
abzubilden, die möglichst viele ihrer wesentlichen
Eigenschaften erhält

Vielen Dank für Ihr Interesse
jochen.walter@dla-marbach.de

Adressen
LiN → http://literatur-im-netz.dla-marbach.de/
SWB → https://www.bsz-bw.de/mare/lza/swbcontent.html
ViFa Germanistik → http://www.germanistik-im-netz.de/
Internet Archive → https://archive.org/
ArchiveReady → http://archiveready.com/
Litblogs.net → http://www.litblogs.net/
Netzliteratur.net → http://netzliteratur.net/

Mais conteúdo relacionado

Destaque

Las obras de arte mas famosas del mundoIlse Jaimes

CV 2015Gerardo Carlos

conceptos geometricosAndres Padilla

Las obras de arte mas famosas del mundoIlse Jaimes

Trabajo en clase impressCesar Augusto Aguilar Tibanlombo

Collaborative Consumption - How India is joining the revolutionMithun Chandra

Михайло Калужинов, засновник спiльноти «ХарківТурист» Влаштування вело-СТОVadym Denysenko

Flopsar light-galaxy eng-nlAdam Khan

OBRAS DE ARTE FAMOSASMartha Irene Saldaña Ordoñez

Pilot "Virtuelle Beratung" (Beatrice Bürgi, 4.12.2015, Siegen)Offene Archive

Destaque (10)

Las obras de arte mas famosas del mundo

CV 2015

conceptos geometricos

Las obras de arte mas famosas del mundo

Trabajo en clase impress

Collaborative Consumption - How India is joining the revolution

Михайло Калужинов, засновник спiльноти «ХарківТурист» Влаштування вело-СТО

Flopsar light-galaxy eng-nl

OBRAS DE ARTE FAMOSAS

Pilot "Virtuelle Beratung" (Beatrice Bürgi, 4.12.2015, Siegen)

Semelhante a Zur Langzeitarchivierung von Web 2.0 am Beispiel literarischer Blogs (Offene Archive 2.2)

Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Ne...Zukunftswerkstatt

Semantic Web in Bibliotheken mal praktischkostaedt

KUG Praxisbericht - 'Betrieb einer Recherche-Infrastruktur'flimm

Diplomatik 2.0, georg vogeler (universität graz)Archive20

G. Spuhler (Archiv für Zeitgeschichte) - Von Bau eines Archivportals: Möglich...infoclio.ch

ATBW LN1 PresentationMarc Marc

Microformats & COinSChristian Hauschke

WiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAFInstitute for Digital Humanities, University of Cologne

Linked Open Data in der BibliotheksweltAdrian Pohl

Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenLydiaU

AMSL Kick-off-Meeting sächsischer HochschulbibliothekenBjörn Muschall

Einführung in die LiteraturverwaltungTIB Hannover

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Georg Rehm

SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...Institute for Digital Humanities, University of Cologne

1114 sasaki-metadataFelix Sasaki

16. DINI-Jahrestagung: Linked Data und RepositorienPascal-Nicolas Becker

Literaturverwaltungssysteme im ÜberblickPeter Mayr

Bit sosem 2016-wieners-sitzung-08_semantic-webInstitute for Digital Humanities, University of Cologne

Die Bibliothek 2.0 und Sacherschließung in sozialen NetzwerkenPatrick Danowski

Linked Open (Library) DataFab Fuerste

Semelhante a Zur Langzeitarchivierung von Web 2.0 am Beispiel literarischer Blogs (Offene Archive 2.2) (20)

Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Ne...

Semantic Web in Bibliotheken mal praktisch

KUG Praxisbericht - 'Betrieb einer Recherche-Infrastruktur'

Diplomatik 2.0, georg vogeler (universität graz)

G. Spuhler (Archiv für Zeitgeschichte) - Von Bau eines Archivportals: Möglich...

ATBW LN1 Presentation

Microformats & COinS

WiSe 2013 | IT-Zertifikat: AMM - Semantic Web II: RDF und FOAF

Linked Open Data in der Bibliothekswelt

Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken

AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken

Einführung in die Literaturverwaltung

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...

SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...

1114 sasaki-metadata

16. DINI-Jahrestagung: Linked Data und Repositorien

Literaturverwaltungssysteme im Überblick

Bit sosem 2016-wieners-sitzung-08_semantic-web

Die Bibliothek 2.0 und Sacherschließung in sozialen Netzwerken

Linked Open (Library) Data

Mais de Offene Archive

re:publica presentationOffene Archive

Wie weiter nach den Pilotprojekten? Überlegungen zu einer Crowdsourcingstrate...Offene Archive

Instagram in the Archives. Between acquisition, user involvement and outreac...Offene Archive

Archive 2.0 – Monitoring und Kennzahlen (Workshop, Offene Archive 2.2)Offene Archive

#histocamp – das erste deutsche BarCamp für Geschichte (Offene Archive 2.2)Offene Archive

The Swiss OGD-Portal (Offene Archive 2.2, 4.12.2015)Offene Archive

Social Tagging in Archiven (Siegen, 3.12.2015)Offene Archive

Mais de Offene Archive (7)

re:publica presentation

Wie weiter nach den Pilotprojekten? Überlegungen zu einer Crowdsourcingstrate...

Instagram in the Archives. Between acquisition, user involvement and outreac...

Archive 2.0 – Monitoring und Kennzahlen (Workshop, Offene Archive 2.2)

#histocamp – das erste deutsche BarCamp für Geschichte (Offene Archive 2.2)

The Swiss OGD-Portal (Offene Archive 2.2, 4.12.2015)

Social Tagging in Archiven (Siegen, 3.12.2015)

Zur Langzeitarchivierung von Web 2.0 am Beispiel literarischer Blogs (Offene Archive 2.2)

1. Zur Langzeitarchivierung von Web 2.0 am Beispiel literarischer Blogs Offene Archive 2.2 – Social Media im deutschen Sprachraum und im internationalen Kontext, Siegen, 3. bis 4. Dezember 2015 Jochen Walter

2. DLA Marbach – Campus

3. Sammelkriterien DLA (allgemein) Primärliteratur 1. neuere (= seit ca. 1750) 2. deutsche (= deutschsprachige) 3. Literatur (= Schöne Literatur: Lyrik, Dramatik, Epik)

5. Übersicht Geschäftsgang

7. Rechtliche Aspekte

8. Ingest Technisches Verfahren Archivierung 1. Kurze Vorabanalyse der Quelle mit ArchiveReady 2. SWBcontent: Formulierung der Crawl-Bedingungen 3. SWBcontent: Crawl mit Httrack bzw. Heritrix 4. SWBcontent: Rechteverwaltung 5. Qualitätskontrolle 6. SWBcontent: URN-Vergabe

9. Einige Eigenschaften von Weblogs - Content Management Systeme - Datenbankbasiert - Statisch: Beiträge, Gestaltungsanweisungen (style sheets) - Dynamisch: Kommentare, Suche etc. - Externe Inhalte → Technisch und inhaltlich verteilte Komponenten müssen im Archiv zusammengeführt werden

10. ArchiveReady analysiert die Quelltexte der Ausgangsseite einer Website - html - css - js - robots.txt, sitemaps im Hinblick auf - Erreichbarkeit - Zusammenhang und Struktur - Metadaten - Einhaltung von Standards

11. SWBcontent

12. Jede Spiegelung ein Unikat

13. Authentizität – Entsprechung von Original und Kopie (Aussehen, Verhalten und Funktionalität) – Frage nach den signifikanten Eigenschaften Zitierfähigkeit – Unveränderlichkeit der archivierten Ressource – Dauerhaftigkeit der archivierten Ressource

14. Die Reise nach Maulle au Mer 1

15. Die Reise nach Maulle au Mer 2

16. Die Reise nach Maulle au Mer 3

17. Die Reise nach Maulle au Mer 4

18. Die Reise nach Maulle au Mer 5

19. Grenzen - Web 2.0-Quellen sind vor allem durch kollaborative Dynamik (Serverseitiges) und Streuung ihrer Elemente geprägt - Quellen werden aus dem Netz „ausgeschnitten“ und damit zu etwas, was sie nicht sind: abgeschlossen - Große Verteiltheit (führt auch zu) - Rechtlichen Schwierigkeiten - Eine 1:1-Kopie ist bei Weblogs unmöglich, und das Ziel der Archivierung liegt darin, die Originale in einer Weise abzubilden, die möglichst viele ihrer wesentlichen Eigenschaften erhält

20. Vielen Dank für Ihr Interesse jochen.walter@dla-marbach.de

21. Adressen LiN → http://literatur-im-netz.dla-marbach.de/ SWB → https://www.bsz-bw.de/mare/lza/swbcontent.html ViFa Germanistik → http://www.germanistik-im-netz.de/ Internet Archive → https://archive.org/ ArchiveReady → http://archiveready.com/ Litblogs.net → http://www.litblogs.net/ Netzliteratur.net → http://netzliteratur.net/

Notas do Editor

Hallo, mein Name ist Jochen Walter. Ich arbeite als Bibliothekar in der Bibliothek des DLA Marbach.
Die Bibliothek des DLA sammelt, erschließt und archiviert die neuere deutschsprachige Literatur. Sie ist eine der größten Spezialbibliotheken für diesen Bereich und wird von Forschern aus aller Welt frequentiert. In seinen Sammlungen bildet das DLA das Netzwerk des literarischen Lebens in all seinen Facetten ab. Im Zentrum des quellenorientierten Sammelns und der Erschließung steht der Autor bzw. die Autorin. Die Literatur wird dokumentiert vom Entstehungsprozess eines Werks über die verschiedenen Ausgaben und die Rezeption bspw. in der Literaturkritik, seine dramaturgische Umsetzung in Hörfunk, Film, auf der Bühne und in der Musik.
Hier sehen Sie noch einmal das Sammelgebiet in aller Kürze. - Nun zur Geschichte von Literatur im Netz: Seit 2008 beziehen wir auch Internetqellen in unser Spektrum mit ein. Genauer gesagt sammeln wir literarische elektronische Zeitschriften, literarische Weblogs und Netzliteratur. Wir reagieren damit auf die zunehmende Bedeutung des Internets als Publikationsforum.
Das mittlerweile zur Anwendung kommende Modell weicht von unserem sonstigen archivarischen Verfahren, bei dem Sammlung und Archivierung in der Zuständigkeit des DLA liegen, ab. Wir haben den Bereich der Archivierung nach außen vergeben. Das heutige Konzept für LiN ruht auf den hier abgebildeten drei Säulen Kallías, ViFa Germanistik und BSZ. Dabei sind die Zuständigkeiten verteilt wie folgt: DLA: Ingest, Nachweis und Zugang; BSZ: Host, Archivinfrastruktur, LZA; DNB: Verwaltung der URNs; ViFa Germanistik: weiterer Nachweis. Der personelle Rahmen: 1 Bibliothekarin (Koordination und Zusammenarbeit mit externen Dienstleistern), 1 Bibliothekar (laufendes Geschäft, mehr dazu jetzt)
Jetzt möchte ich kurz den Geschäftsgang und die Überlegungen, die wir uns zu seinen einzelnen Stationen gemacht haben, überfliegen. So gut wie keine Rolle werden in diesem kleinen Vortrag die Erschließung und die Benutzung spielen, Bereiche, zu denen Sie aber gern Fragen stellen können. Im Folgenden geht es um die Bereiche Akzession (Auswahl und Rechteeinholung) und Archivierung (Ingest, Qualitätsprüfung, der technische Teil des Ganzen).
Auswahl und Bewertung. - Deutschsprachige Literatur findet sich im Internet an vielen Orten und in vielen Formen. Im Hinblick auf Machbarkeit haben wir uns daher auf drei Bereiche beschränkt: literarische Online-Zeitschriften, literarische Weblogs und Netzliteratur (kleiner Einschub: Mit letzterem sind die Titel der Pionierphase 1994 bis 2004 gemeint. Diese werden zur Zeit separat in einem DFG-geförderten Projekt bei uns im Haus bearbeitet). Bei all dem wollten wir uns auf originär digitale Publikationen beschränken. Trotz dieser aufgeräumt wirkenden Regel gab es am Anfang gewisse Schwierigkeiten: Einmal die unübersichtliche bibliographische Lage für Literatur im Netz und dann der Wegfall herkömmlicher Redaktionsverfahren wie Verlagslektorate und Zeitschriftenredaktionen. All das hat Folgen für das Auswahlverfahren: Konzeptionell: Einen Anspruch auf einen vollständigen Überblick halten wir für unrealistisch. Die bisherigen Sammelkriterien finden weiterhin Anwendung. Die materiellen Grundlagen der Auswahl sind Listen, Blogrolls, Linksammlungen der bereits archivierten Titel und Einzelmeldungen. Eine Erwerbungspolicy haben wir auf den Internetseiten von LiN veröffentlicht. Die Praxis der letzten Jahre hat zu einer weiteren Schärfung des Profils geführt: So werden inaktive Quellen aus der Routine genommen. Max. 2 gleichartige Titel (z. B. Lyrikblogs) von denselben AutorInnen. Zum Schluss wäre noch die Prüfung des literarischen Gehalts zu nennen (Stichworte: Tagebuch, Rezensionsorgan).
Nach der positiven Erwerbungsentscheidung folgt die Rechteeinholung für jeden Titel. Zu den rechtlichen Rahmenbedingungen ist zu sagen: Für das DLA gibt es keine Pflichtabgabe, und im Rahmen von LiN keine Kauferwerbung. Zu den benötigten Verwertungsrechten gehören das Vervielfältigungsrecht (Archivkopie) und das Verbreitungsrecht (öffentliche Präsentation). Diese müssen im Hinblick auf die freie Benutzung der Archivalien daher extra eingeholt werden, und zwar mit separaten Rechteanfragen (i. d. R. 1 hauptverantwortliche Person, Reaktionen insgesamt positiv, Rechteverwaltung in SWBcontent). Zu den Problemen hier zählt einmal, dass die vollständige Ermittlung aller Rechteinhaber nicht machbar ist. Desweiteren geht es, ähnlich wie bei aktuelleren Korrespondenzen in unseren Handschriften, auch um Fragen des Persönlichkeitsschutzes: So haben einige großes Interesse daran, ihr Leben im Netz und ihr „wirkliches“ Leben strikt voneinander zu trennen. Lösungen für die urheberrechtlichen Aspekte des Ganzen: Änderung der Gesetzeslage, Disclaimer, CC-Lizenzen. Nach Gewährung der Rechte: Erschliessung (wie gesagt: heute nichts dazu).
Der technische Ablauf der Archivierung umfasst (hier einmal kurz im Überblick) folgende Schritte und Werkzeuge: 1. Kurze Vorabanalyse der Quelle mit ArchiveReady: 2. SWBcontent: Formulierung der Crawl-Bedingungen; 3. SWBcontent: Crawl mit Httrack bzw. Heritrix; 4. SWBcontent: Rechteverwaltung; 5. Qualitätskontrolle; 6. SWBcontent: URN-Vergabe
Bevor ich auf den 1. Punkt im gerade genannten Ablauf und das damit verbundene Programm ArchiveReady komme, möchte ich ein paar Eigenschaften von Weblogs erwähnen: Blogs basieren immer auf CMS und entsprechenden Datenbanken. Sie haben statische und dynamische Bestandteile. Grundsätzlich: Zu ersteren gehören die Beiträge und die Gestaltungsanweisungen. Zu letzteren die Kommentar- und die Suchfunktionen und andere interaktive Funktionen, wie z. B. der scrollabhängige automatische Seitenaufbau, wie man ihn auch von Twitter her kennt. Desweiteren gibt es nicht wenige Blogs, die vom Einbinden externer Inhalte leben. Aus all dem folgt: Was sich da als Einheit präsentiert, ist unter der Oberfläche ein Mosaik aus weit verstreuten Teilchen, die für eine einigermaßen funktionierende Archivkopie zusammengeführt werden müssen.
Bei dieser Aufgabe ist ArchiveReady sehr hilfreich. Es analysiert die Quelltexte der Ausgangsseite einer Website im Hinblick auf Erreichbarkeit, Zusammenhang und Struktur, Metadaten und Einhaltung von Standards. Das Untersuchungsergebnis sind Aussagen über die Archivierbarkeit der Quelle. Diese Aussagen helfen bei der Formulierung der Crawlbedingungen.
SWBcontent ist ein Workflow-Tool des BSZ Konstanz und in seiner Funktion ähnlich z. B. dem Web Curator Tool. Mit Hilfe von SWBcontent wird man durch den Geschäftsgang der eigentlichen Archivierung geführt. Das beinhaltet einerseits die Metadaten, die Rechteverwaltung und die URN-Vergabe. Hauptaufgabe ist aber die Steuerung und Protokollierung der Crawls (oder, wie ich häufig sage: der Spiegelungen). Integriert in SWBcontent sind die beiden Crawler Httrack und Heritrix. Die Archivalie, oder im Sinne des OAIS Modells das AIP (Archival Information Package) ist dann letztendlich eine WARC-Datei. WARC ist als ISO-Norm der Standard zur Aufbewahrung gecrawlter Netz-Inhalte. Bei einer Spiegelung ist zu beachten, dass das Spiegelungsergebnis immer durch die Crawlparameter beeinflusst wird. Dazu gehören, wie teilweise auf der Folie zu sehen: Ausgangsadresse der Quelle, Filter für ein- bzw. auszuschließende Adressen, zeitliche und quantitative Limitierungen, interne und externe Spiegelungstiefe sowie das Verhalten gegenüber Anweisungen wie robots.txt.
Die zu spiegelnde Vorlage, um einen bibliothekarischen Terminus zu gebrauchen, ist im Gegensatz zu konventionellen Medien in ihrem Umfang also nicht definiert. Vielmehr werden ihre Grenzen erst vom Archivierenden durch die genannten Parameter gesetzt, z. B. wenn aus rechtlichen Gründen und/oder des Speicherplatzes externe Links nicht verfolgt werden. Jede Spiegelung einer Netzressource kann schon allein aus diesem Grund als Unikat betrachtet werden. Die Folie zeigt anhand einer Windows-Variante von Httrack die Vielzahl an Einstellungsmöglichkeiten, (die von Heritrix noch übertroffen wird.)
Für Websites, die sich nicht mehr im Netz befinden, hat das Archiv nicht nur die Funktion einer zentralen Nachweisstätte, sondern es wird zur primären Umgebung. Damit verschiebt sich der Fokus etwas von der Authentizität des Dokuments auf die Vertrauenswürdigkeit des Archivs. Hier gilt es, wie gesagt, in besonderem Maße zu beachten, dass „[...] die Archivierung das Ereignis im gleichen Maße hervorbringt, wie sie es aufzeichnet.“ Die Authentizität der archivierten Objekte hängt vor allem davon ab, was Urheber und Nutzer als deren signifikante Eigenschaften ansehen und ob es gelingt, diese im Archivierungsprozess und auch zukünftig zu bewahren und korrekt wiederzugeben. Was man tun muss, um die archivierten Quellen unter diesen Bedingungen objektiv nachvollziehbar und zitierfähig zu machen, ist die Ergänzung der bibliographischen Metadaten um die technischen Metadaten wie Crawlparameter und die Vergabe dauerhafter Identifikatoren, in unserem Fall URNs.
Wie gesagt: Für die Archivkopie müssen verteilt liegende vernetzte Bestandteile zusammengeführt werden. Das vom DLA betriebene punktuelle Harvesting einer relativ geringen Anzahl von Quellen erlaubt eine genaue Qualitätskontrolle, die bei großflächigen Vorgehensweisen wie z. B. im Internet Archive gar nicht möglich ist. Im Folgenden ein Beispiel für das schrittweise Erreichen einer vorzeigbaren Archivalie, also das mehrmalige jeweilige Ändern der Parameter nach der Qualitätsprüfung.
Ich geh hier nicht ins Detail, möchte nur den grundsätzlichen Effekt der Parameter auf das Ergebnis bildlich vorführen.
Nach erfolgreicher Spiegelung werden die Autoren angeschrieben und um Rückmeldung gebeten. Noch einmal: Häufig nähert man sich beim Webharvesting lediglich einer authentischen Kopie. Trotz aller Bemühungen stößt man an Grenzen, die manchmal den Quellen immanent sind.
Diese Grenzen, um zum Schluss zu kommen, hier noch einmal zusammengefasst: Webquellen werden aus dem Netz „ausgeschnitten“ und damit zu etwas, was sie nicht sind: abgeschlossen. Die Vorlage ist in ihrem Umfang nicht definiert, lediglich die Archivalie ist das. Mit der Archivierung geht immer eine Reduzierung einher. Eine hundertprozentige 1:1-Kopie ist bei Weblogs unmöglich und das Ziel der Archivierung liegt darin, die Originale in einer Art abzubilden, die möglichst viele ihrer wesentlichen Eigenschaften erhält.
Vielen Dank für Ihr Interesse

Zur Langzeitarchivierung von Web 2.0 am Beispiel literarischer Blogs (Offene Archive 2.2)

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (10)

Semelhante a Zur Langzeitarchivierung von Web 2.0 am Beispiel literarischer Blogs (Offene Archive 2.2)

Semelhante a Zur Langzeitarchivierung von Web 2.0 am Beispiel literarischer Blogs (Offene Archive 2.2) (20)

Mais de Offene Archive

Mais de Offene Archive (7)

Zur Langzeitarchivierung von Web 2.0 am Beispiel literarischer Blogs (Offene Archive 2.2)

Notas do Editor