5. Fehler 404
Tritt auf wenn...
… die Seite nicht verfügbar ist
… die Seite nicht mehr existiert
… die Adresse der Seite sich geändert hat
(… und bei Tippfehlern)
Grund dafür: Hyperlink ist unidirektional
konzipiert
9. www.archive.org
1996 in San Francisco gegründet
Gemeinnütziges Projekt
Finanzierung: Spenden, Stiftungen, Einnahmen
aus Digitalisierung von Bibliotheksbeständen
11. Was wird archiviert?
Texte: derzeit ca. 2.785.000
werden eingescannt und von Usern
hochgeladen
Neues Projekt: open library
Metadaten jedes jemals veröffentlichten Buchs
Ziel: Link zu Volltext
12. Audiodateien:
werden von Usern hochgeladen
Live-Aufnahmen: 91.700, andere: 871.000
Filme:
meist mit Creative Common License
zur Zeit: 503.000
Software:
über 64.000
Z.B.: Game Patches, Open Source Software, alle
möglichen Freeware-Anwendungen
13. Archivierung von Internetseiten
Zur Zeit: 150 Milliarden Seiten archiviert
Exkurs: Archivierungsarten
Crawler = Programm, das Seiten aufruft und
abfotografiert
- Snapshot Crawls
- Event Harvesting/Focused Crawls
- Selective Harvesting
- Manual Crawling
14. Warum wird das Internet archiviert?
Verhindern eines „dunklen digitalen Zeitalters“
Bewahrung von „digital-born“ Dokumenten
Recht auf frei zugängliches Wissen
Für zukünftige Wissenschaftler:
- Entwicklung des Internets
- Sprachentwicklung
- historische Untersuchung unserer Gesellschaft
Hilfe bei „toten Links“ durch Wayback Machine
15. Weitere Internetarchive und Archive
im Internet
Dazu gehören:
- nationale Webarchive
- themenbezogene Archive (Datenbanken)
- Projekt Gutenberg: Retrodigitalisate
- World Digital Library (UNESCO)
16. Problem: Copyright
Regelungen noch zeitgemäß?
Keine global gültigen Regelungen
„Verwaiste Werke“
Pluspunkt: Copyrightverletzungen werden auch
archiviert
18. Lösungsmöglichkeit
Hardware-Museum
Emulation
Migration
Wie funktioniert
das?
Aufbewahrung jedes
jemals hergestellten
Computers
Vorteil
Authentizität
Authentizität
Bereits erprobt, evtl.
Qualitätsverbesserung,
automatisierbar
Nachteil
Riesige Auswahl an
Computern
Kosten
Software
Lebensdauer von
Geräten
Herstellung eines
Emulators ist sehr
aufwendig, noch
nicht ausgereift
Es werden nur die
Inhalte erhalten,
nicht authentisch
Erstellen eines
Regelmäßiges
virtuellen Abbilds
Umspeichern in neue
eines alten
Formate
Computers mit
sämtlichen Hard-und
Softwaremerkmalen
19. Weitere Probleme
Auswahl
Sicherung vor Hacker- oder Virenangriffen
Inhalte sind ohne Zwischengerät nicht lesbar
Interessensvielfalt: Autoren, Künstler, Verlage,
Produktionsfirmen, Archive, Bibliotheken, die
Gesellschaft, der Einzelne (Persönlichkeitsrechte)
20. Perspektiven
Bedarf an ...
… rechtlichen Regelungen
… standardisierten Formaten
… Klarheit über öffentlich/privat
→ das Internet ist nicht nur Publikationsmedium, sondern
auch Kommunikationsmedium
Ziel muss sein:
nicht nur Daten erhalten, sondern die
Datenmenge auch übersichtlich machen!