Wie geht man mit Skript-Zugriffen in der Nutzungsstatistik von Dokumentenservern um?
Vortrag von Isabelle Meinecke und Jens Wonke-Stehle auf dem 103. Bibliothekartag in Bremen
Media und kreation zusammen. die geburt des impact plannings
Ist der Besuch eines Harvesters (schon) eine E-Ausleihe?
1. Ist der Besuch eines Harvesters
(schon) eine E-Ausleihe?
Über den Wert von Statistiken zu digitalen Medien
103. Bibliothekartag in Bremen
Isabella Meinecke / Jens Wonke-Stehle
2. Statistik als Werkzeug für das
Produktmanagement
webbasierter Bibliotheksangebote
2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen2
3. Kontext: Medienwandel
Index der
gemittelten
prozentualen
Veränderungen
gegenüber dem
Basisjahr 2009 in 62
Bibliotheken aus
Deutschland und
Österreich mit einem
Bestand von mehr
als 1.000.000
Medieneinheiten.
Datenbasis DBS
2014, eigene
Auswertung.
2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen3
0%
20%
40%
60%
80%
100%
120%
140%
160%
180%
2009 2010 2011 2012 2013
Kosten elektronische
Erwerbung
Kosten Erwerbung
insgesamt
aktive BesucherInnen
konventionelle
Entleihungen
6. Datenkritik
2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen6
„Nutzungsspitze“ durch verschleierte automatisierte Zugriffe
7. Zugriffe
Nicht alle Zugriffe auf über das Web angebotene Dienste und Medien
resultieren aus Mausklicks.
Skripte von Suchmaschinen analysieren die Webseiten.
Sicherheitsmechanismen kontrollieren, ob Dienste funktionieren.
KollegInnen testen Schnittstellen und Erreichbarkeit.
Häufig diskutiertes Problem:
das Aussortieren von automatisierten Zugriffen aus der Statistik
2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen7
8. Nutzung vs. „Scheinnutzung“
Unterscheidungskriterium:
Nutzung (menschliches Informationsverhalten)
Scheinnutzung (Rauschen)
Idee: wenn das Rauschen herausgefiltert wird, wird die „wahre“,
erwünschte Nutzung sichtbar.
Dabei erscheint die Nutzung als Analogie zur Ausleihe.
Aber auch bei einer konventionellen Ausleihe ist letztlich unklar, was
dieser Vorgang über Informationsverhalten aussagt.
2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen8
9. Graustufen
Auch Maschinen interpretieren, auch Menschen scannen:
Google analysiert Dokumente, stellt Beziehungen her, betreibt z. T.
Texterkennung (OCR) und rankt Artikel.
Gerade bei elektronischen Medien sinkt bei Menschen die Hemmung,
Texte erst anzuklicken und später zu verwerfen.
Entsteht eine Graustufe?
2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen9
10. Justierung der Begrifflichkeiten
In der digitalen Welt sind Menschen auf Suchmaschinen angewiesen,
um das Mengenproblem zu lösen.
Menschen nutzen diese Suchmaschinen prioritär.
Wenn wir wollen, dass unsere Dienste und unsere Medien genutzt
werden, sollten wir nicht von „Scheinnutzung“ sprechen.
Wir sollten eher von direkter und intermediärer Nutzung sprechen und
beides analysieren.
2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen10
11. Messunschärfen
Pflege einer zentralen Liste erkannter Bots sowie heuristische
Erkennung
Nicht alle Zugriffe durch Bots lassen sich automatisiert erkennen.
Plausibilitätskontrolle und ein „Gefühl“ für die Daten bleiben wichtig.
Unschärfe in der Datenbasis bedeutet,
dass es keine „harten“ Zahlen geben kann.
Absolute Zahlen täuschen eine Exaktheit vor, die es so nicht gibt.
2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen11
12. Mehr Transparenz wagen!
Die Aufbereitung / Filterung von Logdateien ist unumgänglich.
Man sollte das Vorgehen aber transparent machen.
2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen12
13. Absolut vs. Relativ
Downloads und Seitenaufrufe können nicht so „hart“ gezählt werden wie
Ausleihen.
Trends, Verhältnisse und Verteilungen sind aussagekräftiger.
2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen13
14. Worauf soll die Statistik antworten?
1) Wenn wir einen Wert als Analogie zur Ausleihe aufbauen wollen, um
die Verschiebung von analogen zu digitalen Medien kommunizieren
zu können, müssen wir Harvester und Co aus der Zählung
ausschließen, so gut wie es eben können und uns bewusst sein, dass
die kritische Auseinandersetzung mit unseren Zahlen eine
Daueraufgabe ist.
2) Wenn wir die Nutzung unserer Dienste insgesamt analysieren wollen,
um sie zu optimieren, müssen wir Harvester etc. genau in den Blick
nehmen: ihr Verhalten ist ein Indikator für Repräsentation von
Angeboten im Netz und damit für die Wahrscheinlichkeit genutzt zu
werden.
2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen14
Warum ist das Thema für uns interessant?
Weil wir als Produktverantwortliche für webbasierte Bibliotheksdienste der SUB Statistik als eines unsere wichtigsten Hilfsmittel benötigen.
Statistik ist für uns relevant:
Nutzung unserer Angebote und Medien
Anpassung / Modifizierung und Weiterentwicklung unserer Angebote
Dienstleistung für Kunden und Nutzende
An der Schnittstelle Bibliothek / Internet fallen (technisch bedingt) sehr viele Zahlen an.
Parallel gibt es Verschiebungen die einen Handlungsdruck in der Darstellung unserer Leistungsfähigkeit erzeugen.
Gemittelte prozentuale Veränderungen in 62 Bibliotheken aus Deutschland und Österreich mit einem Bestand von mehr als 1.000.000 Medieneinheiten.
Datenbasis DBS 2014, eigene Auswertung.
An diesen Zahlen kann man den Wandel ablesen:
Während in unserem Sample die Erwerbungsetats insgesamt leicht angestiegen sind, nimmt darin der Anteil der für E-Medien aufgewendet wird konstant zu.
Die Zahl aktiver BenutzerInnen bleibt in etwa gleich
Die Zahl konventioneller Ausleihen geht zurück.
Das ist ein Problem, nicht zuletzt in der Rechtfertigung unserer Leistungsfähigkeit
Und was ist mit der Nutzung der E-Medien und elektronischen Angebote?
Wenn wir den Blick von den Ausgaben auf die Nutzung lenken, müssen wir eine Reihe von Datenquellen auswerten (Anbieterstatistiken, DBS Zählpixel).
Über den von diesen etablierten Instrumenten abgedeckten Bereich gibt es aber den Bedarf eigener Erhebungen, weil es Bereiche gibt, die von diesen nicht abgedeckt werden. Das betrifft vor allem frei zugängliche Angebote.
Wir verwenden zur Erhebung awstats, Ein Open Source-Tool, das Serverlogfiles auswertet.
Da wir beide für Dokumentenserver zuständig sind, werden wir auf diese fokussieren.
Die SUB Hamburg hostet für sich und andere Dokumentenserver. Die Überwachung der Nutzung dieser Dienste ist für die Wartung und Weiterentwicklung aber auch für Berichte an Auftraggeber und Publizierende höchst relevant.
Wichtig ist dabei die kritische Hinterfragung der erhobenen Zahlen (technische Grundlagen der Erhebung, Berechnung, Interpretation).
Ein Anlass für diesen Vortrag war: Im April / Mai 2012 habe ich mir Sorgen um ein Einbrechen der Nutzung bei einem unserer Dokumentenserver gemacht. Bei näherem Hinsehen ergab sich, dass hier ein als menschlicher Nutzer getarntes Programm (wechselnde IP-Adressen aus einer IP-Range, Permutationen der Kombination von Betriebssystem und Browser) sehr rücksichtsvoll aber gründlich einzelne Seiten aufgerufen und die dort verlinkten Dokumente heruntergeladen hat.
Wie behandelt man diese Spuren? Sind sie ein technisches Artefakt oder eine Nutzung?
Die Analogie zur Ausleihe und die Unterscheidung Nutzung / Scheinnutzung passt nicht ganz. Sie unterstellt auch bei konventionellen Ausleihen eine letztlich nicht bewertbare Nutzungsweise. Das Verhalten von Skripten und Menschen nähert sich an.
Was aber ist mit automatisierten Downloadvorgängen, die z.B. auf einem Dokumentenserver jedes Dokument einmal herunterladen.
Sofern es gegen keine Lizenz verstößt wäre es (möglicherweise) eine Nutzung im Sinne des Angebots, kann aber in Statistiken merkwürdige Kurven erzeugen
Da aber Menschen in der digitalen Welt wegen der gewaltigen Mengen an Informationen auf Unterstützung durch Suchmaschinen & Co. angewiesen sind, sind diese und ihre Werkzeuge sehr willkommen, aber eher als Vermittler / intermediäre Nutzer
Zurück zur Messung: Die Trennung lässt sich nicht vollständig trennscharf durchführen: Nicht alle Skripte lassen sich erkennen.
Unschärfe in der Statistik bedeutet, dass es keine „harten“ Zahlen geben kann. Absolute Zahlen täuschen eine Exaktheit vor, die es so nicht gibt.
Die Aufbereitung / Filterung von Logdateien ist unumgänglich. Man sollte daher (zumindest intern) transparent machen, wie man dabei vorgeht.
Trends sind wichtig. Verhältnisse, Verteilungen
Trends im Jahresverlauf.
Verhältnisse, wie z.B. Seitenaufrufe zu Downloads, Suchen zu Detailanzeigen
Verteilungen etwa über Webseitenbereiche