Analyse wissenschaftlicher Publikationen

A N A LY S E
WISSENSCHAFTLICHER
P U B L I K AT I O N E N
adrian wilke∗

inhaltsverzeichnis

1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Open Access journals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Verzeichnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.1 Directory of Open Access Journals . . . . . . . . . . . . . . . . 3
2.2.2 Zeitschriftenbibliothek der Uni Regensburg . . . . . . . . . . . 4
2.2.3 Networked Digital Library of Theses and Dissertations . . . . 4
2.3 Directory of Open Access Journals im AAN System . . . . . . . . . 5
2.3.1 Parser-Entwicklung: Best Practices . . . . . . . . . . . . . . . . 5
2.3.2 Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 7
3 Formate zum Austausch von Publikations-Metadaten . . . . . . . . . . 8
3.1 Standard-Vokabularien . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.1.1 Dublin Core . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.1.2 Semantic Web for Research Communities . . . . . . . . . . . . 8
3.1.3 The Friend of a Friend project . . . . . . . . . . . . . . . . . . . 9
3.2 Bibliography Management using RSS Technology . . . . . . . . . . 9
3.3 OAI Protocol for Metadata Harvesting . . . . . . . . . . . . . . . . . 9
4 Daten-Extraktion aus PDF-Dateien . . . . . . . . . . . . . . . . . . . . . . 12
4.1 ParsCit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.1.1 Arbeitsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.1.2 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.1.3 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.2 Weitere Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5 Szientometrie, Bibliometrie und Zitationsanalyse . . . . . . . . . . . . . 17
5.1 Begriffsklärung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.2 Zitationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2.1 Co-authorship . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2.2 Co-citation Coupling . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2.3 Bibliographic Coupling . . . . . . . . . . . . . . . . . . . . . . . 20
5.3 Bibliometrisches Maße . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3.1 h-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3.2 g-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.4 Bewertungen basierend auf semantischen Relationen . . . . . . . . 23
6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

∗ info@[REMOVE]adrianwilke.de

1

1 einleitung

Diese Seminarausarbeitung behandelt die Analyse wissenschaftlicher
Publikationen. Dies geschieht im Kontext von Artefact-Actor-Networks
(AAN). Daher ist das Gebiet nicht auf die Analyse beschränkt, sondern
behandelt Bereiche von der Suche nach passenden Quellen bis zur
Analyse selbst. Das umfasst als Erstes Vorschläge für Sammlungen und
Kataloge von Open Access Dokumenten (2), die passende Daten zur
Verfügung stellen. Hierzu zählt eine bereits bestehende Anbindung an
ein Verzeichnis, deren Aufbau für die praktische Arbeit von Entwick-
lern nützlich sein kann. Kataloge bieten verschiedene Schnittstellen und
Datenformate (3) für den Zugriff auf bereitgestellte Metadaten. Diese
können in der AAN Referenzimplementierung sowohl für den Import,
als auch für den Export genutzt werden. In diesem Zuge werden ver-
schiedene Standards für die Beschreibung von Konzepten im Rahmen
des Semantic Web vorgestellt. Nach einer Auswahl von Publikations-
Quellen und der abgeschlossenen Datenbeschaffung werden Entwickler
vor die Herausforderung gestellt, Daten im PDF-Format zu extrahieren
(4). Hierfür wurden bereits erste Ansätze erfolgreich getestet. Nachdem
Metadaten und Volltexte aus wissenschaftlichen Veröffentlichungen
extrahiert und im System abgelegt worden sind, kann mit der Analyse
begonnen werden. Dazu können Metriken und Maße der Zitations-
analyse (5) angewandt werden.
Die betrachteten Gebiete werden so dargestellt, dass sie eine Ar-
beit mit AANs unterstützen. Deshalb wird jeder Unterabschnitt mit
Ansatzpunkten zur weiteren Recherche abgeschlossen. In diesen Lis-
ten sind Links zu offiziellen Webseiten oder auch Wikipedia-Artikeln
aufgeführt. Wichtige Quellen aus Publikationen sind im Literaturteil
aufgeführt.

2 open access journals

Die Anzahl der Dokumente, die unter dem Begriff Open Access (OA)
veröffentlicht werden, steigt weiter an. Es gibt gute Gründe für Autoren,
ihre Texte frei zugänglich zu veröffentlichen. Neben diesen Gründen
werden im Folgenden Verzeichnisse vorgestellt, in denen OA Doku-
mente gesammelt werden. Zusätzlich wird eine implementierte An-
bindung an eines dieser Verzeichnisse seitens des AAN Systems präsen-
tiert.

2.1 Einführung

Die Recherche nach Literatur kann auch für erfahrene Wissenschaftler
Hürden auftun: Bücher sind nicht unmittelbar zugreifbar, Zeitschriften
sind vergriffen oder elektronische Ressourcen benötigen eine Mit-
gliedschaft in einer Organisation. Diese Hindernisse sollen durch den
Gebrauch von Open Access überwunden werden. Der Begriff Open
Access wird von verschiedenen Organisationen unterschiedlich aus-
gelegt. Einige der wichtigsten Punkte kann man der Definition der
Budapest Open Access Initiative [3] entnehmen: Open Access ist im öf-
fentlichen Internet frei verfügbar. Es erlaubt Benutzern, Artikel zu lesen,
zu kopieren, herunterzuladen, zu verbreiten, zu drucken, zu suchen
oder deren Volltexte zu verlinken. Dies und mehr soll ohne finanzielle,
rechtliche oder technische Hürden (der Zugang zum Internet selbst
ausgeschlossen) möglich sein. Einzig den jeweiligen Autoren sollten
Rechte, wie das Urheberrecht, vorbehalten werden.
Das Konzept wirkt aus der Sicht einer nach relevanten Informationen
suchenden Person verlockend, aber inwieweit hat es sich bei Autoren
durchgesetzt? Nach einer Studie [2] sind 20,4% aller Publikationen aus
dem Jahr 2008 online zugreifbar. Diese Zahl ergibt sich mit 8,5% aus

2

Abbildung 1: Open Access Verfügbarkeit nach Fachgebieten, Quelle: [2]

dem Publizieren über den goldenen Weg, also dem direkten Weg des
OA, vornehmlich über den Herausgeber, und mit 11,9% über den grü-
nen Weg, also z.B. der Veröffentlichung auf der Webseite der Autoren.
Eine Übersicht über die OA Verfügbarkeit von Artikeln nach Fachge-
bieten nach goldenem und grünem Weg ist in Grafik 1 dargestellt.
Die Vorteile für berufliche und private Leser liegen klar auf der
Hand, Texte sind schnell zugreifbar und zudem kostenlos. Was sollte
Autoren dazu bewegen, ihre Artikel im Internet frei zugänglich zu
publizieren? Auch das ist naheliegend: Durch den einfachen Zugriff
werden weniger Leser ausgeschlossen, mehr Personen lesen einen Text
und daraus resultiert eine höhere Zahl von Zitierungen. Es wurde
gezeigt [6], dass OA Artikel signifikant mehr Zitierungen bekommen,
als auf herkömmlichen Weg publizierte Texte.
Für die Analyse von Akteuren und Artefakten in einem AAN bie-
ten sich OA Daten ebenfalls an. Mit geeigneten Werkzeugen können
aus Publikationen Volltexte, Autoren, Referenzen (also semantische
Relationen) und andere Metadaten extrahiert werden. Bei solch einem
Vorhaben ist eine umfangreiche Datenbasis, die bestenfalls über eine
wohl-definierte Schnittstelle zugreifbar ist, wünschenswert. Im Folgen-
den werden Beispiele für mögliche Quellen gegeben.

2.2 Verzeichnisse

Die hier vorgestellten Verzeichnisse sind eine Auswahl von Sammlun-
gen, die Metadaten, Referenzierungen und zum Teil auch Volltexte
zu wissenschaftlichen Texten sowie Zeitschriften bereitstellen. Die Ver-
zeichnisse bieten sich, neben der Nutzung zur persönlichen Recherche,
zur Sammlung und Extraktion von analysierbaren Daten an.

2.2.1 Directory of Open Access Journals (DOAJ)
Das Directory of Open Access Journals ist ein Service, der einen Zugang
zu Open Access Journals anbietet. Das Angebot wird von der Biblio-
thek der Universität Lund (Schweden) zur Verfügung gestellt. Die an-
gebotenen Zeitschriften unterliegen verschiedenen Aufnahmekriterien.
Neben dem freien Zugang muss eine Zeitschrift eine Qualitätskontrolle,
z.B. ein Peer-Review, durchführen. Die freie Veröffentlichung muss
ohne Verzögerung geschehen, eine Registrierung durch Benutzer für
den Zugriff wird erlaubt, solange diese kostenlos ist. Jede Zeitschrift
benötigt eine International Standard Serial Number (ISSN), mit der ein

3

Journal identiﬁziert werden kann. Nach eigenen Angaben [8] bietet das
DOAJ (Stand: 03. Januar 2011):

• 5.935 Zeitschriften, 2.495 davon mit Artikel-Metadaten

• Insgesamt 491.409 Artikel

• 247 Informatik-Zeitschriften.

Ein großer Teil der Daten kann über das OAI-Protokoll (siehe Ab-
schnitt 3.3) bezogen werden. Es werden zwei Basis-URLs zur Verfügung
gestellt, mit denen es möglich ist, Metadaten von Zeitschriften oder
Artikeln abzufragen.
Eine andere Quelle in deutscher Sprache, in der erheblich mehr
Zeitschriften verzeichnet sind, ist die EZB.

2.2.2 Die Elektronische Zeitschriftenbibliothek der Universität Regensburg
Die Grundlage der Elektronischen Zeitschriftenbibliothek (EZB) wurde
um Januar 2001 durch einen Kooperationsvereinbarung zwischen ver-
schiedenen Bibliotheken geschaffen. Die angebotenen Zeitschriften
werden nach 41 Fachgebieten geordnet angeboten. Durch Bilder mit
verschiedenfarbigen Punkten ist auf der Webseite zu erkennen, welche
Zugriffsmöglichkeiten (z.B. frei zugänglicher Volltext) für den Benutzer
bestehen. Eine Übersicht über das Angebot nach Angaben der Univer-
sität [11] zeigt die folgende Liste. Die Anzahl der Treffer der Informatik-
Zeitschriften ergab sich durch eine Suchanfrage auf der Webseite.

• 51.936 Titel zu allen Fachgebieten

• 6.999 davon sind reine Online-Zeitschriften

• 26.919 Fachzeitschriften sind im Volltext frei zugänglich

• 454 Informatik-Zeitschriften mit frei zugänglichen Volltexten

Zusätzlich zur Suche auf der Webseite konnte keine weitere Schnittstelle
zum Angebot der EZB gefunden werden.
Neben OA Quellen für Publikationen existieren auch Verzeichnisse
für wissenschaftliche Arbeiten, wie die NDLTD.

2.2.3 Networked Digital Library of Theses and Dissertations (NDLTD)
Die Networked Digital Library of Theses and Dissertations (NDLTD)
ist eine Vereinigung verschiedener Institutionen, hauptsächlich Uni-
versitäten der Vereinigten Staaten. Die NDLTD bietet seit 1996 einen
gemeinsamen Katalog an, in dem Metadaten zu elektronischen Ab-
schlussarbeiten und Dissertationen (electronic theses and dissertations,
ETDs) verzeichnet sind. Nach Angaben auf der Webseite [10] und einer
Anfrage über die angebotene Scirus ETD Suche nach „Computer Sci-
ence“ im Bereich „Engineering, Energy and Technology“ ergab für das
Angebot folgende Zahlen:

• über 1.000.000 Einträge zu ETDs

• 133.996 Einträge für den Bereich Informatik

Neben der Scirus ETD Suche des Verlags für wissenschaftliche Zeit-
schriften Elsevier, über die auch ein Zugriff zu Volltexten möglich
ist, wird eine Suche über den VTLS Visualizer angeboten. Dort kön-
nen erweiterte Möglichkeiten der Sortierung und Filterung angegeben
werden.
Zusätzlich zu den hier vorgestellten Quellen wird im Folgenden ein
Ansatz zur Anbindung einer der oben aufgeführten Quellen vorgestellt.

4

2.3 Directory of Open Access Journals im AAN System

Im Rahmen des Seminars „Future Social Learning Networks“ im Win-
tersemester 2010/11 an der Universität Paderborn wird derzeit ein
Prototyp zur Datenbeschaffung aus dem DOAJ entwickelt. Die Ent-
wicklung findet unter dem Thema „Tools for Awareness in Distributed
Research Networks“ statt und soll mit Unterstützung des AAN Systems
erweiterte Möglichkeiten bieten, gezielte Einblicke in wissenschaftliche
Arbeiten zu werfen, um das Bewusstsein über vorhandene und aktuelle
Entwicklungen zu erweitern. An dieser Stelle wird ein Einblick in die
Vorgehensweise der Entwicklung gegeben.

2.3.1 Parser-Entwicklung: Best Practices
Bei der Entwicklung von Parser-Komponenten als Teil der AAN Ref-
erenzimplementierung hat sich eine Reihenfolge von Teilabläufen als
praktikabel erwiesen. Die einzelnen Abläufe sollten sich in Teilen über-
lappen, um eine flüssige Integration und eine Minimierung von Pro-
blemen zu gewährleisten. Diese Punkte wurden für die Komponente
DoajParser in großen Teilen abgeschlossen:

1. Sichtung verfügbarer Daten

2. Vergleich zugreifbarer Schnittstellen

3. Extraktion von Daten

4. Entwicklung einer Ontologie

5. Datenspeicherung

Der erste Schritt ist die Sichtung verfügbarer Daten. Dazu werden
die von einem potenziellen Quellnetzwerk angebotenen Daten nach
Eignung für AANs untersucht. Nutzbare Daten sind durch eine Er-
weiterung der Grundontologie in das semantische Modell integrierbar
und passen inhaltlich zu den aktuellen Zielen, die umgesetzt werden
sollen. Im DOAJ sind dies im Wesentlichen die wissenschaftlichen
Publikationen und deren Autoren, die als Artefakte und Akteure in-
tegrierbar sind. Im zweiten Schritt wird eine passende Schnittstelle
gewählt. Diese sollte möglichst alle öffentlich zugänglichen Daten zur
Verfügung stellen und nicht durch Restriktionen eingeschränkt sein.
Gängige Schnittstellen sind APIs oder andere Interfaces, die Daten in
der XML anbieten. Eine Schnittstelle, die fast in jedem Fall möglich ist,
ist das Parsen des HTML-Codes. Auf der DOAJ Webseite werden zwei
URIs (siehe Abschnitt 2.4) angeboten, über die Daten zu Artikeln und
Zeitschriften im Format des OAI-Protokolls (siehe Abschnitt 3.3) zu-
greifbar sind. Die Extraktion der Daten sollte vor der genauen Definition
einer Ontologie geschehen, da bereits extrahierte und direkt zugreifbare
Daten einen Überblick darüber geben, welche Daten in der Praxis tat-
sächlich zur Verfügung stehen und abgelegt werden können. Die Extrak-
tion der Daten verlief im Fall von DOAJ ohne Probleme. Im nächsten
Schritt, der Einbettung der Daten in die Ontologie, wurde festgestellt,
dass Kategorien nur für Zeitschriften und nicht für Artikel angeboten
werden. Dies ist für eine Beschreibung der Artikel schade, die Infor-
mationen können jedoch nachträglich über die Zeitschrift-Ressourcen
aus dem Modell beschafft werden. Während des letzten Schrittes, der
Datenspeicherung, wurde festgestellt, dass die semantischen Daten eine
umfangreiche Beschreibung der Datensätze liefern, die Volltexte aller-
dings in einem sehr eingeschränkten Umfang zur Verfügung stehen. Es
wird nur ein kleiner Teil des ursprünglichen Volltexts angeboten. Zwar
werden in den Metadaten zusätzlich Informationen einer Quelle, in den
meisten Fällen eine Webseite, bereitgestellt, die über die URL erreich-
baren Ziele sind jedoch heterogen. Teils wird auf den verlinkten Seiten

5

Abbildung 2: Ontologie: Directory of Open Access Journals

ein weiter direkter Link zu zugehörigen PDF-Dateien hinterlegt, teils
wird auf den verlinkten Seiten auch ein Login benötigt. In manchen
Fällen werden in den Metadaten auch URLs hinterlegt, die ein PDF
ohne Umweg über eine Webseite verlinken. Das Schema, nach dem
die semantischen Beziehungen von DOAJ Ressourcen angelegt werden,
wird im folgenden Abschnitt vorgestellt.

2.3.2 Ontologie
Die Ontologie zu DOAJ-Ressourcen ist in Abbildung 2 dargestellt. Die
Hauptklassen, OpenAccessJournal und OpenAccessJournalArticle, sind
Spezialisierungen des ScientificDocumentArtefact aus dem Block AANSci-
entificMedia. Extrahierte Autoren werden als ScientificDocumentActor an-
gelegt und durch semantische Relationen mit Artefakten in Verbindung
gesetzt. Für Zeitschriften und Artikel werden eine Reihe von Liter-
alen definiert, die keiner eigenen Klasse benötigen, trotzdem aber
beschreibende Metadaten liefern. Zur Beschreibung der Ressourcen
gibt es zwei Spezialisierungen von Keywords, DoajCategory und Doa-
jTag. Der Unterschied dieser Klassen ist, dass Kategorien vorgegeben
und auswählbar sind, wohingegen Tags, z.B. direkt in Artikeln, frei
wählbar sind. Kategorien sind nur für Zeitschriften definiert. Die Kate-
gorie LCC wurde dem Block AANScientificMedia hinzugefügt, da dies
eine Kategorie ist, die zukünftig möglicherweise zur Beschreibung von
Artefakten außerhalb von DOAJ ebenfalls genutzt werden könnte. LCC
steht für „Library of Congress Classification“, eine Klassifikation in
hierarchischer Struktur. So könnte eine Zeitschrift des Bereichs Infor-
matik über die LCC mit QA75.5-76.95 beschrieben werden, QA wäre
Mathematik und ein alleinstehendes Q betrifft den allgemeinen Bereich
der Wissenschaft. Insgesamt verlief die Entwicklung der DOAJ Kom-
ponente reibungslos. Um jedoch an dieser Stelle schon auf mögliche,
in Zukunft auftretende, Herausforderungen einzugehen, werden diese
nachfolgend beschrieben.

2.3.3 Herausforderungen
Während der Entwicklung der DOAJ Komponente wurden erste Her-
ausforderungen im Hinblick auf die weitere Arbeit mit Publikationen
sichtbar. In diesem Teil werden diese im Hinblick auf Volltexte, URIs
und Parser behandelt.

6

zugriff auf volltexte Wie bereits erwähnt, werden über die
DOAJ-Schnittstelle mindestens drei verschiedene Ressourcen zur Ver-
fügung gestellt, um auf Volltexte zugreifen zu können. Im günstigsten
Fall wird ein PDF direkt verlinkt, so dass die Informationsquelle ohne
weitere Umwege zur Verfügung steht. Auch verlinkte Webseiten, auf
denen ein Link mit dem Textinhalt „PDF“ zum Volltext aufgeführt
ist, sollten kein großes Hindernis darstellen. Für Webseiten, die eine
Anmeldung benötigen, ist abzuwägen, ob eine Funktionalität zur Verfü-
gung gestellt werden sollte, die dies automatisiert durchführt. Sinnvoll
erscheint dies nur, über die Anmeldung eine große Menge von Daten
zur Verfügung gestellt wird. Ein möglicher Weg zur Extraktion von
Daten wird in Abschnitt 4 behandelt.

eindeutiger bezeichner für ressourcen Eine weitere Her-
ausforderung ist die Generierung von eindeutigen Bezeichnern für
Artefakte und Akteure. Diese Bezeichner werden, neben der Sicher-
stellung der Eindeutigkeit, benötigt, um semantische Relationen zwis-
chen Artefakten festzulegen. Jede Ressource wird im AAN System
über eine URI identifiziert. Diese URI liegt für Web-basierte Ressourcen
oft auf der Hand, da Artefakte sowie Akteure im Allgemeinen über
eine eigene Webseite zugreifbar sind. Für wissenschaftliche Publika-
tionen und Autoren ist dies nicht selbstverständlich. Es wurde daher
vorgeschlagen, für Autoren URIs zu generieren, die einzig durch ihren
Namen zusammengesetzt werden. Für URIs von Publikationen bietet
sich eine Kombination der Autoren-Namen und der Titel der jeweiligen
Veröffentlichung an. Dies kann zu Problemen führen, wenn für Au-
torennamen verschiedene Schreibweisen genutzt werden. Zum Beispiel
können Vornamen abgekürzt werden, zweite Vornamen nur teilweise
auftauchen oder die Reihenfolge von Vor- und Nachnamen variieren.
Ein verwandtes Problem ist die Identifizierung verschiedener Personen
mit gleichem Namen.

wahl eines parsers Ein vergleichsweise minderer Umstand ist
die Wahl eines geeigneten Parsers. Während eines Crawling-Jobs kön-
nen Referenzen auf verschiedenartige PDF-Dateien gefunden werden.
Nicht jede dieser Dateien ist zwangsläufig eine wissenschaftliche Veröf-
fentlichung. Hier sollte, bei Kenntnis über die Dateiart, unterschieden
werden, ob ein PDF zur Analyse von Publikations-Metadaten oder
zur allgemeinen Extraktion von Schlüsselwörtern genutzt werden soll.
Ein Ansatz wäre eine Funktionalität, mit der eine AAN Komponente
eine andere AAN Komponente vorschlagen kann, die zur Extraktion
genutzt werden sollte.
Die folgende Liste ist eine Sammlung von Punkten zur weiteren
Recherche. Nach den in diesem Teil vorgestellten Quellen für wis-
senschaftliche Arbeiten und Veröffentlichungen werden, im auf die
Liste mit Recherche-Ansätzen folgenden Abschnitt, Möglichkeiten für
den Austausch von Publikations-Metadaten gezeigt.

2.4 Ansatzpunkte zur weiteren Recherche

• Directory of Open Access Journals (DOAJ)
http://www.doaj.org/
http://www.doaj.org/doaj?func=loadTempl&templ=faq#metadata
• Die Elektronische Zeitschriftenbibliothek der Universität Regensburg
http://ezb.uni-regensburg.de/
http://rzblx1.uni-regensburg.de/ezeit/fl.phtml?colors=1&notation=SQ-SU
• Networked Digital Library of Theses and Dissertations (NDLTD)
http://www.ndltd.org/
• Open Access Ressourcen
http://www.soros.org/openaccess
http://www.lib.umich.edu/copyright/open-access

7

http://www.ndltd.org/resources/open-access
http://oad.simmons.edu/oadwiki/
• Wikipedia (de)
http://de.wikipedia.org/wiki/Open_Access
http://de.wikipedia.org/wiki/Open-Access-Zeitschrift
http://de.wikipedia.org/wiki/Library_of_Congress_Classification
• Wikipedia (en)
http://en.wikipedia.org/wiki/Open_access_journalt
http://en.wikipedia.org/wiki/Open_access_%28publishing%29
http://en.wikipedia.org/wiki/Library_of_Congress_Classification

3 formate zum austausch von publikations-metadaten

Es existieren verschiedene Standards, um Konzepte des Semantic Web
einheitlich zu beschreiben. Für die anschließende Vorstellung von For-
maten zum Austausch von Metadaten werden an dieser Stelle einige
Standards vorgestellt, die zur Beschreibung der Austauschformate ver-
wendet werden. Zur Verdeutlichung der Unterschiede zwischen den
Standards werden hier gezielt die verwendeten Konzepte aufgelistet.

3.1 Standard-Vokabularien

Im Kontext des Semantic Web werden in verschiedensten Projekten
Vokabularien benötigt, um Ressourcen zu klassifizieren. Innerhalb von
eigenständigen Projekten wäre es möglich, individuelle Schemata zu
verwenden. Spätestens bei dem Austausch von Daten werden hier
schnell Inkonsistenten beobachtbar und verschiedene Schemata damit
nicht vergleichbar. Zur Vereinheitlichung von Vokabularien gibt es
standardisierte Konventionen, um auf eine einheitliche Basis bei der
Benennung und Nutzung von Begriffen zurückgreifen zu können. Im
Folgenden werden einige ausgewählte Standards vorgestellt, die beim
Austausch von Publikations-Metadaten genutzt werden.

3.1.1 Dublin Core
Das Dublin Core Metadata Element Set ist eine 15-elementige Menge
von Vokabeln, die zur einheitlichen Beschreibung von Klassen vorge-
schlagen wird. Urheber dieser Menge ist die 1994 gegründete offene
Organisation Dublin Core Metadata Initiative (DCMI). Die 15 Elemente
der Menge bilden den Kern, der als RFC, ISO und ANSI/INSO Stan-
dard veröffentlicht wurde. Die zugehörigen Elemente sind: contributor,
coverage, creator, date, description, format, identifier, language, publisher, re-
lation, rights, source, subject, title und type. Diese Menge an Elementen
steht unter ständiger Weiterentwicklung. Ein zusätzlicher Namensraum
schlägt folgende Elemente vor: abstract, accessRights, accrualMethod, ac-
crualPeriodicity, accrualPolicy, alternative, audience, available, bibliograph-
icCitation, conformsTo, created, dateAccepted, dateCopyrighted, dateSubmit-
ted, educationLevel, extent, hasFormat, hasPart, hasVersion, instructional-
Method, isFormatOf, isPartOf, isReferencedBy, isReplacedBy, isRequiredBy,
issued, isVersionOf, license, mediator, medium, modified, provenance, refer-
ences, replaces, requires, rightsHolder, spatial, tableOfContents, temporal und
valid. Diese Elemente bilden eine Grundlage, um allgemeine Artefakte,
wie sie z.B. im Internet oft auffindbar sind, und deren Relationen zu
beschreiben. Zusätzlich zu diesen generellen Angaben existieren weit-
ere Ansätze, wie SWRC, die für die Beschreibung spezieller Kontexte
ausgelegt sind.

3.1.2 Semantic Web for Research Communities (SWRC)
Die SWRC Ontologie wurde am Institut für Angewandte Informatik
und Formale Beschreibungsverfahren (AIFB) des Karlsruher Institus für

8

Technologie entwickelt. Sie fokussiert das Modellieren von Forschungs-
Gemeinschaften, wie z.B. Organisationen, Personen oder Publikatio-
nen und deren Beziehungen. Um einen guten Einblick über die Un-
terschiede der Vokabularien zu geben, hier eine umfangreiche (aber
unvollständige) Liste der definierten Konzepte: Proceedings, SoftwarePro-
ject, ProjectReport, ResearchTopic, Association, InCollection, Booklet, InPro-
ceedings, InBook, SoftwareComponent, Institute, Department, Unpublished,
Lecture, MasterThesis, Manual, Manager, ResearchGroup, Exhibition, Misc,
Book, FullProfessor, Lecturer, Article, AcademicStaff, Product, Meeting, Pro-
jectMeeting, AssistantProfessor, Student, Undergraduate, Workshop, Event,
Conference, FacultyMember, AssociateProfessor, Report, TechnicalReport, Re-
searchProject, Graduate, PhDStudent, Project, DevelopmentProject, Techni-
calStaff, Thesis, PhDThesis, University, Organization, Enterprise, Employee,
AdministrativeStaff, Topic, Person und Publication. Es ist zu erkennen,
dass eine Reihe von Konzepten aus dem Kontext von Universität, Lehre
und Forschung definiert werden. Darüber hinaus gibt es Konzepte
wie Chapter, ISBN, Year oder Pages, die eine hohe Korrelation mit Bib-
TeX Elementen aufweisen. Ein Vokabular, das eher auf die Rollen und
Beziehungen von Personen aufbaut, ist FOAF.

3.1.3 The Friend of a Friend (FOAF) project
Das Friend of a Friend (FOAF) project definiert Konzepte, mit denen
Personen, Beziehungen zwischen ihnen und den Artefakten, die sie
erstellen, beschrieben werden können. Der Kern der definierten Voka-
beln besteht aus den Elementen: Agent, Person, name, title, img, depiction
(depicts), familyName, givenName, knows, based_near, age, made (maker),
primaryTopic (primaryTopicOf), Project, Organization, Group, member, Docu-
ment und Image. Außerdem existiert eine Erweiterung für die Belange
des Social Web, die etwa nick, homepage, jabberID, interest, account oder
thumbnail definiert. Die hier vorgestellten Standards bilden Teile von
Versionen des Austauschformats BuRST.

3.2 Bibliography Management using RSS Technology (BuRST)

BuRST ist eine Spezifikation zum Austausch von bibliografischen Infor-
mationen. Das Format wird im Rahmen des EU-Projektes Sustaining
Technology Enhanced Learning at a LARge scale (STELLAR) entwickelt.
Es setzt für den Austausch von Daten auf das RSS Format in Version
1.0. Für die Beschreibung der Daten wird kein eigenes, neues Vokabular
verwendet. Stattdessen wird vorgeschlagen, wie vorhandene Standards
kombiniert werden können um Publikationen sinnvoll zu beschreiben.
Dafür werden Elemente aus Dublin Core und SWRC genutzt. In der ak-
tuellen Version werden keine Elemente aus dem FOAF-Projekt genutzt,
voraussichtlich wird dies aber in der nächsten Version wieder der Fall
sein. Um einen Eindruck des Formats zu schaffen, gibt Listing 1 eine
gekürzte Version eines BuRST Feeds wieder.
Das BuRST Format bietet ein breites Spektrum von Möglichkeiten,
Publikationen zu beschreiben. Daher ist es ein Kandidat für den Import
und Export von wissenschaftlichen Veröffentlichungen im AAN System.
Eine Liste mit Institutionen, die das Format bereits für den Export
nutzen, ist in Abschnitt 3.4 aufgeführt. Der Umfang der Spezifikation
und die laufende Entwicklung stellen allerdings auch Argumente gegen
die Nutzung dar. Für den Austausch von Publikations-Metadaten ist
neben BuRST auch das OAI-Protokoll ein Kandidat.

3.3 The Open Archives Initiative Protocol for Metadata Harvesting

Das Open Archives Initiative Protocol for Metadata Harvesting ist eine
Spezifikation, um Schnittstellen zum Austausch von Datensätzen bereit-

9

Listing 1: Beispiel eines BuRST Feeds
<?xml v e r s i o n= " 1 . 0 " encoding= "UTF−8" ?>
<?xml− s t y l e s h e e t h r e f = " xmlverbatimwrapper . x s l " type= " t e x t / x s l " ?>
<rdf:RDF
xmlns= " h t t p : //p u r l . org/ r s s /1.0/ "
x m l n s : r d f = " h t t p : //www. w3 . org /1999/02/22 − rdf −syntax −ns # "
x m l n s : r d f s = " h t t p : //www. w3 . org /2000/01/ rdf −schema# "
xmlns:swrc= " h t t p : //swrc . ontoware . org/ontology/ontoware # "
x m l n s : f o a f = " h t t p : //xmlns . com/ f o a f /0.1/ "
x m l n s : t a x o = " h t t p : //p u r l . org/ r s s /1.0/ modules/taxonomy/ "
xmlns:dc= " h t t p : //p u r l . org/dc/elements /1.1/ "
xmlns:syn= " h t t p : //p u r l . org/ r s s /1.0/ modules/ s y n d i c a t i o n / "
xmlns:admin= " h t t p : //webns . n e t /mvcb/ "
x m l n s : b u r s t = " h t t p : //xmlns . com/ b u r s t /0.1/ "
x m l : b a s e= " h t t p : //www. c s . vu . n l /~pmika/ b u r s t . r d f " >

< r s s : c h a n n e l r d f : a b o u t = " h t t p : //www. c s . vu . n l /~pmika/ b u r s t . r d f " >
< r s s : t i t l e > P e t e r Mika ’ s p u b l i c a t i o n s </ r s s : t i t l e >
< r s s : l i n k > h t t p : //www. c s . vu . n l /~pmika/ r e s e a r c h /pub . rdf </ r s s : l i n k >
<rss:description >
Semantic Web r e l a t e d p u b l i c a t i o n s authored by P e t e r Mika .
</ r s s : d e s c r i p t i o n >
<rss:items >
<rdf:Seq >
< r d f : l i r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t # 1 " />
< r d f : l i r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t # 2 " />
</ r d f : S e q >
</ r s s : i t e m s >
< r d f s : s e e A l s o r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~mcaklein/pub . r d f " />
</ r s s : c h a n n e l >

< r s s : i t e m r d f : a b o u t =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t #1" >
< r s s : t i t l e >Foundations f o r S e r v i c e O n t o l o g i e s : Aligning OWL S t o −
DOLCE</ r s s : t i t l e >
< r s s : l i n k > h t t p : //www2004 . org/p roc eed ing s/docs /1p563 . pdf</ r s s : l i n k >
< r s s : d e s c r i p t i o n >An a b s t r a c t o f t h e document</ r s s : d e s c r i p t i o n >
< d c : s u b j e c t >Semantic Web</ d c : s u b j e c t >
<burst:publication >
<swrc:InProceedings >
< s w r c : t i t l e >Foundations f o r S e r v i c e O n t o l o g i e s : Aligning OWL S t o −
DOLCE</ s w r c : t i t l e >
<s w r c : a u t h o r >
< f o a f : P e r s o n r d f : I D =" PeterMika " >
<foaf:name > P e t e r Mika</foaf:name >
< r d f s : s e e A l s o r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ f o a f . r d f " />
</ f o a f : P e r s o n >
</s w r c : a u t h o r >
< s w r c : b o o k t i t l e >Pro ceedings o f t h e 13 th I n t e r n a t i o n a l World Wide Web
Conference (WWW2004) </ s w r c : b o o k t i t l e >
< s w r c : y e a r >2004</ s w r c : y e a r >
<swrc:pages >563−−573</swrc:pages >
</ s w r c : I n P r o c e e d i n g s >

</ r s s : i t e m >
</rdf:RDF >

zustellen. Es basiert auf dem Hypertext Transport Protocol und der
XML. Die Interoperabilität wird durch eine Strukturierung nach Dublin
Core gefördert. Die Schnittstelle des OAI-Protokolls wird über URLs
bereitgestellt. Ein Beispiel-Aufruf einer URL ist http://archive.org/oai
?verb=ListRecords &metadataPrefix=oai_dc. Hier ist der Hauptparameter
jeden Aufrufs erkennbar, ein Schlüssel-Wert-Paar der Form verb=Wert.
Mit diesem Verb wird einer der 6 Anfrage-Typen angegeben: Iden-
tify, ListMetadataFormats, ListSets, ListIdentifiers, ListRecords oder Ge-
tRecord. Das Verb ListRecords ist der häufigst genutzte Anfragetyp, seine
Rückgabe besteht aus einer Liste von Datensätzen. Die Flusskontrolle
der Protokolls besteht nicht aus einer Form, in der der erste gewün-
schte Datensatz (in der Form startEntry=50) manuell generiert werden
muss. Die Rückgabe eines Aufrufs stellt ein sogenanntes resumption-
Token Token innerhalb der XML-Daten bereit. Dieses Token kann bei
Folgeaufrufen genutzt werden, um an eine Anfrage anzuknüpfen. Eine
Beispielrückgabe ist in Listing 2 gezeigt.
Es ist zu erkennen, dass die zurückgegebenen Felder sehr homogen
geformt sind. Jedes Feld wird ausnahmslos über Dublin Core be-
schrieben. Die XML-Verschachtelung eines einzelnen Eintrags wird
jedoch nicht stark genutzt, die Metadaten-Einträge befinden sich alle

10

Listing 2: Beispiel eines OAI-PMH Aufrufs
<record>
<header>
 o a i : d o a j . o r g : 2 0 6 7 − 3957
<datestamp>2010 − 05 − 12 T 2 0 : 1 9 : 2 4 Z </datestamp>
</header>
<metadata>
< o a i _ d c : d c x s i : [ . . . ] o a i _ d c . xsd " >
<dc:title >
B r a i n . Broad Research i n A r t i f i c i a l I n t e l l i g e n c e and Neuroscience
</ d c : t i t l e >
< d c : i d e n t i f i e r > h t t p : // b r a i n . e d u s o f t . ro/index . php/brain </ d c : i d e n t i f i e r >
< d c : i d e n t i f i e r > i s s n : 2067 − 3957</ d c : i d e n t i f i e r >
< d c : p u b l i s h e r >EduSoft p u b l i s h i n g </ d c : p u b l i s h e r >
< d c : d a t e >2009</ d c : d a t e >
<dc:language >English </dc:language >
< d c : s u b j e c t > a r t i f i c i a l i n t e l l i g e n c e </ d c : s u b j e c t >
< d c : s u b j e c t >LCC: RC321 −571</ d c : s u b j e c t >
< d c : s u b j e c t >LCC: RC346 −429</ d c : s u b j e c t >
< d c : s u b j e c t > D o a j S u b j e c t T e r m : Computer S c i e n c e </ d c : s u b j e c t >
</ o a i _ d c : d c >
</metadata >
</record >

auf gleicher Höhe. Wie zu erkennen ist, gibt es in dem Beispiel drei
verschiedene Arten von Kategorien. Diese werden durch ein Präfix
voneinander unterschieden. So werden verschiedene Konzepte in der
Baumstruktur gleich dargestellt: Das Tag „artificial intelligence“, die
LCC-Kategorien und die DOAJ Kategorie „Computer Science“. In der
Praxis hat dies jedoch kein Problem dargestellt, über die Präfixe kon-
nten alle Konzepte ohne Probleme erkannt und die Daten extrahiert
werden. In Abschnitt 3.4 ist je eine Webseite mit Quellen, die per OAI-
Protokoll zugreifbar sind und Richtlinien für die Implementierung
eines eigenen Archivs aufgeführt.
Bis zu diesem Punkt wurden Open Access Quellen und Formate für
die Übertragung von Metadaten vorgestellt. Mit diesen Informationen
können bereits Metadaten von wissenschaftlichen Veröffentlichungen
extrahiert werden. Der nächste Teil dieses Textes befasst sich mit der Ex-
traktion von Daten aus Publikationen im PDF-Format. Vorerst werden
aber noch Ressourcen für eine weitere Recherche bereitgestellt.


• Dublin Core
http://dublincore.org/documents/dcmi-terms/
http://de.wikipedia.org/wiki/Dublin_Core
• Semantic Web for Research Communities
http://ontoware.org/swrc/
• The Friend of a Friend (FOAF) project
http://www.foaf-project.org/
• BuRST
http://stellarnet.eu/d/6/3/BuRST_format_adaption_discussion
http://www.cs.vu.nl/~pmika/research/burst/BuRST.html
http://stellarnet.eu/d/6/3/Directory_of_BuRST_feeds
http://www.cs.vu.nl/~pmika/research/thesis/thesis.pdf
http://web.resource.org/rss/1.0/spec
• OAI-Protokoll
http://www.openarchives.org/pmh/
http://www.oaforum.org/tutorial/
http://www.openarchives.org/OAI/openarchivesprotocol.html
http://www.openarchives.org/Register/BrowseSites
http://www.openarchives.org/OAI/2.0/guidelines-repository.htm

11

Abbildung 3: ParsCit Demo - Ausgabe der Kopfdaten

4 daten-extraktion aus pdf-dateien

Die automatische Generierung von Publikations-Netzwerken, verbun-
den durch Zitierungen ist eine nicht-triviale Aufgabe. Veröffentlichun-
gen werden mit unterschiedlichen Vorgaben für Layouts erstellt. Das
gilt für die Textstruktur, wie auch für den Literatur-Abschnitt, mit
dem der Kontext einer Veröffentlichung erfasst werden kann. Für die
Formatierung und die Reihenfolge von Zitaten gibt es verschiedene
Standards. Diese erschweren neben versehentlichen Fehlangaben in
Publikationen die Extraktion von einzelnen Bestandteilen (z.B. Titel,
Autor, Zeitschrift). Der Schwerpunkt dieses Abschnitts liegt auf der
Software ParsCit, welche eine der führenden Umsetzungen für die
Analyse und Extraktion von Bestandteilen wissenschaftlicher Artikel
ist.

4.1 ParsCit

Die quelloffene Software ParsCit stellt Funktionen zur Verfügung, um
logische Dokument-Strukturen aus einer gegebenen Publikation zu
extrahieren. Priorisiert wird dabei die Extraktion und Analyse von
Referenz-Strings. Dazu wird das Conditional Random Field (CRF) Mo-
dell, gekoppelt mit heuristischen Verfahrensweisen genutzt. Das CRF
ist ein ungerichtetes graﬁsches Modell zu Taggen von sequenziellen
Daten, wie natürlicher Sprache. Damit ist es möglich, Lernverfahren
anzuwenden, um das CRF zu trainieren. Für ParsCit wird die CRF
Implementierung CRF++ genutzt. Nachfolgend wird die Arbeitsweise
der Software und anschließend die praktische Anwendung beschrieben.

4.1.1 Arbeitsweise
Die Extraktion mittels ParsCit ist in [4] beschrieben. Zunächst müssen,
basierend auf der Ausgabe von CRF++, einige Schritte durchgeführt
werden. Die Namen der Autoren verschiedener Schreibweisen (z.B.
„M. Mustermann“ oder „Mustermann, Max“) werden normalisiert, also
in ein einheitliches Format überführt. Diese Normalisierung wird auch
für Nummern („vol. 7“), Jahresangaben und Seitenzahlen („pp. 13-
42“) durchgeführt. Nach der Segmentierung der Referenzen wird der
Haupttext mittels regulärer Ausdrücke nach Zitaten durchsucht. Dabei
werden drei verschiedene Typen von Formatierungen berücksichtigt:
Einfache Nummerierungen („7“ oder „7.“), Strings in Klammern („(7)“,
„[7, 13]“ oder „[Mustermann11]“) und unmarkierte Listen, wie beim
APA Stil. Dabei wird so vorgegangen, dass einfache Nummerierungen
nur genutzt werden, wenn keine Klammer-Notation gefunden wurde.
Interne Referenzierungen (z.B. „siehe Abbildung 3“) werden nicht ein-
bezogen. Außerdem wird jeder reguläre Ausdruck auf den Haupttext
angewandt, um eine Liste von Kontext-Inhalten zu generieren. Die prak-
tische Ausführung dieser Arbeitsweise wird nachfolgend beschrieben.

12

Abbildung 4: ParsCit Demo - Ausgabe einer Referenz

Listing 3: Beipiel einer ParsCit Eingabe
A r t e f a c t −Actor −Networks as t i e between s o c i a l
networks and a r t e f a c t networks
Wolfgang Reinhardt
U n i v e r s i t y o f Paderborn
I n s t i t u t e f o r Computer S c i e n c e
33102 Paderborn , Germany
Email : wolle@upb . de
[...]
A b s t r a c t − S o c i a l networks r e f l e c t communication , c o o p e r a t i o n
and l o o s e a c q u a i n t a n c e s i n networked communities . Numerous
[...]
REFERENCES
[ 1 ] CollaborateCom 2009 Programme Committee , " C a l l f o r paper
f o r t h e CollaborateCom 2 0 0 9 , " h t t p ://www. c o l l a b o r a t e c o m . org/docs/
CollaborateCom 09 c f p . pdf , 2 0 0 9 .
[ 2 ] J . C . M i t c h e l l , S o c i a l Networks i n urban s i t u a t i o n s : Analyses o f
personal
r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns . Manchester : U n i v e r s i t y Press ,
1969.
[...]
[ 2 1 ] T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ , r e t r i e v e d on
2009 −
07 − 17 , J u l y 2 0 0 9 .
[ 2 2 ] U n i v e r s i t y o f Toronto , " Blogscope , " h t t p ://www. blogscope . n e t / ,
retrieved
on 2009 − 07 − 17, J u l y 2 0 0 9 .
[...]

4.1.2 Anwendung
ParsCit stellt zwei Wege der Anwendung bereit: Einen Webservice
und die lokale Ausführung. Hinweise zur jeweiligen Ausführung wer-
den auf der Webseite (siehe Abschnitt 4.4) und in den dem Code
beigefügten Readme-Dateien gegeben. Auf der Webseite werden zu-
dem Web-basierte Demonstrationen zur Verfügung gestellt. Für einen
ersten, graﬁsch aufbereiteten, Einblick wurde die Demo #1 mit der auf
der Webseite verlinkten Datei E06-1050.txt ausgeführt. Teile der Aus-
gabe sind in den Abbildungen 3 und 4 dargestellt. Die Kopfangaben
der Textdatei wurden im Vergleich auf die Quelle fehlerfrei extrahiert.
Obwohl es für eine eigene Referenz nicht verwunderlich gewesen wäre,
wenn alle Daten ohne Fehler erkannt worden wären, gibt es kleinere Ab-
weichungen in der Ausgabe der ersten Referenz. In Abbildung 4 ist eine
Legende der möglichen Felder, dem Ursprungstext, einem Ausschnitt
aus dem Haupttext mit dem eigentlichen Zitat und das Extraktions-
Ergebnis zu sehen. Bei der Angabe des Bandes fehlt der Zusatz „(2)“
und die Seitenzahlen fehlen gänzlich. Die wichtigsten Angaben, Autor
und Titel werden jedoch korrekt erkannt.
Für eine praktische Verwendung innerhalb des AAN Systems bietet
sich die direkte Nutzung des Codes an. Auf den Zugriff über den
Webservice per Web Services Description Language (WSDL) wird daher
an dieser Stelle nicht weiter eingegangen. Stattdessen wurde ParsCit
auf einem Testsystem installiert. Um einen Praxistest durchzuführen,
wurde eine AAN Veröffentlichung [9] ausgewertet. Dazu muss ein PDF
zunächst in UTF-8 kodierten Reintext konvertiert werden. Dies kann

13

Listing 4: Beipiel einer ParsCit Ausgabe
[...]
<citationList >
< c i t a t i o n v a l i d =" t r u e " >
< t i t l e >Programme Committee , " C a l l f o r paper f o r t h e
CollaborateCom </ t i t l e >
<date >2009</ date >
CollaborateCom 
<note > h t t p ://www. c o l l a b o r a t e c o m . org/docs/ CollaborateCom 09
c f p . pdf</note >
<contexts >
<context position ="1330" c i t S t r = " [ 1 ] " startWordPosition ="175"
endWordPosition ="175" > through t h e e x i s t e n c e o f
A r t e f a c t A c t o r −Networks . I . INTRODUCTION Computer mediated
communication (CMC) has evolved t o an important f a c t o r o f
i n d u s t r y , s c i e n c e and r e s e a r c h wi thin t h e l a s t decades . As [ 1 ]
puts i t , we produce j o i n t products and a c h i e v e h i g h e r
p r o d u c t i v i t y by e l e c t r o n i c c o l l a b o r a t i o n between d i s t r i b u t e d
teams o f humans , computer a p p l i c a t i o n s , and/or autonomous r o b o t s .
Todays communicati </ c o n t e x t >
</ c o n t e x t s >
<marker >[1] </ marker>
<rawString >CollaborateCom 2009 Programme Committee , " C a l l f o r paper f o r
t h e CollaborateCom 2 0 0 9 , " h t t p ://www. c o l l a b o r a t e c o m . org/docs/
CollaborateCom 09 c f p . pdf , 2009. </ rawString >
</ c i t a t i o n >
<authors >
<author > J C M i t c h e l l </author >
</authors >
< t i t l e > S o c i a l Networks i n urban s i t u a t i o n s : Analyses o f p e r s o n a l
r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns</ t i t l e >
Manchester : U n i v e r s i t y Press 
<contexts >
<context position ="2258" c i t S t r = " [ 2 ] " startWordPosition ="317"
endWordPosition ="317" > s e t o f l i n k a g e s among a d e f i n e d s e t o f
persons with t h e a d d i t i o n a l p r o p e r t y t h a t t h e c h a r a c t e r i s t i c s o f
t h e s e l i n k a g e s as a whole may be used t o i n t e r p r e t t h e s o c i a l
behaviour o f t h e persons involved ’ [ 2 ] . By extending M i t c h e l l ’ s
i n t e r p r e t a t i o n o f a s o c i a l network , we g e t a more g e n e r i c
d e f i n i t i o n o f s o c i a l networks . S o c i a l networks r e p r e s e n t s o c i a l
s t r u c t u r e s by means o f t i e s between nodes . These node</ c o n t e x t >
<rawString > J . C . M i t c h e l l , S o c i a l Networks i n urban s i t u a t i o n s :
Analyses o f p e r s o n a l r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns .
Manchester : U n i v e r s i t y Press , 1969. </ rawString >
[...]
<authors >
<author > T e c h n o r a t i Inc </author >
</authors >
< t i t l e > T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ , r e t r i e v e d on</ t i t l e >
<pages >2009−−07</pages >
<contexts >
<context position ="29725" c i t S t r = " [ 2 1 ] " startWordPosition ="4600"
endWordPosition = " 4 6 0 0 " > [ . . . ] < / c o n t e x t >
<rawString > T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ ,
r e t r i e v e d on 2009 − 07 − 17, J u l y 2009. </ rawString >
< c i t a t i o n v a l i d =" f a l s e " >
<pages >2009−−07</pages >
 U n i v e r s i t y o f Toronto 
<note >Blogscope , " h t t p ://www. blogscope . n e t / , r e t r i e v e d on</note >
<contexts >
<context position ="29731" c i t S t r = " [ 2 2 ] " startWordPosition ="4601"
endWordPosition = " 4 6 0 1 " > [ . . . ] < / c o n t e x t >
<rawString > U n i v e r s i t y o f Toronto , " Blogscope , "
h t t p ://www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17, J u l y
2009. </ rawString >
[...]

mit dem Tool pdftotext geschehen. Der Parameter -raw wird benötigt,
damit die Reihenfolge der Strings im Inhalt erhalten bleibt:

pdftotext -raw 2009_CC_AAN.pdf

14

Listing 5: Beipiel einer ParsCit Lernvorgabe
<author> CollaborateCom 1982 Programme Committee , </author>
< t i t l e > " C a l l f o r paper f o r t h e CollaborateCom 1 9 8 2 , " </ t i t l e >
<note> h t t p : //www. c o l l a b o r a t e c o m . org/docs/CollaborateCom82_cfp . pdf </note>
 Proc . 5 th . BCS−FACS Refinement Workshop , 
<date> 1 9 9 2 . </date>
<author> B r a i n f u c k I n c . , </author>
< t i t l e > " Brainfuck , " </ t i t l e >
<note> h t t p : //www. muppetlabs . com/~breadbox/ b f / , r e t r i e v e d on
1999 − 12 − 31,</note>
<volume> 1 ( 1 ) , </volume>
<date> December 1 9 9 9 . </date>

Einen Eindruck der generierten Textdatei verschafft Listing 3. Wie
zu sehen ist, sind die Kopfdaten, der Text und die Referenzen mit
den durchschnittlichen kognitiven Fähigkeiten einer realen Person
unmittelbar erkennbar. Im Eingabecode sind die ersten beiden Einträge
der Referenzliste und, für einen folgenden Vergleich, die Referenzen 21
und 22 aufgeführt. Der tatsächliche Extraktionsvorgang für Referenzen
wird mit folgendem Befehl gestartet:

citeExtract.pl 2009_CC_AAN.txt > 2009_CC_AAN.xml

Die daraufhin generierte Ausgabe für die aufgeführten Referenzen der
Eingabe ist in Listing 4 abgebildet. Der XML Code wurde nachträglich
eingerückt und drei der Zitat-Kontexte entfernt. Für jedes Zitat werden,
sofern gefunden, Autoren, Titel, Datum, Herausgeber, Seiten, Institu-
tion, Kommentar, Zitat-Kontext, Zitat-Markierung und der gefundene
Eingabe-String ausgegeben. Bei der Ausgabe des ersten Zitates wird
der Autor nicht korrekt erkannt. Eine wahrscheinliche Ursache ist, dass
dort kein Name einer Person angegeben wurde und zusätzlich eine
Jahreszahl verwendet wurde. Dadurch ist möglicherweise auch der
zweite Teil des Namens als Bestandteil des Titels erkannt worden. Dem
Titel fehlt wiederum die abschließende Jahreszahl. Die Notiz und der
Marker wurden erfolgreich erkannt, der fehlende Unterstrich der Notiz
ist ein Folgefehler der Umwandlung der PDF-Datei in Reintext. Die
Hauptangaben des zweiten Zitats wurden erfolgreich erkannt. Hier
wird der Ort der Veröffentlichung zum Herausgeber hinzugefügt, was
vernachlässigt werden kann. Das Zitat mit der Nummer 21 wurde
in das Beispiel aufgenommen, da es dem Folgezitat ähnelt, welches
als nicht valide gekennzeichnet wurde. Bei beiden Zitaten handelt es
sich um Webseiten, deren Hinweis auf ihre Sichtung als Seitenzahl
interpretiert wurde. Lediglich Marker, Autor und Datum wurden hier
erfolgreich erkannt. Diese Art von Zitat ist eine Ausnahme und spielt
für die Referenzierung von Publikationen untereinander keine Rolle,
da es sich um Webseiten handelt. Der Unterschied zwischen den Va-
liditätsangaben lässt sich mit den geparsten Eingaben erklären. Beim
Zitat 21 gibt es einen zusätzlichen Zeilenumbruch. Dieser ist eigentlich
eine Fehlkonversion aus dem PDF-Format und ist bedingt durch den
-raw Parameter. Interessant ist die Tatsache, dass das Zitat 21, mit der
eigentlich falschen Eingabe, validiert wird.

4.1.3 Training
Basierend auf den fehlerhaften Extraktionen wurde eine Vorgabe für
ein Training erstellt. Die Lernvorgabe, dargestellt in Listing 5 ist stark
auf eine Verbesserung der gegebenen Zitate ausgelegt. Für das er-
ste Zitat wurde lediglich ein anderes Jahr gewählt, ansonsten wurde
ein zugeschnittenes Ergebnis vorgegeben. Für die Zitate 21 und 22
wurde die Struktur der Webseitenreferenzen beibehalten. Der Link und
die Angabe zum Abruf der Webseite wurden als Notiz vorgegeben.
Zusätzlich wurden (versehentlich) verfremdende Angaben eingefügt,
diese sollten das Ergebnis jedoch nicht stark verfälschen. Das Ergebnis

15

Listing 6: Beipiel einer ParsCit Ausgabe nach dem Training
[...]
<citationList>
< c i t a t i o n valid=" true ">
< a u t h o r s>
<author>Programme Committee</author>
</ a u t h o r s>
< t i t l e > C a l l f o r paper f o r t h e CollaborateCom 2009</ t i t l e >
<date>2009</date>
CollaborateCom09 c f p . pdf
<note> h t t p : //www. c o l l a b o r a t e c o m . org/docs</note>
<contexts>
< c o n t e x t p o s i t i o n = " 1330 " c i t S t r = " [ 1 ] " s t a r t W o r d P o s i t i o n = " 175 "
endWordPosition= " 175 " > [ . . . ] </ c o n t e x t >
<marker> [ 1 ] </marker>
<ra wS t ri n g>CollaborateCom 2009 Programme Committee , " C a l l f o r paper f o r
t h e CollaborateCom 2 0 0 9 , " h t t p : //www. c o l l a b o r a t e c o m . org/docs/
CollaborateCom09 c f p . pdf , 2 0 0 9 . </ra wS t ri n g>
[...]
< a u t h o r s>
<author> T e c h n o r a t i I n c </author>
</ a u t h o r s>
< t i t l e > T e c h n o r a t i </ t i t l e >
<date>2009</date>
<note> h t t p : // t e c h n o r a t i . com/ , r e t r i e v e d on 2009 − 07 − 17</note>
<contexts>
< c o n t e x t p o s i t i o n = " 29725 " c i t S t r = " [ 2 1 ] " s t a r t W o r d P o s i t i o n = " 4600 "
<marker> [ 2 1 ] </marker>
<ra wS t ri n g> T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p : // t e c h n o r a t i . com/ ,
r e t r i e v e d on 2009 − 07 − 17, J u l y 2 0 0 9 . </ra w St ri n g>
< a u t h o r s>
<author> U n i v e r s i t y o f Toronto</author>
</ a u t h o r s>
< t i t l e >Blogscope</ t i t l e >
<date>2009</date>
<note> h t t p : //www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17</note>
<contexts>
< c o n t e x t p o s i t i o n = " 29731 " c i t S t r = " [ 2 2 ] " s t a r t W o r d P o s i t i o n = " 4601 "
<marker> [ 2 2 ] </marker>
<ra wS t ri n g> U n i v e r s i t y o f Toronto , " Blogscope , "
h t t p : //www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17, J u l y
2 0 0 9 . </ra wS t ri ng>
[...]

der erneuten Extraktion (siehe Listing 6) ist besser. Die Referenzen
auf Webseiten wurden korrekt erkannt. Beim ersten Zitat scheint die
Jahreszahl im Autorenfeld sowie das Leerzeichen in der URL ein Pro-
blem darzustellen. Insgesamt ist die Ausgabe jedoch ein zufriedenstel-
lendes Ergebnis.

4.2 Weitere Software

Die Verwendung von ParsCit scheint ein probates Mittel zur Extrak-
tion von Referenzen zu sein. Daher folgt an dieser Stelle eine Liste
(siehe Tabelle 1) von Alternativen; auf weitere umfassende Tests wird
verzichtet.

Tabelle 1: Software zur Extraktion von Referenzen
Ansatz Aktualität System Kommentar
ParsCit 01.11.2010 Perl, CRF++
FreeCite 16.04.2009 Ruby on Rails, CRF++
Biblio-Citation-Parser 02.09.2004 Perl Mike Jewell
ParaTools 05.09.2004 Perl Mike Jewell
California 02.07.2008 Python Hidden Markov
Digital Library Models

16

4.3 Herausforderungen

Für die weitere Arbeit mit extrahierten Referenzen fallen zwei mögliche
Hindernisse ins Auge. Die Extraktion von Kopfdaten von Publikationen
scheint angemessen gut zu klappen. Basierend auf diesen Daten kön-
nen eindeutige URIs generiert werden, mit denen Veröffentlichungen
referenziert werden können. Eine Herausforderung ist die Zuordnung
bei nicht korrekt extrahierten Datenfeldern der Referenzen. Dadurch
könnten Verweise fehlgeleitet werden. Eine mögliche Teillösung wäre
eine Suche nach vorhandenen Publikationen mit gleichem oder ähn-
lichen Titel, mit der ein korrektes Matching und eine Korrektur von
Relationen im Modell eingeleitet werden könnte. Die zweite Heraus-
forderung ist die Live-Generierung von Trainingsdaten. Diese sollten
korrekt sein, was bei einer Extraktion nicht der Fall sein muss. Ein Lö-
sungsansatz ist die Verwendung von Daten, die z.B. aus vorgegebenen
XML-Daten aus sicheren Quellen extrahiert wurden und sich daher für
einen Trainingsinput eignen.


• ParsCit
http://aye.comp.nus.edu.sg/parsCit/
• Conditional Random Field
http://crfpp.sourceforge.net/
http://de.wikipedia.org/wiki/Conditional_Random_Field
http://de.wikipedia.org/wiki/Web_Services_Description_Language
• FreeCite
http://freecite.library.brown.edu/
• Biblio-Citation-Parser
http://search.cpan.org/~mjewell/
• ParaTools
http://paracite.eprints.org/developers/
• California Digital Library
http://gales.cdlib.org/~egh/hmm-citation-extractor/

5 szientometrie, bibliometrie und zitationsanalyse

Szientometrie (Scientometrics), Bibliometrie (Bibliometrics) und Zita-
tionsanalyse (Citation analysis). Mehrautorenschaft (Co-authorship),
Kopplung von Kozitationen (Co-citation Coupling) und Bibliograﬁsche
Kopplung (Bibliographic Coupling). h-Index und g-Index? Dies wirkt
wie ein Gewitter von Begriffen, die irgendwie mit Zitaten und deren
Analyse zusammenhängen. Dieser Abschnitt soll wichtige Begriffe
und deren Bedeutung im Kontext von Zitierungen innerhalb von wis-
senschaftlichen Publikationen klären. Dazu werden zunächst Oberbe-
griffe erläutert und anschließend verschiedene Metriken der Zitations-
analyse vorgestellt. Das heißt, dass durch eine Analyse der Verweise
verschiedener Publikationen bestimmte Aussagen über eine Zusam-
mengehörigkeit gemacht werden. Es gibt auch Ansätze, die versuchen,
über die Menge der Veröffentlichungen eines Autors und deren Zi-
tierungen in anderen Veröffentlichungen (der Zitierrate) Aussagen über
den Status des Autors zu machen. Dies bildet den Abschluss dieses
Abschnitts.

5.1 Begriffsklärung

• Die Szientometrie ist eine quantitative Methode und untersucht
das wissenschaftliche Forschen. Es soll unter anderem die Frage
beantwortet werden, wie und warum sich ein bestimmter Wis-
senschaftsbereich entwickelt. Ein oft verwendetes Werkzeug ist
die Bibliometrie.

17

• Die Bibliometrie ist die quantitative Untersuchung von Publikatio-
nen, Autoren und Institutionen wie Bibliotheken mittels statistis-
cher Verfahren. Neben der Inhaltsanalyse ist ein weiteres Gebiet
die Zitationsanalyse.
• Die Zitationsanalyse beschäftigt sich im Wesentlichen mit Be-
ziehungen zwischen zitierten und zitierenden Arbeiten, also mit
dem Studium von Zitationen.

5.2 Zitationsanalyse

In der Zitationsanalyse werden verschiedene Zusammenhänge von
Autoren und deren Veröffentlichungen geschlossen. Als Indikator dient
oft die Anzahl von Zitierungen.
An dieser Stelle werden die Metriken Co-authorship, Co-citation
Coupling und Bibliographic Coupling beschrieben.

5.2.1 Co-authorship (Mehrautorenschaft)
Eine Mehrautorenschaft bezeichnet die Verfassung eines Dokuments,
an der mehrere Mitautoren beteiligt sind. Durch das Zählen gemein-
sam erstellter Dokumente kann man den Grad der Zusammenarbeit
zweier oder mehrerer Autoren quantitativ ermitteln. Je mehr gemein-
same Dokumente eine Menge von Autoren zusammen verfasst hat,
desto höher ist der Grad ihrer Zusammenarbeit. In Abbildung 5 ist
ein Beispiel dreier Publikationen gegeben. Die Autoren A, B, C und D
waren an der Erstellung von Dokumenten beteiligt.

A B A C D A B D

Publikation Autor

Abbildung 5: Beispiel Co-authorship

In Tabelle 2 ist eine paarweise Auswertung des Beispiels angegeben.
Die Autoren A,B und A,D haben hiernach am meisten zusammen
gearbeitet, die Autoren B,C scheinen noch keine gemeinsame Arbeit
veröffentlicht zu haben.

Tabelle 2: Auswertung des Beispiels Co-authorship
CA(A,B) CA(A,C) CA(A,D) CA(B,C) CA(B,D) CA(C,D)
2 1 2 0 1 1

Dieses Beispiel ist sehr simpel gehalten. Bei einer großen Daten-
basis mit hunderten oder tausenden von Publikationen liefert dieses
Verfahren aber für die Praxis hilfreiche Ergebnisse. Gerade im Gebiet
Recommendations oder bei der Expertenﬁndung sind Mitautoren inter-
essant.
Eine Visualisierung der für den Workshop LWA2010 [1] angenom-
menen Artikeln zeigt Abbildung 6. Auch dies ist ein einfaches Beispiel.
Da jeder Autor an lediglich einer Arbeit beteiligt war, sind klar trennbare
Cliquen zu erkennen. So ist zum Beispiel auf den ersten Blick sicht-
bar, dass die Autoren Daniela Godoy und Dominikus Heckmann die
einzigen beiden Personen sind, die eine Publikation ohne Mitautoren
eingereicht haben. Aber auch nur auf den ersten Blick, denn Daniel
Burgos hat sowohl eine Publikation alleine, als auch eine zweite Pub-
likation mit einem Mitautor eingereicht. So erklären sich auch die 11

18

Abbildung 6: Co-authorship für LWA2010, Quelle: [12]

Cluster bei 12 Publikationen des Workshops. Die Mehrautorenschaft
bezieht sich auf Autoren, im Gegensatz dazu bezieht sich die nächste
Metrik auf Zitationen.

5.2.2 Co-citation Coupling (Kopplung von Kozitationen)
Durch den Ansatz der Kopplung von Kozitationen wird versucht, the-
matisch verwandte Inhalte von Publikationen zu erkennen. Dazu wird
die Anzahl gemeinsamer Zitationen innerhalb weiterer Publikationen
ermittelt. Wenn also zwei Publikationen A und B in einer Publikation
C referenziert werden, nimmt man an, dass deren Themen verwandt
sind. Auch, wenn A und B nicht gegenseitig auf sich verweisen. Je
mehr solche gemeinsame Zitationen gefunden werden, desto stärker
scheint ihre Beziehung zu sein. Abbildung 7 zeigt ein Beispiel mit drei
Publikationen 1 bis 3. Diese Publikationen referenzieren fünf weitere
Veröffentlichungen A bis E. Welche der Veröffentlichungen A bis E sind
nach dem Co-citation Coupling am stärksten thematisch verwandt?

Abbildung 7: Beispiel Co-citation Coupling

Tabelle 3 zeigt eine Auswertung des Beispiels. Die Publikationen
A,B und A,D wurden beide zweimalig gemeinsam referenziert und
scheinen somit am stärksten thematisch verwandt zu sein.
In Abbildung 8 ist ein weiteres Beispiel einer Visualisierung des
LWA2010 Workshops gegeben. Die erkennbaren Cluster sind von den
Workshop-Beiträgen referenzierte Dokumente. Die Bildung der Clus-

19

Tabelle 3: Auswertung des Beispiels Co-Citation Coupling
CCC(A,B) CCC(A,C) CCC(A,D) CCC(A,E) CCC(B,C)
2 1 2 1 1
CCC(B,D) CCC(B,E) CCC(C,D) CCC(C,E) CCC(D,E)
1 0 0 0 1

ter kommt daher, dass alle Dokumente, die gemeinsam durch einen
LWA2010-Beitrag referenziert wurden, durch eben diese Kozitation
gekoppelt werden. Vier Knoten stechen heraus. Diese vier Knoten wur-
den in jeweils zwei Workshop-Beiträgen referenziert und weisen daher
jeweils eine thematische Verwandtschaft zu zwei Clustern auf.

Abbildung 8: Co-citation Coupling für LWA2010, Quelle: [12]

Die Kopplung von Kozitationen bietet sich für ältere Arbeiten an
und kann sich im Lauf der Zeit verändern, was aber ist mit ganz neuen
Veröffentlichungen, auf die wegen ihres Alters noch nicht verwiesen
werden kann? Dazu eignet sich die folgende Metrik.

5.2.3 Bibliographic Coupling (Bibliograﬁsche Kopplung)
Die bibliograﬁsche Kopplung verfährt auf einem ganz ähnlichen Weg.
Allerdings in umgekehrter Weise. Wenn zwei Publikationen A und
B eine weiteres Dokument C referenzieren, dann sind A und B nach
dieser Metrik miteinander thematisch verwandt. Das Bibliographic
Coupling bietet sich auch für jüngere Arbeiten an, da nicht auf diese
selber verwiesen werden muss. In Abbildung 9 ist das bereits bekannte
Beispiel nochmals aufgeführt. Drei Publikationen 1 bis 3 verweisen auf
fünf weitere Publikationen A bis E. Welche der Publikationen 1 bis 3
haben nach der hier vorgestellten Metrik die am stärksten ausgeprägte
thematische Ähnlichkeit?
In Tabelle 4 ist eine Auswertung des Beispiels gegeben. Die Publika-
tionen 1,2 und 2,3 haben jeweils zwei gleiche Zitierungen. Das sind A
und B im ersten Fall und A und D im zweiten Fall.

20

Abbildung 9: Beispiel Bibliographic Coupling

Tabelle 4: Auswertung des Beispiels Bibliographic Coupling
BC(1,2) BC(1,3) BC(2,3)
2 1 2

In Abbildung 10 ist auch für das Bibliographic Coupling ein LWA2010
Beispiel zu sehen. Die 12 Knoten entsprechen den 12 eingereichten
Beiträgen. Acht der Beiträge weisen keine Ähnlichkeit mit anderen
Beiträgen auf. Bei vier Einreichungen ist eine Ähnlichkeit erkennbar.
Insbesondere bei „What is wrong with the IMS Learning Design spe-
ciﬁcation?“ und „On the Role of Social Tags in Filtering Interesting
Resources from Folksonomies“ sind jeweils zwei ähnliche Dokumente
erkennbar.
Zusätzlich zu den hier vorgestellten Zusammenhängen von Autoren
und Veröffentlichungen gibt es Maße, mit denen die Produktivität von
Autoren verglichen werden kann, sogenannte bibliometrische Maße.

Abbildung 10: Bibliographic Coupling für LWA2010, Quelle: [12]

5.3 Bibliometrisches Maße

In diesem Abschnitt werden die relativ neuen (2005, 2006) Konzepte
h-Index und g-Index vorgestellt. Es existieren noch weitere biblio-
metrische Maße, dieser Abschnitt beschränkt sich auf die beiden bekan-
ntesten.

5.3.1 h-Index (Hirsch-Index)
Der Hirsch-Index (auch Hirschfaktor) wurde im November 2005 vom
amerikanischen Physik Jorge E. Hirsch [7] veröffentlicht. Er ist ein Maß
für die Produktivität und den Einﬂuss eines Autors. Zur Berechnung
des h-Index werden die Publikationen eines Autors nach der Anzahl
ihrer Zitierungen absteigend geordnet. Diese Liste geht man nun von
vorne durch und vergleicht den Index der Publikation mit ihrer Anzahl
an Zitierungen. Sobald die h-te Publikation weniger als h Zitierungen

21

hat, ist der Hirsch-Index bestimmt. Abbildung 11 zeigt die Bestimmung
des h-Index bildlich.

Abbildung 11: h-Index, Quelle: http://de.wikipedia.org/wiki/H-Index

Der Hirschfaktor berücksichtigt keine besonders hervorstechenden
Publikationen. So könnte ein Autor wenige Artikel mit sehr vielen
Zitierungen veröffentlicht haben. Dies könnte eine herausragende Leis-
tung darstellen, die im h-Index nicht berücksichtigt würde, wenn die
übrigen Arbeiten des Autors nur sehr wenige Zitierungen hätten. Durch
den g-Index wird versucht dies auszugleichen.

5.3.2 g-Index
Der g-Index wurde 2006 von Leo Egghe in der Zeitschrift Scientomet-
rics [5] veröffentlicht. Zur Bestimmung des Index werden die Veröf-
fentlichungen eines Autors ebenfalls nach der Anzahl ihrer Zitationen
absteigend sortiert. Nun wird die Summe der Zitierungen der ersten bis
zur g-ten Publikation berechnet und mit dem Produkt g·g verglichen.
Der g-Index ist die Zahl, bei der die Summe der Zitierungen mindestens
so groß ist, wie das Produkt g·g.

Tabelle 5: Beispiel zum g-Index
Artikel (g) Zitierungen Summe Zitierungen g·g
1 20 20 1
2 10 30 4
3 7 37 9
4 5 42 16
5 3 45 25
6 2 47 36
7 1 48 49

Ein Beispiel zur Bestimmung des g-Indexes ist in Tabelle 5 gegeben.
Die Tabelle gibt die sieben meist-zitierten Publikationen eines ﬁktiven
Autors wieder. Bis zur 6. Publikation ist die Summe der Zitierungen
mindestens so groß wie das Quadrat des Indexes. Da dies bei der 7.
meist-zitierten Veröffentlichung nicht mehr zutrifft, ist der g-Index 6.
Die hier vorgestellten Metriken und Maße fußen auf Zitationen. Diese
können als semantische Relationen zwischen Artefakten interpretiert
werden. Somit sind die Konzepte teilweise auch auf andere Artefakt-
Typen erweitert werden. Im Folgenden wird zusätzlich ein Vorschlag
für eine zusätzliche Bewertung für Artefakte vorgestellt.

22

5.4 Bewertungen basierend auf semantischen Relationen

Zum aktuellen Zeitpunkt werden Ähnlichkeiten von Artefakten im
AAN System über die SemSim Komponente bestimmt. Basis dieser
Berechnung bilden die Inhalte der Artefakte, genauer gesagt die Stich-
wörter (Tags und Kategorien), mit denen sie verbunden sind. Ein weit-
erer Ansatz ist die quantitative Auswertung der Anzahl von Art2 Re-
lationen. Die Verwendung von gegenseitigen Referenzierungen als
Rückschluss auf eine inhaltliche Ähnlichkeit wird auch in der Zitation-
sanalyse gebraucht. Hierfür sollten lediglich eingehende Relationen
betrachtet werden. Da in der AAN Ontologie für jede Relation ein
Inverses deﬁniert ist, der entstehende Graph also bidirektional ist,
entsprechen zwei Kanten eines Artefakt-Knotens einer Relation. Ein
erster Ansatz wäre also, die mit einem Artefakt verbundenen Art2 Re-
lationen zu zählen und diese Summe zu halbieren. Möglicherweise ist
es sinnvoll, Relationen wie isPartOf oder hasPart auszuschließen, um
Verfälschungen des Ergebnisses zu vermeiden.
Ein Artefakt, dass von einer hohen Anzahl von anderen Artefakten
referenziert wird, könnte zusätzlich eine höhere Wertung bekommen.
So wäre es denkbar, dass Relationen, die von einem solchen hochfre-
quentierten Artefakt ausgehen, höher gewertet werden, als Relationen
von einem wenig verbundenen Artefakt. Dieser Ansatz könnte itera-
tiv fortgeführt werden, so dass Relationen von einem Artefakt, dass
mit einem hoch frequentieren Artefakt verbunden ist, ebenfalls aufge-
wertet werden. Dieser Ansatz ist in einer Variation bereits als PageRank
bekannt.
Außerdem könnten solche Relationen als weitere Beschreibung von
Artefakten verwendet werden. Stichworte von direkt verbundenen Arte-
fakten könnten als Stichworte zweiter Klasse dienen. Ob und welchen
Mehrwert eine solche Weitergabe ergibt, muss in der Praxis evaluiert
werden.
Im Folgenden ist eine Sammlung von Webseiten aufgeführt, die für
eine weitere Recherche im Gebiet Bibliometrie nützlich sein können.


• Zitationsanalyse
http://www.ischool.utexas.edu/~palmquis/courses/biblio.html#Cite
http://www.harzing.com/pophelp/metrics.htm
• Wikipedia (de)
http://de.wikipedia.org/wiki/Szientometrie
http://de.wikipedia.org/wiki/Bibliometrie
http://de.wikipedia.org/wiki/Zitationsanalyse
http://de.wikipedia.org/wiki/Mehrautorenschaft
http://de.wikipedia.org/wiki/Kozitation
http://de.wikipedia.org/wiki/Bibliografische_Kopplung
http://de.wikipedia.org/wiki/H-Index
• Wikipedia (en)
http://en.wikipedia.org/wiki/Scientometrics
http://en.wikipedia.org/wiki/Bibliometrics
http://en.wikipedia.org/wiki/Citation_analysis
http://en.wikipedia.org/wiki/H-index
http://en.wikipedia.org/wiki/G-index

23

6 zusammenfassung

Die vorgestellten Informationen sollen einen Einstieg der Integration
von Publikationsdaten in das AAN System erleichtern. Dazu wurde
ein kompletter Einblick des Ablaufs der wichtigsten Bereiche gegeben.
Dies umfasst potenzielle Quellen, Möglichkeiten der Übertragung, An-
sätze zur Extraktion von Daten und Grundlagen für die abschließende
Analyse von wissenschaftlichen Dokumenten. Wichtig für die weitere
Entwicklung ist die Betrachtung kommender Herausforderungen (siehe
Abschnitt 2.3.3 und 4.3), für die bereits Vorschläge zur Bewältigung
gegeben wurden.

literatur

[1] ABIS. LWA2010 - Lernen, Wissen, Adaptivität. http://www.kde.
cs.uni-kassel.de/conf/lwa10/abis. zugegriffen am 5. Januar
2011.

[2] Bo-Christer Björk, Patrik Welling, Mikael Laakso, Peter Majlender,
Turid Hedlund, and Guðni Guðnason. Open Access to the Sci-
entiﬁc Journal Literature: Situation 2009. PLoS ONE, 5(6), 2010.
http://dx.doi.org/10.1371%2Fjournal.pone.0011273.
[3] Budapest Open Access Initiative. What does BOAI mean by ’open
access’? http://www.earlham.edu/~peters/fos/boaifaq.htm#
openaccess. zugegriffen am 15. Dezember 2010.
[4] Isaac G. Councill, C. Lee Giles, and Min-Yen Kan. Parscit: An open-
source crf reference string parsing package. In Proceedings of the
Language Resources and Evaluation Conference (LREC 08), Marrakesh,
Morrocco, May 2008.

[5] Leo Egghe. Theory and practise of the g-index. Scientometrics,
69(1):131–152, April 2006.

[6] Yassine Gargouri, Chawki Hajjem, Vincent Larivière, Yves Gingras,
Les Carr, Tim Brody, and Stevan Harnad. Self-Selected or Man-
dated, Open Access Increases Citation Impact for Higher Quality
Research. PLoS ONE, 5(10), 2010. http://dx.doi.org/10.1371%
2Fjournal.pone.0013636.
[7] J. E. Hirsch. An index to quantify an individual’s scientiﬁc research
output. PNAS, 102(46), November 2005.

[8] Lund University Libraries. Directory of Open Access Journals.
http://www.doaj.org/. zugegriffen am 03. Januar 2011.
[9] Wolfgang Reinhardt, Matthias Moi, , and Tobias Varlemann.
Artefact-actor-networks as tie between social networks and artefact
networks. In Proceedings of the CollaborateCom 2009.

[10] UNESCO, Adobe Systems Inc., and NDLTD members. NDLTD:
Networked Digital Library of Theses and Dissertations. http:
//www.ndltd.org/. zugegriffen am 03. Januar 2011.
[11] Universitätsbibliothek Regensburg. Informationen zur Elektron-
ischen Zeitschriftenbibliothek. http://ezb.uni-regensburg.de/
about.phtml. zugegriffen am 16. Dezember 2010.
[12] Wolfgang Reinhardt. ABIS2010 Small-scale study. http://thales.
cs.upb.de/smallscalestudies/abis2010/bibliometrics.html.
zugegriffen am 5. Januar 2011.

24

Analyse wissenschaftlicher Publikationen

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (18)

Semelhante a Analyse wissenschaftlicher Publikationen

Semelhante a Analyse wissenschaftlicher Publikationen (20)

Mais de Adrian Wilke

Mais de Adrian Wilke (10)

Analyse wissenschaftlicher Publikationen