SlideShare uma empresa Scribd logo
1 de 24
Baixar para ler offline
A N A LY S E
    WISSENSCHAFTLICHER
       P U B L I K AT I O N E N
                              adrian wilke∗



 inhaltsverzeichnis

 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    .   .   .   .    2
 2 Open Access journals . . . . . . . . . . . . . . . . . . . . . . . . .        .   .   .   .    2
   2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .      .   .   .   .    2
   2.2 Verzeichnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . .     .   .   .   .    3
       2.2.1 Directory of Open Access Journals . . . . . . . . . . . .           .   .   .   .    3
       2.2.2 Zeitschriftenbibliothek der Uni Regensburg . . . . . . .            .   .   .   .    4
       2.2.3 Networked Digital Library of Theses and Dissertations               .   .   .   .    4
   2.3 Directory of Open Access Journals im AAN System . . . . .                 .   .   .   .    5
       2.3.1 Parser-Entwicklung: Best Practices . . . . . . . . . . . .          .   .   .   .    5
       2.3.2 Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . . .     .   .   .   .    6
       2.3.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . .         .   .   .   .    6
   2.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . .             .   .   .   .    7
 3 Formate zum Austausch von Publikations-Metadaten . . . . . .                  .   .   .   .    8
   3.1 Standard-Vokabularien . . . . . . . . . . . . . . . . . . . . . .         .   .   .   .    8
       3.1.1 Dublin Core . . . . . . . . . . . . . . . . . . . . . . . . .       .   .   .   .    8
       3.1.2 Semantic Web for Research Communities . . . . . . . .               .   .   .   .    8
       3.1.3 The Friend of a Friend project . . . . . . . . . . . . . . .        .   .   .   .    9
   3.2 Bibliography Management using RSS Technology . . . . . .                  .   .   .   .    9
   3.3 OAI Protocol for Metadata Harvesting . . . . . . . . . . . . .            .   .   .   .    9
   3.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . .             .   .   .   .   11
 4 Daten-Extraktion aus PDF-Dateien . . . . . . . . . . . . . . . . . .          .   .   .   .   12
   4.1 ParsCit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   .   .   .   .   12
       4.1.1 Arbeitsweise . . . . . . . . . . . . . . . . . . . . . . . . .      .   .   .   .   12
       4.1.2 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . .         .   .   .   .   13
       4.1.3 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . .    .   .   .   .   15
   4.2 Weitere Software . . . . . . . . . . . . . . . . . . . . . . . . . .      .   .   .   .   16
   4.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . .         .   .   .   .   17
   4.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . .             .   .   .   .   17
 5 Szientometrie, Bibliometrie und Zitationsanalyse . . . . . . . . .            .   .   .   .   17
   5.1 Begriffsklärung . . . . . . . . . . . . . . . . . . . . . . . . . . .     .   .   .   .   17
   5.2 Zitationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . .      .   .   .   .   18
       5.2.1 Co-authorship . . . . . . . . . . . . . . . . . . . . . . . .       .   .   .   .   18
       5.2.2 Co-citation Coupling . . . . . . . . . . . . . . . . . . . .        .   .   .   .   19
       5.2.3 Bibliographic Coupling . . . . . . . . . . . . . . . . . . .        .   .   .   .   20
   5.3 Bibliometrisches Maße . . . . . . . . . . . . . . . . . . . . . .         .   .   .   .   21
       5.3.1 h-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . .     .   .   .   .   21
       5.3.2 g-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . .     .   .   .   .   22
   5.4 Bewertungen basierend auf semantischen Relationen . . . .                 .   .   .   .   23
   5.5 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . .             .   .   .   .   23
 6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . .         .   .   .   .   24

 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24




∗ info@[REMOVE]adrianwilke.de




                                             1
1     einleitung

Diese Seminarausarbeitung behandelt die Analyse wissenschaftlicher
Publikationen. Dies geschieht im Kontext von Artefact-Actor-Networks
(AAN). Daher ist das Gebiet nicht auf die Analyse beschränkt, sondern
behandelt Bereiche von der Suche nach passenden Quellen bis zur
Analyse selbst. Das umfasst als Erstes Vorschläge für Sammlungen und
Kataloge von Open Access Dokumenten (2), die passende Daten zur
Verfügung stellen. Hierzu zählt eine bereits bestehende Anbindung an
ein Verzeichnis, deren Aufbau für die praktische Arbeit von Entwick-
lern nützlich sein kann. Kataloge bieten verschiedene Schnittstellen und
Datenformate (3) für den Zugriff auf bereitgestellte Metadaten. Diese
können in der AAN Referenzimplementierung sowohl für den Import,
als auch für den Export genutzt werden. In diesem Zuge werden ver-
schiedene Standards für die Beschreibung von Konzepten im Rahmen
des Semantic Web vorgestellt. Nach einer Auswahl von Publikations-
Quellen und der abgeschlossenen Datenbeschaffung werden Entwickler
vor die Herausforderung gestellt, Daten im PDF-Format zu extrahieren
(4). Hierfür wurden bereits erste Ansätze erfolgreich getestet. Nachdem
Metadaten und Volltexte aus wissenschaftlichen Veröffentlichungen
extrahiert und im System abgelegt worden sind, kann mit der Analyse
begonnen werden. Dazu können Metriken und Maße der Zitations-
analyse (5) angewandt werden.
   Die betrachteten Gebiete werden so dargestellt, dass sie eine Ar-
beit mit AANs unterstützen. Deshalb wird jeder Unterabschnitt mit
Ansatzpunkten zur weiteren Recherche abgeschlossen. In diesen Lis-
ten sind Links zu offiziellen Webseiten oder auch Wikipedia-Artikeln
aufgeführt. Wichtige Quellen aus Publikationen sind im Literaturteil
aufgeführt.

2     open access journals

Die Anzahl der Dokumente, die unter dem Begriff Open Access (OA)
veröffentlicht werden, steigt weiter an. Es gibt gute Gründe für Autoren,
ihre Texte frei zugänglich zu veröffentlichen. Neben diesen Gründen
werden im Folgenden Verzeichnisse vorgestellt, in denen OA Doku-
mente gesammelt werden. Zusätzlich wird eine implementierte An-
bindung an eines dieser Verzeichnisse seitens des AAN Systems präsen-
tiert.

2.1    Einführung

Die Recherche nach Literatur kann auch für erfahrene Wissenschaftler
Hürden auftun: Bücher sind nicht unmittelbar zugreifbar, Zeitschriften
sind vergriffen oder elektronische Ressourcen benötigen eine Mit-
gliedschaft in einer Organisation. Diese Hindernisse sollen durch den
Gebrauch von Open Access überwunden werden. Der Begriff Open
Access wird von verschiedenen Organisationen unterschiedlich aus-
gelegt. Einige der wichtigsten Punkte kann man der Definition der
Budapest Open Access Initiative [3] entnehmen: Open Access ist im öf-
fentlichen Internet frei verfügbar. Es erlaubt Benutzern, Artikel zu lesen,
zu kopieren, herunterzuladen, zu verbreiten, zu drucken, zu suchen
oder deren Volltexte zu verlinken. Dies und mehr soll ohne finanzielle,
rechtliche oder technische Hürden (der Zugang zum Internet selbst
ausgeschlossen) möglich sein. Einzig den jeweiligen Autoren sollten
Rechte, wie das Urheberrecht, vorbehalten werden.
   Das Konzept wirkt aus der Sicht einer nach relevanten Informationen
suchenden Person verlockend, aber inwieweit hat es sich bei Autoren
durchgesetzt? Nach einer Studie [2] sind 20,4% aller Publikationen aus
dem Jahr 2008 online zugreifbar. Diese Zahl ergibt sich mit 8,5% aus



                                    2
Abbildung 1: Open Access Verfügbarkeit nach Fachgebieten, Quelle: [2]



dem Publizieren über den goldenen Weg, also dem direkten Weg des
OA, vornehmlich über den Herausgeber, und mit 11,9% über den grü-
nen Weg, also z.B. der Veröffentlichung auf der Webseite der Autoren.
Eine Übersicht über die OA Verfügbarkeit von Artikeln nach Fachge-
bieten nach goldenem und grünem Weg ist in Grafik 1 dargestellt.
  Die Vorteile für berufliche und private Leser liegen klar auf der
Hand, Texte sind schnell zugreifbar und zudem kostenlos. Was sollte
Autoren dazu bewegen, ihre Artikel im Internet frei zugänglich zu
publizieren? Auch das ist naheliegend: Durch den einfachen Zugriff
werden weniger Leser ausgeschlossen, mehr Personen lesen einen Text
und daraus resultiert eine höhere Zahl von Zitierungen. Es wurde
gezeigt [6], dass OA Artikel signifikant mehr Zitierungen bekommen,
als auf herkömmlichen Weg publizierte Texte.
  Für die Analyse von Akteuren und Artefakten in einem AAN bie-
ten sich OA Daten ebenfalls an. Mit geeigneten Werkzeugen können
aus Publikationen Volltexte, Autoren, Referenzen (also semantische
Relationen) und andere Metadaten extrahiert werden. Bei solch einem
Vorhaben ist eine umfangreiche Datenbasis, die bestenfalls über eine
wohl-definierte Schnittstelle zugreifbar ist, wünschenswert. Im Folgen-
den werden Beispiele für mögliche Quellen gegeben.

2.2     Verzeichnisse

Die hier vorgestellten Verzeichnisse sind eine Auswahl von Sammlun-
gen, die Metadaten, Referenzierungen und zum Teil auch Volltexte
zu wissenschaftlichen Texten sowie Zeitschriften bereitstellen. Die Ver-
zeichnisse bieten sich, neben der Nutzung zur persönlichen Recherche,
zur Sammlung und Extraktion von analysierbaren Daten an.

2.2.1    Directory of Open Access Journals (DOAJ)
Das Directory of Open Access Journals ist ein Service, der einen Zugang
zu Open Access Journals anbietet. Das Angebot wird von der Biblio-
thek der Universität Lund (Schweden) zur Verfügung gestellt. Die an-
gebotenen Zeitschriften unterliegen verschiedenen Aufnahmekriterien.
Neben dem freien Zugang muss eine Zeitschrift eine Qualitätskontrolle,
z.B. ein Peer-Review, durchführen. Die freie Veröffentlichung muss
ohne Verzögerung geschehen, eine Registrierung durch Benutzer für
den Zugriff wird erlaubt, solange diese kostenlos ist. Jede Zeitschrift
benötigt eine International Standard Serial Number (ISSN), mit der ein




                                     3
Journal identifiziert werden kann. Nach eigenen Angaben [8] bietet das
DOAJ (Stand: 03. Januar 2011):

   • 5.935 Zeitschriften, 2.495 davon mit Artikel-Metadaten

   • Insgesamt 491.409 Artikel

   • 247 Informatik-Zeitschriften.

Ein großer Teil der Daten kann über das OAI-Protokoll (siehe Ab-
schnitt 3.3) bezogen werden. Es werden zwei Basis-URLs zur Verfügung
gestellt, mit denen es möglich ist, Metadaten von Zeitschriften oder
Artikeln abzufragen.
  Eine andere Quelle in deutscher Sprache, in der erheblich mehr
Zeitschriften verzeichnet sind, ist die EZB.

2.2.2   Die Elektronische Zeitschriftenbibliothek der Universität Regensburg
Die Grundlage der Elektronischen Zeitschriftenbibliothek (EZB) wurde
um Januar 2001 durch einen Kooperationsvereinbarung zwischen ver-
schiedenen Bibliotheken geschaffen. Die angebotenen Zeitschriften
werden nach 41 Fachgebieten geordnet angeboten. Durch Bilder mit
verschiedenfarbigen Punkten ist auf der Webseite zu erkennen, welche
Zugriffsmöglichkeiten (z.B. frei zugänglicher Volltext) für den Benutzer
bestehen. Eine Übersicht über das Angebot nach Angaben der Univer-
sität [11] zeigt die folgende Liste. Die Anzahl der Treffer der Informatik-
Zeitschriften ergab sich durch eine Suchanfrage auf der Webseite.

   • 51.936 Titel zu allen Fachgebieten

   • 6.999 davon sind reine Online-Zeitschriften

   • 26.919 Fachzeitschriften sind im Volltext frei zugänglich

   • 454 Informatik-Zeitschriften mit frei zugänglichen Volltexten

Zusätzlich zur Suche auf der Webseite konnte keine weitere Schnittstelle
zum Angebot der EZB gefunden werden.
  Neben OA Quellen für Publikationen existieren auch Verzeichnisse
für wissenschaftliche Arbeiten, wie die NDLTD.

2.2.3   Networked Digital Library of Theses and Dissertations (NDLTD)
Die Networked Digital Library of Theses and Dissertations (NDLTD)
ist eine Vereinigung verschiedener Institutionen, hauptsächlich Uni-
versitäten der Vereinigten Staaten. Die NDLTD bietet seit 1996 einen
gemeinsamen Katalog an, in dem Metadaten zu elektronischen Ab-
schlussarbeiten und Dissertationen (electronic theses and dissertations,
ETDs) verzeichnet sind. Nach Angaben auf der Webseite [10] und einer
Anfrage über die angebotene Scirus ETD Suche nach „Computer Sci-
ence“ im Bereich „Engineering, Energy and Technology“ ergab für das
Angebot folgende Zahlen:

   • über 1.000.000 Einträge zu ETDs

   • 133.996 Einträge für den Bereich Informatik

Neben der Scirus ETD Suche des Verlags für wissenschaftliche Zeit-
schriften Elsevier, über die auch ein Zugriff zu Volltexten möglich
ist, wird eine Suche über den VTLS Visualizer angeboten. Dort kön-
nen erweiterte Möglichkeiten der Sortierung und Filterung angegeben
werden.
   Zusätzlich zu den hier vorgestellten Quellen wird im Folgenden ein
Ansatz zur Anbindung einer der oben aufgeführten Quellen vorgestellt.




                                     4
2.3     Directory of Open Access Journals im AAN System

Im Rahmen des Seminars „Future Social Learning Networks“ im Win-
tersemester 2010/11 an der Universität Paderborn wird derzeit ein
Prototyp zur Datenbeschaffung aus dem DOAJ entwickelt. Die Ent-
wicklung findet unter dem Thema „Tools for Awareness in Distributed
Research Networks“ statt und soll mit Unterstützung des AAN Systems
erweiterte Möglichkeiten bieten, gezielte Einblicke in wissenschaftliche
Arbeiten zu werfen, um das Bewusstsein über vorhandene und aktuelle
Entwicklungen zu erweitern. An dieser Stelle wird ein Einblick in die
Vorgehensweise der Entwicklung gegeben.

2.3.1     Parser-Entwicklung: Best Practices
Bei der Entwicklung von Parser-Komponenten als Teil der AAN Ref-
erenzimplementierung hat sich eine Reihenfolge von Teilabläufen als
praktikabel erwiesen. Die einzelnen Abläufe sollten sich in Teilen über-
lappen, um eine flüssige Integration und eine Minimierung von Pro-
blemen zu gewährleisten. Diese Punkte wurden für die Komponente
DoajParser in großen Teilen abgeschlossen:

      1. Sichtung verfügbarer Daten

      2. Vergleich zugreifbarer Schnittstellen

      3. Extraktion von Daten

      4. Entwicklung einer Ontologie

      5. Datenspeicherung

   Der erste Schritt ist die Sichtung verfügbarer Daten. Dazu werden
die von einem potenziellen Quellnetzwerk angebotenen Daten nach
Eignung für AANs untersucht. Nutzbare Daten sind durch eine Er-
weiterung der Grundontologie in das semantische Modell integrierbar
und passen inhaltlich zu den aktuellen Zielen, die umgesetzt werden
sollen. Im DOAJ sind dies im Wesentlichen die wissenschaftlichen
Publikationen und deren Autoren, die als Artefakte und Akteure in-
tegrierbar sind. Im zweiten Schritt wird eine passende Schnittstelle
gewählt. Diese sollte möglichst alle öffentlich zugänglichen Daten zur
Verfügung stellen und nicht durch Restriktionen eingeschränkt sein.
Gängige Schnittstellen sind APIs oder andere Interfaces, die Daten in
der XML anbieten. Eine Schnittstelle, die fast in jedem Fall möglich ist,
ist das Parsen des HTML-Codes. Auf der DOAJ Webseite werden zwei
URIs (siehe Abschnitt 2.4) angeboten, über die Daten zu Artikeln und
Zeitschriften im Format des OAI-Protokolls (siehe Abschnitt 3.3) zu-
greifbar sind. Die Extraktion der Daten sollte vor der genauen Definition
einer Ontologie geschehen, da bereits extrahierte und direkt zugreifbare
Daten einen Überblick darüber geben, welche Daten in der Praxis tat-
sächlich zur Verfügung stehen und abgelegt werden können. Die Extrak-
tion der Daten verlief im Fall von DOAJ ohne Probleme. Im nächsten
Schritt, der Einbettung der Daten in die Ontologie, wurde festgestellt,
dass Kategorien nur für Zeitschriften und nicht für Artikel angeboten
werden. Dies ist für eine Beschreibung der Artikel schade, die Infor-
mationen können jedoch nachträglich über die Zeitschrift-Ressourcen
aus dem Modell beschafft werden. Während des letzten Schrittes, der
Datenspeicherung, wurde festgestellt, dass die semantischen Daten eine
umfangreiche Beschreibung der Datensätze liefern, die Volltexte aller-
dings in einem sehr eingeschränkten Umfang zur Verfügung stehen. Es
wird nur ein kleiner Teil des ursprünglichen Volltexts angeboten. Zwar
werden in den Metadaten zusätzlich Informationen einer Quelle, in den
meisten Fällen eine Webseite, bereitgestellt, die über die URL erreich-
baren Ziele sind jedoch heterogen. Teils wird auf den verlinkten Seiten



                                       5
Abbildung 2: Ontologie: Directory of Open Access Journals



ein weiter direkter Link zu zugehörigen PDF-Dateien hinterlegt, teils
wird auf den verlinkten Seiten auch ein Login benötigt. In manchen
Fällen werden in den Metadaten auch URLs hinterlegt, die ein PDF
ohne Umweg über eine Webseite verlinken. Das Schema, nach dem
die semantischen Beziehungen von DOAJ Ressourcen angelegt werden,
wird im folgenden Abschnitt vorgestellt.

2.3.2    Ontologie
Die Ontologie zu DOAJ-Ressourcen ist in Abbildung 2 dargestellt. Die
Hauptklassen, OpenAccessJournal und OpenAccessJournalArticle, sind
Spezialisierungen des ScientificDocumentArtefact aus dem Block AANSci-
entificMedia. Extrahierte Autoren werden als ScientificDocumentActor an-
gelegt und durch semantische Relationen mit Artefakten in Verbindung
gesetzt. Für Zeitschriften und Artikel werden eine Reihe von Liter-
alen definiert, die keiner eigenen Klasse benötigen, trotzdem aber
beschreibende Metadaten liefern. Zur Beschreibung der Ressourcen
gibt es zwei Spezialisierungen von Keywords, DoajCategory und Doa-
jTag. Der Unterschied dieser Klassen ist, dass Kategorien vorgegeben
und auswählbar sind, wohingegen Tags, z.B. direkt in Artikeln, frei
wählbar sind. Kategorien sind nur für Zeitschriften definiert. Die Kate-
gorie LCC wurde dem Block AANScientificMedia hinzugefügt, da dies
eine Kategorie ist, die zukünftig möglicherweise zur Beschreibung von
Artefakten außerhalb von DOAJ ebenfalls genutzt werden könnte. LCC
steht für „Library of Congress Classification“, eine Klassifikation in
hierarchischer Struktur. So könnte eine Zeitschrift des Bereichs Infor-
matik über die LCC mit QA75.5-76.95 beschrieben werden, QA wäre
Mathematik und ein alleinstehendes Q betrifft den allgemeinen Bereich
der Wissenschaft. Insgesamt verlief die Entwicklung der DOAJ Kom-
ponente reibungslos. Um jedoch an dieser Stelle schon auf mögliche,
in Zukunft auftretende, Herausforderungen einzugehen, werden diese
nachfolgend beschrieben.

2.3.3    Herausforderungen
Während der Entwicklung der DOAJ Komponente wurden erste Her-
ausforderungen im Hinblick auf die weitere Arbeit mit Publikationen
sichtbar. In diesem Teil werden diese im Hinblick auf Volltexte, URIs
und Parser behandelt.




                                   6
zugriff auf volltexte Wie bereits erwähnt, werden über die
DOAJ-Schnittstelle mindestens drei verschiedene Ressourcen zur Ver-
fügung gestellt, um auf Volltexte zugreifen zu können. Im günstigsten
Fall wird ein PDF direkt verlinkt, so dass die Informationsquelle ohne
weitere Umwege zur Verfügung steht. Auch verlinkte Webseiten, auf
denen ein Link mit dem Textinhalt „PDF“ zum Volltext aufgeführt
ist, sollten kein großes Hindernis darstellen. Für Webseiten, die eine
Anmeldung benötigen, ist abzuwägen, ob eine Funktionalität zur Verfü-
gung gestellt werden sollte, die dies automatisiert durchführt. Sinnvoll
erscheint dies nur, über die Anmeldung eine große Menge von Daten
zur Verfügung gestellt wird. Ein möglicher Weg zur Extraktion von
Daten wird in Abschnitt 4 behandelt.

eindeutiger bezeichner für ressourcen Eine weitere Her-
ausforderung ist die Generierung von eindeutigen Bezeichnern für
Artefakte und Akteure. Diese Bezeichner werden, neben der Sicher-
stellung der Eindeutigkeit, benötigt, um semantische Relationen zwis-
chen Artefakten festzulegen. Jede Ressource wird im AAN System
über eine URI identifiziert. Diese URI liegt für Web-basierte Ressourcen
oft auf der Hand, da Artefakte sowie Akteure im Allgemeinen über
eine eigene Webseite zugreifbar sind. Für wissenschaftliche Publika-
tionen und Autoren ist dies nicht selbstverständlich. Es wurde daher
vorgeschlagen, für Autoren URIs zu generieren, die einzig durch ihren
Namen zusammengesetzt werden. Für URIs von Publikationen bietet
sich eine Kombination der Autoren-Namen und der Titel der jeweiligen
Veröffentlichung an. Dies kann zu Problemen führen, wenn für Au-
torennamen verschiedene Schreibweisen genutzt werden. Zum Beispiel
können Vornamen abgekürzt werden, zweite Vornamen nur teilweise
auftauchen oder die Reihenfolge von Vor- und Nachnamen variieren.
Ein verwandtes Problem ist die Identifizierung verschiedener Personen
mit gleichem Namen.

wahl eines parsers Ein vergleichsweise minderer Umstand ist
die Wahl eines geeigneten Parsers. Während eines Crawling-Jobs kön-
nen Referenzen auf verschiedenartige PDF-Dateien gefunden werden.
Nicht jede dieser Dateien ist zwangsläufig eine wissenschaftliche Veröf-
fentlichung. Hier sollte, bei Kenntnis über die Dateiart, unterschieden
werden, ob ein PDF zur Analyse von Publikations-Metadaten oder
zur allgemeinen Extraktion von Schlüsselwörtern genutzt werden soll.
Ein Ansatz wäre eine Funktionalität, mit der eine AAN Komponente
eine andere AAN Komponente vorschlagen kann, die zur Extraktion
genutzt werden sollte.
  Die folgende Liste ist eine Sammlung von Punkten zur weiteren
Recherche. Nach den in diesem Teil vorgestellten Quellen für wis-
senschaftliche Arbeiten und Veröffentlichungen werden, im auf die
Liste mit Recherche-Ansätzen folgenden Abschnitt, Möglichkeiten für
den Austausch von Publikations-Metadaten gezeigt.

2.4    Ansatzpunkte zur weiteren Recherche

      • Directory of Open Access Journals (DOAJ)
        http://www.doaj.org/
        http://www.doaj.org/doaj?func=loadTempl&templ=faq#metadata
      • Die Elektronische Zeitschriftenbibliothek der Universität Regensburg
        http://ezb.uni-regensburg.de/
        http://rzblx1.uni-regensburg.de/ezeit/fl.phtml?colors=1&notation=SQ-SU
      • Networked Digital Library of Theses and Dissertations (NDLTD)
        http://www.ndltd.org/
      • Open Access Ressourcen
        http://www.soros.org/openaccess
        http://www.lib.umich.edu/copyright/open-access




                                           7
http://www.ndltd.org/resources/open-access
        http://oad.simmons.edu/oadwiki/
      • Wikipedia (de)
        http://de.wikipedia.org/wiki/Open_Access
        http://de.wikipedia.org/wiki/Open-Access-Zeitschrift
        http://de.wikipedia.org/wiki/Library_of_Congress_Classification
      • Wikipedia (en)
        http://en.wikipedia.org/wiki/Open_access_journalt
        http://en.wikipedia.org/wiki/Open_access_%28publishing%29
        http://en.wikipedia.org/wiki/Library_of_Congress_Classification


3     formate zum austausch von publikations-metadaten

Es existieren verschiedene Standards, um Konzepte des Semantic Web
einheitlich zu beschreiben. Für die anschließende Vorstellung von For-
maten zum Austausch von Metadaten werden an dieser Stelle einige
Standards vorgestellt, die zur Beschreibung der Austauschformate ver-
wendet werden. Zur Verdeutlichung der Unterschiede zwischen den
Standards werden hier gezielt die verwendeten Konzepte aufgelistet.

3.1     Standard-Vokabularien

Im Kontext des Semantic Web werden in verschiedensten Projekten
Vokabularien benötigt, um Ressourcen zu klassifizieren. Innerhalb von
eigenständigen Projekten wäre es möglich, individuelle Schemata zu
verwenden. Spätestens bei dem Austausch von Daten werden hier
schnell Inkonsistenten beobachtbar und verschiedene Schemata damit
nicht vergleichbar. Zur Vereinheitlichung von Vokabularien gibt es
standardisierte Konventionen, um auf eine einheitliche Basis bei der
Benennung und Nutzung von Begriffen zurückgreifen zu können. Im
Folgenden werden einige ausgewählte Standards vorgestellt, die beim
Austausch von Publikations-Metadaten genutzt werden.

3.1.1    Dublin Core
Das Dublin Core Metadata Element Set ist eine 15-elementige Menge
von Vokabeln, die zur einheitlichen Beschreibung von Klassen vorge-
schlagen wird. Urheber dieser Menge ist die 1994 gegründete offene
Organisation Dublin Core Metadata Initiative (DCMI). Die 15 Elemente
der Menge bilden den Kern, der als RFC, ISO und ANSI/INSO Stan-
dard veröffentlicht wurde. Die zugehörigen Elemente sind: contributor,
coverage, creator, date, description, format, identifier, language, publisher, re-
lation, rights, source, subject, title und type. Diese Menge an Elementen
steht unter ständiger Weiterentwicklung. Ein zusätzlicher Namensraum
schlägt folgende Elemente vor: abstract, accessRights, accrualMethod, ac-
crualPeriodicity, accrualPolicy, alternative, audience, available, bibliograph-
icCitation, conformsTo, created, dateAccepted, dateCopyrighted, dateSubmit-
ted, educationLevel, extent, hasFormat, hasPart, hasVersion, instructional-
Method, isFormatOf, isPartOf, isReferencedBy, isReplacedBy, isRequiredBy,
issued, isVersionOf, license, mediator, medium, modified, provenance, refer-
ences, replaces, requires, rightsHolder, spatial, tableOfContents, temporal und
valid. Diese Elemente bilden eine Grundlage, um allgemeine Artefakte,
wie sie z.B. im Internet oft auffindbar sind, und deren Relationen zu
beschreiben. Zusätzlich zu diesen generellen Angaben existieren weit-
ere Ansätze, wie SWRC, die für die Beschreibung spezieller Kontexte
ausgelegt sind.

3.1.2    Semantic Web for Research Communities (SWRC)
Die SWRC Ontologie wurde am Institut für Angewandte Informatik
und Formale Beschreibungsverfahren (AIFB) des Karlsruher Institus für




                                       8
Technologie entwickelt. Sie fokussiert das Modellieren von Forschungs-
Gemeinschaften, wie z.B. Organisationen, Personen oder Publikatio-
nen und deren Beziehungen. Um einen guten Einblick über die Un-
terschiede der Vokabularien zu geben, hier eine umfangreiche (aber
unvollständige) Liste der definierten Konzepte: Proceedings, SoftwarePro-
ject, ProjectReport, ResearchTopic, Association, InCollection, Booklet, InPro-
ceedings, InBook, SoftwareComponent, Institute, Department, Unpublished,
Lecture, MasterThesis, Manual, Manager, ResearchGroup, Exhibition, Misc,
Book, FullProfessor, Lecturer, Article, AcademicStaff, Product, Meeting, Pro-
jectMeeting, AssistantProfessor, Student, Undergraduate, Workshop, Event,
Conference, FacultyMember, AssociateProfessor, Report, TechnicalReport, Re-
searchProject, Graduate, PhDStudent, Project, DevelopmentProject, Techni-
calStaff, Thesis, PhDThesis, University, Organization, Enterprise, Employee,
AdministrativeStaff, Topic, Person und Publication. Es ist zu erkennen,
dass eine Reihe von Konzepten aus dem Kontext von Universität, Lehre
und Forschung definiert werden. Darüber hinaus gibt es Konzepte
wie Chapter, ISBN, Year oder Pages, die eine hohe Korrelation mit Bib-
TeX Elementen aufweisen. Ein Vokabular, das eher auf die Rollen und
Beziehungen von Personen aufbaut, ist FOAF.

3.1.3    The Friend of a Friend (FOAF) project
Das Friend of a Friend (FOAF) project definiert Konzepte, mit denen
Personen, Beziehungen zwischen ihnen und den Artefakten, die sie
erstellen, beschrieben werden können. Der Kern der definierten Voka-
beln besteht aus den Elementen: Agent, Person, name, title, img, depiction
(depicts), familyName, givenName, knows, based_near, age, made (maker),
primaryTopic (primaryTopicOf), Project, Organization, Group, member, Docu-
ment und Image. Außerdem existiert eine Erweiterung für die Belange
des Social Web, die etwa nick, homepage, jabberID, interest, account oder
thumbnail definiert. Die hier vorgestellten Standards bilden Teile von
Versionen des Austauschformats BuRST.

3.2     Bibliography Management using RSS Technology (BuRST)

BuRST ist eine Spezifikation zum Austausch von bibliografischen Infor-
mationen. Das Format wird im Rahmen des EU-Projektes Sustaining
Technology Enhanced Learning at a LARge scale (STELLAR) entwickelt.
Es setzt für den Austausch von Daten auf das RSS Format in Version
1.0. Für die Beschreibung der Daten wird kein eigenes, neues Vokabular
verwendet. Stattdessen wird vorgeschlagen, wie vorhandene Standards
kombiniert werden können um Publikationen sinnvoll zu beschreiben.
Dafür werden Elemente aus Dublin Core und SWRC genutzt. In der ak-
tuellen Version werden keine Elemente aus dem FOAF-Projekt genutzt,
voraussichtlich wird dies aber in der nächsten Version wieder der Fall
sein. Um einen Eindruck des Formats zu schaffen, gibt Listing 1 eine
gekürzte Version eines BuRST Feeds wieder.
   Das BuRST Format bietet ein breites Spektrum von Möglichkeiten,
Publikationen zu beschreiben. Daher ist es ein Kandidat für den Import
und Export von wissenschaftlichen Veröffentlichungen im AAN System.
Eine Liste mit Institutionen, die das Format bereits für den Export
nutzen, ist in Abschnitt 3.4 aufgeführt. Der Umfang der Spezifikation
und die laufende Entwicklung stellen allerdings auch Argumente gegen
die Nutzung dar. Für den Austausch von Publikations-Metadaten ist
neben BuRST auch das OAI-Protokoll ein Kandidat.

3.3     The Open Archives Initiative Protocol for Metadata Harvesting

Das Open Archives Initiative Protocol for Metadata Harvesting ist eine
Spezifikation, um Schnittstellen zum Austausch von Datensätzen bereit-



                                       9
Listing 1: Beispiel eines BuRST Feeds
<?xml v e r s i o n= " 1 . 0 " encoding= "UTF−8" ?>
<?xml− s t y l e s h e e t h r e f = " xmlverbatimwrapper . x s l " type= " t e x t / x s l " ?>
<rdf:RDF
 xmlns= " h t t p : //p u r l . org/ r s s /1.0/ "
 x m l n s : r d f = " h t t p : //www. w3 . org /1999/02/22 − rdf −syntax −ns # "
 x m l n s : r d f s = " h t t p : //www. w3 . org /2000/01/ rdf −schema# "
 xmlns:swrc= " h t t p : //swrc . ontoware . org/ontology/ontoware # "
 x m l n s : f o a f = " h t t p : //xmlns . com/ f o a f /0.1/ "
 x m l n s : t a x o = " h t t p : //p u r l . org/ r s s /1.0/ modules/taxonomy/ "
 xmlns:dc= " h t t p : //p u r l . org/dc/elements /1.1/ "
 xmlns:syn= " h t t p : //p u r l . org/ r s s /1.0/ modules/ s y n d i c a t i o n / "
 xmlns:admin= " h t t p : //webns . n e t /mvcb/ "
 x m l n s : b u r s t = " h t t p : //xmlns . com/ b u r s t /0.1/ "
 x m l : b a s e= " h t t p : //www. c s . vu . n l /~pmika/ b u r s t . r d f " >

 < r s s : c h a n n e l r d f : a b o u t = " h t t p : //www. c s . vu . n l /~pmika/ b u r s t . r d f " >
  < r s s : t i t l e > P e t e r Mika ’ s p u b l i c a t i o n s </ r s s : t i t l e >
  < r s s : l i n k > h t t p : //www. c s . vu . n l /~pmika/ r e s e a r c h /pub . rdf </ r s s : l i n k >
  <rss:description >
     Semantic Web r e l a t e d p u b l i c a t i o n s authored by P e t e r Mika .
  </ r s s : d e s c r i p t i o n >
  <rss:items >
    <rdf:Seq >
       < r d f : l i r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t # 1 " />
       < r d f : l i r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t # 2 " />
    </ r d f : S e q >
  </ r s s : i t e m s >
  < r d f s : s e e A l s o r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~mcaklein/pub . r d f " />
 </ r s s : c h a n n e l >

 < r s s : i t e m r d f : a b o u t =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t #1" >
  < r s s : t i t l e >Foundations f o r S e r v i c e O n t o l o g i e s : Aligning OWL S t o          −
             DOLCE</ r s s : t i t l e >
  < r s s : l i n k > h t t p : //www2004 . org/p roc eed ing s/docs /1p563 . pdf</ r s s : l i n k >
  < r s s : d e s c r i p t i o n >An a b s t r a c t o f t h e document</ r s s : d e s c r i p t i o n >
  < d c : s u b j e c t >Semantic Web</ d c : s u b j e c t >
  <burst:publication >
    <swrc:InProceedings >
       < s w r c : t i t l e >Foundations f o r S e r v i c e O n t o l o g i e s : Aligning OWL S t o         −
                 DOLCE</ s w r c : t i t l e >
       <s w r c : a u t h o r >
         < f o a f : P e r s o n r d f : I D =" PeterMika " >
            <foaf:name > P e t e r Mika</foaf:name >
            < r d f s : s e e A l s o r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ f o a f . r d f " />
         </ f o a f : P e r s o n >
       </s w r c : a u t h o r >
       < s w r c : b o o k t i t l e >Pro ceedings o f t h e 13 th I n t e r n a t i o n a l World Wide Web
                 Conference (WWW2004) </ s w r c : b o o k t i t l e >
       < s w r c : y e a r >2004</ s w r c : y e a r >
       <swrc:pages >563−−573</swrc:pages >
    </ s w r c : I n P r o c e e d i n g s >
  </ b u r s t : p u b l i c a t i o n >
 </ r s s : i t e m >
</rdf:RDF >




zustellen. Es basiert auf dem Hypertext Transport Protocol und der
XML. Die Interoperabilität wird durch eine Strukturierung nach Dublin
Core gefördert. Die Schnittstelle des OAI-Protokolls wird über URLs
bereitgestellt. Ein Beispiel-Aufruf einer URL ist http://archive.org/oai
?verb=ListRecords &metadataPrefix=oai_dc. Hier ist der Hauptparameter
jeden Aufrufs erkennbar, ein Schlüssel-Wert-Paar der Form verb=Wert.
Mit diesem Verb wird einer der 6 Anfrage-Typen angegeben: Iden-
tify, ListMetadataFormats, ListSets, ListIdentifiers, ListRecords oder Ge-
tRecord. Das Verb ListRecords ist der häufigst genutzte Anfragetyp, seine
Rückgabe besteht aus einer Liste von Datensätzen. Die Flusskontrolle
der Protokolls besteht nicht aus einer Form, in der der erste gewün-
schte Datensatz (in der Form startEntry=50) manuell generiert werden
muss. Die Rückgabe eines Aufrufs stellt ein sogenanntes resumption-
Token Token innerhalb der XML-Daten bereit. Dieses Token kann bei
Folgeaufrufen genutzt werden, um an eine Anfrage anzuknüpfen. Eine
Beispielrückgabe ist in Listing 2 gezeigt.
   Es ist zu erkennen, dass die zurückgegebenen Felder sehr homogen
geformt sind. Jedes Feld wird ausnahmslos über Dublin Core be-
schrieben. Die XML-Verschachtelung eines einzelnen Eintrags wird
jedoch nicht stark genutzt, die Metadaten-Einträge befinden sich alle



                                                              10
Listing 2: Beispiel eines OAI-PMH Aufrufs
<record>
 <header>
  < i d e n t i f i e r > o a i : d o a j . o r g : 2 0 6 7 − 3957</ i d e n t i f i e r >
  <datestamp>2010 − 05 − 12 T 2 0 : 1 9 : 2 4 Z </datestamp>
 </header>
 <metadata>
  < o a i _ d c : d c x s i : [ . . . ] o a i _ d c . xsd " >
   <dc:title >
      B r a i n . Broad Research i n A r t i f i c i a l I n t e l l i g e n c e and Neuroscience
   </ d c : t i t l e >
   < d c : i d e n t i f i e r > h t t p : // b r a i n . e d u s o f t . ro/index . php/brain </ d c : i d e n t i f i e r >
   < d c : i d e n t i f i e r > i s s n : 2067 − 3957</ d c : i d e n t i f i e r >
   < d c : p u b l i s h e r >EduSoft p u b l i s h i n g </ d c : p u b l i s h e r >
   < d c : d a t e >2009</ d c : d a t e >
   <dc:language >English </dc:language >
   < d c : s u b j e c t > a r t i f i c i a l i n t e l l i g e n c e </ d c : s u b j e c t >
   < d c : s u b j e c t >LCC: RC321 −571</ d c : s u b j e c t >
   < d c : s u b j e c t >LCC: RC346 −429</ d c : s u b j e c t >
   < d c : s u b j e c t > D o a j S u b j e c t T e r m : Computer S c i e n c e </ d c : s u b j e c t >
  </ o a i _ d c : d c >
 </metadata >
</record >




auf gleicher Höhe. Wie zu erkennen ist, gibt es in dem Beispiel drei
verschiedene Arten von Kategorien. Diese werden durch ein Präfix
voneinander unterschieden. So werden verschiedene Konzepte in der
Baumstruktur gleich dargestellt: Das Tag „artificial intelligence“, die
LCC-Kategorien und die DOAJ Kategorie „Computer Science“. In der
Praxis hat dies jedoch kein Problem dargestellt, über die Präfixe kon-
nten alle Konzepte ohne Probleme erkannt und die Daten extrahiert
werden. In Abschnitt 3.4 ist je eine Webseite mit Quellen, die per OAI-
Protokoll zugreifbar sind und Richtlinien für die Implementierung
eines eigenen Archivs aufgeführt.
   Bis zu diesem Punkt wurden Open Access Quellen und Formate für
die Übertragung von Metadaten vorgestellt. Mit diesen Informationen
können bereits Metadaten von wissenschaftlichen Veröffentlichungen
extrahiert werden. Der nächste Teil dieses Textes befasst sich mit der Ex-
traktion von Daten aus Publikationen im PDF-Format. Vorerst werden
aber noch Ressourcen für eine weitere Recherche bereitgestellt.

3.4      Ansatzpunkte zur weiteren Recherche

      • Dublin Core
          http://dublincore.org/documents/dcmi-terms/
          http://de.wikipedia.org/wiki/Dublin_Core
      • Semantic Web for Research Communities
          http://ontoware.org/swrc/
      • The Friend of a Friend (FOAF) project
          http://www.foaf-project.org/
      • BuRST
          http://stellarnet.eu/d/6/3/BuRST_format_adaption_discussion
          http://www.cs.vu.nl/~pmika/research/burst/BuRST.html
          http://stellarnet.eu/d/6/3/Directory_of_BuRST_feeds
          http://www.cs.vu.nl/~pmika/research/thesis/thesis.pdf
          http://web.resource.org/rss/1.0/spec
      • OAI-Protokoll
          http://www.openarchives.org/pmh/
          http://www.oaforum.org/tutorial/
          http://www.openarchives.org/OAI/openarchivesprotocol.html
          http://www.openarchives.org/Register/BrowseSites
          http://www.openarchives.org/OAI/2.0/guidelines-repository.htm




                                                             11
Abbildung 3: ParsCit Demo - Ausgabe der Kopfdaten



4     daten-extraktion aus pdf-dateien

Die automatische Generierung von Publikations-Netzwerken, verbun-
den durch Zitierungen ist eine nicht-triviale Aufgabe. Veröffentlichun-
gen werden mit unterschiedlichen Vorgaben für Layouts erstellt. Das
gilt für die Textstruktur, wie auch für den Literatur-Abschnitt, mit
dem der Kontext einer Veröffentlichung erfasst werden kann. Für die
Formatierung und die Reihenfolge von Zitaten gibt es verschiedene
Standards. Diese erschweren neben versehentlichen Fehlangaben in
Publikationen die Extraktion von einzelnen Bestandteilen (z.B. Titel,
Autor, Zeitschrift). Der Schwerpunkt dieses Abschnitts liegt auf der
Software ParsCit, welche eine der führenden Umsetzungen für die
Analyse und Extraktion von Bestandteilen wissenschaftlicher Artikel
ist.

4.1     ParsCit

Die quelloffene Software ParsCit stellt Funktionen zur Verfügung, um
logische Dokument-Strukturen aus einer gegebenen Publikation zu
extrahieren. Priorisiert wird dabei die Extraktion und Analyse von
Referenz-Strings. Dazu wird das Conditional Random Field (CRF) Mo-
dell, gekoppelt mit heuristischen Verfahrensweisen genutzt. Das CRF
ist ein ungerichtetes grafisches Modell zu Taggen von sequenziellen
Daten, wie natürlicher Sprache. Damit ist es möglich, Lernverfahren
anzuwenden, um das CRF zu trainieren. Für ParsCit wird die CRF
Implementierung CRF++ genutzt. Nachfolgend wird die Arbeitsweise
der Software und anschließend die praktische Anwendung beschrieben.

4.1.1    Arbeitsweise
Die Extraktion mittels ParsCit ist in [4] beschrieben. Zunächst müssen,
basierend auf der Ausgabe von CRF++, einige Schritte durchgeführt
werden. Die Namen der Autoren verschiedener Schreibweisen (z.B.
„M. Mustermann“ oder „Mustermann, Max“) werden normalisiert, also
in ein einheitliches Format überführt. Diese Normalisierung wird auch
für Nummern („vol. 7“), Jahresangaben und Seitenzahlen („pp. 13-
42“) durchgeführt. Nach der Segmentierung der Referenzen wird der
Haupttext mittels regulärer Ausdrücke nach Zitaten durchsucht. Dabei
werden drei verschiedene Typen von Formatierungen berücksichtigt:
Einfache Nummerierungen („7“ oder „7.“), Strings in Klammern („(7)“,
„[7, 13]“ oder „[Mustermann11]“) und unmarkierte Listen, wie beim
APA Stil. Dabei wird so vorgegangen, dass einfache Nummerierungen
nur genutzt werden, wenn keine Klammer-Notation gefunden wurde.
Interne Referenzierungen (z.B. „siehe Abbildung 3“) werden nicht ein-
bezogen. Außerdem wird jeder reguläre Ausdruck auf den Haupttext
angewandt, um eine Liste von Kontext-Inhalten zu generieren. Die prak-
tische Ausführung dieser Arbeitsweise wird nachfolgend beschrieben.




                                  12
Abbildung 4: ParsCit Demo - Ausgabe einer Referenz



                            Listing 3: Beipiel einer ParsCit Eingabe
A r t e f a c t −Actor −Networks as t i e between s o c i a l
networks and a r t e f a c t networks
Wolfgang Reinhardt
U n i v e r s i t y o f Paderborn
I n s t i t u t e f o r Computer S c i e n c e
33102 Paderborn , Germany
Email : wolle@upb . de
[...]
A b s t r a c t − S o c i a l networks r e f l e c t communication , c o o p e r a t i o n
and l o o s e a c q u a i n t a n c e s i n networked communities . Numerous
[...]
REFERENCES
[ 1 ] CollaborateCom 2009 Programme Committee , " C a l l f o r paper
f o r t h e CollaborateCom 2 0 0 9 , " h t t p ://www. c o l l a b o r a t e c o m . org/docs/
CollaborateCom 09 c f p . pdf , 2 0 0 9 .
[ 2 ] J . C . M i t c h e l l , S o c i a l Networks i n urban s i t u a t i o n s : Analyses o f
          personal
r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns . Manchester : U n i v e r s i t y Press ,
1969.
[...]
[ 2 1 ] T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ , r e t r i e v e d on
          2009 −
07 − 17 , J u l y 2 0 0 9 .
[ 2 2 ] U n i v e r s i t y o f Toronto , " Blogscope , " h t t p ://www. blogscope . n e t / ,
          retrieved
on 2009 − 07 − 17, J u l y 2 0 0 9 .
[...]




4.1.2       Anwendung
ParsCit stellt zwei Wege der Anwendung bereit: Einen Webservice
und die lokale Ausführung. Hinweise zur jeweiligen Ausführung wer-
den auf der Webseite (siehe Abschnitt 4.4) und in den dem Code
beigefügten Readme-Dateien gegeben. Auf der Webseite werden zu-
dem Web-basierte Demonstrationen zur Verfügung gestellt. Für einen
ersten, grafisch aufbereiteten, Einblick wurde die Demo #1 mit der auf
der Webseite verlinkten Datei E06-1050.txt ausgeführt. Teile der Aus-
gabe sind in den Abbildungen 3 und 4 dargestellt. Die Kopfangaben
der Textdatei wurden im Vergleich auf die Quelle fehlerfrei extrahiert.
Obwohl es für eine eigene Referenz nicht verwunderlich gewesen wäre,
wenn alle Daten ohne Fehler erkannt worden wären, gibt es kleinere Ab-
weichungen in der Ausgabe der ersten Referenz. In Abbildung 4 ist eine
Legende der möglichen Felder, dem Ursprungstext, einem Ausschnitt
aus dem Haupttext mit dem eigentlichen Zitat und das Extraktions-
Ergebnis zu sehen. Bei der Angabe des Bandes fehlt der Zusatz „(2)“
und die Seitenzahlen fehlen gänzlich. Die wichtigsten Angaben, Autor
und Titel werden jedoch korrekt erkannt.
   Für eine praktische Verwendung innerhalb des AAN Systems bietet
sich die direkte Nutzung des Codes an. Auf den Zugriff über den
Webservice per Web Services Description Language (WSDL) wird daher
an dieser Stelle nicht weiter eingegangen. Stattdessen wurde ParsCit
auf einem Testsystem installiert. Um einen Praxistest durchzuführen,
wurde eine AAN Veröffentlichung [9] ausgewertet. Dazu muss ein PDF
zunächst in UTF-8 kodierten Reintext konvertiert werden. Dies kann




                                                              13
Listing 4: Beipiel einer ParsCit Ausgabe
[...]
<citationList >
 < c i t a t i o n v a l i d =" t r u e " >
  < t i t l e >Programme Committee , " C a l l f o r paper f o r t h e
             CollaborateCom </ t i t l e >
  <date >2009</ date >
  < i n s t i t u t i o n >CollaborateCom </ i n s t i t u t i o n >
  <note > h t t p ://www. c o l l a b o r a t e c o m . org/docs/ CollaborateCom 09
             c f p . pdf</note >
  <contexts >
    <context position ="1330" c i t S t r = " [ 1 ] " startWordPosition ="175"
               endWordPosition ="175" > through t h e e x i s t e n c e o f
               A r t e f a c t A c t o r −Networks . I . INTRODUCTION Computer mediated
               communication (CMC) has evolved t o an important f a c t o r o f
               i n d u s t r y , s c i e n c e and r e s e a r c h wi thin t h e l a s t decades . As [ 1 ]
               puts i t , we produce j o i n t products and a c h i e v e h i g h e r
               p r o d u c t i v i t y by e l e c t r o n i c c o l l a b o r a t i o n between d i s t r i b u t e d
               teams o f humans , computer a p p l i c a t i o n s , and/or autonomous r o b o t s .
               Todays communicati </ c o n t e x t >
  </ c o n t e x t s >
  <marker >[1] </ marker>
  <rawString >CollaborateCom 2009 Programme Committee , " C a l l f o r paper f o r
             t h e CollaborateCom 2 0 0 9 , " h t t p ://www. c o l l a b o r a t e c o m . org/docs/
             CollaborateCom 09 c f p . pdf , 2009. </ rawString >
 </ c i t a t i o n >
 < c i t a t i o n v a l i d =" t r u e " >
  <authors >
    <author > J C M i t c h e l l </author >
  </authors >
  < t i t l e > S o c i a l Networks i n urban s i t u a t i o n s : Analyses o f p e r s o n a l
             r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns</ t i t l e >
  <date >1969</ date >
  < p u b l i s h e r >Manchester : U n i v e r s i t y Press </ p u b l i s h e r >
  <contexts >
    <context position ="2258" c i t S t r = " [ 2 ] " startWordPosition ="317"
               endWordPosition ="317" > s e t o f l i n k a g e s among a d e f i n e d s e t o f
               persons with t h e a d d i t i o n a l p r o p e r t y t h a t t h e c h a r a c t e r i s t i c s o f
               t h e s e l i n k a g e s as a whole may be used t o i n t e r p r e t t h e s o c i a l
               behaviour o f t h e persons involved ’ [ 2 ] . By extending M i t c h e l l ’ s
               i n t e r p r e t a t i o n o f a s o c i a l network , we g e t a more g e n e r i c
               d e f i n i t i o n o f s o c i a l networks . S o c i a l networks r e p r e s e n t s o c i a l
               s t r u c t u r e s by means o f t i e s between nodes . These node</ c o n t e x t >
  </ c o n t e x t s >
  <marker >[2] </ marker>
  <rawString > J . C . M i t c h e l l , S o c i a l Networks i n urban s i t u a t i o n s :
             Analyses o f p e r s o n a l r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns .
             Manchester : U n i v e r s i t y Press , 1969. </ rawString >
 </ c i t a t i o n >
[...]
 < c i t a t i o n v a l i d =" t r u e " >
  <authors >
    <author > T e c h n o r a t i Inc </author >
  </authors >
  < t i t l e > T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ , r e t r i e v e d on</ t i t l e >
  <date >2009</ date >
  <pages >2009−−07</pages >
  <contexts >
    <context position ="29725" c i t S t r = " [ 2 1 ] " startWordPosition ="4600"
               endWordPosition = " 4 6 0 0 " > [ . . . ] < / c o n t e x t >
  </ c o n t e x t s >
  <marker >[21] </ marker>
  <rawString > T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ ,
             r e t r i e v e d on 2009 − 07 − 17, J u l y 2009. </ rawString >
 </ c i t a t i o n >
 < c i t a t i o n v a l i d =" f a l s e " >
  <date >2009</ date >
  <pages >2009−−07</pages >
  < i n s t i t u t i o n > U n i v e r s i t y o f Toronto </ i n s t i t u t i o n >
  <note >Blogscope , " h t t p ://www. blogscope . n e t / , r e t r i e v e d on</note >
  <contexts >
    <context position ="29731" c i t S t r = " [ 2 2 ] " startWordPosition ="4601"
               endWordPosition = " 4 6 0 1 " > [ . . . ] < / c o n t e x t >
  </ c o n t e x t s >
  <marker >[22] </ marker>
  <rawString > U n i v e r s i t y o f Toronto , " Blogscope , "
             h t t p ://www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17, J u l y
             2009. </ rawString >
 </ c i t a t i o n >
[...]




mit dem Tool pdftotext geschehen. Der Parameter -raw wird benötigt,
damit die Reihenfolge der Strings im Inhalt erhalten bleibt:

pdftotext -raw 2009_CC_AAN.pdf



                                                         14
Listing 5: Beipiel einer ParsCit Lernvorgabe
<author> CollaborateCom 1982 Programme Committee , </author>
< t i t l e > " C a l l f o r paper f o r t h e CollaborateCom 1 9 8 2 , " </ t i t l e >
<note> h t t p : //www. c o l l a b o r a t e c o m . org/docs/CollaborateCom82_cfp . pdf </note>
< b o o k t i t l e > Proc . 5 th . BCS−FACS Refinement Workshop , </ b o o k t i t l e >
<date> 1 9 9 2 . </date>
<author> B r a i n f u c k I n c . , </author>
< t i t l e > " Brainfuck , " </ t i t l e >
<note> h t t p : //www. muppetlabs . com/~breadbox/ b f / , r e t r i e v e d on
          1999 − 12 − 31,</note>
<volume> 1 ( 1 ) , </volume>
<date> December 1 9 9 9 . </date>




Einen Eindruck der generierten Textdatei verschafft Listing 3. Wie
zu sehen ist, sind die Kopfdaten, der Text und die Referenzen mit
den durchschnittlichen kognitiven Fähigkeiten einer realen Person
unmittelbar erkennbar. Im Eingabecode sind die ersten beiden Einträge
der Referenzliste und, für einen folgenden Vergleich, die Referenzen 21
und 22 aufgeführt. Der tatsächliche Extraktionsvorgang für Referenzen
wird mit folgendem Befehl gestartet:

citeExtract.pl 2009_CC_AAN.txt > 2009_CC_AAN.xml

Die daraufhin generierte Ausgabe für die aufgeführten Referenzen der
Eingabe ist in Listing 4 abgebildet. Der XML Code wurde nachträglich
eingerückt und drei der Zitat-Kontexte entfernt. Für jedes Zitat werden,
sofern gefunden, Autoren, Titel, Datum, Herausgeber, Seiten, Institu-
tion, Kommentar, Zitat-Kontext, Zitat-Markierung und der gefundene
Eingabe-String ausgegeben. Bei der Ausgabe des ersten Zitates wird
der Autor nicht korrekt erkannt. Eine wahrscheinliche Ursache ist, dass
dort kein Name einer Person angegeben wurde und zusätzlich eine
Jahreszahl verwendet wurde. Dadurch ist möglicherweise auch der
zweite Teil des Namens als Bestandteil des Titels erkannt worden. Dem
Titel fehlt wiederum die abschließende Jahreszahl. Die Notiz und der
Marker wurden erfolgreich erkannt, der fehlende Unterstrich der Notiz
ist ein Folgefehler der Umwandlung der PDF-Datei in Reintext. Die
Hauptangaben des zweiten Zitats wurden erfolgreich erkannt. Hier
wird der Ort der Veröffentlichung zum Herausgeber hinzugefügt, was
vernachlässigt werden kann. Das Zitat mit der Nummer 21 wurde
in das Beispiel aufgenommen, da es dem Folgezitat ähnelt, welches
als nicht valide gekennzeichnet wurde. Bei beiden Zitaten handelt es
sich um Webseiten, deren Hinweis auf ihre Sichtung als Seitenzahl
interpretiert wurde. Lediglich Marker, Autor und Datum wurden hier
erfolgreich erkannt. Diese Art von Zitat ist eine Ausnahme und spielt
für die Referenzierung von Publikationen untereinander keine Rolle,
da es sich um Webseiten handelt. Der Unterschied zwischen den Va-
liditätsangaben lässt sich mit den geparsten Eingaben erklären. Beim
Zitat 21 gibt es einen zusätzlichen Zeilenumbruch. Dieser ist eigentlich
eine Fehlkonversion aus dem PDF-Format und ist bedingt durch den
-raw Parameter. Interessant ist die Tatsache, dass das Zitat 21, mit der
eigentlich falschen Eingabe, validiert wird.

4.1.3    Training
Basierend auf den fehlerhaften Extraktionen wurde eine Vorgabe für
ein Training erstellt. Die Lernvorgabe, dargestellt in Listing 5 ist stark
auf eine Verbesserung der gegebenen Zitate ausgelegt. Für das er-
ste Zitat wurde lediglich ein anderes Jahr gewählt, ansonsten wurde
ein zugeschnittenes Ergebnis vorgegeben. Für die Zitate 21 und 22
wurde die Struktur der Webseitenreferenzen beibehalten. Der Link und
die Angabe zum Abruf der Webseite wurden als Notiz vorgegeben.
Zusätzlich wurden (versehentlich) verfremdende Angaben eingefügt,
diese sollten das Ergebnis jedoch nicht stark verfälschen. Das Ergebnis



                                               15
Listing 6: Beipiel einer ParsCit Ausgabe nach dem Training
[...]
<citationList>
 < c i t a t i o n valid=" true ">
  < a u t h o r s>
    <author>Programme Committee</author>
  </ a u t h o r s>
  < t i t l e > C a l l f o r paper f o r t h e CollaborateCom 2009</ t i t l e >
  <date>2009</date>
  < b o o k t i t l e >CollaborateCom09 c f p . pdf</ b o o k t i t l e >
  <note> h t t p : //www. c o l l a b o r a t e c o m . org/docs</note>
  <contexts>
    < c o n t e x t p o s i t i o n = " 1330 " c i t S t r = " [ 1 ] " s t a r t W o r d P o s i t i o n = " 175 "
               endWordPosition= " 175 " > [ . . . ] </ c o n t e x t >
  </ c o n t e x t s >
  <marker> [ 1 ] </marker>
  <ra wS t ri n g>CollaborateCom 2009 Programme Committee , " C a l l f o r paper f o r
             t h e CollaborateCom 2 0 0 9 , " h t t p : //www. c o l l a b o r a t e c o m . org/docs/
             CollaborateCom09 c f p . pdf , 2 0 0 9 . </ra wS t ri n g>
 </ c i t a t i o n >
[...]
 < c i t a t i o n valid=" true ">
  < a u t h o r s>
    <author> T e c h n o r a t i I n c </author>
  </ a u t h o r s>
  < t i t l e > T e c h n o r a t i </ t i t l e >
  <date>2009</date>
  <note> h t t p : // t e c h n o r a t i . com/ , r e t r i e v e d on 2009 − 07 − 17</note>
  <contexts>
    < c o n t e x t p o s i t i o n = " 29725 " c i t S t r = " [ 2 1 ] " s t a r t W o r d P o s i t i o n = " 4600 "
               endWordPosition= " 4600 " > [ . . . ] </ c o n t e x t >
  </ c o n t e x t s >
  <marker> [ 2 1 ] </marker>
  <ra wS t ri n g> T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p : // t e c h n o r a t i . com/ ,
             r e t r i e v e d on 2009 − 07 − 17, J u l y 2 0 0 9 . </ra w St ri n g>
 </ c i t a t i o n >
 < c i t a t i o n valid=" true ">
  < a u t h o r s>
    <author> U n i v e r s i t y o f Toronto</author>
  </ a u t h o r s>
  < t i t l e >Blogscope</ t i t l e >
  <date>2009</date>
  <note> h t t p : //www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17</note>
  <contexts>
    < c o n t e x t p o s i t i o n = " 29731 " c i t S t r = " [ 2 2 ] " s t a r t W o r d P o s i t i o n = " 4601 "
               endWordPosition= " 4601 " > [ . . . ] </ c o n t e x t >
  </ c o n t e x t s >
  <marker> [ 2 2 ] </marker>
  <ra wS t ri n g> U n i v e r s i t y o f Toronto , " Blogscope , "
             h t t p : //www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17, J u l y
             2 0 0 9 . </ra wS t ri ng>
 </ c i t a t i o n >
[...]




der erneuten Extraktion (siehe Listing 6) ist besser. Die Referenzen
auf Webseiten wurden korrekt erkannt. Beim ersten Zitat scheint die
Jahreszahl im Autorenfeld sowie das Leerzeichen in der URL ein Pro-
blem darzustellen. Insgesamt ist die Ausgabe jedoch ein zufriedenstel-
lendes Ergebnis.

4.2     Weitere Software

Die Verwendung von ParsCit scheint ein probates Mittel zur Extrak-
tion von Referenzen zu sein. Daher folgt an dieser Stelle eine Liste
(siehe Tabelle 1) von Alternativen; auf weitere umfassende Tests wird
verzichtet.


                 Tabelle 1: Software zur Extraktion von Referenzen
           Ansatz                     Aktualität               System                          Kommentar
           ParsCit                    01.11.2010             Perl, CRF++
           FreeCite                   16.04.2009         Ruby on Rails, CRF++
    Biblio-Citation-Parser            02.09.2004                 Perl                          Mike Jewell
          ParaTools                   05.09.2004                 Perl                          Mike Jewell
          California                  02.07.2008               Python                        Hidden Markov
       Digital Library                                                                          Models




                                                          16
4.3    Herausforderungen

Für die weitere Arbeit mit extrahierten Referenzen fallen zwei mögliche
Hindernisse ins Auge. Die Extraktion von Kopfdaten von Publikationen
scheint angemessen gut zu klappen. Basierend auf diesen Daten kön-
nen eindeutige URIs generiert werden, mit denen Veröffentlichungen
referenziert werden können. Eine Herausforderung ist die Zuordnung
bei nicht korrekt extrahierten Datenfeldern der Referenzen. Dadurch
könnten Verweise fehlgeleitet werden. Eine mögliche Teillösung wäre
eine Suche nach vorhandenen Publikationen mit gleichem oder ähn-
lichen Titel, mit der ein korrektes Matching und eine Korrektur von
Relationen im Modell eingeleitet werden könnte. Die zweite Heraus-
forderung ist die Live-Generierung von Trainingsdaten. Diese sollten
korrekt sein, was bei einer Extraktion nicht der Fall sein muss. Ein Lö-
sungsansatz ist die Verwendung von Daten, die z.B. aus vorgegebenen
XML-Daten aus sicheren Quellen extrahiert wurden und sich daher für
einen Trainingsinput eignen.

4.4    Ansatzpunkte zur weiteren Recherche

      • ParsCit
        http://aye.comp.nus.edu.sg/parsCit/
      • Conditional Random Field
        http://crfpp.sourceforge.net/
        http://de.wikipedia.org/wiki/Conditional_Random_Field
        http://de.wikipedia.org/wiki/Web_Services_Description_Language
      • FreeCite
        http://freecite.library.brown.edu/
      • Biblio-Citation-Parser
        http://search.cpan.org/~mjewell/
      • ParaTools
        http://paracite.eprints.org/developers/
      • California Digital Library
        http://gales.cdlib.org/~egh/hmm-citation-extractor/


5     szientometrie, bibliometrie und zitationsanalyse

Szientometrie (Scientometrics), Bibliometrie (Bibliometrics) und Zita-
tionsanalyse (Citation analysis). Mehrautorenschaft (Co-authorship),
Kopplung von Kozitationen (Co-citation Coupling) und Bibliografische
Kopplung (Bibliographic Coupling). h-Index und g-Index? Dies wirkt
wie ein Gewitter von Begriffen, die irgendwie mit Zitaten und deren
Analyse zusammenhängen. Dieser Abschnitt soll wichtige Begriffe
und deren Bedeutung im Kontext von Zitierungen innerhalb von wis-
senschaftlichen Publikationen klären. Dazu werden zunächst Oberbe-
griffe erläutert und anschließend verschiedene Metriken der Zitations-
analyse vorgestellt. Das heißt, dass durch eine Analyse der Verweise
verschiedener Publikationen bestimmte Aussagen über eine Zusam-
mengehörigkeit gemacht werden. Es gibt auch Ansätze, die versuchen,
über die Menge der Veröffentlichungen eines Autors und deren Zi-
tierungen in anderen Veröffentlichungen (der Zitierrate) Aussagen über
den Status des Autors zu machen. Dies bildet den Abschluss dieses
Abschnitts.

5.1    Begriffsklärung

      • Die Szientometrie ist eine quantitative Methode und untersucht
        das wissenschaftliche Forschen. Es soll unter anderem die Frage
        beantwortet werden, wie und warum sich ein bestimmter Wis-
        senschaftsbereich entwickelt. Ein oft verwendetes Werkzeug ist
        die Bibliometrie.



                                     17
• Die Bibliometrie ist die quantitative Untersuchung von Publikatio-
        nen, Autoren und Institutionen wie Bibliotheken mittels statistis-
        cher Verfahren. Neben der Inhaltsanalyse ist ein weiteres Gebiet
        die Zitationsanalyse.
      • Die Zitationsanalyse beschäftigt sich im Wesentlichen mit Be-
        ziehungen zwischen zitierten und zitierenden Arbeiten, also mit
        dem Studium von Zitationen.

5.2     Zitationsanalyse

In der Zitationsanalyse werden verschiedene Zusammenhänge von
Autoren und deren Veröffentlichungen geschlossen. Als Indikator dient
oft die Anzahl von Zitierungen.
  An dieser Stelle werden die Metriken Co-authorship, Co-citation
Coupling und Bibliographic Coupling beschrieben.

5.2.1    Co-authorship (Mehrautorenschaft)
Eine Mehrautorenschaft bezeichnet die Verfassung eines Dokuments,
an der mehrere Mitautoren beteiligt sind. Durch das Zählen gemein-
sam erstellter Dokumente kann man den Grad der Zusammenarbeit
zweier oder mehrerer Autoren quantitativ ermitteln. Je mehr gemein-
same Dokumente eine Menge von Autoren zusammen verfasst hat,
desto höher ist der Grad ihrer Zusammenarbeit. In Abbildung 5 ist
ein Beispiel dreier Publikationen gegeben. Die Autoren A, B, C und D
waren an der Erstellung von Dokumenten beteiligt.




           A           B                  A   C     D         A    B   D



               Publikation        Autor




                             Abbildung 5: Beispiel Co-authorship


  In Tabelle 2 ist eine paarweise Auswertung des Beispiels angegeben.
Die Autoren A,B und A,D haben hiernach am meisten zusammen
gearbeitet, die Autoren B,C scheinen noch keine gemeinsame Arbeit
veröffentlicht zu haben.


        Tabelle 2: Auswertung des Beispiels Co-authorship
  CA(A,B) CA(A,C) CA(A,D) CA(B,C) CA(B,D) CA(C,D)
    2           1         2          0          1         1

   Dieses Beispiel ist sehr simpel gehalten. Bei einer großen Daten-
basis mit hunderten oder tausenden von Publikationen liefert dieses
Verfahren aber für die Praxis hilfreiche Ergebnisse. Gerade im Gebiet
Recommendations oder bei der Expertenfindung sind Mitautoren inter-
essant.
   Eine Visualisierung der für den Workshop LWA2010 [1] angenom-
menen Artikeln zeigt Abbildung 6. Auch dies ist ein einfaches Beispiel.
Da jeder Autor an lediglich einer Arbeit beteiligt war, sind klar trennbare
Cliquen zu erkennen. So ist zum Beispiel auf den ersten Blick sicht-
bar, dass die Autoren Daniela Godoy und Dominikus Heckmann die
einzigen beiden Personen sind, die eine Publikation ohne Mitautoren
eingereicht haben. Aber auch nur auf den ersten Blick, denn Daniel
Burgos hat sowohl eine Publikation alleine, als auch eine zweite Pub-
likation mit einem Mitautor eingereicht. So erklären sich auch die 11



                                              18
Abbildung 6: Co-authorship für LWA2010, Quelle: [12]



Cluster bei 12 Publikationen des Workshops. Die Mehrautorenschaft
bezieht sich auf Autoren, im Gegensatz dazu bezieht sich die nächste
Metrik auf Zitationen.

5.2.2   Co-citation Coupling (Kopplung von Kozitationen)
Durch den Ansatz der Kopplung von Kozitationen wird versucht, the-
matisch verwandte Inhalte von Publikationen zu erkennen. Dazu wird
die Anzahl gemeinsamer Zitationen innerhalb weiterer Publikationen
ermittelt. Wenn also zwei Publikationen A und B in einer Publikation
C referenziert werden, nimmt man an, dass deren Themen verwandt
sind. Auch, wenn A und B nicht gegenseitig auf sich verweisen. Je
mehr solche gemeinsame Zitationen gefunden werden, desto stärker
scheint ihre Beziehung zu sein. Abbildung 7 zeigt ein Beispiel mit drei
Publikationen 1 bis 3. Diese Publikationen referenzieren fünf weitere
Veröffentlichungen A bis E. Welche der Veröffentlichungen A bis E sind
nach dem Co-citation Coupling am stärksten thematisch verwandt?




                Abbildung 7: Beispiel Co-citation Coupling


  Tabelle 3 zeigt eine Auswertung des Beispiels. Die Publikationen
A,B und A,D wurden beide zweimalig gemeinsam referenziert und
scheinen somit am stärksten thematisch verwandt zu sein.
  In Abbildung 8 ist ein weiteres Beispiel einer Visualisierung des
LWA2010 Workshops gegeben. Die erkennbaren Cluster sind von den
Workshop-Beiträgen referenzierte Dokumente. Die Bildung der Clus-



                                    19
Tabelle 3: Auswertung des Beispiels Co-Citation Coupling
    CCC(A,B) CCC(A,C) CCC(A,D) CCC(A,E) CCC(B,C)
       2            1           2            1           1
    CCC(B,D) CCC(B,E) CCC(C,D) CCC(C,E) CCC(D,E)
       1            0           0            0           1


ter kommt daher, dass alle Dokumente, die gemeinsam durch einen
LWA2010-Beitrag referenziert wurden, durch eben diese Kozitation
gekoppelt werden. Vier Knoten stechen heraus. Diese vier Knoten wur-
den in jeweils zwei Workshop-Beiträgen referenziert und weisen daher
jeweils eine thematische Verwandtschaft zu zwei Clustern auf.




    Abbildung 8: Co-citation Coupling für LWA2010, Quelle: [12]


  Die Kopplung von Kozitationen bietet sich für ältere Arbeiten an
und kann sich im Lauf der Zeit verändern, was aber ist mit ganz neuen
Veröffentlichungen, auf die wegen ihres Alters noch nicht verwiesen
werden kann? Dazu eignet sich die folgende Metrik.

5.2.3   Bibliographic Coupling (Bibliografische Kopplung)
Die bibliografische Kopplung verfährt auf einem ganz ähnlichen Weg.
Allerdings in umgekehrter Weise. Wenn zwei Publikationen A und
B eine weiteres Dokument C referenzieren, dann sind A und B nach
dieser Metrik miteinander thematisch verwandt. Das Bibliographic
Coupling bietet sich auch für jüngere Arbeiten an, da nicht auf diese
selber verwiesen werden muss. In Abbildung 9 ist das bereits bekannte
Beispiel nochmals aufgeführt. Drei Publikationen 1 bis 3 verweisen auf
fünf weitere Publikationen A bis E. Welche der Publikationen 1 bis 3
haben nach der hier vorgestellten Metrik die am stärksten ausgeprägte
thematische Ähnlichkeit?
   In Tabelle 4 ist eine Auswertung des Beispiels gegeben. Die Publika-
tionen 1,2 und 2,3 haben jeweils zwei gleiche Zitierungen. Das sind A
und B im ersten Fall und A und D im zweiten Fall.



                                    20
Abbildung 9: Beispiel Bibliographic Coupling



        Tabelle 4: Auswertung des Beispiels Bibliographic Coupling
                       BC(1,2) BC(1,3) BC(2,3)
                          2         1         2


  In Abbildung 10 ist auch für das Bibliographic Coupling ein LWA2010
Beispiel zu sehen. Die 12 Knoten entsprechen den 12 eingereichten
Beiträgen. Acht der Beiträge weisen keine Ähnlichkeit mit anderen
Beiträgen auf. Bei vier Einreichungen ist eine Ähnlichkeit erkennbar.
Insbesondere bei „What is wrong with the IMS Learning Design spe-
cification?“ und „On the Role of Social Tags in Filtering Interesting
Resources from Folksonomies“ sind jeweils zwei ähnliche Dokumente
erkennbar.
  Zusätzlich zu den hier vorgestellten Zusammenhängen von Autoren
und Veröffentlichungen gibt es Maße, mit denen die Produktivität von
Autoren verglichen werden kann, sogenannte bibliometrische Maße.




  Abbildung 10: Bibliographic Coupling für LWA2010, Quelle: [12]




5.3     Bibliometrisches Maße

In diesem Abschnitt werden die relativ neuen (2005, 2006) Konzepte
h-Index und g-Index vorgestellt. Es existieren noch weitere biblio-
metrische Maße, dieser Abschnitt beschränkt sich auf die beiden bekan-
ntesten.

5.3.1    h-Index (Hirsch-Index)
Der Hirsch-Index (auch Hirschfaktor) wurde im November 2005 vom
amerikanischen Physik Jorge E. Hirsch [7] veröffentlicht. Er ist ein Maß
für die Produktivität und den Einfluss eines Autors. Zur Berechnung
des h-Index werden die Publikationen eines Autors nach der Anzahl
ihrer Zitierungen absteigend geordnet. Diese Liste geht man nun von
vorne durch und vergleicht den Index der Publikation mit ihrer Anzahl
an Zitierungen. Sobald die h-te Publikation weniger als h Zitierungen



                                    21
hat, ist der Hirsch-Index bestimmt. Abbildung 11 zeigt die Bestimmung
des h-Index bildlich.




Abbildung 11: h-Index, Quelle: http://de.wikipedia.org/wiki/H-Index


  Der Hirschfaktor berücksichtigt keine besonders hervorstechenden
Publikationen. So könnte ein Autor wenige Artikel mit sehr vielen
Zitierungen veröffentlicht haben. Dies könnte eine herausragende Leis-
tung darstellen, die im h-Index nicht berücksichtigt würde, wenn die
übrigen Arbeiten des Autors nur sehr wenige Zitierungen hätten. Durch
den g-Index wird versucht dies auszugleichen.

5.3.2   g-Index
Der g-Index wurde 2006 von Leo Egghe in der Zeitschrift Scientomet-
rics [5] veröffentlicht. Zur Bestimmung des Index werden die Veröf-
fentlichungen eines Autors ebenfalls nach der Anzahl ihrer Zitationen
absteigend sortiert. Nun wird die Summe der Zitierungen der ersten bis
zur g-ten Publikation berechnet und mit dem Produkt g·g verglichen.
Der g-Index ist die Zahl, bei der die Summe der Zitierungen mindestens
so groß ist, wie das Produkt g·g.


                      Tabelle 5: Beispiel zum g-Index
        Artikel (g)   Zitierungen Summe Zitierungen         g·g
             1             20                 20             1
             2             10                 30             4
             3              7                 37             9
             4              5                 42            16
             5              3                 45            25
             6              2                 47            36
             7              1                 48            49

  Ein Beispiel zur Bestimmung des g-Indexes ist in Tabelle 5 gegeben.
Die Tabelle gibt die sieben meist-zitierten Publikationen eines fiktiven
Autors wieder. Bis zur 6. Publikation ist die Summe der Zitierungen
mindestens so groß wie das Quadrat des Indexes. Da dies bei der 7.
meist-zitierten Veröffentlichung nicht mehr zutrifft, ist der g-Index 6.
  Die hier vorgestellten Metriken und Maße fußen auf Zitationen. Diese
können als semantische Relationen zwischen Artefakten interpretiert
werden. Somit sind die Konzepte teilweise auch auf andere Artefakt-
Typen erweitert werden. Im Folgenden wird zusätzlich ein Vorschlag
für eine zusätzliche Bewertung für Artefakte vorgestellt.




                                  22
5.4    Bewertungen basierend auf semantischen Relationen

Zum aktuellen Zeitpunkt werden Ähnlichkeiten von Artefakten im
AAN System über die SemSim Komponente bestimmt. Basis dieser
Berechnung bilden die Inhalte der Artefakte, genauer gesagt die Stich-
wörter (Tags und Kategorien), mit denen sie verbunden sind. Ein weit-
erer Ansatz ist die quantitative Auswertung der Anzahl von Art2 Re-
lationen. Die Verwendung von gegenseitigen Referenzierungen als
Rückschluss auf eine inhaltliche Ähnlichkeit wird auch in der Zitation-
sanalyse gebraucht. Hierfür sollten lediglich eingehende Relationen
betrachtet werden. Da in der AAN Ontologie für jede Relation ein
Inverses definiert ist, der entstehende Graph also bidirektional ist,
entsprechen zwei Kanten eines Artefakt-Knotens einer Relation. Ein
erster Ansatz wäre also, die mit einem Artefakt verbundenen Art2 Re-
lationen zu zählen und diese Summe zu halbieren. Möglicherweise ist
es sinnvoll, Relationen wie isPartOf oder hasPart auszuschließen, um
Verfälschungen des Ergebnisses zu vermeiden.
   Ein Artefakt, dass von einer hohen Anzahl von anderen Artefakten
referenziert wird, könnte zusätzlich eine höhere Wertung bekommen.
So wäre es denkbar, dass Relationen, die von einem solchen hochfre-
quentierten Artefakt ausgehen, höher gewertet werden, als Relationen
von einem wenig verbundenen Artefakt. Dieser Ansatz könnte itera-
tiv fortgeführt werden, so dass Relationen von einem Artefakt, dass
mit einem hoch frequentieren Artefakt verbunden ist, ebenfalls aufge-
wertet werden. Dieser Ansatz ist in einer Variation bereits als PageRank
bekannt.
   Außerdem könnten solche Relationen als weitere Beschreibung von
Artefakten verwendet werden. Stichworte von direkt verbundenen Arte-
fakten könnten als Stichworte zweiter Klasse dienen. Ob und welchen
Mehrwert eine solche Weitergabe ergibt, muss in der Praxis evaluiert
werden.
   Im Folgenden ist eine Sammlung von Webseiten aufgeführt, die für
eine weitere Recherche im Gebiet Bibliometrie nützlich sein können.

5.5    Ansatzpunkte zur weiteren Recherche

      • Zitationsanalyse
        http://www.ischool.utexas.edu/~palmquis/courses/biblio.html#Cite
        http://www.harzing.com/pophelp/metrics.htm
      • Wikipedia (de)
        http://de.wikipedia.org/wiki/Szientometrie
        http://de.wikipedia.org/wiki/Bibliometrie
        http://de.wikipedia.org/wiki/Zitationsanalyse
        http://de.wikipedia.org/wiki/Mehrautorenschaft
        http://de.wikipedia.org/wiki/Kozitation
        http://de.wikipedia.org/wiki/Bibliografische_Kopplung
        http://de.wikipedia.org/wiki/H-Index
      • Wikipedia (en)
        http://en.wikipedia.org/wiki/Scientometrics
        http://en.wikipedia.org/wiki/Bibliometrics
        http://en.wikipedia.org/wiki/Citation_analysis
        http://en.wikipedia.org/wiki/H-index
        http://en.wikipedia.org/wiki/G-index




                                     23
6     zusammenfassung

Die vorgestellten Informationen sollen einen Einstieg der Integration
von Publikationsdaten in das AAN System erleichtern. Dazu wurde
ein kompletter Einblick des Ablaufs der wichtigsten Bereiche gegeben.
Dies umfasst potenzielle Quellen, Möglichkeiten der Übertragung, An-
sätze zur Extraktion von Daten und Grundlagen für die abschließende
Analyse von wissenschaftlichen Dokumenten. Wichtig für die weitere
Entwicklung ist die Betrachtung kommender Herausforderungen (siehe
Abschnitt 2.3.3 und 4.3), für die bereits Vorschläge zur Bewältigung
gegeben wurden.

literatur

    [1] ABIS. LWA2010 - Lernen, Wissen, Adaptivität. http://www.kde.
        cs.uni-kassel.de/conf/lwa10/abis. zugegriffen am 5. Januar
        2011.

    [2] Bo-Christer Björk, Patrik Welling, Mikael Laakso, Peter Majlender,
        Turid Hedlund, and Guðni Guðnason. Open Access to the Sci-
        entific Journal Literature: Situation 2009. PLoS ONE, 5(6), 2010.
        http://dx.doi.org/10.1371%2Fjournal.pone.0011273.
    [3] Budapest Open Access Initiative. What does BOAI mean by ’open
        access’? http://www.earlham.edu/~peters/fos/boaifaq.htm#
        openaccess. zugegriffen am 15. Dezember 2010.
    [4] Isaac G. Councill, C. Lee Giles, and Min-Yen Kan. Parscit: An open-
        source crf reference string parsing package. In Proceedings of the
        Language Resources and Evaluation Conference (LREC 08), Marrakesh,
        Morrocco, May 2008.

    [5] Leo Egghe. Theory and practise of the g-index. Scientometrics,
        69(1):131–152, April 2006.

    [6] Yassine Gargouri, Chawki Hajjem, Vincent Larivière, Yves Gingras,
        Les Carr, Tim Brody, and Stevan Harnad. Self-Selected or Man-
        dated, Open Access Increases Citation Impact for Higher Quality
        Research. PLoS ONE, 5(10), 2010. http://dx.doi.org/10.1371%
        2Fjournal.pone.0013636.
    [7] J. E. Hirsch. An index to quantify an individual’s scientific research
        output. PNAS, 102(46), November 2005.

    [8] Lund University Libraries. Directory of Open Access Journals.
        http://www.doaj.org/. zugegriffen am 03. Januar 2011.
    [9] Wolfgang Reinhardt, Matthias Moi, , and Tobias Varlemann.
        Artefact-actor-networks as tie between social networks and artefact
        networks. In Proceedings of the CollaborateCom 2009.

[10] UNESCO, Adobe Systems Inc., and NDLTD members. NDLTD:
     Networked Digital Library of Theses and Dissertations. http:
     //www.ndltd.org/. zugegriffen am 03. Januar 2011.
[11] Universitätsbibliothek Regensburg. Informationen zur Elektron-
     ischen Zeitschriftenbibliothek. http://ezb.uni-regensburg.de/
     about.phtml. zugegriffen am 16. Dezember 2010.
[12] Wolfgang Reinhardt. ABIS2010 Small-scale study. http://thales.
     cs.upb.de/smallscalestudies/abis2010/bibliometrics.html.
     zugegriffen am 5. Januar 2011.




                                      24

Mais conteúdo relacionado

Destaque

CE05 Rodriguez Ana_Maria
CE05 Rodriguez Ana_MariaCE05 Rodriguez Ana_Maria
CE05 Rodriguez Ana_MariaMarcos Bautista
 
gold im November – das STAR-MAGAZIN
gold im November – das STAR-MAGAZINgold im November – das STAR-MAGAZIN
gold im November – das STAR-MAGAZINNetto_Blogger
 
FMK2015 Eröffnung und Willkommen
FMK2015 Eröffnung und WillkommenFMK2015 Eröffnung und Willkommen
FMK2015 Eröffnung und Willkommenschubec
 
181939061 mac-u1-ea-luzl
181939061 mac-u1-ea-luzl181939061 mac-u1-ea-luzl
181939061 mac-u1-ea-luzlHeraclio Garcia
 
Presentación de protocolo
Presentación de protocoloPresentación de protocolo
Presentación de protocoloJLJVGS
 
Kinderhotel Felben - Prospekt Kids
Kinderhotel Felben - Prospekt KidsKinderhotel Felben - Prospekt Kids
Kinderhotel Felben - Prospekt KidsFelben
 
Die Energiewende am eigenen Haus umgesetzt
Die Energiewende am eigenen Haus umgesetztDie Energiewende am eigenen Haus umgesetzt
Die Energiewende am eigenen Haus umgesetztVorname Nachname
 
Globalización
GlobalizaciónGlobalización
Globalizacióndhticerika
 
Teoria del sistema normativo una vision del sistema de fuentes en el ordenam...
Teoria del sistema normativo  una vision del sistema de fuentes en el ordenam...Teoria del sistema normativo  una vision del sistema de fuentes en el ordenam...
Teoria del sistema normativo una vision del sistema de fuentes en el ordenam...INOCENCIO MELÉNDEZ JULIO
 

Destaque (18)

CE05 Rodriguez Ana_Maria
CE05 Rodriguez Ana_MariaCE05 Rodriguez Ana_Maria
CE05 Rodriguez Ana_Maria
 
gold im November – das STAR-MAGAZIN
gold im November – das STAR-MAGAZINgold im November – das STAR-MAGAZIN
gold im November – das STAR-MAGAZIN
 
Mision 1 gbi
Mision 1 gbiMision 1 gbi
Mision 1 gbi
 
FMK2015 Eröffnung und Willkommen
FMK2015 Eröffnung und WillkommenFMK2015 Eröffnung und Willkommen
FMK2015 Eröffnung und Willkommen
 
benzema
benzemabenzema
benzema
 
Modulo2 tic ed
Modulo2 tic edModulo2 tic ed
Modulo2 tic ed
 
181939061 mac-u1-ea-luzl
181939061 mac-u1-ea-luzl181939061 mac-u1-ea-luzl
181939061 mac-u1-ea-luzl
 
How to successfully implement
How to successfully implementHow to successfully implement
How to successfully implement
 
Presentación de protocolo
Presentación de protocoloPresentación de protocolo
Presentación de protocolo
 
Kinderhotel Felben - Prospekt Kids
Kinderhotel Felben - Prospekt KidsKinderhotel Felben - Prospekt Kids
Kinderhotel Felben - Prospekt Kids
 
Die Energiewende am eigenen Haus umgesetzt
Die Energiewende am eigenen Haus umgesetztDie Energiewende am eigenen Haus umgesetzt
Die Energiewende am eigenen Haus umgesetzt
 
Globalización
GlobalizaciónGlobalización
Globalización
 
Luis Salvador Velazquez: maravillas desde el aire
Luis Salvador Velazquez: maravillas desde el aireLuis Salvador Velazquez: maravillas desde el aire
Luis Salvador Velazquez: maravillas desde el aire
 
Num reales
Num realesNum reales
Num reales
 
Escuela nueva vs escuela tradicional
Escuela nueva vs escuela tradicionalEscuela nueva vs escuela tradicional
Escuela nueva vs escuela tradicional
 
Teoria del sistema normativo una vision del sistema de fuentes en el ordenam...
Teoria del sistema normativo  una vision del sistema de fuentes en el ordenam...Teoria del sistema normativo  una vision del sistema de fuentes en el ordenam...
Teoria del sistema normativo una vision del sistema de fuentes en el ordenam...
 
Herramientas educativas web 2
Herramientas educativas web 2Herramientas educativas web 2
Herramientas educativas web 2
 
Tutor html
Tutor htmlTutor html
Tutor html
 

Semelhante a Analyse wissenschaftlicher Publikationen

Die "Semantic Web Recommendations" und das Jena Framework
Die "Semantic Web Recommendations" und das Jena FrameworkDie "Semantic Web Recommendations" und das Jena Framework
Die "Semantic Web Recommendations" und das Jena FrameworkJulian Maicher
 
Final Opentrans 2.0 Rfq
Final Opentrans 2.0   RfqFinal Opentrans 2.0   Rfq
Final Opentrans 2.0 Rfqguest6f1fb4
 
lernOS Prozessmodellierung Guide (Version 1.0)
lernOS Prozessmodellierung Guide (Version 1.0)lernOS Prozessmodellierung Guide (Version 1.0)
lernOS Prozessmodellierung Guide (Version 1.0)Cogneon Akademie
 
Wissensmanagement in der Praxis - Ein Reader, Prof. Lutz Leuendorf
Wissensmanagement in der Praxis - Ein Reader, Prof. Lutz LeuendorfWissensmanagement in der Praxis - Ein Reader, Prof. Lutz Leuendorf
Wissensmanagement in der Praxis - Ein Reader, Prof. Lutz LeuendorfAndreas Genth
 
Blockchain-based access right management for private data in decentralized cl...
Blockchain-based access right management for private data in decentralized cl...Blockchain-based access right management for private data in decentralized cl...
Blockchain-based access right management for private data in decentralized cl...ArtemEger
 
Smile2 Office auf dem iPad
Smile2 Office auf dem iPadSmile2 Office auf dem iPad
Smile2 Office auf dem iPadjekel & team
 
Masterarbeit Roland Kahlert
Masterarbeit Roland KahlertMasterarbeit Roland Kahlert
Masterarbeit Roland KahlertRoland Kahlert
 
Informationsvisualisierung Im Semantic Web1
Informationsvisualisierung Im Semantic Web1Informationsvisualisierung Im Semantic Web1
Informationsvisualisierung Im Semantic Web1brisvegas1
 
Metadatenanreicherung im digitalen Publikationsprozess
Metadatenanreicherung im digitalen PublikationsprozessMetadatenanreicherung im digitalen Publikationsprozess
Metadatenanreicherung im digitalen PublikationsprozessAlexander Haffner
 
Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617guest465f28
 
Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617guest465f28
 
C++ Standard Template Library
C++ Standard Template LibraryC++ Standard Template Library
C++ Standard Template Libraryguestfc11c0c
 
Rödling, S. (2019). Entwicklung einer Applikation zum assoziativen Medien Ler...
Rödling, S. (2019). Entwicklung einer Applikation zum assoziativen Medien Ler...Rödling, S. (2019). Entwicklung einer Applikation zum assoziativen Medien Ler...
Rödling, S. (2019). Entwicklung einer Applikation zum assoziativen Medien Ler...Hendrik Drachsler
 
Linux advanced
Linux advancedLinux advanced
Linux advancedheiko.vogl
 
Visualisierung von Algorithmen und Datenstrukturen
Visualisierung von Algorithmen und DatenstrukturenVisualisierung von Algorithmen und Datenstrukturen
Visualisierung von Algorithmen und DatenstrukturenRoland Bruggmann
 
Bachelor%20thesis%20Willi%20Tscheschner
Bachelor%20thesis%20Willi%20TscheschnerBachelor%20thesis%20Willi%20Tscheschner
Bachelor%20thesis%20Willi%20Tscheschnertutorialsruby
 
Bachelor%20thesis%20Willi%20Tscheschner
Bachelor%20thesis%20Willi%20TscheschnerBachelor%20thesis%20Willi%20Tscheschner
Bachelor%20thesis%20Willi%20Tscheschnertutorialsruby
 

Semelhante a Analyse wissenschaftlicher Publikationen (20)

[DE] Dr. Ulrich Kampffmeyer - Artikel auf Wikipedia | 2015
[DE] Dr. Ulrich Kampffmeyer - Artikel auf Wikipedia | 2015[DE] Dr. Ulrich Kampffmeyer - Artikel auf Wikipedia | 2015
[DE] Dr. Ulrich Kampffmeyer - Artikel auf Wikipedia | 2015
 
Die "Semantic Web Recommendations" und das Jena Framework
Die "Semantic Web Recommendations" und das Jena FrameworkDie "Semantic Web Recommendations" und das Jena Framework
Die "Semantic Web Recommendations" und das Jena Framework
 
Final Opentrans 2.0 Rfq
Final Opentrans 2.0   RfqFinal Opentrans 2.0   Rfq
Final Opentrans 2.0 Rfq
 
lernOS Prozessmodellierung Guide (Version 1.0)
lernOS Prozessmodellierung Guide (Version 1.0)lernOS Prozessmodellierung Guide (Version 1.0)
lernOS Prozessmodellierung Guide (Version 1.0)
 
Wissensmanagement in der Praxis - Ein Reader, Prof. Lutz Leuendorf
Wissensmanagement in der Praxis - Ein Reader, Prof. Lutz LeuendorfWissensmanagement in der Praxis - Ein Reader, Prof. Lutz Leuendorf
Wissensmanagement in der Praxis - Ein Reader, Prof. Lutz Leuendorf
 
Blockchain-based access right management for private data in decentralized cl...
Blockchain-based access right management for private data in decentralized cl...Blockchain-based access right management for private data in decentralized cl...
Blockchain-based access right management for private data in decentralized cl...
 
Smile2 Office auf dem iPad
Smile2 Office auf dem iPadSmile2 Office auf dem iPad
Smile2 Office auf dem iPad
 
Masterarbeit Roland Kahlert
Masterarbeit Roland KahlertMasterarbeit Roland Kahlert
Masterarbeit Roland Kahlert
 
Informationsvisualisierung Im Semantic Web1
Informationsvisualisierung Im Semantic Web1Informationsvisualisierung Im Semantic Web1
Informationsvisualisierung Im Semantic Web1
 
Berliner Open-Data-Strategie
Berliner Open-Data-StrategieBerliner Open-Data-Strategie
Berliner Open-Data-Strategie
 
Metadatenanreicherung im digitalen Publikationsprozess
Metadatenanreicherung im digitalen PublikationsprozessMetadatenanreicherung im digitalen Publikationsprozess
Metadatenanreicherung im digitalen Publikationsprozess
 
Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617
 
Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617Multicore Parallele Programmierung Kng617
Multicore Parallele Programmierung Kng617
 
C++ Standard Template Library
C++ Standard Template LibraryC++ Standard Template Library
C++ Standard Template Library
 
Rödling, S. (2019). Entwicklung einer Applikation zum assoziativen Medien Ler...
Rödling, S. (2019). Entwicklung einer Applikation zum assoziativen Medien Ler...Rödling, S. (2019). Entwicklung einer Applikation zum assoziativen Medien Ler...
Rödling, S. (2019). Entwicklung einer Applikation zum assoziativen Medien Ler...
 
Linux advanced
Linux advancedLinux advanced
Linux advanced
 
Xm b
Xm bXm b
Xm b
 
Visualisierung von Algorithmen und Datenstrukturen
Visualisierung von Algorithmen und DatenstrukturenVisualisierung von Algorithmen und Datenstrukturen
Visualisierung von Algorithmen und Datenstrukturen
 
Bachelor%20thesis%20Willi%20Tscheschner
Bachelor%20thesis%20Willi%20TscheschnerBachelor%20thesis%20Willi%20Tscheschner
Bachelor%20thesis%20Willi%20Tscheschner
 
Bachelor%20thesis%20Willi%20Tscheschner
Bachelor%20thesis%20Willi%20TscheschnerBachelor%20thesis%20Willi%20Tscheschner
Bachelor%20thesis%20Willi%20Tscheschner
 

Mais de Adrian Wilke

Relicensing Combined Datasets (ReCoDa)
Relicensing Combined Datasets (ReCoDa)Relicensing Combined Datasets (ReCoDa)
Relicensing Combined Datasets (ReCoDa)Adrian Wilke
 
OPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyOPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyAdrian Wilke
 
Algebraic Property Graphs
Algebraic Property GraphsAlgebraic Property Graphs
Algebraic Property GraphsAdrian Wilke
 
Critical Incidents for Technology Enhanced Learning in Vocational Education a...
Critical Incidents for Technology Enhanced Learning in Vocational Education a...Critical Incidents for Technology Enhanced Learning in Vocational Education a...
Critical Incidents for Technology Enhanced Learning in Vocational Education a...Adrian Wilke
 
36. Bundeswettbewerb Informatik - DICE Data Science
36. Bundeswettbewerb Informatik - DICE Data Science36. Bundeswettbewerb Informatik - DICE Data Science
36. Bundeswettbewerb Informatik - DICE Data ScienceAdrian Wilke
 
Zotero Visualisierungen
Zotero VisualisierungenZotero Visualisierungen
Zotero VisualisierungenAdrian Wilke
 
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15Adrian Wilke
 
INSPIRE: Insight to Scientific Publications and References
INSPIRE: Insight to Scientific Publications and ReferencesINSPIRE: Insight to Scientific Publications and References
INSPIRE: Insight to Scientific Publications and ReferencesAdrian Wilke
 
Ant Colony Optimization: Routing
Ant Colony Optimization: RoutingAnt Colony Optimization: Routing
Ant Colony Optimization: RoutingAdrian Wilke
 
knowAAN final presentation
knowAAN final presentationknowAAN final presentation
knowAAN final presentationAdrian Wilke
 

Mais de Adrian Wilke (10)

Relicensing Combined Datasets (ReCoDa)
Relicensing Combined Datasets (ReCoDa)Relicensing Combined Datasets (ReCoDa)
Relicensing Combined Datasets (ReCoDa)
 
OPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyOPAL - Open Data Portal Germany
OPAL - Open Data Portal Germany
 
Algebraic Property Graphs
Algebraic Property GraphsAlgebraic Property Graphs
Algebraic Property Graphs
 
Critical Incidents for Technology Enhanced Learning in Vocational Education a...
Critical Incidents for Technology Enhanced Learning in Vocational Education a...Critical Incidents for Technology Enhanced Learning in Vocational Education a...
Critical Incidents for Technology Enhanced Learning in Vocational Education a...
 
36. Bundeswettbewerb Informatik - DICE Data Science
36. Bundeswettbewerb Informatik - DICE Data Science36. Bundeswettbewerb Informatik - DICE Data Science
36. Bundeswettbewerb Informatik - DICE Data Science
 
Zotero Visualisierungen
Zotero VisualisierungenZotero Visualisierungen
Zotero Visualisierungen
 
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15
Assistenz der Ausbildung im Maschinenbau durch mobiles Lernen - OEB15
 
INSPIRE: Insight to Scientific Publications and References
INSPIRE: Insight to Scientific Publications and ReferencesINSPIRE: Insight to Scientific Publications and References
INSPIRE: Insight to Scientific Publications and References
 
Ant Colony Optimization: Routing
Ant Colony Optimization: RoutingAnt Colony Optimization: Routing
Ant Colony Optimization: Routing
 
knowAAN final presentation
knowAAN final presentationknowAAN final presentation
knowAAN final presentation
 

Analyse wissenschaftlicher Publikationen

  • 1. A N A LY S E WISSENSCHAFTLICHER P U B L I K AT I O N E N adrian wilke∗ inhaltsverzeichnis 1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 Open Access journals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.2 Verzeichnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2.1 Directory of Open Access Journals . . . . . . . . . . . . . . . . 3 2.2.2 Zeitschriftenbibliothek der Uni Regensburg . . . . . . . . . . . 4 2.2.3 Networked Digital Library of Theses and Dissertations . . . . 4 2.3 Directory of Open Access Journals im AAN System . . . . . . . . . 5 2.3.1 Parser-Entwicklung: Best Practices . . . . . . . . . . . . . . . . 5 2.3.2 Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 7 3 Formate zum Austausch von Publikations-Metadaten . . . . . . . . . . 8 3.1 Standard-Vokabularien . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.1 Dublin Core . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.2 Semantic Web for Research Communities . . . . . . . . . . . . 8 3.1.3 The Friend of a Friend project . . . . . . . . . . . . . . . . . . . 9 3.2 Bibliography Management using RSS Technology . . . . . . . . . . 9 3.3 OAI Protocol for Metadata Harvesting . . . . . . . . . . . . . . . . . 9 3.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 11 4 Daten-Extraktion aus PDF-Dateien . . . . . . . . . . . . . . . . . . . . . . 12 4.1 ParsCit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.1.1 Arbeitsweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.1.2 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.1.3 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.2 Weitere Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.3 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.4 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 17 5 Szientometrie, Bibliometrie und Zitationsanalyse . . . . . . . . . . . . . 17 5.1 Begriffsklärung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5.2 Zitationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.2.1 Co-authorship . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.2.2 Co-citation Coupling . . . . . . . . . . . . . . . . . . . . . . . . 19 5.2.3 Bibliographic Coupling . . . . . . . . . . . . . . . . . . . . . . . 20 5.3 Bibliometrisches Maße . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.3.1 h-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.3.2 g-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.4 Bewertungen basierend auf semantischen Relationen . . . . . . . . 23 5.5 Ansatzpunkte zur weiteren Recherche . . . . . . . . . . . . . . . . . 23 6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 ∗ info@[REMOVE]adrianwilke.de 1
  • 2. 1 einleitung Diese Seminarausarbeitung behandelt die Analyse wissenschaftlicher Publikationen. Dies geschieht im Kontext von Artefact-Actor-Networks (AAN). Daher ist das Gebiet nicht auf die Analyse beschränkt, sondern behandelt Bereiche von der Suche nach passenden Quellen bis zur Analyse selbst. Das umfasst als Erstes Vorschläge für Sammlungen und Kataloge von Open Access Dokumenten (2), die passende Daten zur Verfügung stellen. Hierzu zählt eine bereits bestehende Anbindung an ein Verzeichnis, deren Aufbau für die praktische Arbeit von Entwick- lern nützlich sein kann. Kataloge bieten verschiedene Schnittstellen und Datenformate (3) für den Zugriff auf bereitgestellte Metadaten. Diese können in der AAN Referenzimplementierung sowohl für den Import, als auch für den Export genutzt werden. In diesem Zuge werden ver- schiedene Standards für die Beschreibung von Konzepten im Rahmen des Semantic Web vorgestellt. Nach einer Auswahl von Publikations- Quellen und der abgeschlossenen Datenbeschaffung werden Entwickler vor die Herausforderung gestellt, Daten im PDF-Format zu extrahieren (4). Hierfür wurden bereits erste Ansätze erfolgreich getestet. Nachdem Metadaten und Volltexte aus wissenschaftlichen Veröffentlichungen extrahiert und im System abgelegt worden sind, kann mit der Analyse begonnen werden. Dazu können Metriken und Maße der Zitations- analyse (5) angewandt werden. Die betrachteten Gebiete werden so dargestellt, dass sie eine Ar- beit mit AANs unterstützen. Deshalb wird jeder Unterabschnitt mit Ansatzpunkten zur weiteren Recherche abgeschlossen. In diesen Lis- ten sind Links zu offiziellen Webseiten oder auch Wikipedia-Artikeln aufgeführt. Wichtige Quellen aus Publikationen sind im Literaturteil aufgeführt. 2 open access journals Die Anzahl der Dokumente, die unter dem Begriff Open Access (OA) veröffentlicht werden, steigt weiter an. Es gibt gute Gründe für Autoren, ihre Texte frei zugänglich zu veröffentlichen. Neben diesen Gründen werden im Folgenden Verzeichnisse vorgestellt, in denen OA Doku- mente gesammelt werden. Zusätzlich wird eine implementierte An- bindung an eines dieser Verzeichnisse seitens des AAN Systems präsen- tiert. 2.1 Einführung Die Recherche nach Literatur kann auch für erfahrene Wissenschaftler Hürden auftun: Bücher sind nicht unmittelbar zugreifbar, Zeitschriften sind vergriffen oder elektronische Ressourcen benötigen eine Mit- gliedschaft in einer Organisation. Diese Hindernisse sollen durch den Gebrauch von Open Access überwunden werden. Der Begriff Open Access wird von verschiedenen Organisationen unterschiedlich aus- gelegt. Einige der wichtigsten Punkte kann man der Definition der Budapest Open Access Initiative [3] entnehmen: Open Access ist im öf- fentlichen Internet frei verfügbar. Es erlaubt Benutzern, Artikel zu lesen, zu kopieren, herunterzuladen, zu verbreiten, zu drucken, zu suchen oder deren Volltexte zu verlinken. Dies und mehr soll ohne finanzielle, rechtliche oder technische Hürden (der Zugang zum Internet selbst ausgeschlossen) möglich sein. Einzig den jeweiligen Autoren sollten Rechte, wie das Urheberrecht, vorbehalten werden. Das Konzept wirkt aus der Sicht einer nach relevanten Informationen suchenden Person verlockend, aber inwieweit hat es sich bei Autoren durchgesetzt? Nach einer Studie [2] sind 20,4% aller Publikationen aus dem Jahr 2008 online zugreifbar. Diese Zahl ergibt sich mit 8,5% aus 2
  • 3. Abbildung 1: Open Access Verfügbarkeit nach Fachgebieten, Quelle: [2] dem Publizieren über den goldenen Weg, also dem direkten Weg des OA, vornehmlich über den Herausgeber, und mit 11,9% über den grü- nen Weg, also z.B. der Veröffentlichung auf der Webseite der Autoren. Eine Übersicht über die OA Verfügbarkeit von Artikeln nach Fachge- bieten nach goldenem und grünem Weg ist in Grafik 1 dargestellt. Die Vorteile für berufliche und private Leser liegen klar auf der Hand, Texte sind schnell zugreifbar und zudem kostenlos. Was sollte Autoren dazu bewegen, ihre Artikel im Internet frei zugänglich zu publizieren? Auch das ist naheliegend: Durch den einfachen Zugriff werden weniger Leser ausgeschlossen, mehr Personen lesen einen Text und daraus resultiert eine höhere Zahl von Zitierungen. Es wurde gezeigt [6], dass OA Artikel signifikant mehr Zitierungen bekommen, als auf herkömmlichen Weg publizierte Texte. Für die Analyse von Akteuren und Artefakten in einem AAN bie- ten sich OA Daten ebenfalls an. Mit geeigneten Werkzeugen können aus Publikationen Volltexte, Autoren, Referenzen (also semantische Relationen) und andere Metadaten extrahiert werden. Bei solch einem Vorhaben ist eine umfangreiche Datenbasis, die bestenfalls über eine wohl-definierte Schnittstelle zugreifbar ist, wünschenswert. Im Folgen- den werden Beispiele für mögliche Quellen gegeben. 2.2 Verzeichnisse Die hier vorgestellten Verzeichnisse sind eine Auswahl von Sammlun- gen, die Metadaten, Referenzierungen und zum Teil auch Volltexte zu wissenschaftlichen Texten sowie Zeitschriften bereitstellen. Die Ver- zeichnisse bieten sich, neben der Nutzung zur persönlichen Recherche, zur Sammlung und Extraktion von analysierbaren Daten an. 2.2.1 Directory of Open Access Journals (DOAJ) Das Directory of Open Access Journals ist ein Service, der einen Zugang zu Open Access Journals anbietet. Das Angebot wird von der Biblio- thek der Universität Lund (Schweden) zur Verfügung gestellt. Die an- gebotenen Zeitschriften unterliegen verschiedenen Aufnahmekriterien. Neben dem freien Zugang muss eine Zeitschrift eine Qualitätskontrolle, z.B. ein Peer-Review, durchführen. Die freie Veröffentlichung muss ohne Verzögerung geschehen, eine Registrierung durch Benutzer für den Zugriff wird erlaubt, solange diese kostenlos ist. Jede Zeitschrift benötigt eine International Standard Serial Number (ISSN), mit der ein 3
  • 4. Journal identifiziert werden kann. Nach eigenen Angaben [8] bietet das DOAJ (Stand: 03. Januar 2011): • 5.935 Zeitschriften, 2.495 davon mit Artikel-Metadaten • Insgesamt 491.409 Artikel • 247 Informatik-Zeitschriften. Ein großer Teil der Daten kann über das OAI-Protokoll (siehe Ab- schnitt 3.3) bezogen werden. Es werden zwei Basis-URLs zur Verfügung gestellt, mit denen es möglich ist, Metadaten von Zeitschriften oder Artikeln abzufragen. Eine andere Quelle in deutscher Sprache, in der erheblich mehr Zeitschriften verzeichnet sind, ist die EZB. 2.2.2 Die Elektronische Zeitschriftenbibliothek der Universität Regensburg Die Grundlage der Elektronischen Zeitschriftenbibliothek (EZB) wurde um Januar 2001 durch einen Kooperationsvereinbarung zwischen ver- schiedenen Bibliotheken geschaffen. Die angebotenen Zeitschriften werden nach 41 Fachgebieten geordnet angeboten. Durch Bilder mit verschiedenfarbigen Punkten ist auf der Webseite zu erkennen, welche Zugriffsmöglichkeiten (z.B. frei zugänglicher Volltext) für den Benutzer bestehen. Eine Übersicht über das Angebot nach Angaben der Univer- sität [11] zeigt die folgende Liste. Die Anzahl der Treffer der Informatik- Zeitschriften ergab sich durch eine Suchanfrage auf der Webseite. • 51.936 Titel zu allen Fachgebieten • 6.999 davon sind reine Online-Zeitschriften • 26.919 Fachzeitschriften sind im Volltext frei zugänglich • 454 Informatik-Zeitschriften mit frei zugänglichen Volltexten Zusätzlich zur Suche auf der Webseite konnte keine weitere Schnittstelle zum Angebot der EZB gefunden werden. Neben OA Quellen für Publikationen existieren auch Verzeichnisse für wissenschaftliche Arbeiten, wie die NDLTD. 2.2.3 Networked Digital Library of Theses and Dissertations (NDLTD) Die Networked Digital Library of Theses and Dissertations (NDLTD) ist eine Vereinigung verschiedener Institutionen, hauptsächlich Uni- versitäten der Vereinigten Staaten. Die NDLTD bietet seit 1996 einen gemeinsamen Katalog an, in dem Metadaten zu elektronischen Ab- schlussarbeiten und Dissertationen (electronic theses and dissertations, ETDs) verzeichnet sind. Nach Angaben auf der Webseite [10] und einer Anfrage über die angebotene Scirus ETD Suche nach „Computer Sci- ence“ im Bereich „Engineering, Energy and Technology“ ergab für das Angebot folgende Zahlen: • über 1.000.000 Einträge zu ETDs • 133.996 Einträge für den Bereich Informatik Neben der Scirus ETD Suche des Verlags für wissenschaftliche Zeit- schriften Elsevier, über die auch ein Zugriff zu Volltexten möglich ist, wird eine Suche über den VTLS Visualizer angeboten. Dort kön- nen erweiterte Möglichkeiten der Sortierung und Filterung angegeben werden. Zusätzlich zu den hier vorgestellten Quellen wird im Folgenden ein Ansatz zur Anbindung einer der oben aufgeführten Quellen vorgestellt. 4
  • 5. 2.3 Directory of Open Access Journals im AAN System Im Rahmen des Seminars „Future Social Learning Networks“ im Win- tersemester 2010/11 an der Universität Paderborn wird derzeit ein Prototyp zur Datenbeschaffung aus dem DOAJ entwickelt. Die Ent- wicklung findet unter dem Thema „Tools for Awareness in Distributed Research Networks“ statt und soll mit Unterstützung des AAN Systems erweiterte Möglichkeiten bieten, gezielte Einblicke in wissenschaftliche Arbeiten zu werfen, um das Bewusstsein über vorhandene und aktuelle Entwicklungen zu erweitern. An dieser Stelle wird ein Einblick in die Vorgehensweise der Entwicklung gegeben. 2.3.1 Parser-Entwicklung: Best Practices Bei der Entwicklung von Parser-Komponenten als Teil der AAN Ref- erenzimplementierung hat sich eine Reihenfolge von Teilabläufen als praktikabel erwiesen. Die einzelnen Abläufe sollten sich in Teilen über- lappen, um eine flüssige Integration und eine Minimierung von Pro- blemen zu gewährleisten. Diese Punkte wurden für die Komponente DoajParser in großen Teilen abgeschlossen: 1. Sichtung verfügbarer Daten 2. Vergleich zugreifbarer Schnittstellen 3. Extraktion von Daten 4. Entwicklung einer Ontologie 5. Datenspeicherung Der erste Schritt ist die Sichtung verfügbarer Daten. Dazu werden die von einem potenziellen Quellnetzwerk angebotenen Daten nach Eignung für AANs untersucht. Nutzbare Daten sind durch eine Er- weiterung der Grundontologie in das semantische Modell integrierbar und passen inhaltlich zu den aktuellen Zielen, die umgesetzt werden sollen. Im DOAJ sind dies im Wesentlichen die wissenschaftlichen Publikationen und deren Autoren, die als Artefakte und Akteure in- tegrierbar sind. Im zweiten Schritt wird eine passende Schnittstelle gewählt. Diese sollte möglichst alle öffentlich zugänglichen Daten zur Verfügung stellen und nicht durch Restriktionen eingeschränkt sein. Gängige Schnittstellen sind APIs oder andere Interfaces, die Daten in der XML anbieten. Eine Schnittstelle, die fast in jedem Fall möglich ist, ist das Parsen des HTML-Codes. Auf der DOAJ Webseite werden zwei URIs (siehe Abschnitt 2.4) angeboten, über die Daten zu Artikeln und Zeitschriften im Format des OAI-Protokolls (siehe Abschnitt 3.3) zu- greifbar sind. Die Extraktion der Daten sollte vor der genauen Definition einer Ontologie geschehen, da bereits extrahierte und direkt zugreifbare Daten einen Überblick darüber geben, welche Daten in der Praxis tat- sächlich zur Verfügung stehen und abgelegt werden können. Die Extrak- tion der Daten verlief im Fall von DOAJ ohne Probleme. Im nächsten Schritt, der Einbettung der Daten in die Ontologie, wurde festgestellt, dass Kategorien nur für Zeitschriften und nicht für Artikel angeboten werden. Dies ist für eine Beschreibung der Artikel schade, die Infor- mationen können jedoch nachträglich über die Zeitschrift-Ressourcen aus dem Modell beschafft werden. Während des letzten Schrittes, der Datenspeicherung, wurde festgestellt, dass die semantischen Daten eine umfangreiche Beschreibung der Datensätze liefern, die Volltexte aller- dings in einem sehr eingeschränkten Umfang zur Verfügung stehen. Es wird nur ein kleiner Teil des ursprünglichen Volltexts angeboten. Zwar werden in den Metadaten zusätzlich Informationen einer Quelle, in den meisten Fällen eine Webseite, bereitgestellt, die über die URL erreich- baren Ziele sind jedoch heterogen. Teils wird auf den verlinkten Seiten 5
  • 6. Abbildung 2: Ontologie: Directory of Open Access Journals ein weiter direkter Link zu zugehörigen PDF-Dateien hinterlegt, teils wird auf den verlinkten Seiten auch ein Login benötigt. In manchen Fällen werden in den Metadaten auch URLs hinterlegt, die ein PDF ohne Umweg über eine Webseite verlinken. Das Schema, nach dem die semantischen Beziehungen von DOAJ Ressourcen angelegt werden, wird im folgenden Abschnitt vorgestellt. 2.3.2 Ontologie Die Ontologie zu DOAJ-Ressourcen ist in Abbildung 2 dargestellt. Die Hauptklassen, OpenAccessJournal und OpenAccessJournalArticle, sind Spezialisierungen des ScientificDocumentArtefact aus dem Block AANSci- entificMedia. Extrahierte Autoren werden als ScientificDocumentActor an- gelegt und durch semantische Relationen mit Artefakten in Verbindung gesetzt. Für Zeitschriften und Artikel werden eine Reihe von Liter- alen definiert, die keiner eigenen Klasse benötigen, trotzdem aber beschreibende Metadaten liefern. Zur Beschreibung der Ressourcen gibt es zwei Spezialisierungen von Keywords, DoajCategory und Doa- jTag. Der Unterschied dieser Klassen ist, dass Kategorien vorgegeben und auswählbar sind, wohingegen Tags, z.B. direkt in Artikeln, frei wählbar sind. Kategorien sind nur für Zeitschriften definiert. Die Kate- gorie LCC wurde dem Block AANScientificMedia hinzugefügt, da dies eine Kategorie ist, die zukünftig möglicherweise zur Beschreibung von Artefakten außerhalb von DOAJ ebenfalls genutzt werden könnte. LCC steht für „Library of Congress Classification“, eine Klassifikation in hierarchischer Struktur. So könnte eine Zeitschrift des Bereichs Infor- matik über die LCC mit QA75.5-76.95 beschrieben werden, QA wäre Mathematik und ein alleinstehendes Q betrifft den allgemeinen Bereich der Wissenschaft. Insgesamt verlief die Entwicklung der DOAJ Kom- ponente reibungslos. Um jedoch an dieser Stelle schon auf mögliche, in Zukunft auftretende, Herausforderungen einzugehen, werden diese nachfolgend beschrieben. 2.3.3 Herausforderungen Während der Entwicklung der DOAJ Komponente wurden erste Her- ausforderungen im Hinblick auf die weitere Arbeit mit Publikationen sichtbar. In diesem Teil werden diese im Hinblick auf Volltexte, URIs und Parser behandelt. 6
  • 7. zugriff auf volltexte Wie bereits erwähnt, werden über die DOAJ-Schnittstelle mindestens drei verschiedene Ressourcen zur Ver- fügung gestellt, um auf Volltexte zugreifen zu können. Im günstigsten Fall wird ein PDF direkt verlinkt, so dass die Informationsquelle ohne weitere Umwege zur Verfügung steht. Auch verlinkte Webseiten, auf denen ein Link mit dem Textinhalt „PDF“ zum Volltext aufgeführt ist, sollten kein großes Hindernis darstellen. Für Webseiten, die eine Anmeldung benötigen, ist abzuwägen, ob eine Funktionalität zur Verfü- gung gestellt werden sollte, die dies automatisiert durchführt. Sinnvoll erscheint dies nur, über die Anmeldung eine große Menge von Daten zur Verfügung gestellt wird. Ein möglicher Weg zur Extraktion von Daten wird in Abschnitt 4 behandelt. eindeutiger bezeichner für ressourcen Eine weitere Her- ausforderung ist die Generierung von eindeutigen Bezeichnern für Artefakte und Akteure. Diese Bezeichner werden, neben der Sicher- stellung der Eindeutigkeit, benötigt, um semantische Relationen zwis- chen Artefakten festzulegen. Jede Ressource wird im AAN System über eine URI identifiziert. Diese URI liegt für Web-basierte Ressourcen oft auf der Hand, da Artefakte sowie Akteure im Allgemeinen über eine eigene Webseite zugreifbar sind. Für wissenschaftliche Publika- tionen und Autoren ist dies nicht selbstverständlich. Es wurde daher vorgeschlagen, für Autoren URIs zu generieren, die einzig durch ihren Namen zusammengesetzt werden. Für URIs von Publikationen bietet sich eine Kombination der Autoren-Namen und der Titel der jeweiligen Veröffentlichung an. Dies kann zu Problemen führen, wenn für Au- torennamen verschiedene Schreibweisen genutzt werden. Zum Beispiel können Vornamen abgekürzt werden, zweite Vornamen nur teilweise auftauchen oder die Reihenfolge von Vor- und Nachnamen variieren. Ein verwandtes Problem ist die Identifizierung verschiedener Personen mit gleichem Namen. wahl eines parsers Ein vergleichsweise minderer Umstand ist die Wahl eines geeigneten Parsers. Während eines Crawling-Jobs kön- nen Referenzen auf verschiedenartige PDF-Dateien gefunden werden. Nicht jede dieser Dateien ist zwangsläufig eine wissenschaftliche Veröf- fentlichung. Hier sollte, bei Kenntnis über die Dateiart, unterschieden werden, ob ein PDF zur Analyse von Publikations-Metadaten oder zur allgemeinen Extraktion von Schlüsselwörtern genutzt werden soll. Ein Ansatz wäre eine Funktionalität, mit der eine AAN Komponente eine andere AAN Komponente vorschlagen kann, die zur Extraktion genutzt werden sollte. Die folgende Liste ist eine Sammlung von Punkten zur weiteren Recherche. Nach den in diesem Teil vorgestellten Quellen für wis- senschaftliche Arbeiten und Veröffentlichungen werden, im auf die Liste mit Recherche-Ansätzen folgenden Abschnitt, Möglichkeiten für den Austausch von Publikations-Metadaten gezeigt. 2.4 Ansatzpunkte zur weiteren Recherche • Directory of Open Access Journals (DOAJ) http://www.doaj.org/ http://www.doaj.org/doaj?func=loadTempl&templ=faq#metadata • Die Elektronische Zeitschriftenbibliothek der Universität Regensburg http://ezb.uni-regensburg.de/ http://rzblx1.uni-regensburg.de/ezeit/fl.phtml?colors=1&notation=SQ-SU • Networked Digital Library of Theses and Dissertations (NDLTD) http://www.ndltd.org/ • Open Access Ressourcen http://www.soros.org/openaccess http://www.lib.umich.edu/copyright/open-access 7
  • 8. http://www.ndltd.org/resources/open-access http://oad.simmons.edu/oadwiki/ • Wikipedia (de) http://de.wikipedia.org/wiki/Open_Access http://de.wikipedia.org/wiki/Open-Access-Zeitschrift http://de.wikipedia.org/wiki/Library_of_Congress_Classification • Wikipedia (en) http://en.wikipedia.org/wiki/Open_access_journalt http://en.wikipedia.org/wiki/Open_access_%28publishing%29 http://en.wikipedia.org/wiki/Library_of_Congress_Classification 3 formate zum austausch von publikations-metadaten Es existieren verschiedene Standards, um Konzepte des Semantic Web einheitlich zu beschreiben. Für die anschließende Vorstellung von For- maten zum Austausch von Metadaten werden an dieser Stelle einige Standards vorgestellt, die zur Beschreibung der Austauschformate ver- wendet werden. Zur Verdeutlichung der Unterschiede zwischen den Standards werden hier gezielt die verwendeten Konzepte aufgelistet. 3.1 Standard-Vokabularien Im Kontext des Semantic Web werden in verschiedensten Projekten Vokabularien benötigt, um Ressourcen zu klassifizieren. Innerhalb von eigenständigen Projekten wäre es möglich, individuelle Schemata zu verwenden. Spätestens bei dem Austausch von Daten werden hier schnell Inkonsistenten beobachtbar und verschiedene Schemata damit nicht vergleichbar. Zur Vereinheitlichung von Vokabularien gibt es standardisierte Konventionen, um auf eine einheitliche Basis bei der Benennung und Nutzung von Begriffen zurückgreifen zu können. Im Folgenden werden einige ausgewählte Standards vorgestellt, die beim Austausch von Publikations-Metadaten genutzt werden. 3.1.1 Dublin Core Das Dublin Core Metadata Element Set ist eine 15-elementige Menge von Vokabeln, die zur einheitlichen Beschreibung von Klassen vorge- schlagen wird. Urheber dieser Menge ist die 1994 gegründete offene Organisation Dublin Core Metadata Initiative (DCMI). Die 15 Elemente der Menge bilden den Kern, der als RFC, ISO und ANSI/INSO Stan- dard veröffentlicht wurde. Die zugehörigen Elemente sind: contributor, coverage, creator, date, description, format, identifier, language, publisher, re- lation, rights, source, subject, title und type. Diese Menge an Elementen steht unter ständiger Weiterentwicklung. Ein zusätzlicher Namensraum schlägt folgende Elemente vor: abstract, accessRights, accrualMethod, ac- crualPeriodicity, accrualPolicy, alternative, audience, available, bibliograph- icCitation, conformsTo, created, dateAccepted, dateCopyrighted, dateSubmit- ted, educationLevel, extent, hasFormat, hasPart, hasVersion, instructional- Method, isFormatOf, isPartOf, isReferencedBy, isReplacedBy, isRequiredBy, issued, isVersionOf, license, mediator, medium, modified, provenance, refer- ences, replaces, requires, rightsHolder, spatial, tableOfContents, temporal und valid. Diese Elemente bilden eine Grundlage, um allgemeine Artefakte, wie sie z.B. im Internet oft auffindbar sind, und deren Relationen zu beschreiben. Zusätzlich zu diesen generellen Angaben existieren weit- ere Ansätze, wie SWRC, die für die Beschreibung spezieller Kontexte ausgelegt sind. 3.1.2 Semantic Web for Research Communities (SWRC) Die SWRC Ontologie wurde am Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB) des Karlsruher Institus für 8
  • 9. Technologie entwickelt. Sie fokussiert das Modellieren von Forschungs- Gemeinschaften, wie z.B. Organisationen, Personen oder Publikatio- nen und deren Beziehungen. Um einen guten Einblick über die Un- terschiede der Vokabularien zu geben, hier eine umfangreiche (aber unvollständige) Liste der definierten Konzepte: Proceedings, SoftwarePro- ject, ProjectReport, ResearchTopic, Association, InCollection, Booklet, InPro- ceedings, InBook, SoftwareComponent, Institute, Department, Unpublished, Lecture, MasterThesis, Manual, Manager, ResearchGroup, Exhibition, Misc, Book, FullProfessor, Lecturer, Article, AcademicStaff, Product, Meeting, Pro- jectMeeting, AssistantProfessor, Student, Undergraduate, Workshop, Event, Conference, FacultyMember, AssociateProfessor, Report, TechnicalReport, Re- searchProject, Graduate, PhDStudent, Project, DevelopmentProject, Techni- calStaff, Thesis, PhDThesis, University, Organization, Enterprise, Employee, AdministrativeStaff, Topic, Person und Publication. Es ist zu erkennen, dass eine Reihe von Konzepten aus dem Kontext von Universität, Lehre und Forschung definiert werden. Darüber hinaus gibt es Konzepte wie Chapter, ISBN, Year oder Pages, die eine hohe Korrelation mit Bib- TeX Elementen aufweisen. Ein Vokabular, das eher auf die Rollen und Beziehungen von Personen aufbaut, ist FOAF. 3.1.3 The Friend of a Friend (FOAF) project Das Friend of a Friend (FOAF) project definiert Konzepte, mit denen Personen, Beziehungen zwischen ihnen und den Artefakten, die sie erstellen, beschrieben werden können. Der Kern der definierten Voka- beln besteht aus den Elementen: Agent, Person, name, title, img, depiction (depicts), familyName, givenName, knows, based_near, age, made (maker), primaryTopic (primaryTopicOf), Project, Organization, Group, member, Docu- ment und Image. Außerdem existiert eine Erweiterung für die Belange des Social Web, die etwa nick, homepage, jabberID, interest, account oder thumbnail definiert. Die hier vorgestellten Standards bilden Teile von Versionen des Austauschformats BuRST. 3.2 Bibliography Management using RSS Technology (BuRST) BuRST ist eine Spezifikation zum Austausch von bibliografischen Infor- mationen. Das Format wird im Rahmen des EU-Projektes Sustaining Technology Enhanced Learning at a LARge scale (STELLAR) entwickelt. Es setzt für den Austausch von Daten auf das RSS Format in Version 1.0. Für die Beschreibung der Daten wird kein eigenes, neues Vokabular verwendet. Stattdessen wird vorgeschlagen, wie vorhandene Standards kombiniert werden können um Publikationen sinnvoll zu beschreiben. Dafür werden Elemente aus Dublin Core und SWRC genutzt. In der ak- tuellen Version werden keine Elemente aus dem FOAF-Projekt genutzt, voraussichtlich wird dies aber in der nächsten Version wieder der Fall sein. Um einen Eindruck des Formats zu schaffen, gibt Listing 1 eine gekürzte Version eines BuRST Feeds wieder. Das BuRST Format bietet ein breites Spektrum von Möglichkeiten, Publikationen zu beschreiben. Daher ist es ein Kandidat für den Import und Export von wissenschaftlichen Veröffentlichungen im AAN System. Eine Liste mit Institutionen, die das Format bereits für den Export nutzen, ist in Abschnitt 3.4 aufgeführt. Der Umfang der Spezifikation und die laufende Entwicklung stellen allerdings auch Argumente gegen die Nutzung dar. Für den Austausch von Publikations-Metadaten ist neben BuRST auch das OAI-Protokoll ein Kandidat. 3.3 The Open Archives Initiative Protocol for Metadata Harvesting Das Open Archives Initiative Protocol for Metadata Harvesting ist eine Spezifikation, um Schnittstellen zum Austausch von Datensätzen bereit- 9
  • 10. Listing 1: Beispiel eines BuRST Feeds <?xml v e r s i o n= " 1 . 0 " encoding= "UTF−8" ?> <?xml− s t y l e s h e e t h r e f = " xmlverbatimwrapper . x s l " type= " t e x t / x s l " ?> <rdf:RDF xmlns= " h t t p : //p u r l . org/ r s s /1.0/ " x m l n s : r d f = " h t t p : //www. w3 . org /1999/02/22 − rdf −syntax −ns # " x m l n s : r d f s = " h t t p : //www. w3 . org /2000/01/ rdf −schema# " xmlns:swrc= " h t t p : //swrc . ontoware . org/ontology/ontoware # " x m l n s : f o a f = " h t t p : //xmlns . com/ f o a f /0.1/ " x m l n s : t a x o = " h t t p : //p u r l . org/ r s s /1.0/ modules/taxonomy/ " xmlns:dc= " h t t p : //p u r l . org/dc/elements /1.1/ " xmlns:syn= " h t t p : //p u r l . org/ r s s /1.0/ modules/ s y n d i c a t i o n / " xmlns:admin= " h t t p : //webns . n e t /mvcb/ " x m l n s : b u r s t = " h t t p : //xmlns . com/ b u r s t /0.1/ " x m l : b a s e= " h t t p : //www. c s . vu . n l /~pmika/ b u r s t . r d f " > < r s s : c h a n n e l r d f : a b o u t = " h t t p : //www. c s . vu . n l /~pmika/ b u r s t . r d f " > < r s s : t i t l e > P e t e r Mika ’ s p u b l i c a t i o n s </ r s s : t i t l e > < r s s : l i n k > h t t p : //www. c s . vu . n l /~pmika/ r e s e a r c h /pub . rdf </ r s s : l i n k > <rss:description > Semantic Web r e l a t e d p u b l i c a t i o n s authored by P e t e r Mika . </ r s s : d e s c r i p t i o n > <rss:items > <rdf:Seq > < r d f : l i r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t # 1 " /> < r d f : l i r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t # 2 " /> </ r d f : S e q > </ r s s : i t e m s > < r d f s : s e e A l s o r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~mcaklein/pub . r d f " /> </ r s s : c h a n n e l > < r s s : i t e m r d f : a b o u t =" h t t p : //www. c s . vu . n l /~pmika/ b u r s t #1" > < r s s : t i t l e >Foundations f o r S e r v i c e O n t o l o g i e s : Aligning OWL S t o − DOLCE</ r s s : t i t l e > < r s s : l i n k > h t t p : //www2004 . org/p roc eed ing s/docs /1p563 . pdf</ r s s : l i n k > < r s s : d e s c r i p t i o n >An a b s t r a c t o f t h e document</ r s s : d e s c r i p t i o n > < d c : s u b j e c t >Semantic Web</ d c : s u b j e c t > <burst:publication > <swrc:InProceedings > < s w r c : t i t l e >Foundations f o r S e r v i c e O n t o l o g i e s : Aligning OWL S t o − DOLCE</ s w r c : t i t l e > <s w r c : a u t h o r > < f o a f : P e r s o n r d f : I D =" PeterMika " > <foaf:name > P e t e r Mika</foaf:name > < r d f s : s e e A l s o r d f : r e s o u r c e =" h t t p : //www. c s . vu . n l /~pmika/ f o a f . r d f " /> </ f o a f : P e r s o n > </s w r c : a u t h o r > < s w r c : b o o k t i t l e >Pro ceedings o f t h e 13 th I n t e r n a t i o n a l World Wide Web Conference (WWW2004) </ s w r c : b o o k t i t l e > < s w r c : y e a r >2004</ s w r c : y e a r > <swrc:pages >563−−573</swrc:pages > </ s w r c : I n P r o c e e d i n g s > </ b u r s t : p u b l i c a t i o n > </ r s s : i t e m > </rdf:RDF > zustellen. Es basiert auf dem Hypertext Transport Protocol und der XML. Die Interoperabilität wird durch eine Strukturierung nach Dublin Core gefördert. Die Schnittstelle des OAI-Protokolls wird über URLs bereitgestellt. Ein Beispiel-Aufruf einer URL ist http://archive.org/oai ?verb=ListRecords &metadataPrefix=oai_dc. Hier ist der Hauptparameter jeden Aufrufs erkennbar, ein Schlüssel-Wert-Paar der Form verb=Wert. Mit diesem Verb wird einer der 6 Anfrage-Typen angegeben: Iden- tify, ListMetadataFormats, ListSets, ListIdentifiers, ListRecords oder Ge- tRecord. Das Verb ListRecords ist der häufigst genutzte Anfragetyp, seine Rückgabe besteht aus einer Liste von Datensätzen. Die Flusskontrolle der Protokolls besteht nicht aus einer Form, in der der erste gewün- schte Datensatz (in der Form startEntry=50) manuell generiert werden muss. Die Rückgabe eines Aufrufs stellt ein sogenanntes resumption- Token Token innerhalb der XML-Daten bereit. Dieses Token kann bei Folgeaufrufen genutzt werden, um an eine Anfrage anzuknüpfen. Eine Beispielrückgabe ist in Listing 2 gezeigt. Es ist zu erkennen, dass die zurückgegebenen Felder sehr homogen geformt sind. Jedes Feld wird ausnahmslos über Dublin Core be- schrieben. Die XML-Verschachtelung eines einzelnen Eintrags wird jedoch nicht stark genutzt, die Metadaten-Einträge befinden sich alle 10
  • 11. Listing 2: Beispiel eines OAI-PMH Aufrufs <record> <header> < i d e n t i f i e r > o a i : d o a j . o r g : 2 0 6 7 − 3957</ i d e n t i f i e r > <datestamp>2010 − 05 − 12 T 2 0 : 1 9 : 2 4 Z </datestamp> </header> <metadata> < o a i _ d c : d c x s i : [ . . . ] o a i _ d c . xsd " > <dc:title > B r a i n . Broad Research i n A r t i f i c i a l I n t e l l i g e n c e and Neuroscience </ d c : t i t l e > < d c : i d e n t i f i e r > h t t p : // b r a i n . e d u s o f t . ro/index . php/brain </ d c : i d e n t i f i e r > < d c : i d e n t i f i e r > i s s n : 2067 − 3957</ d c : i d e n t i f i e r > < d c : p u b l i s h e r >EduSoft p u b l i s h i n g </ d c : p u b l i s h e r > < d c : d a t e >2009</ d c : d a t e > <dc:language >English </dc:language > < d c : s u b j e c t > a r t i f i c i a l i n t e l l i g e n c e </ d c : s u b j e c t > < d c : s u b j e c t >LCC: RC321 −571</ d c : s u b j e c t > < d c : s u b j e c t >LCC: RC346 −429</ d c : s u b j e c t > < d c : s u b j e c t > D o a j S u b j e c t T e r m : Computer S c i e n c e </ d c : s u b j e c t > </ o a i _ d c : d c > </metadata > </record > auf gleicher Höhe. Wie zu erkennen ist, gibt es in dem Beispiel drei verschiedene Arten von Kategorien. Diese werden durch ein Präfix voneinander unterschieden. So werden verschiedene Konzepte in der Baumstruktur gleich dargestellt: Das Tag „artificial intelligence“, die LCC-Kategorien und die DOAJ Kategorie „Computer Science“. In der Praxis hat dies jedoch kein Problem dargestellt, über die Präfixe kon- nten alle Konzepte ohne Probleme erkannt und die Daten extrahiert werden. In Abschnitt 3.4 ist je eine Webseite mit Quellen, die per OAI- Protokoll zugreifbar sind und Richtlinien für die Implementierung eines eigenen Archivs aufgeführt. Bis zu diesem Punkt wurden Open Access Quellen und Formate für die Übertragung von Metadaten vorgestellt. Mit diesen Informationen können bereits Metadaten von wissenschaftlichen Veröffentlichungen extrahiert werden. Der nächste Teil dieses Textes befasst sich mit der Ex- traktion von Daten aus Publikationen im PDF-Format. Vorerst werden aber noch Ressourcen für eine weitere Recherche bereitgestellt. 3.4 Ansatzpunkte zur weiteren Recherche • Dublin Core http://dublincore.org/documents/dcmi-terms/ http://de.wikipedia.org/wiki/Dublin_Core • Semantic Web for Research Communities http://ontoware.org/swrc/ • The Friend of a Friend (FOAF) project http://www.foaf-project.org/ • BuRST http://stellarnet.eu/d/6/3/BuRST_format_adaption_discussion http://www.cs.vu.nl/~pmika/research/burst/BuRST.html http://stellarnet.eu/d/6/3/Directory_of_BuRST_feeds http://www.cs.vu.nl/~pmika/research/thesis/thesis.pdf http://web.resource.org/rss/1.0/spec • OAI-Protokoll http://www.openarchives.org/pmh/ http://www.oaforum.org/tutorial/ http://www.openarchives.org/OAI/openarchivesprotocol.html http://www.openarchives.org/Register/BrowseSites http://www.openarchives.org/OAI/2.0/guidelines-repository.htm 11
  • 12. Abbildung 3: ParsCit Demo - Ausgabe der Kopfdaten 4 daten-extraktion aus pdf-dateien Die automatische Generierung von Publikations-Netzwerken, verbun- den durch Zitierungen ist eine nicht-triviale Aufgabe. Veröffentlichun- gen werden mit unterschiedlichen Vorgaben für Layouts erstellt. Das gilt für die Textstruktur, wie auch für den Literatur-Abschnitt, mit dem der Kontext einer Veröffentlichung erfasst werden kann. Für die Formatierung und die Reihenfolge von Zitaten gibt es verschiedene Standards. Diese erschweren neben versehentlichen Fehlangaben in Publikationen die Extraktion von einzelnen Bestandteilen (z.B. Titel, Autor, Zeitschrift). Der Schwerpunkt dieses Abschnitts liegt auf der Software ParsCit, welche eine der führenden Umsetzungen für die Analyse und Extraktion von Bestandteilen wissenschaftlicher Artikel ist. 4.1 ParsCit Die quelloffene Software ParsCit stellt Funktionen zur Verfügung, um logische Dokument-Strukturen aus einer gegebenen Publikation zu extrahieren. Priorisiert wird dabei die Extraktion und Analyse von Referenz-Strings. Dazu wird das Conditional Random Field (CRF) Mo- dell, gekoppelt mit heuristischen Verfahrensweisen genutzt. Das CRF ist ein ungerichtetes grafisches Modell zu Taggen von sequenziellen Daten, wie natürlicher Sprache. Damit ist es möglich, Lernverfahren anzuwenden, um das CRF zu trainieren. Für ParsCit wird die CRF Implementierung CRF++ genutzt. Nachfolgend wird die Arbeitsweise der Software und anschließend die praktische Anwendung beschrieben. 4.1.1 Arbeitsweise Die Extraktion mittels ParsCit ist in [4] beschrieben. Zunächst müssen, basierend auf der Ausgabe von CRF++, einige Schritte durchgeführt werden. Die Namen der Autoren verschiedener Schreibweisen (z.B. „M. Mustermann“ oder „Mustermann, Max“) werden normalisiert, also in ein einheitliches Format überführt. Diese Normalisierung wird auch für Nummern („vol. 7“), Jahresangaben und Seitenzahlen („pp. 13- 42“) durchgeführt. Nach der Segmentierung der Referenzen wird der Haupttext mittels regulärer Ausdrücke nach Zitaten durchsucht. Dabei werden drei verschiedene Typen von Formatierungen berücksichtigt: Einfache Nummerierungen („7“ oder „7.“), Strings in Klammern („(7)“, „[7, 13]“ oder „[Mustermann11]“) und unmarkierte Listen, wie beim APA Stil. Dabei wird so vorgegangen, dass einfache Nummerierungen nur genutzt werden, wenn keine Klammer-Notation gefunden wurde. Interne Referenzierungen (z.B. „siehe Abbildung 3“) werden nicht ein- bezogen. Außerdem wird jeder reguläre Ausdruck auf den Haupttext angewandt, um eine Liste von Kontext-Inhalten zu generieren. Die prak- tische Ausführung dieser Arbeitsweise wird nachfolgend beschrieben. 12
  • 13. Abbildung 4: ParsCit Demo - Ausgabe einer Referenz Listing 3: Beipiel einer ParsCit Eingabe A r t e f a c t −Actor −Networks as t i e between s o c i a l networks and a r t e f a c t networks Wolfgang Reinhardt U n i v e r s i t y o f Paderborn I n s t i t u t e f o r Computer S c i e n c e 33102 Paderborn , Germany Email : wolle@upb . de [...] A b s t r a c t − S o c i a l networks r e f l e c t communication , c o o p e r a t i o n and l o o s e a c q u a i n t a n c e s i n networked communities . Numerous [...] REFERENCES [ 1 ] CollaborateCom 2009 Programme Committee , " C a l l f o r paper f o r t h e CollaborateCom 2 0 0 9 , " h t t p ://www. c o l l a b o r a t e c o m . org/docs/ CollaborateCom 09 c f p . pdf , 2 0 0 9 . [ 2 ] J . C . M i t c h e l l , S o c i a l Networks i n urban s i t u a t i o n s : Analyses o f personal r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns . Manchester : U n i v e r s i t y Press , 1969. [...] [ 2 1 ] T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ , r e t r i e v e d on 2009 − 07 − 17 , J u l y 2 0 0 9 . [ 2 2 ] U n i v e r s i t y o f Toronto , " Blogscope , " h t t p ://www. blogscope . n e t / , retrieved on 2009 − 07 − 17, J u l y 2 0 0 9 . [...] 4.1.2 Anwendung ParsCit stellt zwei Wege der Anwendung bereit: Einen Webservice und die lokale Ausführung. Hinweise zur jeweiligen Ausführung wer- den auf der Webseite (siehe Abschnitt 4.4) und in den dem Code beigefügten Readme-Dateien gegeben. Auf der Webseite werden zu- dem Web-basierte Demonstrationen zur Verfügung gestellt. Für einen ersten, grafisch aufbereiteten, Einblick wurde die Demo #1 mit der auf der Webseite verlinkten Datei E06-1050.txt ausgeführt. Teile der Aus- gabe sind in den Abbildungen 3 und 4 dargestellt. Die Kopfangaben der Textdatei wurden im Vergleich auf die Quelle fehlerfrei extrahiert. Obwohl es für eine eigene Referenz nicht verwunderlich gewesen wäre, wenn alle Daten ohne Fehler erkannt worden wären, gibt es kleinere Ab- weichungen in der Ausgabe der ersten Referenz. In Abbildung 4 ist eine Legende der möglichen Felder, dem Ursprungstext, einem Ausschnitt aus dem Haupttext mit dem eigentlichen Zitat und das Extraktions- Ergebnis zu sehen. Bei der Angabe des Bandes fehlt der Zusatz „(2)“ und die Seitenzahlen fehlen gänzlich. Die wichtigsten Angaben, Autor und Titel werden jedoch korrekt erkannt. Für eine praktische Verwendung innerhalb des AAN Systems bietet sich die direkte Nutzung des Codes an. Auf den Zugriff über den Webservice per Web Services Description Language (WSDL) wird daher an dieser Stelle nicht weiter eingegangen. Stattdessen wurde ParsCit auf einem Testsystem installiert. Um einen Praxistest durchzuführen, wurde eine AAN Veröffentlichung [9] ausgewertet. Dazu muss ein PDF zunächst in UTF-8 kodierten Reintext konvertiert werden. Dies kann 13
  • 14. Listing 4: Beipiel einer ParsCit Ausgabe [...] <citationList > < c i t a t i o n v a l i d =" t r u e " > < t i t l e >Programme Committee , " C a l l f o r paper f o r t h e CollaborateCom </ t i t l e > <date >2009</ date > < i n s t i t u t i o n >CollaborateCom </ i n s t i t u t i o n > <note > h t t p ://www. c o l l a b o r a t e c o m . org/docs/ CollaborateCom 09 c f p . pdf</note > <contexts > <context position ="1330" c i t S t r = " [ 1 ] " startWordPosition ="175" endWordPosition ="175" > through t h e e x i s t e n c e o f A r t e f a c t A c t o r −Networks . I . INTRODUCTION Computer mediated communication (CMC) has evolved t o an important f a c t o r o f i n d u s t r y , s c i e n c e and r e s e a r c h wi thin t h e l a s t decades . As [ 1 ] puts i t , we produce j o i n t products and a c h i e v e h i g h e r p r o d u c t i v i t y by e l e c t r o n i c c o l l a b o r a t i o n between d i s t r i b u t e d teams o f humans , computer a p p l i c a t i o n s , and/or autonomous r o b o t s . Todays communicati </ c o n t e x t > </ c o n t e x t s > <marker >[1] </ marker> <rawString >CollaborateCom 2009 Programme Committee , " C a l l f o r paper f o r t h e CollaborateCom 2 0 0 9 , " h t t p ://www. c o l l a b o r a t e c o m . org/docs/ CollaborateCom 09 c f p . pdf , 2009. </ rawString > </ c i t a t i o n > < c i t a t i o n v a l i d =" t r u e " > <authors > <author > J C M i t c h e l l </author > </authors > < t i t l e > S o c i a l Networks i n urban s i t u a t i o n s : Analyses o f p e r s o n a l r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns</ t i t l e > <date >1969</ date > < p u b l i s h e r >Manchester : U n i v e r s i t y Press </ p u b l i s h e r > <contexts > <context position ="2258" c i t S t r = " [ 2 ] " startWordPosition ="317" endWordPosition ="317" > s e t o f l i n k a g e s among a d e f i n e d s e t o f persons with t h e a d d i t i o n a l p r o p e r t y t h a t t h e c h a r a c t e r i s t i c s o f t h e s e l i n k a g e s as a whole may be used t o i n t e r p r e t t h e s o c i a l behaviour o f t h e persons involved ’ [ 2 ] . By extending M i t c h e l l ’ s i n t e r p r e t a t i o n o f a s o c i a l network , we g e t a more g e n e r i c d e f i n i t i o n o f s o c i a l networks . S o c i a l networks r e p r e s e n t s o c i a l s t r u c t u r e s by means o f t i e s between nodes . These node</ c o n t e x t > </ c o n t e x t s > <marker >[2] </ marker> <rawString > J . C . M i t c h e l l , S o c i a l Networks i n urban s i t u a t i o n s : Analyses o f p e r s o n a l r e l a t i o n s h i p s i n C e n t r a l A f r i c a n towns . Manchester : U n i v e r s i t y Press , 1969. </ rawString > </ c i t a t i o n > [...] < c i t a t i o n v a l i d =" t r u e " > <authors > <author > T e c h n o r a t i Inc </author > </authors > < t i t l e > T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ , r e t r i e v e d on</ t i t l e > <date >2009</ date > <pages >2009−−07</pages > <contexts > <context position ="29725" c i t S t r = " [ 2 1 ] " startWordPosition ="4600" endWordPosition = " 4 6 0 0 " > [ . . . ] < / c o n t e x t > </ c o n t e x t s > <marker >[21] </ marker> <rawString > T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p :// t e c h n o r a t i . com/ , r e t r i e v e d on 2009 − 07 − 17, J u l y 2009. </ rawString > </ c i t a t i o n > < c i t a t i o n v a l i d =" f a l s e " > <date >2009</ date > <pages >2009−−07</pages > < i n s t i t u t i o n > U n i v e r s i t y o f Toronto </ i n s t i t u t i o n > <note >Blogscope , " h t t p ://www. blogscope . n e t / , r e t r i e v e d on</note > <contexts > <context position ="29731" c i t S t r = " [ 2 2 ] " startWordPosition ="4601" endWordPosition = " 4 6 0 1 " > [ . . . ] < / c o n t e x t > </ c o n t e x t s > <marker >[22] </ marker> <rawString > U n i v e r s i t y o f Toronto , " Blogscope , " h t t p ://www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17, J u l y 2009. </ rawString > </ c i t a t i o n > [...] mit dem Tool pdftotext geschehen. Der Parameter -raw wird benötigt, damit die Reihenfolge der Strings im Inhalt erhalten bleibt: pdftotext -raw 2009_CC_AAN.pdf 14
  • 15. Listing 5: Beipiel einer ParsCit Lernvorgabe <author> CollaborateCom 1982 Programme Committee , </author> < t i t l e > " C a l l f o r paper f o r t h e CollaborateCom 1 9 8 2 , " </ t i t l e > <note> h t t p : //www. c o l l a b o r a t e c o m . org/docs/CollaborateCom82_cfp . pdf </note> < b o o k t i t l e > Proc . 5 th . BCS−FACS Refinement Workshop , </ b o o k t i t l e > <date> 1 9 9 2 . </date> <author> B r a i n f u c k I n c . , </author> < t i t l e > " Brainfuck , " </ t i t l e > <note> h t t p : //www. muppetlabs . com/~breadbox/ b f / , r e t r i e v e d on 1999 − 12 − 31,</note> <volume> 1 ( 1 ) , </volume> <date> December 1 9 9 9 . </date> Einen Eindruck der generierten Textdatei verschafft Listing 3. Wie zu sehen ist, sind die Kopfdaten, der Text und die Referenzen mit den durchschnittlichen kognitiven Fähigkeiten einer realen Person unmittelbar erkennbar. Im Eingabecode sind die ersten beiden Einträge der Referenzliste und, für einen folgenden Vergleich, die Referenzen 21 und 22 aufgeführt. Der tatsächliche Extraktionsvorgang für Referenzen wird mit folgendem Befehl gestartet: citeExtract.pl 2009_CC_AAN.txt > 2009_CC_AAN.xml Die daraufhin generierte Ausgabe für die aufgeführten Referenzen der Eingabe ist in Listing 4 abgebildet. Der XML Code wurde nachträglich eingerückt und drei der Zitat-Kontexte entfernt. Für jedes Zitat werden, sofern gefunden, Autoren, Titel, Datum, Herausgeber, Seiten, Institu- tion, Kommentar, Zitat-Kontext, Zitat-Markierung und der gefundene Eingabe-String ausgegeben. Bei der Ausgabe des ersten Zitates wird der Autor nicht korrekt erkannt. Eine wahrscheinliche Ursache ist, dass dort kein Name einer Person angegeben wurde und zusätzlich eine Jahreszahl verwendet wurde. Dadurch ist möglicherweise auch der zweite Teil des Namens als Bestandteil des Titels erkannt worden. Dem Titel fehlt wiederum die abschließende Jahreszahl. Die Notiz und der Marker wurden erfolgreich erkannt, der fehlende Unterstrich der Notiz ist ein Folgefehler der Umwandlung der PDF-Datei in Reintext. Die Hauptangaben des zweiten Zitats wurden erfolgreich erkannt. Hier wird der Ort der Veröffentlichung zum Herausgeber hinzugefügt, was vernachlässigt werden kann. Das Zitat mit der Nummer 21 wurde in das Beispiel aufgenommen, da es dem Folgezitat ähnelt, welches als nicht valide gekennzeichnet wurde. Bei beiden Zitaten handelt es sich um Webseiten, deren Hinweis auf ihre Sichtung als Seitenzahl interpretiert wurde. Lediglich Marker, Autor und Datum wurden hier erfolgreich erkannt. Diese Art von Zitat ist eine Ausnahme und spielt für die Referenzierung von Publikationen untereinander keine Rolle, da es sich um Webseiten handelt. Der Unterschied zwischen den Va- liditätsangaben lässt sich mit den geparsten Eingaben erklären. Beim Zitat 21 gibt es einen zusätzlichen Zeilenumbruch. Dieser ist eigentlich eine Fehlkonversion aus dem PDF-Format und ist bedingt durch den -raw Parameter. Interessant ist die Tatsache, dass das Zitat 21, mit der eigentlich falschen Eingabe, validiert wird. 4.1.3 Training Basierend auf den fehlerhaften Extraktionen wurde eine Vorgabe für ein Training erstellt. Die Lernvorgabe, dargestellt in Listing 5 ist stark auf eine Verbesserung der gegebenen Zitate ausgelegt. Für das er- ste Zitat wurde lediglich ein anderes Jahr gewählt, ansonsten wurde ein zugeschnittenes Ergebnis vorgegeben. Für die Zitate 21 und 22 wurde die Struktur der Webseitenreferenzen beibehalten. Der Link und die Angabe zum Abruf der Webseite wurden als Notiz vorgegeben. Zusätzlich wurden (versehentlich) verfremdende Angaben eingefügt, diese sollten das Ergebnis jedoch nicht stark verfälschen. Das Ergebnis 15
  • 16. Listing 6: Beipiel einer ParsCit Ausgabe nach dem Training [...] <citationList> < c i t a t i o n valid=" true "> < a u t h o r s> <author>Programme Committee</author> </ a u t h o r s> < t i t l e > C a l l f o r paper f o r t h e CollaborateCom 2009</ t i t l e > <date>2009</date> < b o o k t i t l e >CollaborateCom09 c f p . pdf</ b o o k t i t l e > <note> h t t p : //www. c o l l a b o r a t e c o m . org/docs</note> <contexts> < c o n t e x t p o s i t i o n = " 1330 " c i t S t r = " [ 1 ] " s t a r t W o r d P o s i t i o n = " 175 " endWordPosition= " 175 " > [ . . . ] </ c o n t e x t > </ c o n t e x t s > <marker> [ 1 ] </marker> <ra wS t ri n g>CollaborateCom 2009 Programme Committee , " C a l l f o r paper f o r t h e CollaborateCom 2 0 0 9 , " h t t p : //www. c o l l a b o r a t e c o m . org/docs/ CollaborateCom09 c f p . pdf , 2 0 0 9 . </ra wS t ri n g> </ c i t a t i o n > [...] < c i t a t i o n valid=" true "> < a u t h o r s> <author> T e c h n o r a t i I n c </author> </ a u t h o r s> < t i t l e > T e c h n o r a t i </ t i t l e > <date>2009</date> <note> h t t p : // t e c h n o r a t i . com/ , r e t r i e v e d on 2009 − 07 − 17</note> <contexts> < c o n t e x t p o s i t i o n = " 29725 " c i t S t r = " [ 2 1 ] " s t a r t W o r d P o s i t i o n = " 4600 " endWordPosition= " 4600 " > [ . . . ] </ c o n t e x t > </ c o n t e x t s > <marker> [ 2 1 ] </marker> <ra wS t ri n g> T e c h n o r a t i I n c . , " T e c h n o r a t i , " h t t p : // t e c h n o r a t i . com/ , r e t r i e v e d on 2009 − 07 − 17, J u l y 2 0 0 9 . </ra w St ri n g> </ c i t a t i o n > < c i t a t i o n valid=" true "> < a u t h o r s> <author> U n i v e r s i t y o f Toronto</author> </ a u t h o r s> < t i t l e >Blogscope</ t i t l e > <date>2009</date> <note> h t t p : //www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17</note> <contexts> < c o n t e x t p o s i t i o n = " 29731 " c i t S t r = " [ 2 2 ] " s t a r t W o r d P o s i t i o n = " 4601 " endWordPosition= " 4601 " > [ . . . ] </ c o n t e x t > </ c o n t e x t s > <marker> [ 2 2 ] </marker> <ra wS t ri n g> U n i v e r s i t y o f Toronto , " Blogscope , " h t t p : //www. blogscope . n e t / , r e t r i e v e d on 2009 − 07 − 17, J u l y 2 0 0 9 . </ra wS t ri ng> </ c i t a t i o n > [...] der erneuten Extraktion (siehe Listing 6) ist besser. Die Referenzen auf Webseiten wurden korrekt erkannt. Beim ersten Zitat scheint die Jahreszahl im Autorenfeld sowie das Leerzeichen in der URL ein Pro- blem darzustellen. Insgesamt ist die Ausgabe jedoch ein zufriedenstel- lendes Ergebnis. 4.2 Weitere Software Die Verwendung von ParsCit scheint ein probates Mittel zur Extrak- tion von Referenzen zu sein. Daher folgt an dieser Stelle eine Liste (siehe Tabelle 1) von Alternativen; auf weitere umfassende Tests wird verzichtet. Tabelle 1: Software zur Extraktion von Referenzen Ansatz Aktualität System Kommentar ParsCit 01.11.2010 Perl, CRF++ FreeCite 16.04.2009 Ruby on Rails, CRF++ Biblio-Citation-Parser 02.09.2004 Perl Mike Jewell ParaTools 05.09.2004 Perl Mike Jewell California 02.07.2008 Python Hidden Markov Digital Library Models 16
  • 17. 4.3 Herausforderungen Für die weitere Arbeit mit extrahierten Referenzen fallen zwei mögliche Hindernisse ins Auge. Die Extraktion von Kopfdaten von Publikationen scheint angemessen gut zu klappen. Basierend auf diesen Daten kön- nen eindeutige URIs generiert werden, mit denen Veröffentlichungen referenziert werden können. Eine Herausforderung ist die Zuordnung bei nicht korrekt extrahierten Datenfeldern der Referenzen. Dadurch könnten Verweise fehlgeleitet werden. Eine mögliche Teillösung wäre eine Suche nach vorhandenen Publikationen mit gleichem oder ähn- lichen Titel, mit der ein korrektes Matching und eine Korrektur von Relationen im Modell eingeleitet werden könnte. Die zweite Heraus- forderung ist die Live-Generierung von Trainingsdaten. Diese sollten korrekt sein, was bei einer Extraktion nicht der Fall sein muss. Ein Lö- sungsansatz ist die Verwendung von Daten, die z.B. aus vorgegebenen XML-Daten aus sicheren Quellen extrahiert wurden und sich daher für einen Trainingsinput eignen. 4.4 Ansatzpunkte zur weiteren Recherche • ParsCit http://aye.comp.nus.edu.sg/parsCit/ • Conditional Random Field http://crfpp.sourceforge.net/ http://de.wikipedia.org/wiki/Conditional_Random_Field http://de.wikipedia.org/wiki/Web_Services_Description_Language • FreeCite http://freecite.library.brown.edu/ • Biblio-Citation-Parser http://search.cpan.org/~mjewell/ • ParaTools http://paracite.eprints.org/developers/ • California Digital Library http://gales.cdlib.org/~egh/hmm-citation-extractor/ 5 szientometrie, bibliometrie und zitationsanalyse Szientometrie (Scientometrics), Bibliometrie (Bibliometrics) und Zita- tionsanalyse (Citation analysis). Mehrautorenschaft (Co-authorship), Kopplung von Kozitationen (Co-citation Coupling) und Bibliografische Kopplung (Bibliographic Coupling). h-Index und g-Index? Dies wirkt wie ein Gewitter von Begriffen, die irgendwie mit Zitaten und deren Analyse zusammenhängen. Dieser Abschnitt soll wichtige Begriffe und deren Bedeutung im Kontext von Zitierungen innerhalb von wis- senschaftlichen Publikationen klären. Dazu werden zunächst Oberbe- griffe erläutert und anschließend verschiedene Metriken der Zitations- analyse vorgestellt. Das heißt, dass durch eine Analyse der Verweise verschiedener Publikationen bestimmte Aussagen über eine Zusam- mengehörigkeit gemacht werden. Es gibt auch Ansätze, die versuchen, über die Menge der Veröffentlichungen eines Autors und deren Zi- tierungen in anderen Veröffentlichungen (der Zitierrate) Aussagen über den Status des Autors zu machen. Dies bildet den Abschluss dieses Abschnitts. 5.1 Begriffsklärung • Die Szientometrie ist eine quantitative Methode und untersucht das wissenschaftliche Forschen. Es soll unter anderem die Frage beantwortet werden, wie und warum sich ein bestimmter Wis- senschaftsbereich entwickelt. Ein oft verwendetes Werkzeug ist die Bibliometrie. 17
  • 18. • Die Bibliometrie ist die quantitative Untersuchung von Publikatio- nen, Autoren und Institutionen wie Bibliotheken mittels statistis- cher Verfahren. Neben der Inhaltsanalyse ist ein weiteres Gebiet die Zitationsanalyse. • Die Zitationsanalyse beschäftigt sich im Wesentlichen mit Be- ziehungen zwischen zitierten und zitierenden Arbeiten, also mit dem Studium von Zitationen. 5.2 Zitationsanalyse In der Zitationsanalyse werden verschiedene Zusammenhänge von Autoren und deren Veröffentlichungen geschlossen. Als Indikator dient oft die Anzahl von Zitierungen. An dieser Stelle werden die Metriken Co-authorship, Co-citation Coupling und Bibliographic Coupling beschrieben. 5.2.1 Co-authorship (Mehrautorenschaft) Eine Mehrautorenschaft bezeichnet die Verfassung eines Dokuments, an der mehrere Mitautoren beteiligt sind. Durch das Zählen gemein- sam erstellter Dokumente kann man den Grad der Zusammenarbeit zweier oder mehrerer Autoren quantitativ ermitteln. Je mehr gemein- same Dokumente eine Menge von Autoren zusammen verfasst hat, desto höher ist der Grad ihrer Zusammenarbeit. In Abbildung 5 ist ein Beispiel dreier Publikationen gegeben. Die Autoren A, B, C und D waren an der Erstellung von Dokumenten beteiligt. A B A C D A B D Publikation Autor Abbildung 5: Beispiel Co-authorship In Tabelle 2 ist eine paarweise Auswertung des Beispiels angegeben. Die Autoren A,B und A,D haben hiernach am meisten zusammen gearbeitet, die Autoren B,C scheinen noch keine gemeinsame Arbeit veröffentlicht zu haben. Tabelle 2: Auswertung des Beispiels Co-authorship CA(A,B) CA(A,C) CA(A,D) CA(B,C) CA(B,D) CA(C,D) 2 1 2 0 1 1 Dieses Beispiel ist sehr simpel gehalten. Bei einer großen Daten- basis mit hunderten oder tausenden von Publikationen liefert dieses Verfahren aber für die Praxis hilfreiche Ergebnisse. Gerade im Gebiet Recommendations oder bei der Expertenfindung sind Mitautoren inter- essant. Eine Visualisierung der für den Workshop LWA2010 [1] angenom- menen Artikeln zeigt Abbildung 6. Auch dies ist ein einfaches Beispiel. Da jeder Autor an lediglich einer Arbeit beteiligt war, sind klar trennbare Cliquen zu erkennen. So ist zum Beispiel auf den ersten Blick sicht- bar, dass die Autoren Daniela Godoy und Dominikus Heckmann die einzigen beiden Personen sind, die eine Publikation ohne Mitautoren eingereicht haben. Aber auch nur auf den ersten Blick, denn Daniel Burgos hat sowohl eine Publikation alleine, als auch eine zweite Pub- likation mit einem Mitautor eingereicht. So erklären sich auch die 11 18
  • 19. Abbildung 6: Co-authorship für LWA2010, Quelle: [12] Cluster bei 12 Publikationen des Workshops. Die Mehrautorenschaft bezieht sich auf Autoren, im Gegensatz dazu bezieht sich die nächste Metrik auf Zitationen. 5.2.2 Co-citation Coupling (Kopplung von Kozitationen) Durch den Ansatz der Kopplung von Kozitationen wird versucht, the- matisch verwandte Inhalte von Publikationen zu erkennen. Dazu wird die Anzahl gemeinsamer Zitationen innerhalb weiterer Publikationen ermittelt. Wenn also zwei Publikationen A und B in einer Publikation C referenziert werden, nimmt man an, dass deren Themen verwandt sind. Auch, wenn A und B nicht gegenseitig auf sich verweisen. Je mehr solche gemeinsame Zitationen gefunden werden, desto stärker scheint ihre Beziehung zu sein. Abbildung 7 zeigt ein Beispiel mit drei Publikationen 1 bis 3. Diese Publikationen referenzieren fünf weitere Veröffentlichungen A bis E. Welche der Veröffentlichungen A bis E sind nach dem Co-citation Coupling am stärksten thematisch verwandt? Abbildung 7: Beispiel Co-citation Coupling Tabelle 3 zeigt eine Auswertung des Beispiels. Die Publikationen A,B und A,D wurden beide zweimalig gemeinsam referenziert und scheinen somit am stärksten thematisch verwandt zu sein. In Abbildung 8 ist ein weiteres Beispiel einer Visualisierung des LWA2010 Workshops gegeben. Die erkennbaren Cluster sind von den Workshop-Beiträgen referenzierte Dokumente. Die Bildung der Clus- 19
  • 20. Tabelle 3: Auswertung des Beispiels Co-Citation Coupling CCC(A,B) CCC(A,C) CCC(A,D) CCC(A,E) CCC(B,C) 2 1 2 1 1 CCC(B,D) CCC(B,E) CCC(C,D) CCC(C,E) CCC(D,E) 1 0 0 0 1 ter kommt daher, dass alle Dokumente, die gemeinsam durch einen LWA2010-Beitrag referenziert wurden, durch eben diese Kozitation gekoppelt werden. Vier Knoten stechen heraus. Diese vier Knoten wur- den in jeweils zwei Workshop-Beiträgen referenziert und weisen daher jeweils eine thematische Verwandtschaft zu zwei Clustern auf. Abbildung 8: Co-citation Coupling für LWA2010, Quelle: [12] Die Kopplung von Kozitationen bietet sich für ältere Arbeiten an und kann sich im Lauf der Zeit verändern, was aber ist mit ganz neuen Veröffentlichungen, auf die wegen ihres Alters noch nicht verwiesen werden kann? Dazu eignet sich die folgende Metrik. 5.2.3 Bibliographic Coupling (Bibliografische Kopplung) Die bibliografische Kopplung verfährt auf einem ganz ähnlichen Weg. Allerdings in umgekehrter Weise. Wenn zwei Publikationen A und B eine weiteres Dokument C referenzieren, dann sind A und B nach dieser Metrik miteinander thematisch verwandt. Das Bibliographic Coupling bietet sich auch für jüngere Arbeiten an, da nicht auf diese selber verwiesen werden muss. In Abbildung 9 ist das bereits bekannte Beispiel nochmals aufgeführt. Drei Publikationen 1 bis 3 verweisen auf fünf weitere Publikationen A bis E. Welche der Publikationen 1 bis 3 haben nach der hier vorgestellten Metrik die am stärksten ausgeprägte thematische Ähnlichkeit? In Tabelle 4 ist eine Auswertung des Beispiels gegeben. Die Publika- tionen 1,2 und 2,3 haben jeweils zwei gleiche Zitierungen. Das sind A und B im ersten Fall und A und D im zweiten Fall. 20
  • 21. Abbildung 9: Beispiel Bibliographic Coupling Tabelle 4: Auswertung des Beispiels Bibliographic Coupling BC(1,2) BC(1,3) BC(2,3) 2 1 2 In Abbildung 10 ist auch für das Bibliographic Coupling ein LWA2010 Beispiel zu sehen. Die 12 Knoten entsprechen den 12 eingereichten Beiträgen. Acht der Beiträge weisen keine Ähnlichkeit mit anderen Beiträgen auf. Bei vier Einreichungen ist eine Ähnlichkeit erkennbar. Insbesondere bei „What is wrong with the IMS Learning Design spe- cification?“ und „On the Role of Social Tags in Filtering Interesting Resources from Folksonomies“ sind jeweils zwei ähnliche Dokumente erkennbar. Zusätzlich zu den hier vorgestellten Zusammenhängen von Autoren und Veröffentlichungen gibt es Maße, mit denen die Produktivität von Autoren verglichen werden kann, sogenannte bibliometrische Maße. Abbildung 10: Bibliographic Coupling für LWA2010, Quelle: [12] 5.3 Bibliometrisches Maße In diesem Abschnitt werden die relativ neuen (2005, 2006) Konzepte h-Index und g-Index vorgestellt. Es existieren noch weitere biblio- metrische Maße, dieser Abschnitt beschränkt sich auf die beiden bekan- ntesten. 5.3.1 h-Index (Hirsch-Index) Der Hirsch-Index (auch Hirschfaktor) wurde im November 2005 vom amerikanischen Physik Jorge E. Hirsch [7] veröffentlicht. Er ist ein Maß für die Produktivität und den Einfluss eines Autors. Zur Berechnung des h-Index werden die Publikationen eines Autors nach der Anzahl ihrer Zitierungen absteigend geordnet. Diese Liste geht man nun von vorne durch und vergleicht den Index der Publikation mit ihrer Anzahl an Zitierungen. Sobald die h-te Publikation weniger als h Zitierungen 21
  • 22. hat, ist der Hirsch-Index bestimmt. Abbildung 11 zeigt die Bestimmung des h-Index bildlich. Abbildung 11: h-Index, Quelle: http://de.wikipedia.org/wiki/H-Index Der Hirschfaktor berücksichtigt keine besonders hervorstechenden Publikationen. So könnte ein Autor wenige Artikel mit sehr vielen Zitierungen veröffentlicht haben. Dies könnte eine herausragende Leis- tung darstellen, die im h-Index nicht berücksichtigt würde, wenn die übrigen Arbeiten des Autors nur sehr wenige Zitierungen hätten. Durch den g-Index wird versucht dies auszugleichen. 5.3.2 g-Index Der g-Index wurde 2006 von Leo Egghe in der Zeitschrift Scientomet- rics [5] veröffentlicht. Zur Bestimmung des Index werden die Veröf- fentlichungen eines Autors ebenfalls nach der Anzahl ihrer Zitationen absteigend sortiert. Nun wird die Summe der Zitierungen der ersten bis zur g-ten Publikation berechnet und mit dem Produkt g·g verglichen. Der g-Index ist die Zahl, bei der die Summe der Zitierungen mindestens so groß ist, wie das Produkt g·g. Tabelle 5: Beispiel zum g-Index Artikel (g) Zitierungen Summe Zitierungen g·g 1 20 20 1 2 10 30 4 3 7 37 9 4 5 42 16 5 3 45 25 6 2 47 36 7 1 48 49 Ein Beispiel zur Bestimmung des g-Indexes ist in Tabelle 5 gegeben. Die Tabelle gibt die sieben meist-zitierten Publikationen eines fiktiven Autors wieder. Bis zur 6. Publikation ist die Summe der Zitierungen mindestens so groß wie das Quadrat des Indexes. Da dies bei der 7. meist-zitierten Veröffentlichung nicht mehr zutrifft, ist der g-Index 6. Die hier vorgestellten Metriken und Maße fußen auf Zitationen. Diese können als semantische Relationen zwischen Artefakten interpretiert werden. Somit sind die Konzepte teilweise auch auf andere Artefakt- Typen erweitert werden. Im Folgenden wird zusätzlich ein Vorschlag für eine zusätzliche Bewertung für Artefakte vorgestellt. 22
  • 23. 5.4 Bewertungen basierend auf semantischen Relationen Zum aktuellen Zeitpunkt werden Ähnlichkeiten von Artefakten im AAN System über die SemSim Komponente bestimmt. Basis dieser Berechnung bilden die Inhalte der Artefakte, genauer gesagt die Stich- wörter (Tags und Kategorien), mit denen sie verbunden sind. Ein weit- erer Ansatz ist die quantitative Auswertung der Anzahl von Art2 Re- lationen. Die Verwendung von gegenseitigen Referenzierungen als Rückschluss auf eine inhaltliche Ähnlichkeit wird auch in der Zitation- sanalyse gebraucht. Hierfür sollten lediglich eingehende Relationen betrachtet werden. Da in der AAN Ontologie für jede Relation ein Inverses definiert ist, der entstehende Graph also bidirektional ist, entsprechen zwei Kanten eines Artefakt-Knotens einer Relation. Ein erster Ansatz wäre also, die mit einem Artefakt verbundenen Art2 Re- lationen zu zählen und diese Summe zu halbieren. Möglicherweise ist es sinnvoll, Relationen wie isPartOf oder hasPart auszuschließen, um Verfälschungen des Ergebnisses zu vermeiden. Ein Artefakt, dass von einer hohen Anzahl von anderen Artefakten referenziert wird, könnte zusätzlich eine höhere Wertung bekommen. So wäre es denkbar, dass Relationen, die von einem solchen hochfre- quentierten Artefakt ausgehen, höher gewertet werden, als Relationen von einem wenig verbundenen Artefakt. Dieser Ansatz könnte itera- tiv fortgeführt werden, so dass Relationen von einem Artefakt, dass mit einem hoch frequentieren Artefakt verbunden ist, ebenfalls aufge- wertet werden. Dieser Ansatz ist in einer Variation bereits als PageRank bekannt. Außerdem könnten solche Relationen als weitere Beschreibung von Artefakten verwendet werden. Stichworte von direkt verbundenen Arte- fakten könnten als Stichworte zweiter Klasse dienen. Ob und welchen Mehrwert eine solche Weitergabe ergibt, muss in der Praxis evaluiert werden. Im Folgenden ist eine Sammlung von Webseiten aufgeführt, die für eine weitere Recherche im Gebiet Bibliometrie nützlich sein können. 5.5 Ansatzpunkte zur weiteren Recherche • Zitationsanalyse http://www.ischool.utexas.edu/~palmquis/courses/biblio.html#Cite http://www.harzing.com/pophelp/metrics.htm • Wikipedia (de) http://de.wikipedia.org/wiki/Szientometrie http://de.wikipedia.org/wiki/Bibliometrie http://de.wikipedia.org/wiki/Zitationsanalyse http://de.wikipedia.org/wiki/Mehrautorenschaft http://de.wikipedia.org/wiki/Kozitation http://de.wikipedia.org/wiki/Bibliografische_Kopplung http://de.wikipedia.org/wiki/H-Index • Wikipedia (en) http://en.wikipedia.org/wiki/Scientometrics http://en.wikipedia.org/wiki/Bibliometrics http://en.wikipedia.org/wiki/Citation_analysis http://en.wikipedia.org/wiki/H-index http://en.wikipedia.org/wiki/G-index 23
  • 24. 6 zusammenfassung Die vorgestellten Informationen sollen einen Einstieg der Integration von Publikationsdaten in das AAN System erleichtern. Dazu wurde ein kompletter Einblick des Ablaufs der wichtigsten Bereiche gegeben. Dies umfasst potenzielle Quellen, Möglichkeiten der Übertragung, An- sätze zur Extraktion von Daten und Grundlagen für die abschließende Analyse von wissenschaftlichen Dokumenten. Wichtig für die weitere Entwicklung ist die Betrachtung kommender Herausforderungen (siehe Abschnitt 2.3.3 und 4.3), für die bereits Vorschläge zur Bewältigung gegeben wurden. literatur [1] ABIS. LWA2010 - Lernen, Wissen, Adaptivität. http://www.kde. cs.uni-kassel.de/conf/lwa10/abis. zugegriffen am 5. Januar 2011. [2] Bo-Christer Björk, Patrik Welling, Mikael Laakso, Peter Majlender, Turid Hedlund, and Guðni Guðnason. Open Access to the Sci- entific Journal Literature: Situation 2009. PLoS ONE, 5(6), 2010. http://dx.doi.org/10.1371%2Fjournal.pone.0011273. [3] Budapest Open Access Initiative. What does BOAI mean by ’open access’? http://www.earlham.edu/~peters/fos/boaifaq.htm# openaccess. zugegriffen am 15. Dezember 2010. [4] Isaac G. Councill, C. Lee Giles, and Min-Yen Kan. Parscit: An open- source crf reference string parsing package. In Proceedings of the Language Resources and Evaluation Conference (LREC 08), Marrakesh, Morrocco, May 2008. [5] Leo Egghe. Theory and practise of the g-index. Scientometrics, 69(1):131–152, April 2006. [6] Yassine Gargouri, Chawki Hajjem, Vincent Larivière, Yves Gingras, Les Carr, Tim Brody, and Stevan Harnad. Self-Selected or Man- dated, Open Access Increases Citation Impact for Higher Quality Research. PLoS ONE, 5(10), 2010. http://dx.doi.org/10.1371% 2Fjournal.pone.0013636. [7] J. E. Hirsch. An index to quantify an individual’s scientific research output. PNAS, 102(46), November 2005. [8] Lund University Libraries. Directory of Open Access Journals. http://www.doaj.org/. zugegriffen am 03. Januar 2011. [9] Wolfgang Reinhardt, Matthias Moi, , and Tobias Varlemann. Artefact-actor-networks as tie between social networks and artefact networks. In Proceedings of the CollaborateCom 2009. [10] UNESCO, Adobe Systems Inc., and NDLTD members. NDLTD: Networked Digital Library of Theses and Dissertations. http: //www.ndltd.org/. zugegriffen am 03. Januar 2011. [11] Universitätsbibliothek Regensburg. Informationen zur Elektron- ischen Zeitschriftenbibliothek. http://ezb.uni-regensburg.de/ about.phtml. zugegriffen am 16. Dezember 2010. [12] Wolfgang Reinhardt. ABIS2010 Small-scale study. http://thales. cs.upb.de/smallscalestudies/abis2010/bibliometrics.html. zugegriffen am 5. Januar 2011. 24