1. Knowledge Awareness in Artefact-Actor-Networks
Analyse wissenschaftlicher Publikationen
Adrian Wilke
info@[REMOVE]adrianwilke.de
Didaktik der Informatik
Universität Paderborn
26. November 2010
2. Inhalt
Übersicht
Open access journals
Welche Publikations-Daten bieten sich für AAN an?
Austausch von Metadaten
Datenformate für Publikationen
AAN: Fallbeispiel Publikationen
Aktuelle Entwicklung in unserem System
Daten-Extraktion aus PDF-Dateien
Spezielle Parser und Maschinelles Lernen
Scientometrics, Bibliometrics, Citation Analysis
Möglichkeiten der Analyse
PG knowAAN: Analyse wissenschaftlicher Publikationen 2
3. Open access journals
Open access journals
Was für Daten können wir für AAN nutzen?
PG knowAAN: Analyse wissenschaftlicher Publikationen 3
4. Quellen: [Wikc, BWL+10] Open access journals
Open access journals
Was ist das?
Wissenschaftliche Fachzeitschriften (Peer-Review-Verfahren)
Freier Zugang (reiner Internetzugang)
Primäre Veröffentlichung: 8,5% (2008)
Parallelveröffentlichung oder Selbstarchivierung: 11,9% (2008)
Pro-Argumente
Autoren: Mehr Leser und mehr Zitierungen
Leser aus wissenschaftlichem Bereich: Finanzielle Mittel
Allgemein: Freier Zugang für alle Interessierten
PG knowAAN: Analyse wissenschaftlicher Publikationen 4
5. Quellen: [BWL+10] Open access journals
Studie 2010: Zugreifbare Artikel aus 2008
PG knowAAN: Analyse wissenschaftlicher Publikationen 5
6. Quellen: [Lun, Reg] Open access journals
Interessante Sammlungen
Directory of Open Access Journals (DOAJ)
5.700 Zeitschriften, 2.400 davon mit Artikel-Metadaten
Insgesamt 480.000 Artikel
Informatik: 236 Zeitschriften
Elektronische Zeitschriftenbibliothek der Uni Regensburg
51.000 Titel, davon 6.900 reine Online-Zeitschriften
26.000 Fachzeitschriften sind im Volltext frei zugänglich
Informatik: 451 Zeitschriften im Volltext frei zugänglich
PG knowAAN: Analyse wissenschaftlicher Publikationen 6
7. Austausch von Metadaten
Okay, Daten vorhanden. Und jetzt?
Austausch von Metadaten
Datenformate für Publikationen
PG knowAAN: Analyse wissenschaftlicher Publikationen 7
8. Quellen: [Mik, Dub, BM, Kar, RSS] Austausch von Metadaten
Bibliography Management using RSS Technology (BuRST)
Entwicklung: STELLAR - ein EU Projekt:
Sustaining Technology Enhanced Learning at a LARge scale
Genutzte Standards und Vokabularien:
Dublin Core Metadata Element Set, Version 1.1
Friend of a Friend (FOAF)
Semantic Web for Research Communities (SWRC) 0.3
RDF Site Summary (RSS) 1.0
Soll im AAN System für Import und Export genutzt werden
PG knowAAN: Analyse wissenschaftlicher Publikationen 8
9. Quellen: [Mik, Dub, BM, Kar, RSS] Austausch von Metadaten
Dublin Core Beispiel-Elemente SWRC Beispiel-Elemente
type
language
title
subject
creator
publisher
source
relation
date
Article
Thesis
Misc
Book
InBook
author
month
abstract
keywords
isbn
PG knowAAN: Analyse wissenschaftlicher Publikationen 9
10. BuRST Beispiel Austausch von Metadaten
<item rdf:about="http://know-center.tugraz.at/papers/16" xml:lang="en">
<title>A Storyboard of the APOSDLE Vision</title>
<link>http://www.aposdle.tugraz.at/content/download/288/1411/file/l
indstaedt_mayer_APOSDLE_poster_p.pdf</link>
<description>Lindstaedt, S. N., Mayer, H. (2006): A Storyboard of
the APOSDLE Vision.</description>
<dc:date>2009-10-27T14:40:18+01:00</dc:date>
<burst:publication>
<swrc:InProceedings>
<swrc:title>A Storyboard of the APOSDLE Vision</swrc:title>
<swrc:author>
<swrc:Person>
<swrc:name>Lindstaedt, Stefanie N.</swrc:name>
</swrc:Person>
</swrc:author>
<swrc:booktitle>Proceedings of the First European Conference
on Technology Enhanced Learning</swrc:booktitle>
<swrc:year>2006</swrc:year>
<swrc:month>10</swrc:month>
</swrc:InProceedings>
</burst:publication>
</item>
PG knowAAN: Analyse wissenschaftlicher Publikationen 10
11. Quellen: [OAI] Austausch von Metadaten
The Open Archives Initiative
Protocol for Metadata Harvesting
OAI-PMH oder einfach OAI-Protocol
Nutzt XML und HTTP
Aktuelle Version: 2.0 (2002)
Metadaten dargestellt in Dublin Core
Genutzt vom Directory of Open Access Journals (DOAJ)
Übergabe eines Verbs, z.B. ListSets, ListRecords, GetRecord
http://www.doaj.org/oai?verb=ListRecords&metadataPrefix=oai_dc&set=Technology_
and_Engineering
PG knowAAN: Analyse wissenschaftlicher Publikationen 11
13. AAN: Fallbeispiel Publikationen
Daten gibts. Die Übergabe kriegen wir hin. Und nun?
AAN: Fallbeispiel Publikationen
Aktuelle Entwicklung in unserem System
PG knowAAN: Analyse wissenschaftlicher Publikationen 13
15. Daten-Extraktion aus PDF-Dateien
Was, wenn eine Veröffentlichung nicht in XML zur Verfügung
steht?
Daten-Extraktion aus PDF-Dateien
Spezielle Parser und Maschinelles Lernen
PG knowAAN: Analyse wissenschaftlicher Publikationen 15
16. Quellen: [Kan, Kud] Daten-Extraktion aus PDF-Dateien
ParsCit
Nutzt CRF++: Yet Another CRF toolkit
Conditional Random Field, Taggen von sequentiellen Daten
Zur Informationsextraktion von natürlichsprachigen Texten
Training/Lernverfahren: Eingabe und Ausgabe vorgeben
Schritte:
1. PDF → Text (pdftotext)
2. Text → XML (ParsCit Extraktion)
Jetzt oder im Anschluß: Präsentation generierter Dateien
PG knowAAN: Analyse wissenschaftlicher Publikationen 16
17. Scientometrics, Bibliometrics, Citation Analysis
Publikationen sind im System. Was machen wir damit?
Scientometrics, Bibliometrics, Citation Analysis
Möglichkeiten der Analyse
PG knowAAN: Analyse wissenschaftlicher Publikationen 17
18. Scientometrics, Bibliometrics, Citation Analysis
Scientometrics, Bibliometrics, Citation Analysis
Szientometrie untersucht das wissenschaftliche Forschen. Es soll unter
Anderem die Frage beantwortet werden, wie und warum sich ein
bestimmter Wissenschaftsbereich entwickelt. Ein oft verwendetes
Werkzeug ist die
Bibliometrie quantitative Untersuchung von Publikationen, Autoren und
Institutionen wie Bibliotheken mittels statistischer Verfahren. Ein Gebiet
ist die
Zitationsanalyse beschäftigt sich im Wesentlichen mit Beziehungen
zwischen zitierten und zitierenden Arbeiten.
http://de.wikipedia.org/wiki/{Szientometrie, Bibliometrie, Zitationsanalyse}
PG knowAAN: Analyse wissenschaftlicher Publikationen 18
20. Quellen: [Rei] Scientometrics, Bibliometrics, Citation Analysis
Co-Authorship (Mehrautorenschaft)
Gemeinsame Autoren einer Arbeit.
→ Grad der Zusammenarbeit.
C BDAA B DA
Publikation Autor
Co-A(A,B) Co-A(A,C) Co-A(A,D) Co-A(B,D) Co-A( , )
2 1 1 1
PG knowAAN: Analyse wissenschaftlicher Publikationen 20
27. Quellen: [Wikb] Scientometrics, Bibliometrics, Citation Analysis
h-Index (Hirsch-Index), bibliometrisches Maß
Anzahl Paper, die jeweils mindestens h Zitierungen haben
1. Nach Zitierungs-Häufigkeit absteigend sortieren
2. Durchzählen, bis h-tes Paper weniger als h Zitierungen
PG knowAAN: Analyse wissenschaftlicher Publikationen 27
28. Quellen: [Wika] Scientometrics, Bibliometrics, Citation Analysis
g-Index, bibliometrisches Maß
1. Menge von Artikeln, absteigend sortiert nach Zitierungen
2. Höchste Zahl, so dass
die Summe der ersten g Artikel mindestens g2
Zitierungen hat
Artikel (g) Zitierungen Summe g*g
1 20 20 1
2 10 30 4
3 7 37 9
4 5 42 16
5 3 45 25
6 2 47 36
7 1 48 49
PG knowAAN: Analyse wissenschaftlicher Publikationen 28
29. Vielen Dank
Vielen Dank!
Quellen Open access journals
Formate BuRST, OAI-Protocol
AAN DOAJ Ontologie
PDF Extraktion ParsCit
Bibliometrische Maße Co-Authorship, H-Index, ...
PG knowAAN: Analyse wissenschaftlicher Publikationen 29
30. Literatur
Literatur I
[BM] Dan Brickley and Libby Miller.
The Friend of a Friend (FOAF) project.
http://www.foaf-project.org/.
23. November 2010.
[BWL+10] Bo-Christer Björk, Patrik Welling, Mikael Laakso, Peter Majlender, Turid Hedlund, and Guðni Guðnason.
Open access to the scientific journal literature: Situation 2009.
PLoS ONE, 5(6), 2010.
http://dx.doi.org/10.1371%2Fjournal.pone.0011273.
[Dub] Dublin Core Metadata Initiative.
Dublin Core Metadata Element Set, Version 1.1.
http://dublincore.org/documents/2010/10/11/dces/.
11. Oktober 2010.
[Kan] Min-Yen Kan.
ParsCit: An open-source CRF Reference String Parsing Package.
http://web.archive.org/web/20080521213729/wing.comp.nus.edu.sg/parsCit/.
21. Mai 2008.
[Kar] Karlsruher Institut für Technologie.
SWRC Ontology.
http://ontoware.org/swrc/.
11. Oktober 2010.
[Kud] Taku Kudo.
CRF++: Yet Another CRF toolkit.
http://crfpp.sourceforge.net/.
26. November 2010.
[Lun] Lund University Libraries.
Directory of Open Access Journals.
http://www.doaj.org/.
23. November 2010.
PG knowAAN: Analyse wissenschaftlicher Publikationen 30
31. Literatur
Literatur II
[Mik] Peter Mika.
Bibliography Management using RSS Technology (BuRST).
http://www.cs.vu.nl/~pmika/research/burst/BuRST.html.
14. Mai 2005.
[OAI] OAI: Open Archives Initiative.
OAI: Protocol for Metadata Harvesting.
http://www.openarchives.org/pmh/.
23. November 2010.
[Reg] Universitätsbibliothek Regensburg.
Elektronische Zeitschriftenbibliothek: Informatik.
http://rzblx1.uni-regensburg.de/ezeit/fl.phtml?colors=1¬ation=SQ-SU.
23. November 2010.
[Rei] Wolfgang Reinhardt.
ABIS2010 Small-scale study – Bibliometrics.
http://thales.cs.upb.de/smallscalestudies/abis2010/bibliometrics.html.
24. November 2010.
[RSS] RSS-DEV Working Group.
RDF Site Summary (RSS) 1.0.
http://web.resource.org/rss/1.0/spec.
09. Juni 2008.
[Wika] Wikipedia.
g-index.
http://en.wikipedia.org/wiki/G-index.
25. November 2010.
[Wikb] Wikipedia.
H-Index.
http://de.wikipedia.org/wiki/H-Index.
25. November 2010.
PG knowAAN: Analyse wissenschaftlicher Publikationen 31
32. Literatur
Literatur III
[Wikc] Wikipedia.
Open access journal.
http://en.wikipedia.org/wiki/Open_access_journal.
23. November 2010.
[WS] Adrian Wilke and Naiara Escudero Sanchez.
Tools for Awareness in Distributed Research Networks.
http://fsln10two.pbworks.com/w/page/31918658/Tools-for-Awareness-in-Distributed-Research-Networks.
25. November 2010.
PG knowAAN: Analyse wissenschaftlicher Publikationen 32