SlideShare uma empresa Scribd logo
1 de 13
Baixar para ler offline
Fallbasierte automatische Klassifikation nach der RVK
                          -
 k-nearest neighbour auf bibliografischen Metadaten



            Magnus Pfeffer (Dipl.-Inform., M.A. LIS)
          Universität Mannheim, Universitätsbibliothek
              magnus.pfeffer@bib.uni-mannheim.de
Themen

     Hintergrund und Motivation

     Ähnlichkeitsmaße

     Experimente und Ergebnisse

     User Feedback

     Aktuelle Entwicklungen




Autmatische Klassifikation nach der RVK   2
Hintergrund und Motivation

     Zusammenführung kleinerer Bereichsbibliotheken (2001)
           Einführung der RVK als Aufstellungssystematik
           Geringer Anteil an Fremddaten im Verbund

     Ziele
           Beschleunigung des Erschließungsvorgangs durch Vorschlagssystem
           Virtuelles Bücherregal im Katalog
                 Visualisierung der reklassifizierten Bestände
                 Grundlage für die Regalplanung

     Methode
           Fallbasiertes Schließen
                 Übernahme der Klasse(n) der 1-nearest-neighbour
           Datenbasis Südwestverbund




Autmatische Klassifikation nach der RVK                                      3
Ähnlichkeitsmaß

     Nur Metadaten
           Titel
           Personen und Körperschaften
           Schlagwörter

     Titelvergleich
           Zählen übereinstimmender Wörter
                 Pro: Schnell, einfach
                 Contra: gleiche Ähnlichkeitswerte bei identischen und erweiterten Titeln
                       z.B. “Einführung in Perl” maximal ähnlich zu “Einführung in den Compilerbau mit Perl”
           Alternative: Jaccard-Index
                 Arbeitet auf Wortmengen
                 Schnittmenge geteilt durch Vereinigungsmenge
                       Identität = 1, Nicht-ähnliche Titel = 0
                       jaccard (“Einführung in Perl”,“Einführung in den Compilerbau mit Perl”)= 3/5




Autmatische Klassifikation nach der RVK                                                                        4
Ähnlichkeitsmaß

     Gewichte
           Stoppwortliste und Gleichgewichtung
                 Überraschend gute Ergebnisse
                 Lange Stoppwortliste verhindert falsch positive Ähnlichkeiten
           Alternative: tf-idf
                 Ähnliche Ergebnisse
                 Stoppwortliste überflüssig

     Normalisierung
           Stemming englischer Wörter
           Teilwortzerlegung und Stammformreduzierung deutscher Wöter
           Alternative: N-gramme




Autmatische Klassifikation nach der RVK                                          5
Experimentelle Ergebnisse

     Automatische Klassifikation bereits klassifizierter Titel
           Titel wird für den Vorgang aus der Fallbasis ausgeblendet
           Gewählte Variante: Jaccard mit Stoppwortliste und Gleichgewichtung,
           Stemming und Teilwortzerlegung

     Bewertung
           Bestehende Klassifikation als “Goldstandard”
           Ideal: Identische Notation wird gefunden
           Noch gut: Nächste gefundene Notation ist nur wenige Knoten entfernt

     Ergebnisse (2008)
           Je nach Fachgebiet zwischen 65 und 80% gute oder bessere Treffer
           Aber:
                 Pro Titel werden recht viele Notationen geliefert
                 Keine Korellation der Güte mit den Ähnlichkeitsmaßen




Autmatische Klassifikation nach der RVK                                          6
User Feedback

     Anwender: Sacherschließer, Fachreferenten

     Nutzung: Retroklassifikation

     Erfahrungen
           Zu viele “falsche” Notationen, Verwirrend
           Starke Unterschiede in den Fächern
                 Informatik: Gut nutzbar
                 Jura: Nahezu nicht verwendbar

     Anpassungen
           Reduktion der gelieferten Notationen
           In der 1nn-Menge häufig auftetende Notationen werden präferiert
                 “Bester” Vorschlag oft nicht der häufigste
                 Keine wirkliche Verbesserung




Autmatische Klassifikation nach der RVK                                      7
Aktueller Ansatz

     Höhere Anforderungen an Ähnlichkeit
           Maß
                 Eine Übereinstimmung bei Autoren / Verfasser
                 Identischer Titel
                 Berücksichtigung des Einheitssachtitels (MAB Feld 304)
           Ziel: unterschiedliche Ausgaben eines Werks zusammenführen
                 Unterschiedliche Auflagen und Drucke
                 Parallelausgaben in anderen Formaten
                 Nachdrucke (Verlagswechsel)
           Umsetzung
                 Datenbasis Südwestverbund und HeBIS
                 Berücksichtigung von RVK und SWD-Schlagwörtern
                 Prüfung durch Sacherschließer der beteiligten Verbünde




Autmatische Klassifikation nach der RVK                                   8
Ausgaben zusammenführen

  Ausgangsdaten
     SWB: 12,78 Mio. Berücksichtigte Titelaufnahmen, davon
        3,24 Mio. Titelaufnahmen mit RVK-Notation(en)
        3,98 Mio. Titelaufnahmen mit SWD-Schlagwörtern
     Hebis: 8,84 Mio. Berücksichtigte Titelaufnahmen, davon
        1,93 Mio. Titelaufnahmen mit RVK-Notation(en)
        2,24 Mio. Titelaufnahmen mit SWD-Schlagwörtern

  Ergebnis (neuster Lauf 2011)
     SWB
        959.419 Titel neu mit RVK
        636.462 Titel neu mit SWD
     Hebis
        992.046 Titel neu mit RVK
        1.179.133 Titel neu mit SWD
Real world example

  Freihandbestand Jura
     55.445 Titel noch nicht reklassifiziert
     Ähnlichkeitsmaß wie beschrieben
     Datenquellen
         SWB
         Hebis
         BVB (über z39.50)
     Ergebnis: 47649 mit RVK, 7796 ohne (86% Abdeckung)
     Zahlen für Mathematik und Geschichte ähnlich

  Aufbereitung für den Fachreferenten
     Bilden von kleinen Teilmengen mit inhaltlicher Kohärenz
         Alte Systematik
         Stichwörter
         Schlagwörter
         Autoren
     Lücken in den Vorschlägen werden durch Kontext schließbar
Aufbereitung
Weiteres Vorgehen

  Systematische Ausweitung des Verfahrens
     Deutsche und internationale Quellen
     Weitere Erschließungsysteme
        DDC
        LOCC
        LOC-SH
        …

  Ausnutzung von Konkordanzen
     Vorhandene aus diversen Projekten
     Auswertung von Korrelationen

  Ergänzung der Lücken
     1-nearest neighbour, Jaccard, tf-idf, 4-gramme
     Umsetzung in Java für Cluster (Hadoop / Mahout)
Fragen und Diskussion




Autmatische Klassifikation nach der RVK   13

Mais conteúdo relacionado

Destaque

Metodologia diapositivas
Metodologia diapositivasMetodologia diapositivas
Metodologia diapositivasBRYA_N
 
Moodle 1.9 -> Moodle 2.x | Änderungen/Neuerungen
Moodle 1.9 -> Moodle 2.x | Änderungen/NeuerungenMoodle 1.9 -> Moodle 2.x | Änderungen/Neuerungen
Moodle 1.9 -> Moodle 2.x | Änderungen/NeuerungenThomas Schöftner
 
Desarrollo sostenible
Desarrollo sostenibleDesarrollo sostenible
Desarrollo sosteniblealexnilmar
 
Actividades finales...
Actividades finales...Actividades finales...
Actividades finales...ABCInundada
 
Gold als Kapitalanlage - Xetra-Gold als Produkt
Gold als Kapitalanlage - Xetra-Gold als ProduktGold als Kapitalanlage - Xetra-Gold als Produkt
Gold als Kapitalanlage - Xetra-Gold als ProduktDeutsche Börse AG
 
tofic salum barba
tofic salum barbatofic salum barba
tofic salum barbachikillo123
 
Analisis del movimiento relativo aceleracion
Analisis del movimiento relativo aceleracionAnalisis del movimiento relativo aceleracion
Analisis del movimiento relativo aceleracionIrvin Campos
 
Poema trabajo de lenguaje
Poema trabajo de lenguajePoema trabajo de lenguaje
Poema trabajo de lenguajejaviera-salazar
 
Trabajo de comunicacion organizacional 1
Trabajo de comunicacion organizacional 1Trabajo de comunicacion organizacional 1
Trabajo de comunicacion organizacional 1Yadith Benitez T
 
Vectron. Die Lok, die neue Wege schafft.
Vectron. Die Lok, die neue Wege schafft.Vectron. Die Lok, die neue Wege schafft.
Vectron. Die Lok, die neue Wege schafft.RollingOnRails
 
Proyecto educaciín preventiva
Proyecto educaciín preventivaProyecto educaciín preventiva
Proyecto educaciín preventivaABCInundada
 
Teoria del caos octubre
Teoria del caos octubreTeoria del caos octubre
Teoria del caos octubrejulcajuliny
 
Corrección del examen de primer trimestre
Corrección del examen de primer trimestreCorrección del examen de primer trimestre
Corrección del examen de primer trimestreCeciliaGualpa
 
Compactadores manuales
Compactadores manualesCompactadores manuales
Compactadores manualesIrvin Campos
 

Destaque (20)

Metodologia diapositivas
Metodologia diapositivasMetodologia diapositivas
Metodologia diapositivas
 
Cultura
CulturaCultura
Cultura
 
Moodle 1.9 -> Moodle 2.x | Änderungen/Neuerungen
Moodle 1.9 -> Moodle 2.x | Änderungen/NeuerungenMoodle 1.9 -> Moodle 2.x | Änderungen/Neuerungen
Moodle 1.9 -> Moodle 2.x | Änderungen/Neuerungen
 
Desarrollo sostenible
Desarrollo sostenibleDesarrollo sostenible
Desarrollo sostenible
 
Actividades finales...
Actividades finales...Actividades finales...
Actividades finales...
 
Gold als Kapitalanlage - Xetra-Gold als Produkt
Gold als Kapitalanlage - Xetra-Gold als ProduktGold als Kapitalanlage - Xetra-Gold als Produkt
Gold als Kapitalanlage - Xetra-Gold als Produkt
 
Agrisal 2011
Agrisal 2011Agrisal 2011
Agrisal 2011
 
Vectores
VectoresVectores
Vectores
 
tofic salum barba
tofic salum barbatofic salum barba
tofic salum barba
 
Trabajo
TrabajoTrabajo
Trabajo
 
Analisis del movimiento relativo aceleracion
Analisis del movimiento relativo aceleracionAnalisis del movimiento relativo aceleracion
Analisis del movimiento relativo aceleracion
 
Poema trabajo de lenguaje
Poema trabajo de lenguajePoema trabajo de lenguaje
Poema trabajo de lenguaje
 
Celestina
CelestinaCelestina
Celestina
 
10 b
10 b10 b
10 b
 
Trabajo de comunicacion organizacional 1
Trabajo de comunicacion organizacional 1Trabajo de comunicacion organizacional 1
Trabajo de comunicacion organizacional 1
 
Vectron. Die Lok, die neue Wege schafft.
Vectron. Die Lok, die neue Wege schafft.Vectron. Die Lok, die neue Wege schafft.
Vectron. Die Lok, die neue Wege schafft.
 
Proyecto educaciín preventiva
Proyecto educaciín preventivaProyecto educaciín preventiva
Proyecto educaciín preventiva
 
Teoria del caos octubre
Teoria del caos octubreTeoria del caos octubre
Teoria del caos octubre
 
Corrección del examen de primer trimestre
Corrección del examen de primer trimestreCorrección del examen de primer trimestre
Corrección del examen de primer trimestre
 
Compactadores manuales
Compactadores manualesCompactadores manuales
Compactadores manuales
 

Mais de Magnus Pfeffer

Open Source Software zur Verarbeitung und Analyse von Metadatenmanagement
Open Source Software zur Verarbeitung und Analyse von MetadatenmanagementOpen Source Software zur Verarbeitung und Analyse von Metadatenmanagement
Open Source Software zur Verarbeitung und Analyse von MetadatenmanagementMagnus Pfeffer
 
Linked Data in der Lehre
Linked Data in der LehreLinked Data in der Lehre
Linked Data in der LehreMagnus Pfeffer
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenMagnus Pfeffer
 
Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMetadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMagnus Pfeffer
 
Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Magnus Pfeffer
 
Automatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsAutomatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsMagnus Pfeffer
 
Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Magnus Pfeffer
 
Automatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenAutomatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenMagnus Pfeffer
 
Clustering auf Werksebene
Clustering auf WerksebeneClustering auf Werksebene
Clustering auf WerksebeneMagnus Pfeffer
 
Resource Discovery: Herausforderung und Chance für die Sacherschließung
Resource Discovery:  Herausforderung und Chance für die SacherschließungResource Discovery:  Herausforderung und Chance für die Sacherschließung
Resource Discovery: Herausforderung und Chance für die SacherschließungMagnus Pfeffer
 
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen übe...
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  übe...Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  übe...
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen übe...Magnus Pfeffer
 
Jetzt kommt zusammen, was zusammen gehört
Jetzt kommt zusammen, was zusammen gehörtJetzt kommt zusammen, was zusammen gehört
Jetzt kommt zusammen, was zusammen gehörtMagnus Pfeffer
 
Bibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedBibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedMagnus Pfeffer
 
Bibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedBibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedMagnus Pfeffer
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open DataMagnus Pfeffer
 
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenAusleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenMagnus Pfeffer
 
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...Magnus Pfeffer
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open DataMagnus Pfeffer
 
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Magnus Pfeffer
 

Mais de Magnus Pfeffer (19)

Open Source Software zur Verarbeitung und Analyse von Metadatenmanagement
Open Source Software zur Verarbeitung und Analyse von MetadatenmanagementOpen Source Software zur Verarbeitung und Analyse von Metadatenmanagement
Open Source Software zur Verarbeitung und Analyse von Metadatenmanagement
 
Linked Data in der Lehre
Linked Data in der LehreLinked Data in der Lehre
Linked Data in der Lehre
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMetadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
 
Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...
 
Automatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsAutomatic creation of mappings between classification systems
Automatic creation of mappings between classification systems
 
Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?
 
Automatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenAutomatisches Generieren von Konkordanzen
Automatisches Generieren von Konkordanzen
 
Clustering auf Werksebene
Clustering auf WerksebeneClustering auf Werksebene
Clustering auf Werksebene
 
Resource Discovery: Herausforderung und Chance für die Sacherschließung
Resource Discovery:  Herausforderung und Chance für die SacherschließungResource Discovery:  Herausforderung und Chance für die Sacherschließung
Resource Discovery: Herausforderung und Chance für die Sacherschließung
 
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen übe...
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  übe...Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  übe...
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen übe...
 
Jetzt kommt zusammen, was zusammen gehört
Jetzt kommt zusammen, was zusammen gehörtJetzt kommt zusammen, was zusammen gehört
Jetzt kommt zusammen, was zusammen gehört
 
Bibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedBibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data Extended
 
Bibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedBibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data Reduced
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open Data
 
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenAusleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
 
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open Data
 
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
 

Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

  • 1. Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten Magnus Pfeffer (Dipl.-Inform., M.A. LIS) Universität Mannheim, Universitätsbibliothek magnus.pfeffer@bib.uni-mannheim.de
  • 2. Themen Hintergrund und Motivation Ähnlichkeitsmaße Experimente und Ergebnisse User Feedback Aktuelle Entwicklungen Autmatische Klassifikation nach der RVK 2
  • 3. Hintergrund und Motivation Zusammenführung kleinerer Bereichsbibliotheken (2001) Einführung der RVK als Aufstellungssystematik Geringer Anteil an Fremddaten im Verbund Ziele Beschleunigung des Erschließungsvorgangs durch Vorschlagssystem Virtuelles Bücherregal im Katalog Visualisierung der reklassifizierten Bestände Grundlage für die Regalplanung Methode Fallbasiertes Schließen Übernahme der Klasse(n) der 1-nearest-neighbour Datenbasis Südwestverbund Autmatische Klassifikation nach der RVK 3
  • 4. Ähnlichkeitsmaß Nur Metadaten Titel Personen und Körperschaften Schlagwörter Titelvergleich Zählen übereinstimmender Wörter Pro: Schnell, einfach Contra: gleiche Ähnlichkeitswerte bei identischen und erweiterten Titeln z.B. “Einführung in Perl” maximal ähnlich zu “Einführung in den Compilerbau mit Perl” Alternative: Jaccard-Index Arbeitet auf Wortmengen Schnittmenge geteilt durch Vereinigungsmenge Identität = 1, Nicht-ähnliche Titel = 0 jaccard (“Einführung in Perl”,“Einführung in den Compilerbau mit Perl”)= 3/5 Autmatische Klassifikation nach der RVK 4
  • 5. Ähnlichkeitsmaß Gewichte Stoppwortliste und Gleichgewichtung Überraschend gute Ergebnisse Lange Stoppwortliste verhindert falsch positive Ähnlichkeiten Alternative: tf-idf Ähnliche Ergebnisse Stoppwortliste überflüssig Normalisierung Stemming englischer Wörter Teilwortzerlegung und Stammformreduzierung deutscher Wöter Alternative: N-gramme Autmatische Klassifikation nach der RVK 5
  • 6. Experimentelle Ergebnisse Automatische Klassifikation bereits klassifizierter Titel Titel wird für den Vorgang aus der Fallbasis ausgeblendet Gewählte Variante: Jaccard mit Stoppwortliste und Gleichgewichtung, Stemming und Teilwortzerlegung Bewertung Bestehende Klassifikation als “Goldstandard” Ideal: Identische Notation wird gefunden Noch gut: Nächste gefundene Notation ist nur wenige Knoten entfernt Ergebnisse (2008) Je nach Fachgebiet zwischen 65 und 80% gute oder bessere Treffer Aber: Pro Titel werden recht viele Notationen geliefert Keine Korellation der Güte mit den Ähnlichkeitsmaßen Autmatische Klassifikation nach der RVK 6
  • 7. User Feedback Anwender: Sacherschließer, Fachreferenten Nutzung: Retroklassifikation Erfahrungen Zu viele “falsche” Notationen, Verwirrend Starke Unterschiede in den Fächern Informatik: Gut nutzbar Jura: Nahezu nicht verwendbar Anpassungen Reduktion der gelieferten Notationen In der 1nn-Menge häufig auftetende Notationen werden präferiert “Bester” Vorschlag oft nicht der häufigste Keine wirkliche Verbesserung Autmatische Klassifikation nach der RVK 7
  • 8. Aktueller Ansatz Höhere Anforderungen an Ähnlichkeit Maß Eine Übereinstimmung bei Autoren / Verfasser Identischer Titel Berücksichtigung des Einheitssachtitels (MAB Feld 304) Ziel: unterschiedliche Ausgaben eines Werks zusammenführen Unterschiedliche Auflagen und Drucke Parallelausgaben in anderen Formaten Nachdrucke (Verlagswechsel) Umsetzung Datenbasis Südwestverbund und HeBIS Berücksichtigung von RVK und SWD-Schlagwörtern Prüfung durch Sacherschließer der beteiligten Verbünde Autmatische Klassifikation nach der RVK 8
  • 9. Ausgaben zusammenführen Ausgangsdaten SWB: 12,78 Mio. Berücksichtigte Titelaufnahmen, davon 3,24 Mio. Titelaufnahmen mit RVK-Notation(en) 3,98 Mio. Titelaufnahmen mit SWD-Schlagwörtern Hebis: 8,84 Mio. Berücksichtigte Titelaufnahmen, davon 1,93 Mio. Titelaufnahmen mit RVK-Notation(en) 2,24 Mio. Titelaufnahmen mit SWD-Schlagwörtern Ergebnis (neuster Lauf 2011) SWB 959.419 Titel neu mit RVK 636.462 Titel neu mit SWD Hebis 992.046 Titel neu mit RVK 1.179.133 Titel neu mit SWD
  • 10. Real world example Freihandbestand Jura 55.445 Titel noch nicht reklassifiziert Ähnlichkeitsmaß wie beschrieben Datenquellen SWB Hebis BVB (über z39.50) Ergebnis: 47649 mit RVK, 7796 ohne (86% Abdeckung) Zahlen für Mathematik und Geschichte ähnlich Aufbereitung für den Fachreferenten Bilden von kleinen Teilmengen mit inhaltlicher Kohärenz Alte Systematik Stichwörter Schlagwörter Autoren Lücken in den Vorschlägen werden durch Kontext schließbar
  • 12. Weiteres Vorgehen Systematische Ausweitung des Verfahrens Deutsche und internationale Quellen Weitere Erschließungsysteme DDC LOCC LOC-SH … Ausnutzung von Konkordanzen Vorhandene aus diversen Projekten Auswertung von Korrelationen Ergänzung der Lücken 1-nearest neighbour, Jaccard, tf-idf, 4-gramme Umsetzung in Java für Cluster (Hadoop / Mahout)
  • 13. Fragen und Diskussion Autmatische Klassifikation nach der RVK 13