3. NBD Biblion
Stichting die boeken, diensten en metadata levert
aan de openbare bibliotheek
▶Boeken plankklaar maken (custom machines en
productiehal)
▶Metadata produceren om boeken te beschrijven
▶Boeken verkopen en leveren (2M / jaar)
▶Innovatieve ihkv leesbevordering
18-4-2024
4. Metadata voor boeken
▶metadata beschrijft een boek om het te kunnen beoordelen en
vinden
▶zoeken en beoordelen kan om allerlei verschillende redenen:
▶archivering
▶collectioneren
▶fysieke plaatsing in een bibliotheek
▶lees inspiratie
▶etc.
▶metadata standaardiseren maakt het mogelijke zoekstrategieën
en tools te ontwikkelen
▶mogelijkheden van digitale tools nemen enorm toe: soms wordt
metadata de limiterende factor
18-4-2024
5. Metadata productie
▶NBD Biblion metadateert 15000 titels per jaar
▶traditioneel door bibliografen / catalografen
▶twee soorten klassieke metadata
▶bibliografisch (feitelijk)
▶redactioneel (interpretatie)
▶doel-specifieke metadata
▶aanschafinformatie
▶recommendation tools
▶metadata voor scholen
6. Waarom automatisch metadateren?
In 2018 is NBD Biblion begonnen met
automatisch metadateren, met als
doelen:
▶sneller en goedkoper produceren
▶objectievere metadata
▶toekomstbestendig zijn
18-4-2024
7. Sneller en goedkoper metadateren
Voor automatisch metadateren
▶ bibliografische en redactionele metadata door 40 bibliografen bij NBD Biblion
▶ op basis van papieren boeken
▶ Aanschafinformatietekst werd geschreven door 700 recensenten die een boek
opgestuurd kregen: gemiddeld 6 weken
Huidige situatie
▶ 95% op basis van digitale vormen van het boek
▶ AI pipeline levert alle metadata
▶ handmatige checks en correctie
▶ digitaal boek binnen 24 uur gemetadateerd
18-4-2024
8. Objectiever metadateren?
Voor automatisch metadateren:
▶ recensenten leverden een mening over het boek
▶ moeilijk objectiviteit af te dwingen / te meten
Beoogd doel:
▶ metadata produceren zonder waardeoordeel
▶ AI pipeline levert alle metadata
▶ onbevooroordeeld advies aan collectioneurs
▶ objectieve vergelijkingen metrieken
18-4-2024
9. Toekomstbestendig metadateren
12-4-2024
▶ ondersteuning voor toekomstige concepten en
nieuwe inzichten en classificaties
▶ integratie met innovatieve tools
▶ dynamische, adaptieve boek omschrijvingen
▶ aanpasbaar aan verschillende
formaten en standaards
10. Hoe werkt automatisch metadateren?
▶ digitaal boek (print-pdf, scan/OCR, epub)
▶ digitale workflow, parallel aan papieren stroom
▶ pipeline met 60+ custom AI algoritmes
▶ menselijke check (outlier detection, probability,
etc.)
▶acceptabele foutmarge: 0%
▶metadata gaat naar gedeelde nationale catalogus
▶metadata wordt verwerkt in fysieke boeken
12-4-2024
11. Uitdagingen
12-4-2024
Technisch
▶veel informatie ‘tussen de regels’
▶boeken zijn lang; groot context window nodig
▶AI algoritmes hebben veel (GPU) power en
geheugen nodig, zowel in training als in evaluatie
▶relative sparsity: bijv. trefwoorden
Inhoudelijk
▶gewenste uitkomsten soms subjectief
▶zeer diverse dataset
▶veel kennis nooit goed vastgelegd
12. AutoMeta pipeline
▶algoritmes voor deelproblemen
▶genre, thema, trefwoord, tijdperk
▶leesniveau, complexiteit, stijl
▶colofon, logo’s, etc.
▶ gebruik van standaard libraries
▶PyTorch, SkLearn etc.
▶transformers, BERT, spacy
▶ gebruik van volledige tekst van het boek:
▶te groot voor off the shelf algoritmes
▶complexe information density
➡ veel custom machine learning
18-4-2024
16. Nieuwe toepassingen van metadata
▶ recommendation tools
▶ interactief boeken vinden
▶ gepersonaliseerde aanbevelingen
▶ leesbevordering op scholen
▶ ondersteuning in de bibliotheek
▶ collectioneren
▶ analyse van de collectie op nieuwe
aspecten
▶ tools om collectie op beleid aan te laten
sluiten
18. Voorbeeld: Transparante collectie
Inclusie en neutraliteit kunnen op gespannen voet staan:
liever informeren dan censureren.
AI kan de bibliotheek helpen:
▶ verouderd of denigrerend taalgebruik detecteren
▶ achterhaalde concepten signaleren:
• genderstereotypes
• achterhaalde standpunten over etniciteit, kolonialisme, etc
▶ we weten nog niet welke concepten over 10 jaar onacceptabel zijn
• dierenrechten? vlees eten? reuzen en dwergen? links gedachtengoed?
door metadata niet vast in steen te zetten, kunnen we ons aan tijd,
locatie en doelgroep aanpassen
18-4-2024
19. Metadata R&D bij NBD Biblion
▶ Buitenlandse talen
▶ Pools, Arabisch, Chinees
▶ Automatische metadatering naar 100% correct
▶ Inclusie, diversiteit en metadata
▶ alternatieve catalogusinteractie (chatbots etc.)
▶ vertalen en hertalen van metadata
▶ Gebruik van verantwoorde LLM’s
18-4-2024
20. Conclusie
Automatisch metadateren is sinds 2021 in productie bij NBD Biblion
Ontwikkeling en verbetering loopt nog steeds door: foutloze AI op een bijzondere
dataset blijft vooralsnog een grote uitdaging
Nieuwe toepassingen op basis van metadata en AI helpen bibliotheken om de
juiste boeken in hun collectie te hebben en ze te koppelen aan lezers en
evenementen
18-4-2024
Notas do Editor
Diversiteit en inclusie zijn complexe, moeilijke maar ook heel belangrijke begrippen.
Bibliotheken zijn hard bezig om een vertrouwde en veilige plek voor alle bezoekers te zijn en te blijven, bijv. door
Thema's uit te lichten
Verouderd taalgebruik te herzien
De collectie beter aan te laten sluiten op de diversiteit van de huidige samenleving
Diversiteit en inclusie zijn complexe, moeilijke maar ook heel belangrijke begrippen.
Bibliotheken zijn hard bezig om een vertrouwde en veilige plek voor alle bezoekers te zijn en te blijven, bijv. door
Thema's uit te lichten
Verouderd taalgebruik te herzien
De collectie beter aan te laten sluiten op de diversiteit van de huidige samenleving
Inclusie revolutie – ruimte voor diversiteit, verschillen erkennen, elkaar respecteren, maar wel ter aller tijden zeggen, dit is er