3. Boter, zout & peper
• Analyse van eetcultuur:
• historici
• diëtisten
• ethnologen
• 1945 - 1995 Parool, Volkskrant, NRC &
Trouw
• Dataset en code beschikbaar via: https://
github.com/DHLab-nl/historical-recipe-web
• Winnaar Koninklijke Bibliotheek -
Rijksmuseum - Netwerk Digitaal Erfgoed
HackaLOD Hackathon 2018
D I G I TA L H U M A N I T I E S L A B Image source: https://assets3.thrillist.com/v1/image/1623749/size/tl-horizontal_main_2x.jpg
4. Kranten als bron voor recepten
• Perceptie van een Nederlandse eetcultuur
vormde in 1950
• Kranten zijn producenten en bezorgers van
het publieke discours
• Kranten bevatten observaties van het
dagelijks leven en gebruiken
• Maar:
• keyword search voor ‘recepten’ niet
precies genoeg
• ‘ruis’ van het digitalisatieproces
bemoeilijkt analyse
Image source: delpher.nl
D I G I TA L H U M A N I T I E S L A B
6. Maar recepten zijn ook:
D I G I TA L H U M A N I T I E S L A B
bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010825930:mpeg21:a0279 bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010871027:mpeg21:a0609
7. ‘ruis’
D I G I TA L H U M A N I T I E S L A B article:https://resolver.kb.nl/resolve?urn=KBNRC01:000029338:mpeg21:a0179
TONGROl TJES MET WORTELTJESSAUS
krielaardappelen. Vindt u prin» seboontjes
daarbij te veel van goede, dan is broccoli een 9
alternatief. Neem 12-16 visr< tjes en pocheer ze
4-5 minui» visbouillon, gemaakt van 1 <«>
Smoor voor de worteltjetMj 1 een pannetje 1
fijngesnipperd lotje in 15 g boter. Smoor 250
stukjes gesneden wortelt)*' 1 mee. Voeg 1 dl
water, 1/« bouillontablet en een nie'f tijm toe en
kook de wor» 1 gaar in ongeveer 15 minutea
reer de worteltjes en het * Doe de puree via een
zeef !•'" het pannetje en verwarm I"* roerende.
Breng de sau* smaak met zout en peper."
serveren. Morgen het toetje: sinaatapP varois.
8. Taaltechnologie:
standaard pijplijn
• Taaltechnologie vaak opgebouwd via een
pijplijn
• Teksten worden woord-voor-woord uit elkaar
getrokken en geanalyseerd
• Iedere module in de pijplijn voegt een laag
‘natural language understanding’ toe
• Probleem: niet opgewassen tegen niet
welgevormde teksten
D I G I TA L H U M A N I T I E S L A B pijplijn: NewsReader-project.eu
opinion miner
word sense
disambiguation
multiwords
tagger
syntactic
parser
tokenizer
part-of-speech
tagger
named entity
recognizer
named entity
disambiguation
nominal
coreference
resolution
semantic role
labeler
event
coreference
resolution
time and date
recognition
temporal
relation
extraction
causal relation
extraction
factuality
detection
9. Van kranten naar een receptenweb
D I G I TA L H U M A N I T I E S L A B
Ingrediënten
Recepttags
Recept-
beschrijvingen
Receptartikelen
Informatie Extractie en
Multilabel Classificatie
Verrijking
Ingrediënt- and
Kwantiteit-Extractie
Recepttags
Gestructureerde
krantenrecepten
Herkomst
DBpedia link
Wetenschappelijke
naam
Recepttekst-detectie
Gestructureerde en
verrijkte krantenrecepten
Trefwoordenlijst
Tekst-
classificatie
10. Kranten
• De Koninklijke Bibliotheek heeft 90+ miljoen
boek-, kranten- en tijdschriftpagina’s
gedigitaliseerd
• Kranten gepubliceerd tussen 1618 en 1995 uit
Nederland, Nederlands Indië, de Antillen, de
VS en Suriname (~15% van alle kranten
gepubliceerd in Nederland)
• Beschikbaar voor analyse via delpher.nl, data
dump (tot 1876) & API (via data-overeenkomst)
• Dit onderzoek: 4 landelijke kranten tussen
1945 - 1995
D I G I TA L H U M A N I T I E S L A B
Pagina’s Artikelen Woorden
Parool 14.194 2,380,697 612,036,106
Volkskrant 13.628 2,248,652 744,275,792
NRC 7.199 947.198 489,397,816
Trouw 13.891 2,578,731 656,941,631
Totaal: 48.912 8,155,278 2,502,651,345
article: https://www.delpher.nl/nl/kranten/view?coll=ddd&identifier=ddd:010627319:mpeg21:a0067
11. Receptendataset
• 16.000 Recepten van de Albert Heijn
website
• schema.org recept-markup
• Tags, voedingswaarden, bron, rating
Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207
D I G I TA L H U M A N I T I E S L A B
12. Stap 1: Classificeer krantenartikelen
• Seedlist: recept, recepten, gram, kilogram,
pond, keuken, koken, kook, bakken, eetlepel,
gerecht, theelepel, snijden
• Resultaat: bijna 11.000 potentiële recepten
• Handmatig geannoteerd om trainingsdata te
creëeren + willekeurig sample niet-recept
artikelen
• Via machine learning (SVM) een additionele
16.000 recepten gedetecteerd met een f1
score van 0.96
D I G I TA L H U M A N I T I E S L A B
13. Stap 2: Recepttags
• 69 mogelijke tags
• soort gerecht, soort dieet, gelegenheid,
kookstijl
• getraind on AH receptenset
• getest op krantenreceptenset
• handmatig drie tags geëvalueerd
• mismatch tussen moderne tags en oudere
data
Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207
D I G I TA L H U M A N I T I E S L A B
Precision Recall F1
Asian 0.97 0.72 0.83
Italian 0.83 0.84 0.84
Vegetarian 0.78 0.45 0.57
15. Stap 3: ingrediënten en
hoeveelheden
• niet altijd netjes een lijstje met ingrediënten
en hoeveelheden
• OCR-fouten en niet-grammaticale zinnen
zijn een obstakel voor
taaltechnologiepijplijnen
• lexicon-gebaseerde extractie van
ingrediënten en hoeveelheden
Image source: https://cdn.pixabay.com/photo/2014/11/15/20/30/kitchen-scale-532651_960_720.jpg
D I G I TA L H U M A N I T I E S L A B
16. Evaluatie
• 100 krantenartikelen handmatig geannoteerd met Recogito
• OCR fouten in ingrediënten of hoeveelheden apart gemarkeerd
• IAA .85 maar OCR woordgrenzen moeilijk: jºar,anen’ vs ◦ºar,anen’ (bananen)
• Meest precieze lexicon: f1 = .67
• Maar: veel producten niet gevonden bv Delfiatablet, brandneteltopjes ← meer onderzoek nodig!
D I G I TA L H U M A N I T I E S L A B
17. Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207
D I G I TA L H U M A N I T I E S L A B
Stap 4: Verrijken via links
naar andere datasets
• Link ingrediënten naar DBpedia-nl
• Van DBpedia-nl naar DBpedia-en
• Van DBpedia-en naar GBIF
• f1 = .65
• DBpedia heeft niet veel te zeggen over eten en
etenswaren
Image source: https://www.gbif.org/species/2930137
18. Resultaat:
27,411 nieuwe (oude) recepten
• 34,479 Tags
• 365,133 ingrediënten
• >17,000 Links naar externe bronnen
Bron: https://static.ah.nl/static/recepten/img_074629_890x594_JPG.jpgD I G I TA L H U M A N I T I E S L A B
19. Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207
D I G I TA L H U M A N I T I E S L A B
What’s cooking?
• Analyse
• Welke trends kunnen we vinden in ingrediënten/
gerechten/tags?
• Corresponderen deze trends met veranderingen
in de maatschappij (e.g. migratiestromen,
economische groei/recessie)?
• Wat kunnen we leren over Nederlandse en
buitenlandse eetcultuur uit historische recepten?
• Uitbreidingen van de dataset:
• Groter corpus
• Voedingswaarden
• Ingrediëntprijzen
• Parallelle corpora voor andere keukens
20. Verder kijken dan eten:
• Toe te passen op andere domeinen, zoals
historische ecologie, journalistiek, informatie
professionals
• Factoren:
• Datakwaliteit (born-digital vs analog content)
• Wat is een acceptabele foutmarge
• Human-in-the-loop
D I G I TA L H U M A N I T I E S L A B Image source: https://upload.wikimedia.org/wikipedia/commons/1/1c/American_mink.jpg
21. Met dank aan:
Image source: https://twelvemilesfromalemondotcom.files.wordpress.com/2014/09/img_0326.jpg