SlideShare a Scribd company logo
1 of 21
Download to read offline
27.000 Recepten vinden in 8
miljoen krantenberichten
Marieke van Erp @merpeltje

Melvin Wevers @melvinwevers

Hugo Huurdeman @timelessfuture
Image source: https://static.ah.nl/static/recepten/img_006188_890x594_JPG.jpg
Photo source: https://www.huygens.knaw.nl/wp-content/uploads/2016/09/Voorzijde-Spinhuis-frontaal_-Foto-Gert-Jan-van-Rooij.jpg
htttp://huc.knaw.nl
Boter, zout & peper
• Analyse van eetcultuur: 

• historici

• diëtisten 

• ethnologen 

• 1945 - 1995 Parool, Volkskrant, NRC &
Trouw

• Dataset en code beschikbaar via: https://
github.com/DHLab-nl/historical-recipe-web 

• Winnaar Koninklijke Bibliotheek -
Rijksmuseum - Netwerk Digitaal Erfgoed
HackaLOD Hackathon 2018
D I G I TA L H U M A N I T I E S L A B Image source: https://assets3.thrillist.com/v1/image/1623749/size/tl-horizontal_main_2x.jpg
Kranten als bron voor recepten
• Perceptie van een Nederlandse eetcultuur
vormde in 1950

• Kranten zijn producenten en bezorgers van
het publieke discours 

• Kranten bevatten observaties van het
dagelijks leven en gebruiken 

• Maar:

• keyword search voor ‘recepten’ niet
precies genoeg

• ‘ruis’ van het digitalisatieproces
bemoeilijkt analyse
Image source: delpher.nl
D I G I TA L H U M A N I T I E S L A B
‘Recept’ als zoekterm
Image source: delpher.nl
D I G I TA L H U M A N I T I E S L A B
Maar recepten zijn ook:
D I G I TA L H U M A N I T I E S L A B
bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010825930:mpeg21:a0279 bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010871027:mpeg21:a0609
‘ruis’
D I G I TA L H U M A N I T I E S L A B article:https://resolver.kb.nl/resolve?urn=KBNRC01:000029338:mpeg21:a0179
TONGROl TJES MET WORTELTJESSAUS
krielaardappelen. Vindt u prin» seboontjes
daarbij te veel van goede, dan is broccoli een 9
alternatief. Neem 12-16 visr< tjes en pocheer ze
4-5 minui» visbouillon, gemaakt van 1 <«>
Smoor voor de worteltjetMj 1 een pannetje 1
fijngesnipperd lotje in 15 g boter. Smoor 250
stukjes gesneden wortelt)*' 1 mee. Voeg 1 dl
water, 1/« bouillontablet en een nie'f tijm toe en
kook de wor» 1 gaar in ongeveer 15 minutea
reer de worteltjes en het * Doe de puree via een
zeef !•'" het pannetje en verwarm I"* roerende.
Breng de sau* smaak met zout en peper."
serveren. Morgen het toetje: sinaatapP varois.
Taaltechnologie:
standaard pijplijn
• Taaltechnologie vaak opgebouwd via een
pijplijn

• Teksten worden woord-voor-woord uit elkaar
getrokken en geanalyseerd 

• Iedere module in de pijplijn voegt een laag
‘natural language understanding’ toe 

• Probleem: niet opgewassen tegen niet
welgevormde teksten
D I G I TA L H U M A N I T I E S L A B pijplijn: NewsReader-project.eu
opinion miner
word sense
disambiguation
multiwords
tagger
syntactic
parser
tokenizer
part-of-speech
tagger
named entity
recognizer
named entity
disambiguation
nominal
coreference
resolution
semantic role
labeler
event
coreference
resolution
time and date
recognition
temporal
relation
extraction
causal relation
extraction
factuality
detection
Van kranten naar een receptenweb
D I G I TA L H U M A N I T I E S L A B
Ingrediënten
Recepttags
Recept-
beschrijvingen
Receptartikelen
Informatie Extractie en
Multilabel Classificatie
Verrijking
Ingrediënt- and
Kwantiteit-Extractie
Recepttags
Gestructureerde
krantenrecepten
Herkomst
DBpedia link
Wetenschappelijke
naam
Recepttekst-detectie
Gestructureerde en
verrijkte krantenrecepten
Trefwoordenlijst
Tekst-
classificatie
Kranten
• De Koninklijke Bibliotheek heeft 90+ miljoen
boek-, kranten- en tijdschriftpagina’s
gedigitaliseerd 

• Kranten gepubliceerd tussen 1618 en 1995 uit
Nederland, Nederlands Indië, de Antillen, de
VS en Suriname (~15% van alle kranten
gepubliceerd in Nederland)

• Beschikbaar voor analyse via delpher.nl, data
dump (tot 1876) & API (via data-overeenkomst)

• Dit onderzoek: 4 landelijke kranten tussen
1945 - 1995
D I G I TA L H U M A N I T I E S L A B
Pagina’s Artikelen Woorden
Parool 14.194 2,380,697 612,036,106
Volkskrant 13.628 2,248,652 744,275,792
NRC 7.199 947.198 489,397,816
Trouw 13.891 2,578,731 656,941,631
Totaal: 48.912 8,155,278 2,502,651,345
article: https://www.delpher.nl/nl/kranten/view?coll=ddd&identifier=ddd:010627319:mpeg21:a0067
Receptendataset
• 16.000 Recepten van de Albert Heijn
website 

• schema.org recept-markup 

• Tags, voedingswaarden, bron, rating
Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207
D I G I TA L H U M A N I T I E S L A B
Stap 1: Classificeer krantenartikelen
• Seedlist: recept, recepten, gram, kilogram,
pond, keuken, koken, kook, bakken, eetlepel,
gerecht, theelepel, snijden 

• Resultaat: bijna 11.000 potentiële recepten 

• Handmatig geannoteerd om trainingsdata te
creëeren + willekeurig sample niet-recept
artikelen

• Via machine learning (SVM) een additionele
16.000 recepten gedetecteerd met een f1
score van 0.96
D I G I TA L H U M A N I T I E S L A B
Stap 2: Recepttags
• 69 mogelijke tags 

• soort gerecht, soort dieet, gelegenheid,
kookstijl 

• getraind on AH receptenset 

• getest op krantenreceptenset 

• handmatig drie tags geëvalueerd

• mismatch tussen moderne tags en oudere
data
Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207
D I G I TA L H U M A N I T I E S L A B
Precision Recall F1
Asian 0.97 0.72 0.83
Italian 0.83 0.84 0.84
Vegetarian 0.78 0.45 0.57
OCR Quality
D I G I TA L H U M A N I T I E S L A B
Stap 3: ingrediënten en
hoeveelheden
• niet altijd netjes een lijstje met ingrediënten
en hoeveelheden

• OCR-fouten en niet-grammaticale zinnen
zijn een obstakel voor
taaltechnologiepijplijnen

• lexicon-gebaseerde extractie van
ingrediënten en hoeveelheden
Image source: https://cdn.pixabay.com/photo/2014/11/15/20/30/kitchen-scale-532651_960_720.jpg
D I G I TA L H U M A N I T I E S L A B
Evaluatie
• 100 krantenartikelen handmatig geannoteerd met Recogito 

• OCR fouten in ingrediënten of hoeveelheden apart gemarkeerd 

• IAA .85 maar OCR woordgrenzen moeilijk: jºar,anen’ vs ◦ºar,anen’ (bananen)

• Meest precieze lexicon: f1 = .67 

• Maar: veel producten niet gevonden bv Delfiatablet, brandneteltopjes ← meer onderzoek nodig!
D I G I TA L H U M A N I T I E S L A B
Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207
D I G I TA L H U M A N I T I E S L A B
Stap 4: Verrijken via links
naar andere datasets
• Link ingrediënten naar DBpedia-nl 

• Van DBpedia-nl naar DBpedia-en

• Van DBpedia-en naar GBIF 

• f1 = .65 

• DBpedia heeft niet veel te zeggen over eten en
etenswaren
Image source: https://www.gbif.org/species/2930137
Resultaat:
27,411 nieuwe (oude) recepten
• 34,479 Tags

• 365,133 ingrediënten

• >17,000 Links naar externe bronnen
Bron: https://static.ah.nl/static/recepten/img_074629_890x594_JPG.jpgD I G I TA L H U M A N I T I E S L A B
Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207
D I G I TA L H U M A N I T I E S L A B
What’s cooking?
• Analyse

• Welke trends kunnen we vinden in ingrediënten/
gerechten/tags?

• Corresponderen deze trends met veranderingen
in de maatschappij (e.g. migratiestromen,
economische groei/recessie)?

• Wat kunnen we leren over Nederlandse en
buitenlandse eetcultuur uit historische recepten?

• Uitbreidingen van de dataset: 

• Groter corpus 

• Voedingswaarden

• Ingrediëntprijzen 

• Parallelle corpora voor andere keukens
Verder kijken dan eten:
• Toe te passen op andere domeinen, zoals
historische ecologie, journalistiek, informatie
professionals

• Factoren:

• Datakwaliteit (born-digital vs analog content)

• Wat is een acceptabele foutmarge 

• Human-in-the-loop
D I G I TA L H U M A N I T I E S L A B Image source: https://upload.wikimedia.org/wikipedia/commons/1/1c/American_mink.jpg
Met dank aan:
Image source: https://twelvemilesfromalemondotcom.files.wordpress.com/2014/09/img_0326.jpg

More Related Content

More from voginip

The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Researchvoginip
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipediavoginip
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...voginip
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?voginip
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...voginip
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...voginip
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!voginip
 
Systematisch zoeken op het web
Systematisch zoeken op het webSystematisch zoeken op het web
Systematisch zoeken op het webvoginip
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als datavoginip
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidatavoginip
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenvoginip
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietvoginip
 
Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open voginip
 
Minimal viable data reuse
Minimal viable data reuseMinimal viable data reuse
Minimal viable data reusevoginip
 
Records in Contexts – nieuwe metadatastandaard Stadsarchief Amsterdam
Records in Contexts – nieuwe metadatastandaard Stadsarchief AmsterdamRecords in Contexts – nieuwe metadatastandaard Stadsarchief Amsterdam
Records in Contexts – nieuwe metadatastandaard Stadsarchief Amsterdamvoginip
 
Als zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaal
Als zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaalAls zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaal
Als zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaalvoginip
 
Brecht Castel: OSINT voor factchecken
Brecht Castel: OSINT voor factcheckenBrecht Castel: OSINT voor factchecken
Brecht Castel: OSINT voor factcheckenvoginip
 
Improving search with neural ranking methods
Improving search with neural ranking methodsImproving search with neural ranking methods
Improving search with neural ranking methodsvoginip
 
NDE Termennetwerk
NDE TermennetwerkNDE Termennetwerk
NDE Termennetwerkvoginip
 
Amsterdam2013bradley.ppt
Amsterdam2013bradley.pptAmsterdam2013bradley.ppt
Amsterdam2013bradley.pptvoginip
 

More from voginip (20)

The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Research
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipedia
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!
 
Systematisch zoeken op het web
Systematisch zoeken op het webSystematisch zoeken op het web
Systematisch zoeken op het web
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als data
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidata
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardigheden
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat niet
 
Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open
 
Minimal viable data reuse
Minimal viable data reuseMinimal viable data reuse
Minimal viable data reuse
 
Records in Contexts – nieuwe metadatastandaard Stadsarchief Amsterdam
Records in Contexts – nieuwe metadatastandaard Stadsarchief AmsterdamRecords in Contexts – nieuwe metadatastandaard Stadsarchief Amsterdam
Records in Contexts – nieuwe metadatastandaard Stadsarchief Amsterdam
 
Als zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaal
Als zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaalAls zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaal
Als zoeken te fanatiek wordt: een digitale analyse van het toeslagenschandaal
 
Brecht Castel: OSINT voor factchecken
Brecht Castel: OSINT voor factcheckenBrecht Castel: OSINT voor factchecken
Brecht Castel: OSINT voor factchecken
 
Improving search with neural ranking methods
Improving search with neural ranking methodsImproving search with neural ranking methods
Improving search with neural ranking methods
 
NDE Termennetwerk
NDE TermennetwerkNDE Termennetwerk
NDE Termennetwerk
 
Amsterdam2013bradley.ppt
Amsterdam2013bradley.pptAmsterdam2013bradley.ppt
Amsterdam2013bradley.ppt
 

27.000 Recepten vinden in 8 miljoen krantenberichten

  • 1. 27.000 Recepten vinden in 8 miljoen krantenberichten Marieke van Erp @merpeltje Melvin Wevers @melvinwevers Hugo Huurdeman @timelessfuture Image source: https://static.ah.nl/static/recepten/img_006188_890x594_JPG.jpg
  • 3. Boter, zout & peper • Analyse van eetcultuur: • historici • diëtisten • ethnologen • 1945 - 1995 Parool, Volkskrant, NRC & Trouw • Dataset en code beschikbaar via: https:// github.com/DHLab-nl/historical-recipe-web • Winnaar Koninklijke Bibliotheek - Rijksmuseum - Netwerk Digitaal Erfgoed HackaLOD Hackathon 2018 D I G I TA L H U M A N I T I E S L A B Image source: https://assets3.thrillist.com/v1/image/1623749/size/tl-horizontal_main_2x.jpg
  • 4. Kranten als bron voor recepten • Perceptie van een Nederlandse eetcultuur vormde in 1950 • Kranten zijn producenten en bezorgers van het publieke discours • Kranten bevatten observaties van het dagelijks leven en gebruiken • Maar: • keyword search voor ‘recepten’ niet precies genoeg • ‘ruis’ van het digitalisatieproces bemoeilijkt analyse Image source: delpher.nl D I G I TA L H U M A N I T I E S L A B
  • 5. ‘Recept’ als zoekterm Image source: delpher.nl D I G I TA L H U M A N I T I E S L A B
  • 6. Maar recepten zijn ook: D I G I TA L H U M A N I T I E S L A B bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010825930:mpeg21:a0279 bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010871027:mpeg21:a0609
  • 7. ‘ruis’ D I G I TA L H U M A N I T I E S L A B article:https://resolver.kb.nl/resolve?urn=KBNRC01:000029338:mpeg21:a0179 TONGROl TJES MET WORTELTJESSAUS krielaardappelen. Vindt u prin» seboontjes daarbij te veel van goede, dan is broccoli een 9 alternatief. Neem 12-16 visr< tjes en pocheer ze 4-5 minui» visbouillon, gemaakt van 1 <«> Smoor voor de worteltjetMj 1 een pannetje 1 fijngesnipperd lotje in 15 g boter. Smoor 250 stukjes gesneden wortelt)*' 1 mee. Voeg 1 dl water, 1/« bouillontablet en een nie'f tijm toe en kook de wor» 1 gaar in ongeveer 15 minutea reer de worteltjes en het * Doe de puree via een zeef !•'" het pannetje en verwarm I"* roerende. Breng de sau* smaak met zout en peper." serveren. Morgen het toetje: sinaatapP varois.
  • 8. Taaltechnologie: standaard pijplijn • Taaltechnologie vaak opgebouwd via een pijplijn • Teksten worden woord-voor-woord uit elkaar getrokken en geanalyseerd • Iedere module in de pijplijn voegt een laag ‘natural language understanding’ toe • Probleem: niet opgewassen tegen niet welgevormde teksten D I G I TA L H U M A N I T I E S L A B pijplijn: NewsReader-project.eu opinion miner word sense disambiguation multiwords tagger syntactic parser tokenizer part-of-speech tagger named entity recognizer named entity disambiguation nominal coreference resolution semantic role labeler event coreference resolution time and date recognition temporal relation extraction causal relation extraction factuality detection
  • 9. Van kranten naar een receptenweb D I G I TA L H U M A N I T I E S L A B Ingrediënten Recepttags Recept- beschrijvingen Receptartikelen Informatie Extractie en Multilabel Classificatie Verrijking Ingrediënt- and Kwantiteit-Extractie Recepttags Gestructureerde krantenrecepten Herkomst DBpedia link Wetenschappelijke naam Recepttekst-detectie Gestructureerde en verrijkte krantenrecepten Trefwoordenlijst Tekst- classificatie
  • 10. Kranten • De Koninklijke Bibliotheek heeft 90+ miljoen boek-, kranten- en tijdschriftpagina’s gedigitaliseerd • Kranten gepubliceerd tussen 1618 en 1995 uit Nederland, Nederlands Indië, de Antillen, de VS en Suriname (~15% van alle kranten gepubliceerd in Nederland) • Beschikbaar voor analyse via delpher.nl, data dump (tot 1876) & API (via data-overeenkomst) • Dit onderzoek: 4 landelijke kranten tussen 1945 - 1995 D I G I TA L H U M A N I T I E S L A B Pagina’s Artikelen Woorden Parool 14.194 2,380,697 612,036,106 Volkskrant 13.628 2,248,652 744,275,792 NRC 7.199 947.198 489,397,816 Trouw 13.891 2,578,731 656,941,631 Totaal: 48.912 8,155,278 2,502,651,345 article: https://www.delpher.nl/nl/kranten/view?coll=ddd&identifier=ddd:010627319:mpeg21:a0067
  • 11. Receptendataset • 16.000 Recepten van de Albert Heijn website • schema.org recept-markup • Tags, voedingswaarden, bron, rating Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207 D I G I TA L H U M A N I T I E S L A B
  • 12. Stap 1: Classificeer krantenartikelen • Seedlist: recept, recepten, gram, kilogram, pond, keuken, koken, kook, bakken, eetlepel, gerecht, theelepel, snijden • Resultaat: bijna 11.000 potentiële recepten • Handmatig geannoteerd om trainingsdata te creëeren + willekeurig sample niet-recept artikelen • Via machine learning (SVM) een additionele 16.000 recepten gedetecteerd met een f1 score van 0.96 D I G I TA L H U M A N I T I E S L A B
  • 13. Stap 2: Recepttags • 69 mogelijke tags • soort gerecht, soort dieet, gelegenheid, kookstijl • getraind on AH receptenset • getest op krantenreceptenset • handmatig drie tags geëvalueerd • mismatch tussen moderne tags en oudere data Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207 D I G I TA L H U M A N I T I E S L A B Precision Recall F1 Asian 0.97 0.72 0.83 Italian 0.83 0.84 0.84 Vegetarian 0.78 0.45 0.57
  • 14. OCR Quality D I G I TA L H U M A N I T I E S L A B
  • 15. Stap 3: ingrediënten en hoeveelheden • niet altijd netjes een lijstje met ingrediënten en hoeveelheden • OCR-fouten en niet-grammaticale zinnen zijn een obstakel voor taaltechnologiepijplijnen • lexicon-gebaseerde extractie van ingrediënten en hoeveelheden Image source: https://cdn.pixabay.com/photo/2014/11/15/20/30/kitchen-scale-532651_960_720.jpg D I G I TA L H U M A N I T I E S L A B
  • 16. Evaluatie • 100 krantenartikelen handmatig geannoteerd met Recogito • OCR fouten in ingrediënten of hoeveelheden apart gemarkeerd • IAA .85 maar OCR woordgrenzen moeilijk: jºar,anen’ vs ◦ºar,anen’ (bananen) • Meest precieze lexicon: f1 = .67 • Maar: veel producten niet gevonden bv Delfiatablet, brandneteltopjes ← meer onderzoek nodig! D I G I TA L H U M A N I T I E S L A B
  • 17. Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207 D I G I TA L H U M A N I T I E S L A B Stap 4: Verrijken via links naar andere datasets • Link ingrediënten naar DBpedia-nl • Van DBpedia-nl naar DBpedia-en • Van DBpedia-en naar GBIF • f1 = .65 • DBpedia heeft niet veel te zeggen over eten en etenswaren Image source: https://www.gbif.org/species/2930137
  • 18. Resultaat: 27,411 nieuwe (oude) recepten • 34,479 Tags • 365,133 ingrediënten • >17,000 Links naar externe bronnen Bron: https://static.ah.nl/static/recepten/img_074629_890x594_JPG.jpgD I G I TA L H U M A N I T I E S L A B
  • 19. Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207 D I G I TA L H U M A N I T I E S L A B What’s cooking? • Analyse • Welke trends kunnen we vinden in ingrediënten/ gerechten/tags? • Corresponderen deze trends met veranderingen in de maatschappij (e.g. migratiestromen, economische groei/recessie)? • Wat kunnen we leren over Nederlandse en buitenlandse eetcultuur uit historische recepten? • Uitbreidingen van de dataset: • Groter corpus • Voedingswaarden • Ingrediëntprijzen • Parallelle corpora voor andere keukens
  • 20. Verder kijken dan eten: • Toe te passen op andere domeinen, zoals historische ecologie, journalistiek, informatie professionals • Factoren: • Datakwaliteit (born-digital vs analog content) • Wat is een acceptabele foutmarge • Human-in-the-loop D I G I TA L H U M A N I T I E S L A B Image source: https://upload.wikimedia.org/wikipedia/commons/1/1c/American_mink.jpg
  • 21. Met dank aan: Image source: https://twelvemilesfromalemondotcom.files.wordpress.com/2014/09/img_0326.jpg