Keynote van Joris van Eijnatten op de CLARIAH-dag 2016 in Amersfoort. Joris gaat in op de vraag wat CLARIAH voor hem en zijn onderzoek zou kunnen betekenen.
2. WordSmith Tools, versie 3.00.00 (2005)
0
10
20
30
40
50
60
aantal
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
preek
Grafiek V. Frequentieverdeling van het woord 'ik'
3. Wat ik nodig heb
• een bruikbare en inzichtelijke toolbox
– om conceptuele verandering te traceren
– in ± big data
– van gebrekkige kwaliteit
– gedurende een langere periode
– in meerdere talen
• comparatieve analyse in tijd en ruimte
4. Toolbox anno 2016
• over welke toegankelijke en robuste gereedschappen
beschikken we?
0. nGrams (bijv. Delpher)
1. semantic text-mining tool (bijv. Texcavator)
2. corpus linguistics (bijv. Antconc)
3. topic modelling (bijv. Mallet)
4. text analytics pakket (bijv. SPSS Modeler)
5. vector-space modellen (bijv. ShiCo)
5. De casus
• Welke associaties hebben twintigste-eeuwse kranten
bij de term “Europa”?
• Welke veranderingen in het concept “Europa” kunnen
uit dergelijke associaties worden afgeleid?
3 ingangen
- voortduren van idealen
- belang van competitie
- reikwijdte van weerberichten
16. Tool 2: Antconc (vs 3.4.4)
• Word lists (stopwords removed)
articles, 1980-1981
territorial Netherlands
advertisements, 1980-1981
territorial Netherlands
Rank Freq Word Stopword
23 34036 europa #N/A
42 20954 bew #N/A
50 18443 jaar #N/A
69 12234 nederland #N/A
72 11198 eerste #N/A
75 10992 west #N/A
78 10748 amerikaanse #N/A
79 10721 land #N/A
85 9856 nieuwe #N/A
86 9820 twee #N/A
87 9705 grote #N/A
89 9511 landen #N/A
91 9236 onbewolkt #N/A
94 8689 gaan #N/A
95 8614 uur #N/A
Rank Freq Word stopword
24 16387 telef #N/A
25 16355 tel #N/A
35 12469 ƒ #N/A
41 9657 europa #N/A
42 9401 dam #N/A
48 7913 uur #N/A
53 6393 km #N/A
54 6295 auto #N/A
58 6022 pr #N/A
59 6017 eig #N/A
66 5310 inl #N/A
67 5105 amsterdam #N/A
73 4804 jaar #N/A
77 4376 radio #N/A
78 4321 pers #N/A
17. Tool 2: Antconc (vs 3.4.4)
Word lists, articles, 1930-31, 1960-61, 1980-1981:
territorial Netherlands
Rank Freq Word
23 34036 europa
42 20954 bew
50 18443 jaar
69 12234 nederland
72 11198 eerste
75 10992 west
78 10748 amerikaanse
79 10721 land
85 9856 nieuwe
86 9820 twee
87 9705 grote
89 9511 landen
91 9236 onbewolkt
94 8689 gaan
95 8614 uur
Rank Freq Word
42 29824 europa
51 24749 bew
56 23588 ned
69 16603 dam
82 14126 jaar
87 12397 uur
91 12008 grote
95 11136 dag
97 10731 mijl
99 10624 nederland
100 10458 landen
105 9992 eerste
106 9725 land
108 9499 west
115 9129 londen
Rank Freq Word
50 60720 europa
81 34690 groote
89 30331 jaar
99 26684 mei
101 26398 juli
103 25787 ƒ
110 24492 land
114 23405 nederland
116 22845 duitschland
118 20978 eerste
122 20419 tijd
123 20285 nieuwe
126 20167 frankrijk
128 19678 regeering
131 19206 maart
1930-1931 1960-1961 1980-1981
18. Tool 2: Antconc (vs 3.4.4)
Word lists, articles, 1930-31, 1960-61, 1980-1981: shifts over time
(duplicates in Excel, first 100 words)
territorial Netherlands
1930-1931 1960-1961 1960-1961 1980-1981
Rank Freq Word Rank Freq Word Rank Freq Word Rank Freq Word
50 60720 europa 42 29824 europa 42 29824 europa 23 34036 europa
81 34690 groote 51 24749 bew 51 24749 bew 42 20954 bew
89 30331 jaar 56 23588 ned 56 23588 ned 50 18443 jaar
99 26684 mei 69 16603 dam 69 16603 dam 69 12234 nederland
101 26398 juli 82 14126 jaar 82 14126 jaar 72 11198 eerste
103 25787 ƒ 87 12397 uur 87 12397 uur 75 10992 west
110 24492 land 91 12008 grote 91 12008 grote 78 10748 amerikaanse
114 23405 nederland 95 11136 dag 95 11136 dag 79 10721 land
116 22845 duitschland 97 10731 mijl 97 10731 mijl 85 9856 nieuwe
118 20978 eerste 99 10624 nederland 99 10624 nederland 86 9820 twee
122 20419 tijd 100 10458 landen 100 10458 landen 87 9705 grote
123 20285 nieuwe 105 9992 eerste 105 9992 eerste 89 9511 landen
126 20167 frankrijk 106 9725 land 106 9725 land 91 9236 onbewolkt
128 19678 regeering 108 9499 west 108 9499 west 94 8689 gaan
131 19206 maart 115 9129 londen 115 9129 londen 95 8614 uur
135 18848 plaats 117 8812 nieuwe 117 8812 nieuwe 96 8595 zwaar
136 18843 komen 119 8692 zwaar 119 8692 zwaar 97 8566 komen
137 18205 landen 121 8448 geheel 121 8448 geheel 101 8145 nederlandse
138 18149 jan 124 8397 europese 124 8397 europese 106 7872 europese
20. Tool 3: MALLET
Topics in articles titles IF <Europa> in text, no. of tokens = 64,192
Dutch territorial newspapers, 1980-81
Id words topic
1 europa cup jan oost finale pelleboer louis kort deugd week = ????
2 jaar moskou europese groningen madrid twee dick piet rob verlies = ????
3 europa terug wereld wim amsterdam gesprek peter man uur eigen = ????
4 nieuwe nederland kernwapens televisie tweede dag radio steun philips dood = ????
5 polen miljoen winst bonn telegraaf weinig nodig russische laat frans = ????
6 vs isra iran goed willen spelen rotterdam correspondent reportage provincie = ????
7 ton eerste gaat werf nederlandse leven europees mensen mee maken = ????
8 land blijft feyenoord pvda komt politiek amerikaanse rol strijd maakt = ????
9 redactie voetbal henk buitenland az ajax kees groot geld regering = ????
10 verslaggever hans tv praten carter russen sport zien staat poel = ????
11 nederland landen auto vandaag eigen navo internationale japanse economische export = ????
12 amerika westen oosten bom parijs midden bezoek olie goed beter = ????
13 west reagan schmidt sowjet unie volk duitsland blijven start knol = ????
14 grote vrede gaan komen kernraketten kritiek deel geeft kans defensie = ????
15 navo raketten minder zon oorlog snel hoofdredacteur zuid mogelijk spanje = ????
code first name weather geography defence media economy sports politics
21. Tool 3: MALLET
Topics in full text, 1930-31, no. of tokens = 12,248,556
Dutch territorial newspapers 1930-31
Id words topic
1 duitschland frankrijk duitsche fransche regeering engeland politiek europa itali politieke politics
2 europa hel eu ke nen beeft heelt land vnn pen =????
3 man goed gaan vrouw dag kwam menschen paar ging komen human int.
4 europa staten landen europeesche internationale economische volkenbond commissie oostenrijk conferentie politics
5 cva nederland koloni ned holl buitenland adam dam obl bank economy
6 wereld volk leven rusland staat land oorlog eigen tijd russische politics
7 heer regeering nederland minister nederlandsche belgi leden voorzitter partij vergadering politics
8 europa uur druk zuid temperatuur wind noord land mrs ligt weather
9 groote werk oude eerste film boek kunst tijd geheel nieuwe media/art
10 werden jaar koning groote kerk jaren kwam plaats eerste stad human int.
11 jaar millioen amerika industrie productie groote ton nieuwe handel prijzen economy
12 juli mei maart jan loco sept juni april dec oct time
13 londen rott dam antwerpen nov hamburg rotterdam new japan juni locations
14 groote land plaats eerste twee aantal groot maken amerika werden =????
15 europa dienst heer indi betrekking amsterdam klasse school verlof geplaatst advert
code politics sports economy weather human int. media/art time locations advert
22. Tool 3: MALLET
Wordcloud of topic “politics”
IF <Europa> in text, 1950-
81, no. of docs = 48
All newspapers 1980-81
search terms
europa AND
amerikaanse AND
unie AND
west AND
sowjet AND
navo AND
russische AND
moskou AND
staten AND
verenigde
32. Waar hoop ik op?
• inzichtelijke tools om conceptuele veranderingen te
traceren (big data + longe durée)
1. toegang tot data
2. gebruiksklaar maken van data
3. koppelen van (omvangrijke) data aan tools
4. rekencapaciteit
5. corpus linguistics, topic modelling, text analytics
allemaal voorzien van tijd- en taaldimensies
6. implementatie van word vectoring
7. ???