SlideShare uma empresa Scribd logo
1 de 32
Tracing conceptual
change in messy data:
finding stuff in bags of
words
© Joris van Eijnatten
WordSmith Tools, versie 3.00.00 (2005)
0
10
20
30
40
50
60
aantal
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
preek
Grafiek V. Frequentieverdeling van het woord 'ik'
Wat ik nodig heb
• een bruikbare en inzichtelijke toolbox
– om conceptuele verandering te traceren
– in ± big data
– van gebrekkige kwaliteit
– gedurende een langere periode
– in meerdere talen
• comparatieve analyse in tijd en ruimte
Toolbox anno 2016
• over welke toegankelijke en robuste gereedschappen
beschikken we?
0. nGrams (bijv. Delpher)
1. semantic text-mining tool (bijv. Texcavator)
2. corpus linguistics (bijv. Antconc)
3. topic modelling (bijv. Mallet)
4. text analytics pakket (bijv. SPSS Modeler)
5. vector-space modellen (bijv. ShiCo)
De casus
• Welke associaties hebben twintigste-eeuwse kranten
bij de term “Europa”?
• Welke veranderingen in het concept “Europa” kunnen
uit dergelijke associaties worden afgeleid?
3 ingangen
- voortduren van idealen
- belang van competitie
- reikwijdte van weerberichten
Data: http://www.delpher.nl/nl/kranten
Data
• “messy data”
susleraJüp = <zusterschip>
.üremer“ = <“Bremer”>
U watcrlulng = <te waterlating>
vci trautfd4* = <vertraagd is>
Rotterdamsch nieuwsblad, 08-01-1930
Voorbereiding: “Close Reading”
De Telegraaf, 20-12-1968
Voorbereiding: Opschonen
Tool 1: Texcavator
search results <miss Europa>, N = 1,161 docs
all newspapers, 1900-1990
Leeuwarder courant
1934-09-15
Tool 1: Texcavator
Timeline <Miss Europa>, N = 1,161 docs
all newspapers 1900-1990
Tool 1: Texcavator
Word cloud <Miss Europa>, N = 1,161 docs
all newspapers 1900-1990
Tool 1: Texcavator
• Metadata <Miss Europa> 1900-1989
Tool 2: Antconc (vs 3.4.4)
Tool 2: Antconc (vs 3.4.4)
• Collocates (“the company that words keep”)
articles, collocates 5L 5R
territorial Netherlands, 1980-1981
Rank Freq Freq(L) Freq(R) Stat Collocate Stopword
5241 6634 6462 172 729.984 west #N/A
5052 2747 32 2715 775.328 cup #N/A
6878 1822 1737 85 688.488 oost #N/A
10072 1034 444 590 565.704 amerika #N/A
14795 853 534 319 437.297 amerikaanse #N/A
14651 789 592 197 443.685 landen #N/A
9261 747 627 120 586.854 midden #N/A
15226 745 521 224 430.265 nieuwe #N/A
17198 694 328 366 388.853 nederland #N/A
9401 639 528 111 574.022 kernwapens #N/A
10061 598 447 151 568.202 raketten #N/A
12938 575 236 339 482.671 verenigde #N/A
13540 566 278 288 468.140 staten #N/A
22340 562 270 292 299.199 jaar #N/A
11774 499 374 125 508.097 avro #N/A
Tool 2: Antconc (vs 3.4.4)
• Word lists (stopwords removed)
articles, 1980-1981
territorial Netherlands
advertisements, 1980-1981
territorial Netherlands
Rank Freq Word Stopword
23 34036 europa #N/A
42 20954 bew #N/A
50 18443 jaar #N/A
69 12234 nederland #N/A
72 11198 eerste #N/A
75 10992 west #N/A
78 10748 amerikaanse #N/A
79 10721 land #N/A
85 9856 nieuwe #N/A
86 9820 twee #N/A
87 9705 grote #N/A
89 9511 landen #N/A
91 9236 onbewolkt #N/A
94 8689 gaan #N/A
95 8614 uur #N/A
Rank Freq Word stopword
24 16387 telef #N/A
25 16355 tel #N/A
35 12469 ƒ #N/A
41 9657 europa #N/A
42 9401 dam #N/A
48 7913 uur #N/A
53 6393 km #N/A
54 6295 auto #N/A
58 6022 pr #N/A
59 6017 eig #N/A
66 5310 inl #N/A
67 5105 amsterdam #N/A
73 4804 jaar #N/A
77 4376 radio #N/A
78 4321 pers #N/A
Tool 2: Antconc (vs 3.4.4)
Word lists, articles, 1930-31, 1960-61, 1980-1981:
territorial Netherlands
Rank Freq Word
23 34036 europa
42 20954 bew
50 18443 jaar
69 12234 nederland
72 11198 eerste
75 10992 west
78 10748 amerikaanse
79 10721 land
85 9856 nieuwe
86 9820 twee
87 9705 grote
89 9511 landen
91 9236 onbewolkt
94 8689 gaan
95 8614 uur
Rank Freq Word
42 29824 europa
51 24749 bew
56 23588 ned
69 16603 dam
82 14126 jaar
87 12397 uur
91 12008 grote
95 11136 dag
97 10731 mijl
99 10624 nederland
100 10458 landen
105 9992 eerste
106 9725 land
108 9499 west
115 9129 londen
Rank Freq Word
50 60720 europa
81 34690 groote
89 30331 jaar
99 26684 mei
101 26398 juli
103 25787 ƒ
110 24492 land
114 23405 nederland
116 22845 duitschland
118 20978 eerste
122 20419 tijd
123 20285 nieuwe
126 20167 frankrijk
128 19678 regeering
131 19206 maart
1930-1931 1960-1961 1980-1981
Tool 2: Antconc (vs 3.4.4)
Word lists, articles, 1930-31, 1960-61, 1980-1981: shifts over time
(duplicates in Excel, first 100 words)
territorial Netherlands
1930-1931 1960-1961 1960-1961 1980-1981
Rank Freq Word Rank Freq Word Rank Freq Word Rank Freq Word
50 60720 europa 42 29824 europa 42 29824 europa 23 34036 europa
81 34690 groote 51 24749 bew 51 24749 bew 42 20954 bew
89 30331 jaar 56 23588 ned 56 23588 ned 50 18443 jaar
99 26684 mei 69 16603 dam 69 16603 dam 69 12234 nederland
101 26398 juli 82 14126 jaar 82 14126 jaar 72 11198 eerste
103 25787 ƒ 87 12397 uur 87 12397 uur 75 10992 west
110 24492 land 91 12008 grote 91 12008 grote 78 10748 amerikaanse
114 23405 nederland 95 11136 dag 95 11136 dag 79 10721 land
116 22845 duitschland 97 10731 mijl 97 10731 mijl 85 9856 nieuwe
118 20978 eerste 99 10624 nederland 99 10624 nederland 86 9820 twee
122 20419 tijd 100 10458 landen 100 10458 landen 87 9705 grote
123 20285 nieuwe 105 9992 eerste 105 9992 eerste 89 9511 landen
126 20167 frankrijk 106 9725 land 106 9725 land 91 9236 onbewolkt
128 19678 regeering 108 9499 west 108 9499 west 94 8689 gaan
131 19206 maart 115 9129 londen 115 9129 londen 95 8614 uur
135 18848 plaats 117 8812 nieuwe 117 8812 nieuwe 96 8595 zwaar
136 18843 komen 119 8692 zwaar 119 8692 zwaar 97 8566 komen
137 18205 landen 121 8448 geheel 121 8448 geheel 101 8145 nederlandse
138 18149 jan 124 8397 europese 124 8397 europese 106 7872 europese
Tool 3: MALLET
Tool 3: MALLET
Topics in articles titles IF <Europa> in text, no. of tokens = 64,192
Dutch territorial newspapers, 1980-81
Id words topic
1 europa cup jan oost finale pelleboer louis kort deugd week = ????
2 jaar moskou europese groningen madrid twee dick piet rob verlies = ????
3 europa terug wereld wim amsterdam gesprek peter man uur eigen = ????
4 nieuwe nederland kernwapens televisie tweede dag radio steun philips dood = ????
5 polen miljoen winst bonn telegraaf weinig nodig russische laat frans = ????
6 vs isra iran goed willen spelen rotterdam correspondent reportage provincie = ????
7 ton eerste gaat werf nederlandse leven europees mensen mee maken = ????
8 land blijft feyenoord pvda komt politiek amerikaanse rol strijd maakt = ????
9 redactie voetbal henk buitenland az ajax kees groot geld regering = ????
10 verslaggever hans tv praten carter russen sport zien staat poel = ????
11 nederland landen auto vandaag eigen navo internationale japanse economische export = ????
12 amerika westen oosten bom parijs midden bezoek olie goed beter = ????
13 west reagan schmidt sowjet unie volk duitsland blijven start knol = ????
14 grote vrede gaan komen kernraketten kritiek deel geeft kans defensie = ????
15 navo raketten minder zon oorlog snel hoofdredacteur zuid mogelijk spanje = ????
code first name weather geography defence media economy sports politics
Tool 3: MALLET
Topics in full text, 1930-31, no. of tokens = 12,248,556
Dutch territorial newspapers 1930-31
Id words topic
1 duitschland frankrijk duitsche fransche regeering engeland politiek europa itali politieke politics
2 europa hel eu ke nen beeft heelt land vnn pen =????
3 man goed gaan vrouw dag kwam menschen paar ging komen human int.
4 europa staten landen europeesche internationale economische volkenbond commissie oostenrijk conferentie politics
5 cva nederland koloni ned holl buitenland adam dam obl bank economy
6 wereld volk leven rusland staat land oorlog eigen tijd russische politics
7 heer regeering nederland minister nederlandsche belgi leden voorzitter partij vergadering politics
8 europa uur druk zuid temperatuur wind noord land mrs ligt weather
9 groote werk oude eerste film boek kunst tijd geheel nieuwe media/art
10 werden jaar koning groote kerk jaren kwam plaats eerste stad human int.
11 jaar millioen amerika industrie productie groote ton nieuwe handel prijzen economy
12 juli mei maart jan loco sept juni april dec oct time
13 londen rott dam antwerpen nov hamburg rotterdam new japan juni locations
14 groote land plaats eerste twee aantal groot maken amerika werden =????
15 europa dienst heer indi betrekking amsterdam klasse school verlof geplaatst advert
code politics sports economy weather human int. media/art time locations advert
Tool 3: MALLET
Wordcloud of topic “politics”
IF <Europa> in text, 1950-
81, no. of docs = 48
All newspapers 1980-81
search terms
europa AND
amerikaanse AND
unie AND
west AND
sowjet AND
navo AND
russische AND
moskou AND
staten AND
verenigde
Tool 4: SPSS Modeler 17
Tool 4: SPSS Modeler 17
concept map of <Temperatuur> in full text (weather forecasts), N = 803 docs
Dutch territorial newspapers 1980-81
Tool 4: SPSS Modeler 17
urban centres in weather forecasts, 1980-81 (geocoded)
name global docs type coordinates1 coordinates2
aberdeen 143 143 Town 57.149.717 -2.094.278
aden 3 2 Town 12.785.496 45.018.654
ajaccio 8 8 Town 41.919.229 8.738.634
algiers 4 2 Town 36.752.887 3.042.048
almelo 4 4 Town 52.367.026 6.668.491
amsterdam 255 242 Town 52.370.215 4.895.167
arnhem 7 6 Town 51.985.103 5.898.729
assen 7 7 Town 52.992.753 6.564.228
athene 246 235 Town 37.983.917 23.729.359
bagdad 3 2 Town 33.312.805 44.361.487
bahia 1 1 Town -12.579.738 -41.700.727
bangkok 2 1 Town 13.756.330 100.501.765
barcelona 1 1 Town 41.385.063 2.173.403
batavia 2 1 Town 41.850.028 -88.312.573
bayonne 2 1 Town 43.492.949 -1.474.840
belgrado 175 174 Town 44.786.568 20.448.921
berlijn 109 106 Town 52.520.006 13.404.953
birmingham 1 1 Town 33.520.660 -86.802.489
boedapest 4 4 Town 47.497.912 19.040.234
bologna 1 1 Town 44.494.887 11.342.616
bordeaux 171 170 Town 44.837.789 -0.579179
breda 1 1 Town 51.571.914 4.768.323
bremen 5 5 Town 53.079.296 8.801.693
brest 2 2 Town 48.390.394 -4.486.076
brussel 172 172 Town 50.850.339 4.351.710
calais 1 1 Town 50.951.290 1.858.686
Tool 4: SPSS Modeler 17
heatmap of urban centres in weather forecasts, 1980-81
Tool 4: SPSS Modeler 17
Category web of <pan-Europa>, article titles, N = 42,712 docs
Dutch territorial newspapers 1930-31
Tool 4: SPSS Modeler 17
Concept web (tekst link analysis) of <Europa, West-Europa>, full text, N = 26,880
Dutch territorial newspapers 1930-31
Tool 5: vector-space modellen
Tool 5: Tom Kenter
>>> tc.trackClouds3(dModels, ['europa'], fMinDist=.65, bSumOfDistances=True, sDirection='backw
1981_1990 europa (1.00)
1980_1989 europa (1.00)
1979_1988 europa (1.00)
1978_1987 europa (1.00)
1977_1986 europa (1.00)
1976_1985 europa (1.00)
1975_1984 europa (1.00)
1974_1983 europa (1.00) kuropa (0.34)
1973_1982 kuropa (1.00) europa (1.00)
1972_1981 kuropa (1.31) europa (1.31)
1971_1980 kuropa (1.33) europa (1.33)
1970_1979 kuropa (1.32) europa (1.32) enropa (0.31) furopa
1969_1978 kuropa (1.69) furopa (1.35) europa (1.34) enropa
1968_1977 europa (1.32) kuropa (1.32) enropa (1.29) itoernooi
1967_1976 itoernooi (2.31) cefa (1.61) europa (1.35) kuropa
1966_1975 itoernooi (1.33) enropa (1.33) europa (1.28) kuropa
1965_1974 fefa (1.34) itoernooi (1.34) cupduel (1.31) cuphouder
1964_1973 cupduel (1.66) cuphouder (1.59) cupwinnaar (1.57) europa
1963_1972 europa (1.65) cuphouder (1.62) cupduel (1.34) kuropa
1962_1971 cupwinnaar (1.27) cuphouder (1.27) itoernooi (1.00) europa
1961_1970 cupwinnaar (1.35) cuphouder (1.35) europa (1.00) fefa
1960_1969 europa (1.00) fefa (1.00) cupduel (1.00) bekerwinnaar
1959_1968 bekerwinnaar (1.33) cupwinnaar (1.33) europa (1.00) fefa
1958_1967 cupwinnaar (1.33) bekerwinnaar (1.33) europa (1.00) fefa
1957_1966 bekerwinnaar (1.32) cupwinnaar (1.32) europa (1.00) cupduel
1956_1965 cupwinnaar (1.68) bekerhouder (1.63) bekerwinnaar (1.63) europa
1955_1964 bekerwinnaar (1.87) cupwinnaar (1.31) voetbalkampioen (1.30) bekerhouder
1954_1963 bekerhouder (1.29) bekerwinnaar (1.29) cupwinnaar (1.00) cefa
1953_1962 bekerwinnaar (1.62) voetbalkampioen (1.33) bekerhouder (1.29) cupwinnaar
1952_1961 cupwinnaar (1.66) bekerhouder (1.65) bekerwinnaar (1.63) cefa
1951_1960 bekerhouder (1.00) europa (1.00) topploeg (1.00) voetbalkampioen
1950_1959 bekerhouder (1.00) cupwinnaar (1.00) europa (1.00) bekerwinnaar
Shifting concepts related
to <Europa> in full tekst
All newspapers 1950-90
code
<europa>
football
Tool 5: Carlos Martinez
Waar hoop ik op?
• inzichtelijke tools om conceptuele veranderingen te
traceren (big data + longe durée)
1. toegang tot data
2. gebruiksklaar maken van data
3. koppelen van (omvangrijke) data aan tools
4. rekencapaciteit
5. corpus linguistics, topic modelling, text analytics
allemaal voorzien van tijd- en taaldimensies
6. implementatie van word vectoring
7. ???

Mais conteúdo relacionado

Destaque

Automate Your Support !
Automate Your Support !Automate Your Support !
Automate Your Support !Freshdesk Inc.
 
Proceso de Creacion de Cuenta en Twitter
Proceso de Creacion de Cuenta en TwitterProceso de Creacion de Cuenta en Twitter
Proceso de Creacion de Cuenta en TwitterAinara Pérez
 
KUMPULAN MANUAL PROSEDUR
KUMPULAN MANUAL PROSEDURKUMPULAN MANUAL PROSEDUR
KUMPULAN MANUAL PROSEDURLaily Himawati
 
Voting: from registering to returns
Voting: from registering to returnsVoting: from registering to returns
Voting: from registering to returnsMatthew Caggia
 
Zingy - Pet Service(s) Marketplace
Zingy - Pet Service(s) MarketplaceZingy - Pet Service(s) Marketplace
Zingy - Pet Service(s) MarketplaceTobi Skovron
 
Impact on technology of an organisation
Impact on technology of an organisationImpact on technology of an organisation
Impact on technology of an organisationVJIMPGDM
 
La música más actual.
La música más actual.La música más actual.
La música más actual.mariach07
 
Extending the Bill of Rights
Extending the Bill of RightsExtending the Bill of Rights
Extending the Bill of RightsMatthew Caggia
 
C&E Expectations - Spring 2016
C&E Expectations - Spring 2016C&E Expectations - Spring 2016
C&E Expectations - Spring 2016Matthew Caggia
 
02 evidence of evolution biogeography
02 evidence of evolution   biogeography02 evidence of evolution   biogeography
02 evidence of evolution biogeographymrtangextrahelp
 
Enfoques metodologicos de la investigacion cualitativa
Enfoques metodologicos de la investigacion cualitativaEnfoques metodologicos de la investigacion cualitativa
Enfoques metodologicos de la investigacion cualitativaMarlene Delgado
 

Destaque (16)

Automate Your Support !
Automate Your Support !Automate Your Support !
Automate Your Support !
 
Why tally on cloud
Why tally on cloudWhy tally on cloud
Why tally on cloud
 
Proceso de Creacion de Cuenta en Twitter
Proceso de Creacion de Cuenta en TwitterProceso de Creacion de Cuenta en Twitter
Proceso de Creacion de Cuenta en Twitter
 
KUMPULAN MANUAL PROSEDUR
KUMPULAN MANUAL PROSEDURKUMPULAN MANUAL PROSEDUR
KUMPULAN MANUAL PROSEDUR
 
Voting: from registering to returns
Voting: from registering to returnsVoting: from registering to returns
Voting: from registering to returns
 
Demand
DemandDemand
Demand
 
Zingy - Pet Service(s) Marketplace
Zingy - Pet Service(s) MarketplaceZingy - Pet Service(s) Marketplace
Zingy - Pet Service(s) Marketplace
 
Impact on technology of an organisation
Impact on technology of an organisationImpact on technology of an organisation
Impact on technology of an organisation
 
La música más actual.
La música más actual.La música más actual.
La música más actual.
 
Extending the Bill of Rights
Extending the Bill of RightsExtending the Bill of Rights
Extending the Bill of Rights
 
Financing Campaigns
Financing CampaignsFinancing Campaigns
Financing Campaigns
 
C&E Expectations - Spring 2016
C&E Expectations - Spring 2016C&E Expectations - Spring 2016
C&E Expectations - Spring 2016
 
02 evidence of evolution biogeography
02 evidence of evolution   biogeography02 evidence of evolution   biogeography
02 evidence of evolution biogeography
 
Chain of Infection
Chain of InfectionChain of Infection
Chain of Infection
 
Enfoques metodologicos de la investigacion cualitativa
Enfoques metodologicos de la investigacion cualitativaEnfoques metodologicos de la investigacion cualitativa
Enfoques metodologicos de la investigacion cualitativa
 
Filosofos del renacimiento
Filosofos del renacimientoFilosofos del renacimiento
Filosofos del renacimiento
 

Mais de CLARIAH

ACAD Presentation by Wilbert Spooren, CLARIAH Toogdag 19-10-2018
ACAD Presentation by Wilbert Spooren, CLARIAH Toogdag 19-10-2018ACAD Presentation by Wilbert Spooren, CLARIAH Toogdag 19-10-2018
ACAD Presentation by Wilbert Spooren, CLARIAH Toogdag 19-10-2018CLARIAH
 
DB:CCC Presentation of Karin Hofmeester, CLARIAH Toogdag 19-10-2018
DB:CCC Presentation of Karin Hofmeester, CLARIAH Toogdag 19-10-2018DB:CCC Presentation of Karin Hofmeester, CLARIAH Toogdag 19-10-2018
DB:CCC Presentation of Karin Hofmeester, CLARIAH Toogdag 19-10-2018CLARIAH
 
Masterclass innosurance 2018
Masterclass innosurance 2018Masterclass innosurance 2018
Masterclass innosurance 2018CLARIAH
 
Flat TLA
Flat TLAFlat TLA
Flat TLACLARIAH
 
QB'er demonstration
QB'er demonstrationQB'er demonstration
QB'er demonstrationCLARIAH
 
Collection registration for the CLARIAH Media Suite.
Collection registration for the CLARIAH Media Suite.Collection registration for the CLARIAH Media Suite.
Collection registration for the CLARIAH Media Suite.CLARIAH
 
CMDI2RDF
CMDI2RDFCMDI2RDF
CMDI2RDFCLARIAH
 
2016 05-20-clariah-wp4
2016 05-20-clariah-wp42016 05-20-clariah-wp4
2016 05-20-clariah-wp4CLARIAH
 
2016 05-20-clariah-wp3
2016 05-20-clariah-wp32016 05-20-clariah-wp3
2016 05-20-clariah-wp3CLARIAH
 
2016 05-20-clariah-wp2
2016 05-20-clariah-wp22016 05-20-clariah-wp2
2016 05-20-clariah-wp2CLARIAH
 
2016 05-20-clariah-wp5
2016 05-20-clariah-wp52016 05-20-clariah-wp5
2016 05-20-clariah-wp5CLARIAH
 
MTAS Henny Brugman
MTAS Henny BrugmanMTAS Henny Brugman
MTAS Henny BrugmanCLARIAH
 
LREC Ton vd Wouden
LREC Ton vd WoudenLREC Ton vd Wouden
LREC Ton vd WoudenCLARIAH
 
Paqu Gertjan van Noord en Jan Odijk
Paqu Gertjan van Noord en Jan OdijkPaqu Gertjan van Noord en Jan Odijk
Paqu Gertjan van Noord en Jan OdijkCLARIAH
 
Open sonar martinreynaert
Open sonar martinreynaertOpen sonar martinreynaert
Open sonar martinreynaertCLARIAH
 
Struc data Auke Rijpma
Struc data Auke RijpmaStruc data Auke Rijpma
Struc data Auke RijpmaCLARIAH
 
Diachronous conceptuallexicons Marieke van Erp / Piek Vossen
Diachronous conceptuallexicons Marieke van Erp / Piek VossenDiachronous conceptuallexicons Marieke van Erp / Piek Vossen
Diachronous conceptuallexicons Marieke van Erp / Piek VossenCLARIAH
 
Corpus studio Erwin Komen
Corpus studio Erwin KomenCorpus studio Erwin Komen
Corpus studio Erwin KomenCLARIAH
 
Athena richard zijdeman
Athena richard zijdemanAthena richard zijdeman
Athena richard zijdemanCLARIAH
 
Struc data aukerijpma
Struc data aukerijpmaStruc data aukerijpma
Struc data aukerijpmaCLARIAH
 

Mais de CLARIAH (20)

ACAD Presentation by Wilbert Spooren, CLARIAH Toogdag 19-10-2018
ACAD Presentation by Wilbert Spooren, CLARIAH Toogdag 19-10-2018ACAD Presentation by Wilbert Spooren, CLARIAH Toogdag 19-10-2018
ACAD Presentation by Wilbert Spooren, CLARIAH Toogdag 19-10-2018
 
DB:CCC Presentation of Karin Hofmeester, CLARIAH Toogdag 19-10-2018
DB:CCC Presentation of Karin Hofmeester, CLARIAH Toogdag 19-10-2018DB:CCC Presentation of Karin Hofmeester, CLARIAH Toogdag 19-10-2018
DB:CCC Presentation of Karin Hofmeester, CLARIAH Toogdag 19-10-2018
 
Masterclass innosurance 2018
Masterclass innosurance 2018Masterclass innosurance 2018
Masterclass innosurance 2018
 
Flat TLA
Flat TLAFlat TLA
Flat TLA
 
QB'er demonstration
QB'er demonstrationQB'er demonstration
QB'er demonstration
 
Collection registration for the CLARIAH Media Suite.
Collection registration for the CLARIAH Media Suite.Collection registration for the CLARIAH Media Suite.
Collection registration for the CLARIAH Media Suite.
 
CMDI2RDF
CMDI2RDFCMDI2RDF
CMDI2RDF
 
2016 05-20-clariah-wp4
2016 05-20-clariah-wp42016 05-20-clariah-wp4
2016 05-20-clariah-wp4
 
2016 05-20-clariah-wp3
2016 05-20-clariah-wp32016 05-20-clariah-wp3
2016 05-20-clariah-wp3
 
2016 05-20-clariah-wp2
2016 05-20-clariah-wp22016 05-20-clariah-wp2
2016 05-20-clariah-wp2
 
2016 05-20-clariah-wp5
2016 05-20-clariah-wp52016 05-20-clariah-wp5
2016 05-20-clariah-wp5
 
MTAS Henny Brugman
MTAS Henny BrugmanMTAS Henny Brugman
MTAS Henny Brugman
 
LREC Ton vd Wouden
LREC Ton vd WoudenLREC Ton vd Wouden
LREC Ton vd Wouden
 
Paqu Gertjan van Noord en Jan Odijk
Paqu Gertjan van Noord en Jan OdijkPaqu Gertjan van Noord en Jan Odijk
Paqu Gertjan van Noord en Jan Odijk
 
Open sonar martinreynaert
Open sonar martinreynaertOpen sonar martinreynaert
Open sonar martinreynaert
 
Struc data Auke Rijpma
Struc data Auke RijpmaStruc data Auke Rijpma
Struc data Auke Rijpma
 
Diachronous conceptuallexicons Marieke van Erp / Piek Vossen
Diachronous conceptuallexicons Marieke van Erp / Piek VossenDiachronous conceptuallexicons Marieke van Erp / Piek Vossen
Diachronous conceptuallexicons Marieke van Erp / Piek Vossen
 
Corpus studio Erwin Komen
Corpus studio Erwin KomenCorpus studio Erwin Komen
Corpus studio Erwin Komen
 
Athena richard zijdeman
Athena richard zijdemanAthena richard zijdeman
Athena richard zijdeman
 
Struc data aukerijpma
Struc data aukerijpmaStruc data aukerijpma
Struc data aukerijpma
 

Keynote: What do ordinary humanity scholars want from CLARIAH?

  • 1. Tracing conceptual change in messy data: finding stuff in bags of words © Joris van Eijnatten
  • 2. WordSmith Tools, versie 3.00.00 (2005) 0 10 20 30 40 50 60 aantal 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 preek Grafiek V. Frequentieverdeling van het woord 'ik'
  • 3. Wat ik nodig heb • een bruikbare en inzichtelijke toolbox – om conceptuele verandering te traceren – in ± big data – van gebrekkige kwaliteit – gedurende een langere periode – in meerdere talen • comparatieve analyse in tijd en ruimte
  • 4. Toolbox anno 2016 • over welke toegankelijke en robuste gereedschappen beschikken we? 0. nGrams (bijv. Delpher) 1. semantic text-mining tool (bijv. Texcavator) 2. corpus linguistics (bijv. Antconc) 3. topic modelling (bijv. Mallet) 4. text analytics pakket (bijv. SPSS Modeler) 5. vector-space modellen (bijv. ShiCo)
  • 5. De casus • Welke associaties hebben twintigste-eeuwse kranten bij de term “Europa”? • Welke veranderingen in het concept “Europa” kunnen uit dergelijke associaties worden afgeleid? 3 ingangen - voortduren van idealen - belang van competitie - reikwijdte van weerberichten
  • 7. Data • “messy data” susleraJüp = <zusterschip> .üremer“ = <“Bremer”> U watcrlulng = <te waterlating> vci trautfd4* = <vertraagd is> Rotterdamsch nieuwsblad, 08-01-1930
  • 10. Tool 1: Texcavator search results <miss Europa>, N = 1,161 docs all newspapers, 1900-1990 Leeuwarder courant 1934-09-15
  • 11. Tool 1: Texcavator Timeline <Miss Europa>, N = 1,161 docs all newspapers 1900-1990
  • 12. Tool 1: Texcavator Word cloud <Miss Europa>, N = 1,161 docs all newspapers 1900-1990
  • 13. Tool 1: Texcavator • Metadata <Miss Europa> 1900-1989
  • 14. Tool 2: Antconc (vs 3.4.4)
  • 15. Tool 2: Antconc (vs 3.4.4) • Collocates (“the company that words keep”) articles, collocates 5L 5R territorial Netherlands, 1980-1981 Rank Freq Freq(L) Freq(R) Stat Collocate Stopword 5241 6634 6462 172 729.984 west #N/A 5052 2747 32 2715 775.328 cup #N/A 6878 1822 1737 85 688.488 oost #N/A 10072 1034 444 590 565.704 amerika #N/A 14795 853 534 319 437.297 amerikaanse #N/A 14651 789 592 197 443.685 landen #N/A 9261 747 627 120 586.854 midden #N/A 15226 745 521 224 430.265 nieuwe #N/A 17198 694 328 366 388.853 nederland #N/A 9401 639 528 111 574.022 kernwapens #N/A 10061 598 447 151 568.202 raketten #N/A 12938 575 236 339 482.671 verenigde #N/A 13540 566 278 288 468.140 staten #N/A 22340 562 270 292 299.199 jaar #N/A 11774 499 374 125 508.097 avro #N/A
  • 16. Tool 2: Antconc (vs 3.4.4) • Word lists (stopwords removed) articles, 1980-1981 territorial Netherlands advertisements, 1980-1981 territorial Netherlands Rank Freq Word Stopword 23 34036 europa #N/A 42 20954 bew #N/A 50 18443 jaar #N/A 69 12234 nederland #N/A 72 11198 eerste #N/A 75 10992 west #N/A 78 10748 amerikaanse #N/A 79 10721 land #N/A 85 9856 nieuwe #N/A 86 9820 twee #N/A 87 9705 grote #N/A 89 9511 landen #N/A 91 9236 onbewolkt #N/A 94 8689 gaan #N/A 95 8614 uur #N/A Rank Freq Word stopword 24 16387 telef #N/A 25 16355 tel #N/A 35 12469 ƒ #N/A 41 9657 europa #N/A 42 9401 dam #N/A 48 7913 uur #N/A 53 6393 km #N/A 54 6295 auto #N/A 58 6022 pr #N/A 59 6017 eig #N/A 66 5310 inl #N/A 67 5105 amsterdam #N/A 73 4804 jaar #N/A 77 4376 radio #N/A 78 4321 pers #N/A
  • 17. Tool 2: Antconc (vs 3.4.4) Word lists, articles, 1930-31, 1960-61, 1980-1981: territorial Netherlands Rank Freq Word 23 34036 europa 42 20954 bew 50 18443 jaar 69 12234 nederland 72 11198 eerste 75 10992 west 78 10748 amerikaanse 79 10721 land 85 9856 nieuwe 86 9820 twee 87 9705 grote 89 9511 landen 91 9236 onbewolkt 94 8689 gaan 95 8614 uur Rank Freq Word 42 29824 europa 51 24749 bew 56 23588 ned 69 16603 dam 82 14126 jaar 87 12397 uur 91 12008 grote 95 11136 dag 97 10731 mijl 99 10624 nederland 100 10458 landen 105 9992 eerste 106 9725 land 108 9499 west 115 9129 londen Rank Freq Word 50 60720 europa 81 34690 groote 89 30331 jaar 99 26684 mei 101 26398 juli 103 25787 ƒ 110 24492 land 114 23405 nederland 116 22845 duitschland 118 20978 eerste 122 20419 tijd 123 20285 nieuwe 126 20167 frankrijk 128 19678 regeering 131 19206 maart 1930-1931 1960-1961 1980-1981
  • 18. Tool 2: Antconc (vs 3.4.4) Word lists, articles, 1930-31, 1960-61, 1980-1981: shifts over time (duplicates in Excel, first 100 words) territorial Netherlands 1930-1931 1960-1961 1960-1961 1980-1981 Rank Freq Word Rank Freq Word Rank Freq Word Rank Freq Word 50 60720 europa 42 29824 europa 42 29824 europa 23 34036 europa 81 34690 groote 51 24749 bew 51 24749 bew 42 20954 bew 89 30331 jaar 56 23588 ned 56 23588 ned 50 18443 jaar 99 26684 mei 69 16603 dam 69 16603 dam 69 12234 nederland 101 26398 juli 82 14126 jaar 82 14126 jaar 72 11198 eerste 103 25787 ƒ 87 12397 uur 87 12397 uur 75 10992 west 110 24492 land 91 12008 grote 91 12008 grote 78 10748 amerikaanse 114 23405 nederland 95 11136 dag 95 11136 dag 79 10721 land 116 22845 duitschland 97 10731 mijl 97 10731 mijl 85 9856 nieuwe 118 20978 eerste 99 10624 nederland 99 10624 nederland 86 9820 twee 122 20419 tijd 100 10458 landen 100 10458 landen 87 9705 grote 123 20285 nieuwe 105 9992 eerste 105 9992 eerste 89 9511 landen 126 20167 frankrijk 106 9725 land 106 9725 land 91 9236 onbewolkt 128 19678 regeering 108 9499 west 108 9499 west 94 8689 gaan 131 19206 maart 115 9129 londen 115 9129 londen 95 8614 uur 135 18848 plaats 117 8812 nieuwe 117 8812 nieuwe 96 8595 zwaar 136 18843 komen 119 8692 zwaar 119 8692 zwaar 97 8566 komen 137 18205 landen 121 8448 geheel 121 8448 geheel 101 8145 nederlandse 138 18149 jan 124 8397 europese 124 8397 europese 106 7872 europese
  • 20. Tool 3: MALLET Topics in articles titles IF <Europa> in text, no. of tokens = 64,192 Dutch territorial newspapers, 1980-81 Id words topic 1 europa cup jan oost finale pelleboer louis kort deugd week = ???? 2 jaar moskou europese groningen madrid twee dick piet rob verlies = ???? 3 europa terug wereld wim amsterdam gesprek peter man uur eigen = ???? 4 nieuwe nederland kernwapens televisie tweede dag radio steun philips dood = ???? 5 polen miljoen winst bonn telegraaf weinig nodig russische laat frans = ???? 6 vs isra iran goed willen spelen rotterdam correspondent reportage provincie = ???? 7 ton eerste gaat werf nederlandse leven europees mensen mee maken = ???? 8 land blijft feyenoord pvda komt politiek amerikaanse rol strijd maakt = ???? 9 redactie voetbal henk buitenland az ajax kees groot geld regering = ???? 10 verslaggever hans tv praten carter russen sport zien staat poel = ???? 11 nederland landen auto vandaag eigen navo internationale japanse economische export = ???? 12 amerika westen oosten bom parijs midden bezoek olie goed beter = ???? 13 west reagan schmidt sowjet unie volk duitsland blijven start knol = ???? 14 grote vrede gaan komen kernraketten kritiek deel geeft kans defensie = ???? 15 navo raketten minder zon oorlog snel hoofdredacteur zuid mogelijk spanje = ???? code first name weather geography defence media economy sports politics
  • 21. Tool 3: MALLET Topics in full text, 1930-31, no. of tokens = 12,248,556 Dutch territorial newspapers 1930-31 Id words topic 1 duitschland frankrijk duitsche fransche regeering engeland politiek europa itali politieke politics 2 europa hel eu ke nen beeft heelt land vnn pen =???? 3 man goed gaan vrouw dag kwam menschen paar ging komen human int. 4 europa staten landen europeesche internationale economische volkenbond commissie oostenrijk conferentie politics 5 cva nederland koloni ned holl buitenland adam dam obl bank economy 6 wereld volk leven rusland staat land oorlog eigen tijd russische politics 7 heer regeering nederland minister nederlandsche belgi leden voorzitter partij vergadering politics 8 europa uur druk zuid temperatuur wind noord land mrs ligt weather 9 groote werk oude eerste film boek kunst tijd geheel nieuwe media/art 10 werden jaar koning groote kerk jaren kwam plaats eerste stad human int. 11 jaar millioen amerika industrie productie groote ton nieuwe handel prijzen economy 12 juli mei maart jan loco sept juni april dec oct time 13 londen rott dam antwerpen nov hamburg rotterdam new japan juni locations 14 groote land plaats eerste twee aantal groot maken amerika werden =???? 15 europa dienst heer indi betrekking amsterdam klasse school verlof geplaatst advert code politics sports economy weather human int. media/art time locations advert
  • 22. Tool 3: MALLET Wordcloud of topic “politics” IF <Europa> in text, 1950- 81, no. of docs = 48 All newspapers 1980-81 search terms europa AND amerikaanse AND unie AND west AND sowjet AND navo AND russische AND moskou AND staten AND verenigde
  • 23. Tool 4: SPSS Modeler 17
  • 24. Tool 4: SPSS Modeler 17 concept map of <Temperatuur> in full text (weather forecasts), N = 803 docs Dutch territorial newspapers 1980-81
  • 25. Tool 4: SPSS Modeler 17 urban centres in weather forecasts, 1980-81 (geocoded) name global docs type coordinates1 coordinates2 aberdeen 143 143 Town 57.149.717 -2.094.278 aden 3 2 Town 12.785.496 45.018.654 ajaccio 8 8 Town 41.919.229 8.738.634 algiers 4 2 Town 36.752.887 3.042.048 almelo 4 4 Town 52.367.026 6.668.491 amsterdam 255 242 Town 52.370.215 4.895.167 arnhem 7 6 Town 51.985.103 5.898.729 assen 7 7 Town 52.992.753 6.564.228 athene 246 235 Town 37.983.917 23.729.359 bagdad 3 2 Town 33.312.805 44.361.487 bahia 1 1 Town -12.579.738 -41.700.727 bangkok 2 1 Town 13.756.330 100.501.765 barcelona 1 1 Town 41.385.063 2.173.403 batavia 2 1 Town 41.850.028 -88.312.573 bayonne 2 1 Town 43.492.949 -1.474.840 belgrado 175 174 Town 44.786.568 20.448.921 berlijn 109 106 Town 52.520.006 13.404.953 birmingham 1 1 Town 33.520.660 -86.802.489 boedapest 4 4 Town 47.497.912 19.040.234 bologna 1 1 Town 44.494.887 11.342.616 bordeaux 171 170 Town 44.837.789 -0.579179 breda 1 1 Town 51.571.914 4.768.323 bremen 5 5 Town 53.079.296 8.801.693 brest 2 2 Town 48.390.394 -4.486.076 brussel 172 172 Town 50.850.339 4.351.710 calais 1 1 Town 50.951.290 1.858.686
  • 26. Tool 4: SPSS Modeler 17 heatmap of urban centres in weather forecasts, 1980-81
  • 27. Tool 4: SPSS Modeler 17 Category web of <pan-Europa>, article titles, N = 42,712 docs Dutch territorial newspapers 1930-31
  • 28. Tool 4: SPSS Modeler 17 Concept web (tekst link analysis) of <Europa, West-Europa>, full text, N = 26,880 Dutch territorial newspapers 1930-31
  • 30. Tool 5: Tom Kenter >>> tc.trackClouds3(dModels, ['europa'], fMinDist=.65, bSumOfDistances=True, sDirection='backw 1981_1990 europa (1.00) 1980_1989 europa (1.00) 1979_1988 europa (1.00) 1978_1987 europa (1.00) 1977_1986 europa (1.00) 1976_1985 europa (1.00) 1975_1984 europa (1.00) 1974_1983 europa (1.00) kuropa (0.34) 1973_1982 kuropa (1.00) europa (1.00) 1972_1981 kuropa (1.31) europa (1.31) 1971_1980 kuropa (1.33) europa (1.33) 1970_1979 kuropa (1.32) europa (1.32) enropa (0.31) furopa 1969_1978 kuropa (1.69) furopa (1.35) europa (1.34) enropa 1968_1977 europa (1.32) kuropa (1.32) enropa (1.29) itoernooi 1967_1976 itoernooi (2.31) cefa (1.61) europa (1.35) kuropa 1966_1975 itoernooi (1.33) enropa (1.33) europa (1.28) kuropa 1965_1974 fefa (1.34) itoernooi (1.34) cupduel (1.31) cuphouder 1964_1973 cupduel (1.66) cuphouder (1.59) cupwinnaar (1.57) europa 1963_1972 europa (1.65) cuphouder (1.62) cupduel (1.34) kuropa 1962_1971 cupwinnaar (1.27) cuphouder (1.27) itoernooi (1.00) europa 1961_1970 cupwinnaar (1.35) cuphouder (1.35) europa (1.00) fefa 1960_1969 europa (1.00) fefa (1.00) cupduel (1.00) bekerwinnaar 1959_1968 bekerwinnaar (1.33) cupwinnaar (1.33) europa (1.00) fefa 1958_1967 cupwinnaar (1.33) bekerwinnaar (1.33) europa (1.00) fefa 1957_1966 bekerwinnaar (1.32) cupwinnaar (1.32) europa (1.00) cupduel 1956_1965 cupwinnaar (1.68) bekerhouder (1.63) bekerwinnaar (1.63) europa 1955_1964 bekerwinnaar (1.87) cupwinnaar (1.31) voetbalkampioen (1.30) bekerhouder 1954_1963 bekerhouder (1.29) bekerwinnaar (1.29) cupwinnaar (1.00) cefa 1953_1962 bekerwinnaar (1.62) voetbalkampioen (1.33) bekerhouder (1.29) cupwinnaar 1952_1961 cupwinnaar (1.66) bekerhouder (1.65) bekerwinnaar (1.63) cefa 1951_1960 bekerhouder (1.00) europa (1.00) topploeg (1.00) voetbalkampioen 1950_1959 bekerhouder (1.00) cupwinnaar (1.00) europa (1.00) bekerwinnaar Shifting concepts related to <Europa> in full tekst All newspapers 1950-90 code <europa> football
  • 31. Tool 5: Carlos Martinez
  • 32. Waar hoop ik op? • inzichtelijke tools om conceptuele veranderingen te traceren (big data + longe durée) 1. toegang tot data 2. gebruiksklaar maken van data 3. koppelen van (omvangrijke) data aan tools 4. rekencapaciteit 5. corpus linguistics, topic modelling, text analytics allemaal voorzien van tijd- en taaldimensies 6. implementatie van word vectoring 7. ???