Å sjå Wikipedia som sosialt nettverk og kvalitets(u)sikra leksikon fangar opp berre delar av Wikipedia. Forelesinga vil ta opp sentrale delar av Wikipediaforskinga, med vekt på forsøka på å forstå Wikipedia som strukturering av menneskeleg kunnskap. Sett i dette lyset blir forsøket på å forstå Wikipedia også ein veg til forståinga av den menneskelege kunnskapen i seg sjølv
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Forstår vi Wikipedia no?
1. Forstår vi Wikipedia no?
Forstår vi Wikipedia no?
Trond Trosterud
Senter for samisk språkteknologi
Institutt for språkvitskap
Universitetet i Tromsø
Foredrag på Wikipedia Academy i Bergen 15.10. 2009
2. Forstår vi Wikipedia no?
Innhald
WP i offentleg norsk debatt
Kritikken
Kunnskapssynet bak kritikken
Relavansen av kritikken
Wikipediaforsking
Forsking på Wikipedia sitt innhald
Forsking på sammfunnsmessige aspekt knytt til Wikipedia
Forsking på teknologiske aspekt ved Wikipedia
Vurdering av Wikipedia
Samlivet framover: Wikipedia og Akademia
3. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Kritikken
Kritikken mot WP frå akademia og presse i Noreg
Delvis går kritikken på at kven som helst kan skrive anonymt
på Wikipedia
Wikipedia har ikkje signerte artiklar
==> og det er dermed umogleg å finne ut kven som har
skrive dei
Ein annan kritikk legg vekt på manglande redaksjon
WP er upåliteleg, på grunn av mangel på kontroll
==> WP kan ikkje bli brukt som kjelde
4. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Kritikken
Problematiske sider med kritikken
Denne kritikken forstår ikkje korleis Wikipedia fungerer
Artiklane er ikkje signert, men kvar artikkel har ein
versjonshistorikk, der forfattaren attom kvar einaste redigering
kan identifiserast, via fullt namn, brukarnamn eller IP-nummer
Kritikken vitnar om eit snevert kunnskapssyn
Faktakunnskap er berre ein liten del av det WP kan bidra med
Nokre av dei mest synlege kritikarane har dessutan
eigeninteresse i konkurrerande leksika eller smuldrande
kunnskapsmonopol
(For all del: Det finst også ting å kritisere! — det kjem eg
attende til)
5. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Kunnskapssynet bak kritikken
Kunnskapssynet bak kritikken om faktafeil
42
er talet som superdatamaskinen Deep Thought reknar ut at er
svaret på det store spørsmålet om meininga med livet,
universet og alt (Douglas Adams: The hitchhiker’s guide to the
galaxy )
Det kritikarane er redd for er altså at nokon skal snike seg inn,
og erstatte 42 med 41.
I ein by som er i stand til å gje Julia Kristeva Holbergprisen
bør vi vere i stand til å sjå at noko er gale her
Bergens Tidendes faktasjekk.no er eit godt døme på det
problematiske ved dette kunnskapssynet (dei laga ein stor
faktasjekk av Lundteigens «Verdiskaping skjer ikkje i Oslo»...
men sanningsgehalten av utsegnet er avhengig av definisjonen
av ordet verdiskaping !!)
6. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Kunnskapssynet bak kritikken
Det viktige er å forstå
Her er nokre spørsmål eg har stilt til WP:
Korleis fungerer ein hmm-parsar?
Korleis relaterer dei ulike parsarane for norsk seg til
Chomsky-hierarkiet?
Kva er statusen til aragonesisk, og kvar finn eg dei relevante
standardiseringsorgana for dette språket?
Sanningskriteriet her er ikkje 42 eller ikkje, men om eg, etter å
ha lese artikkelen, er i stand til å forstå dei tekstane eg les, dei
foredraga eg skriv
7. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Relavansen av kritikken
Spørsmålet er ikkje «kan vi stole på WP?»
Faktaopplysningar (lister og detaljkunnskap) er WP si sterke
side
Rutinene for å oppdatere, kontrollere, og synkronisere
faktaopplysningar blir betre år for år
Alle studier av vandalisme på WP viser at det blir fjerna fort
Kritikarar må ty til juks for å finne faktafeil
Go’ Morgen Danmarks Wiki-gate, der kritikarane sjølv hadde
fabrikert feil fødselsår på programleiaren, feilen vart retta av
dansk WP i løpet av eit par minutt, og kritikarane måtte vise
eit manipulert bilete av sida)
Studier av feilretting der forskaren sjølv har planta feila på WP
er metodologisk feil
feil bevisst planta av journalistar og «forskarar» skil seg
systematisk frå autentiske feil
Forsking på autentiske feil er (som all ekte forsking) hardt
arbeid : forskaren må finne feila, og ikkje fabrikere data
8. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Relavansen av kritikken
Spørsmålet er ikkje «WP eller Store Norske Leksikon»
Spør skoleelevar om kva kjelder dei bruker. Dei svarer, i nummerert
rekkjefølgje:
1. Wikipedia
2. Google
3. Skolebøker
Dei har som regel ikkje hørt om Store Norske, og i tilfelle berre om
papirversjonen, fordi vaksne har vist dei at den finst.
9. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Relavansen av kritikken
Spørsmålet for forskaren kan sjølvsagt vere «skal eg skrive
populærvitskapleg på WP eller i ein kronikk i Bergens
Tidende»
Kronikken blir lese av alle (dvs. alle som les kronikkar) i dag
... men er gløymt i morgon
og sjølv om du finn kronikken att inngår han ikkje i ei
systematisk kunnskapsformidling, slik som ein WP-artikkel gjer
Det vi presenterer på WP blir ståande, og vil framleis vere
tilgjengeleg
10. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Relavansen av kritikken
Paradokset om forskingsformidling
Viss forskingsformidling skal vere underhaldning for lekfolk som
vil bli amusert, kan det godt vere kronikk i avisa (artig i dag,
borte i morgon)
Men viss forskingsformidling skal vere nyttig for lekfolk som er
seriøst interessert i faget må det stå på WP (systematisk
presentert, tilgjengeleg også i morgon)
Paradokset er at dei som klager over at WP ikkje er seriøs nok
samtidig er dei som går inn for den useriøse
forskingsformidlinga
11. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Relavansen av kritikken
Spørsmålet er ikkje «vil eg skrive på WP eller ikkje?»
Det er ikkje i kor stor grad eg liker WP som er relevant her
Spørsmålet akademikarar må stille seg er:
er stoffet mitt synleg for lekfolk?
... som er det same som: er stoffet mitt på WP?
12. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Relavansen av kritikken
Spørsmålet handlar ikkje om artikkelskriving i det heile!!
Spørsmålet er ikkje om «akademikarar skal skrive artiklar».
På WP skriv vi ikkje artiklar
Vi skriv på artiklar
Kollektiv skriv artiklar.
Alle artiklane Bergenstidsskriftet Vox Publica fekk
akademikarar til å skrive og deretter la ut på WIkipedia vart
umiddelbart langt betre av å bli lagt ut i det offentlege
rommet.
13. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Relavansen av kritikken
Spørsmålet kan vere «kva språkversjon skal eg skrive på?»
Nordmenn flest kan lese minst 6 ulike WP, og skrive på
halvparten av dei
Det språklege mangfaldet har ein verdi ut over det reint
språklege
Mange les den engelske utgåva
Det dei mistar er det norske perspektivet
Gledeleg for meg: Nettstatistikk viser at nynorsk WP ofte har
like god lesarstatistikk som bokmåls-WP
14. Forstår vi Wikipedia no?
WP i offentleg norsk debatt
Relavansen av kritikken
Dei ulike språkversjonane representerer ulike fortolkingar av
verda
Engelsk:
God på dataartiklar, matematikk, trivialkultur
Men: ofte for lange, ustrukturerte artiklar, særleg biografiar
Tysk
Mindre småprat enn på engelsk
Betre strukturert, mindre fyll mellom kvart gullkorn
Eit europeisk perspektiv
Nynorsk vs. bokmål
Ofte kortare nn-artikkel — det er slett ikkje alltid negativt
Nynorsk har sine sterke sider (språk, Vestlandet,
ekkokardiografi...) — men er dårleg på trivia og sport
For alle språkversjonar gjeld det at WP speglar kva som er
viktig for det språksamfunnet
15. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking
Vi kan klassifisere WP-forskinga i tre hovudtypar:
1. Forsking på Wikipedia sitt innhald
2. Forsking på samfunnsmessige aspekt knytt til Wikipedia
3. Forsking på teknologiske aspekt ved Wikipedia
16. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på Wikipedia sitt innhald
Forsking på Wikipedia sitt innhald
17. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på Wikipedia sitt innhald
WP som kjelde for språkteknologar
fritt tilgjengeleg tekst på mange språk
... arbeidet vårt med komi...
parallelle tekstar, i laus forstand
interwikilenkjer som potensielle ordbøker og namnebaser
kategoriane (semantisk framstilling av kategoriar)
kategoriar som semantiske strukturar - sett, over- og
underordning, osb.
kvar artikkel sin vektor, klassifisering av nye konsept etter kor
nær dei er dei ulike vektorane, og dermed kategoriane deira
18. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på Wikipedia sitt innhald
Tabell: 847 av 16500 artiklar på aclweb.org etter 1965 viser til Wikipedia
Large-Scale Named Entity Disambiguation Based on Wikipedia Data
Outclassing Wikipedia in Open-Domain Information Extraction ...
Topic Identification Using Wikipedia Graph Centrality
Construction of Disambiguated Folksonomy Ontologies Using Wikipedia
Named Entity Recognition in Wikipedia
An Unsupervised Approach to Biography Production Using Wikipedia
Extracting World and Linguistic Knowledge from Wikipedia
Mining Wikipedia Revision Histories for Improving Sentence Compression
A Resource-Poor Approach for Linking Ontology Classes to Wikipedia ...
Hacking Wikipedia for Hyponymy Relation Acquisition
Analysing Wikipedia and Gold-Standard Corpora for NER Training
WikiWalk: Random walks on Wikipedia for Semantic Relatedness
Summarizing Definition from Wikipedia
Evaluating a Statistical CCG Parser on Wikipedia
Wikipedia as Frame Information Repository
Automatically Generating Wikipedia Articles: A Structure-Aware ...
Cross-lingual Alignment and Completion of Wikipedia Templates
Automatic Content-Based Categorization of Wikipedia Articles
Finding Hedges by Chasing Weasels: Hedge Detection Using Wikipedia ...
Proceedings of the Joint Conference of the 47th Annual Meeting of ...
Extracting Lexical Reference Rules from Wikipedia
The QuALiM Question Answering Demo: Supplementing Answers with ...
Directions for Exploiting Asymmetries in Multilingual Wikipedia
A Novel Approach to Automatic Gazetteer Generation using Wikipedia
Proceedings of the 45th Annual Meeting of the Association of ...
Exploiting Wikipedia as External Knowledge for Named Entity ...
An analysis of Wikipedia digital writing
A Graph-Based Approach to Named Entity Categorization in Wikipedia ...
Unsupervised Relation Extraction by Mining Wikipedia Texts Using ...
19. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på Wikipedia sitt innhald
WP som tekst for tekstforskarar
WP som språksamfunnets fortolking av verda
... i 200 ulike versjonar
Vi kan ta ut ulike delar av tekstrommet og sjå på dei
Versjonshistorikken gjer det mogleg å studere den redaksjonelle
prosessen attom tekstproduksjon
20. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på Wikipedia sitt innhald
WP for informatikarar
WP er kjeldetekst for forsking på maskinlæring og søkemotorar
WP er også ei potensiell kjelde for forsking på komplekse
system
21. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på Wikipedia sitt innhald
WP for dokumentasjonsvitarar
Wikipedia kan bidra til nye svar på spørsmålet om kva eit
dokument er:
Kan den interne strukturen (synkront og diakront!!) til
WP-dokument generaliserast til andre dokument?
Kan dokumensamlingene som Wikipedia er bli brukt som
nøkkel for prosessering av andre dokumentsamlingar?
22. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på Wikipedia sitt innhald
WP for framtidas historikarar
... som kjelde til forsking på mentalitetshistorie for perioden
etter 2001
23. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på sammfunnsmessige aspekt knytt til Wikipedia
Forsking på sammfunnsmessige aspekt knytt til Wikipedia
Fenomenet Wikipedia, korleis var det mogleg?
manglande kontrollinnstans
Starten på Wikipedia var Nupedia, eit wiki-leksikon med ein
kontrollinstans som artiklane måtte gjennom før publisering
Modellen vart repetert på nettutgåva av SNL, med same
dårlege resultat
ikkje krav om innlogging, låg terskel, umiddelbar publisering
Genuin folkeleg interesse for kunnskap
Dette var mine tentative svar, vi treng forsking for å forstå
desse prosessane betre
24. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på sammfunnsmessige aspekt knytt til Wikipedia
Kva konklusjonar kan vi dra av storleiken på dei ulike
WP-språkversjonane?
Forhold mellom Ausbau- og Abstand-språk:
normannisk og asturisk er Ausbau-språk
baskisk, grønlandsk, walisisk, nordsamisk er Abstand-språk
Korfor oppsto norsk i opposisjon til dansk, men ikkje älvdalska
i opposisjon til svensk?
Dette veit vi mykje om (for norsk), men WP kan fortelje oss
meir, for mange fleire språksamfunn
Dagens WP-flora kan fortelje oss mykje om verdas språkøkologi
25. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på sammfunnsmessige aspekt knytt til Wikipedia
Wikipedias sterkaste kontinent: Europa
Tabell: Wikipedia på ulike språk i Europa
Språkfamilie WP statsberande andre manglar WP
Slaviske: 16 13 1-3
Germanske 20 7 13
Romanske: 28 6 22
Uralske: 25 3 4 18
Tyrkiske: 5 1 1 3
26. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på sammfunnsmessige aspekt knytt til Wikipedia
Wikipedias sterkaste kontinent: Europa
Det låge talet på WP-versjonar på ikkjestatsberande slaviske
språk står i slåande kontrast til talet for germansk og særleg
for romansk
Eit nærare studium av språksamfunna attom desse
WP-versjonane kan fortelje oss om ulike europeiske samfunn
27. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på sammfunnsmessige aspekt knytt til Wikipedia
Wikipedia på tidlegare kolonispråk
Afrika
Ein funksjonell WP på afrikansk språk sør for Sahara:
Swahili — det einaste afrikanske statsspråket (utom amharisk)
med berre ein generasjons engelsk koloniherredømme
Sameland (6 språk - 1 WP, nordsamisk: 2817 artiklar)
(Nesten) ingen samar skriv på WP
Innhaldet er stort sett infrastruktur laga av finnar med samisk
som framandspråk
Samar er 3-4-språklege, og treng ikkje samisk WP
Samar over 25 år lærte ikkje å skrive samisk på skolen
Samiske skribentar (språkkonsulentar) skriv for pengar
Grønland
Spesielt alvorling tilfelle:
150 år med morsmålsopplæring, einspråkleg befolkning,
dysfunksjonell WP
Vi vil forstå korfor, og vi vil gjere noko med det
28. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på sammfunnsmessige aspekt knytt til Wikipedia
WP i ulike språksamfunn
Tabell: Wikipedia articles per population (juli 2007)
Høgaste over 20000 art/m Høgaste under 10000 art/m Lågaste under 10000 art/m
Nynorsk 48864 Cornish 377429 Punjabi 3
Estonian 34507 Norman 130500 Gujarati 7
Swedish 26662 Northern Sami 112450 Sinhalese 13
Nepal Bhasa 25296 Scottish Gaelic 73600 Pashto 20
Bokmål 23947 Irish Gaelic 52230 Nepali 37
Slovene 22745 Malagasy 52230 Min Nan 57
Finnish 20595 Faroese 31113 Urdu 58
Dutch 13846 Kashubian 31040 Cantonese 66
Danish 12418 Ripuarian 27436 Tagalog 72
Lithuanian 12303 Sanskrit 19350 Lingala 74
Slovak 12119 Võro 18714 Tok Pisin 76
Polish 8789 Franco-Provençal 17195 Kashmiri 77
Hebrew 8599 Asturian 15829 Malayalam 91
Galician 7361 Walloon 15237 Sardinian 100
Croatian 6623 Corsican 13425 Mongolian 102
Czech 6022 West Frisian 12250 Amharic 109
Catalan 5706 Tongan 11505 Kannada 118
Lombard 5629 Ladino 10418 Swahili 135
German 4935 Romansh 5771 Bashkir 175
Italian 4616 Divehi 5403 Yoruba 183
29. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på sammfunnsmessige aspekt knytt til Wikipedia
Wikipedia på norsk
Tabell: Skribentar og artiklar på Wikipedia på nynorsk og bokmål
wikipedant bidrag database
tot nye >5 >100 artikl(t) ord(m)
Aug 09 nn+nb 7970 143 679 106 277 73,5
Aug 09 nb 7456 134 626 95 227 62,1
Aug 09 nn 514 9 53 11 50 11,4
Nyn-% av tot 6,4% 6,3% 7,8% 10,4% 18,1% 15,5%
30. Forstår vi Wikipedia no?
Wikipediaforsking
Forsking på teknologiske aspekt ved Wikipedia
Forsking på teknologiske aspekt ved Wikipedia
Interne aspekt: Korleis få Wikipedia til å fungere
manglande kontrollinnstans (Nupedia-feilen)
Eksterne aspekt:
Kan wikimodellen generaliserast til andre
dokumentasjonsprosjekt?
— ja
Kan vi få i pose og sekk: Avanserte templat og låg
redigeringsterskel?
32. Forstår vi Wikipedia no?
Vurdering av Wikipedia
Vurdering av innhaldet i Wikipedia
Er så alt bra? Nei.
Ein svak artikkeltype er oversynsartiklar
Artiklar som krev at skribenten har grep om eit heilt
fagområde, og skriv oversynet i ein sveip
Dette kjem av at akademikarar i for liten grad skriv på WP
Andre svake sider ved WP:
kausalsamanhengar
fagområde som verken har stor allmenn interesse eller er
naturvitskaplege
systematikk i måten artiklane refererer til kjeldene sine
Det verste med WP er det som ikkje står der (alt er ikkje
gjort!)
33. Forstår vi Wikipedia no?
Vurdering av Wikipedia
Vurdering av innhaldet i Wikipedia
Ulike felt har ulik dekningsgrad
Ei undersøking på engelsk WP viser at artiklar om dataprogram
og Harry Potter er betre representert enn artiklar om geriatri
Svaret her er gjerokrati: gjer noko med det sjølv, da vel.
Geriatrikarane har sove i timen, og dei gamle kan ikkje data
Poeng: Mangelen på stoff er ikkje WP sitt problem, det er mitt
(akademikaren) problem
34. Forstår vi Wikipedia no?
Vurdering av Wikipedia
Sterke sider ved WP
WP teksttyper: gode på fakta, lister, detaljkunnskap
WP stoffområde: gode på populærkultur, kuriosa, IT
Redsla for dei maniske sabotørene er overdrive:
det går som regel bra: få artiklar er sabotert, og det som blir
sabotert blir retta
(WP har ikkje fordommar mot stoffområde)
(jf. Store Norske Leksikon sitt negative syn på grammatiske
opplysningar i språkartiklarr)
35. Forstår vi Wikipedia no?
Vurdering av Wikipedia
Kva Wikipedia ikkje er
Det er mange ting WP ikkje er. I denne konteksten kan eg
nemne:
WP er ikkje forumet for å presentere original forsking.
Original forsking høyrer heime i fagfellevurderte tidsskrift, og
blir fjerna frå WP
WP er ikkje (erstatning for) pensumlitteratur for
universitetsstudentar
Samanlikna med pensumlitteraturen er WP overflatisk.
Studentar skal lærast av med å bruke WP som einaste kjelde
WP er ikkje eit sosialt medium
Folk som skriv mykje på WP blir kjent med kvarandre, på
same måten som folk som arbeider på t.d. eit sjukehus blir det.
Men dei møtest for å utføre noko, ikkje for å vere i lag
36. Forstår vi Wikipedia no?
Samlivet framover: Wikipedia og Akademia
Kva kan Wikipedia gjere for oss forskarar?
Popularisering av forskingsresultat:
WP kan gjere forskingsresultata våre synleg
Det finst ingen annan publiseringskanal for å nå lekfolk
WP er ei kjelde til kunnskap for oss (ei blant mange
kunnskapskjelder)
WP kan også inspirere oss til å publisere kjeldematerialet våre
(men ikkje på WP; som er eit leksikon)
Å publisere ikkje berre resultat, men også grunnlagsmateriale,
rådata, vil innebere eit stort sprang framover i forsking
37. Forstår vi Wikipedia no?
Samlivet framover: Wikipedia og Akademia
Kva kan vi forskarar gjere for Wikipedia?
Vi kan gjere den kollektive menneskelege kunnskapen (vår flik
av den) synleg for lekfolk
For å kunne bruke WP som publiseringskanal må vi innsjå at
Wikipedia er oss, oss menneske (ja, oss akademikarar også)
Viss noko manglar, eller noko er skeivt eller skakt på WP, er
det ikkje fordi «Wikipedia ikkje har gjort noko med det»
«Volkswagen» kan referere både til bilen og til dei menneska
som arbeider der («Volkswagen har no utvikla ein ny
modell...»)
«Wikipedia» er ikkje tvetydig på same måte. Wikipedia er eit
nettleksikon, og ei samling datamaskiner i Florida. Ut over det
er Wikipedia deg og meg, alle oss som skriv på Wikipedia —
eller lar det vere.
38. Forstår vi Wikipedia no?
Samlivet framover: Wikipedia og Akademia
Norsk Akademia og wikipediaforskinga
Utfordringa er å forstå potensialet i Wikipedia
Først: Forstå Wikipedia, korleis det er bygd opp og fungerer:
Forskarar er intelligente menneske, og bør kunne trykke på alle
knappar på Wikipedia-skjermbiletet
Deretter: Bruke Wikipedia, på den måten som passar for den
relevante forskingsoppgåva:
... som den unike manifestasjonen av fleire og fleire aspekt ved
menneskeleg kunnskap som det er.
39. Forstår vi Wikipedia no?
Samlivet framover: Wikipedia og Akademia
Takk for merksemda!