5. Topic modeling ja sosiologia
• Sanaklusterit tulkitaan yleensä ”aiheiksi”, mutta jos
tutkitaan sosiaalisesti vakiintuneita tapoja puhua
jostain (diskurssi, kehys), niin...
• Bail, 2014; DiMaggio, Nag & Blei, 2013: topicit
tulkittavissa ”kehyksiksi”
• 3 kokeilua
6.
7. 1: ”Topic Modeling the Global Climate Policy
Debate” (Eranti, Kukkonen & Ylä-Anttila 2015)
• New York Times & The Hindu hakusanalla “climate
change” or “global warming” ilmastoneuvottelujen
aikaan 1997, 2009 ja 2011
• 677 käsin koodattua ”vaadetta”, joista koodattu
puhujaryhmä (expert, govt, NGO)
• Puhuvatko asiantuntijat, hallitukset ja
kansalaisjärjestöt eri tavalla ilmastonmuutoksesta?
Puhutaanko USA:ssa ja Intiassa eri tavoin?
• Aineisto MALLETiin niin, että yksi vaade oli yksi
tiedosto, nimetty esim. nyt_expert132.txt,
tiedostoja muutama tuhat
8.
9.
10.
11.
12.
13.
14. 2: Suomi24-kokeilu
• ”Esi-” tai ”protopoliittinen puhe”: mitä ja miten
arkisia huolenaiheita politisoidaan?
• (Chantal Mouffe, Peter Dahlgren,
Iris Marion Young, Kari Palonen...)
• Demokraattisen kulttuurin jäljet näkyvät
politisaation reunaehdoissa
• Miten löytää nettikeskusteluista politisaation
paikkoja, siis ”esipoliittista”, ja analysoida sitä?
• Aineiston ”tislaaminen”?
15. ”Mitä saa, jos heittää LDA:lle kasan lajittelematonta Suomi24-aineistoa?”
16. Mitä jos äskeistä karkeaa mallia käyttäisi esipoliittisen puheen
etsimiseen, ja sitten jatkomallintaisi sitä aineiston osaa?
20. Topic modeling sosiologin työkaluna:
alustavia havaintoja
• Aineiston tunteminen ja teoreettinen tulkinta
• Pitää osata kysyä oikeita kysymyksiä ja arvioida tuloksia
• Kvalitatiivisten menetelmien hyödyntäminen
• Luokittelut, ”tislaaminen”
• Käsityötä on suht paljon
• Näissä käytetty bash- ja Python-skriptejä BeautifulSoup-kirjastolla, Exceliä, wgetiä,
MALLETia ja FinnPos-lemmatisoijaa, joita kaikkia piti opetella käyttämään
• Algoritmi ”black box”
• Kuinka hyvin tutkijan täytyy tuntea käyttämänsä algoritmi?
• Puuttuu menetelmällinen konsensus joten pitää mennä ad hoc
• Miten määritellään ja sitten operationalisoidaan vaikka ”kehys”?
• Miten validoidaan että löydetty ”topic” on (tietty) ”kehys”?
• Tutkimusasetelmat, joissa tästä käpistelystä
on muutakin kuin kuriositeettihyötyä
• ”Digitalisaation” vaikutus maailmaan jota tutkitaan vs. tutkimusmenetelmiin – molemmat!