SlideShare uma empresa Scribd logo
1 de 20
Topic modeling
sosiologin työkaluna
Alustavia havaintoja
tekstin koneellisesta analysoinnista
Tuukka Ylä-Anttila
Topic modeling luokittelee tekstiaineiston ”aiheisiin”:
usein yhdessä esiintyvien sanojen joukkoihin
Topic modeling ja sosiologia
• Sanaklusterit tulkitaan yleensä ”aiheiksi”, mutta jos
tutkitaan sosiaalisesti vakiintuneita tapoja puhua
jostain (diskurssi, kehys), niin...
• Bail, 2014; DiMaggio, Nag & Blei, 2013: topicit
tulkittavissa ”kehyksiksi”
• 3 kokeilua
1: ”Topic Modeling the Global Climate Policy
Debate” (Eranti, Kukkonen & Ylä-Anttila 2015)
• New York Times & The Hindu hakusanalla “climate
change” or “global warming” ilmastoneuvottelujen
aikaan 1997, 2009 ja 2011
• 677 käsin koodattua ”vaadetta”, joista koodattu
puhujaryhmä (expert, govt, NGO)
• Puhuvatko asiantuntijat, hallitukset ja
kansalaisjärjestöt eri tavalla ilmastonmuutoksesta?
Puhutaanko USA:ssa ja Intiassa eri tavoin?
• Aineisto MALLETiin niin, että yksi vaade oli yksi
tiedosto, nimetty esim. nyt_expert132.txt,
tiedostoja muutama tuhat
2: Suomi24-kokeilu
• ”Esi-” tai ”protopoliittinen puhe”: mitä ja miten
arkisia huolenaiheita politisoidaan?
• (Chantal Mouffe, Peter Dahlgren,
Iris Marion Young, Kari Palonen...)
• Demokraattisen kulttuurin jäljet näkyvät
politisaation reunaehdoissa
• Miten löytää nettikeskusteluista politisaation
paikkoja, siis ”esipoliittista”, ja analysoida sitä?
• Aineiston ”tislaaminen”?
”Mitä saa, jos heittää LDA:lle kasan lajittelematonta Suomi24-aineistoa?”
Mitä jos äskeistä karkeaa mallia käyttäisi esipoliittisen puheen
etsimiseen, ja sitten jatkomallintaisi sitä aineiston osaa?
3: Vastatietodiskurssien leviäminen laitamedioista yleisempään
julkisuuteen: MV-lehti, Hommaforum, Suomi24?
• Hypoteesi:
Topic modeling sosiologin työkaluna:
alustavia havaintoja
• Aineiston tunteminen ja teoreettinen tulkinta
• Pitää osata kysyä oikeita kysymyksiä ja arvioida tuloksia
• Kvalitatiivisten menetelmien hyödyntäminen
• Luokittelut, ”tislaaminen”
• Käsityötä on suht paljon
• Näissä käytetty bash- ja Python-skriptejä BeautifulSoup-kirjastolla, Exceliä, wgetiä,
MALLETia ja FinnPos-lemmatisoijaa, joita kaikkia piti opetella käyttämään
• Algoritmi ”black box”
• Kuinka hyvin tutkijan täytyy tuntea käyttämänsä algoritmi?
• Puuttuu menetelmällinen konsensus joten pitää mennä ad hoc
• Miten määritellään ja sitten operationalisoidaan vaikka ”kehys”?
• Miten validoidaan että löydetty ”topic” on (tietty) ”kehys”?
• Tutkimusasetelmat, joissa tästä käpistelystä
on muutakin kuin kuriositeettihyötyä
• ”Digitalisaation” vaikutus maailmaan jota tutkitaan vs. tutkimusmenetelmiin – molemmat!

Mais conteúdo relacionado

Mais de Tuukka Ylä-Anttila

A Sociological Framework for the Analysis of Populism via Laurent Thévenot’s ...
A Sociological Framework for the Analysis of Populism via Laurent Thévenot’s ...A Sociological Framework for the Analysis of Populism via Laurent Thévenot’s ...
A Sociological Framework for the Analysis of Populism via Laurent Thévenot’s ...
Tuukka Ylä-Anttila
 
ESA Torino 2013: What is Finnish about The Finns Party? Political Culture and...
ESA Torino 2013: What is Finnish about The Finns Party? Political Culture and...ESA Torino 2013: What is Finnish about The Finns Party? Political Culture and...
ESA Torino 2013: What is Finnish about The Finns Party? Political Culture and...
Tuukka Ylä-Anttila
 

Mais de Tuukka Ylä-Anttila (17)

Interpretation, measurement and mixed methods
Interpretation, measurement and mixed methodsInterpretation, measurement and mixed methods
Interpretation, measurement and mixed methods
 
Familiarity as a Tool of Populism and the Case of Suvivirsi
Familiarity as a Tool of Populism and the Case of SuvivirsiFamiliarity as a Tool of Populism and the Case of Suvivirsi
Familiarity as a Tool of Populism and the Case of Suvivirsi
 
Yhteiskunnan mittaaminen: Big data ja tiedonlouhinta
Yhteiskunnan mittaaminen: Big data ja tiedonlouhintaYhteiskunnan mittaaminen: Big data ja tiedonlouhinta
Yhteiskunnan mittaaminen: Big data ja tiedonlouhinta
 
Right-Wing Populist Parties and the Politicization of Resentment
Right-Wing Populist Parties and the Politicization of ResentmentRight-Wing Populist Parties and the Politicization of Resentment
Right-Wing Populist Parties and the Politicization of Resentment
 
Populismin työkalut ja media
Populismin työkalut ja mediaPopulismin työkalut ja media
Populismin työkalut ja media
 
Knowledge, Counterknowledge and Conspiracy in Populist Argumentation
Knowledge, Counterknowledge and Conspiracy in Populist ArgumentationKnowledge, Counterknowledge and Conspiracy in Populist Argumentation
Knowledge, Counterknowledge and Conspiracy in Populist Argumentation
 
Populism in Action: Finland 1959–2017
Populism in Action: Finland 1959–2017Populism in Action: Finland 1959–2017
Populism in Action: Finland 1959–2017
 
Populism and Familiarity: Political Appropriation of Suvivirsi, the Summer Hymn
Populism and Familiarity: Political Appropriation of Suvivirsi, the Summer HymnPopulism and Familiarity: Political Appropriation of Suvivirsi, the Summer Hymn
Populism and Familiarity: Political Appropriation of Suvivirsi, the Summer Hymn
 
Using Topic Modeling to Study Everyday "Civic Talk" and Proto-political Engag...
Using Topic Modeling to Study Everyday "Civic Talk" and Proto-political Engag...Using Topic Modeling to Study Everyday "Civic Talk" and Proto-political Engag...
Using Topic Modeling to Study Everyday "Civic Talk" and Proto-political Engag...
 
Populism as Politics of Personal Experience: The Case of Suvivirsi
Populism as Politics of Personal Experience: The Case of SuvivirsiPopulism as Politics of Personal Experience: The Case of Suvivirsi
Populism as Politics of Personal Experience: The Case of Suvivirsi
 
A Sociological Framework for the Analysis of Populism via Laurent Thévenot’s ...
A Sociological Framework for the Analysis of Populism via Laurent Thévenot’s ...A Sociological Framework for the Analysis of Populism via Laurent Thévenot’s ...
A Sociological Framework for the Analysis of Populism via Laurent Thévenot’s ...
 
Exploiting the Discursive Opportunity of the Euro Crisis: The Rise of The Fin...
Exploiting the Discursive Opportunity of the Euro Crisis: The Rise of The Fin...Exploiting the Discursive Opportunity of the Euro Crisis: The Rise of The Fin...
Exploiting the Discursive Opportunity of the Euro Crisis: The Rise of The Fin...
 
ESA Torino 2013: What is Finnish about The Finns Party? Political Culture and...
ESA Torino 2013: What is Finnish about The Finns Party? Political Culture and...ESA Torino 2013: What is Finnish about The Finns Party? Political Culture and...
ESA Torino 2013: What is Finnish about The Finns Party? Political Culture and...
 
Populism as Politics of Personal Experience: The Case of Suvivirsi
Populism as Politics of Personal Experience: The Case of SuvivirsiPopulism as Politics of Personal Experience: The Case of Suvivirsi
Populism as Politics of Personal Experience: The Case of Suvivirsi
 
Populismi suomalaisen poliittisen kulttuurin kontekstissa
Populismi suomalaisen poliittisen kulttuurin kontekstissaPopulismi suomalaisen poliittisen kulttuurin kontekstissa
Populismi suomalaisen poliittisen kulttuurin kontekstissa
 
Oikeuttamismaailmat diskursseina?
Oikeuttamismaailmat diskursseina?Oikeuttamismaailmat diskursseina?
Oikeuttamismaailmat diskursseina?
 
What is Finnish about the Finns Party? Political Culture and Populism
What is Finnish about the Finns Party? Political Culture and PopulismWhat is Finnish about the Finns Party? Political Culture and Populism
What is Finnish about the Finns Party? Political Culture and Populism
 

Topic modeling sosiologin työkaluna

  • 1. Topic modeling sosiologin työkaluna Alustavia havaintoja tekstin koneellisesta analysoinnista Tuukka Ylä-Anttila
  • 2. Topic modeling luokittelee tekstiaineiston ”aiheisiin”: usein yhdessä esiintyvien sanojen joukkoihin
  • 3.
  • 4.
  • 5. Topic modeling ja sosiologia • Sanaklusterit tulkitaan yleensä ”aiheiksi”, mutta jos tutkitaan sosiaalisesti vakiintuneita tapoja puhua jostain (diskurssi, kehys), niin... • Bail, 2014; DiMaggio, Nag & Blei, 2013: topicit tulkittavissa ”kehyksiksi” • 3 kokeilua
  • 6.
  • 7. 1: ”Topic Modeling the Global Climate Policy Debate” (Eranti, Kukkonen & Ylä-Anttila 2015) • New York Times & The Hindu hakusanalla “climate change” or “global warming” ilmastoneuvottelujen aikaan 1997, 2009 ja 2011 • 677 käsin koodattua ”vaadetta”, joista koodattu puhujaryhmä (expert, govt, NGO) • Puhuvatko asiantuntijat, hallitukset ja kansalaisjärjestöt eri tavalla ilmastonmuutoksesta? Puhutaanko USA:ssa ja Intiassa eri tavoin? • Aineisto MALLETiin niin, että yksi vaade oli yksi tiedosto, nimetty esim. nyt_expert132.txt, tiedostoja muutama tuhat
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14. 2: Suomi24-kokeilu • ”Esi-” tai ”protopoliittinen puhe”: mitä ja miten arkisia huolenaiheita politisoidaan? • (Chantal Mouffe, Peter Dahlgren, Iris Marion Young, Kari Palonen...) • Demokraattisen kulttuurin jäljet näkyvät politisaation reunaehdoissa • Miten löytää nettikeskusteluista politisaation paikkoja, siis ”esipoliittista”, ja analysoida sitä? • Aineiston ”tislaaminen”?
  • 15. ”Mitä saa, jos heittää LDA:lle kasan lajittelematonta Suomi24-aineistoa?”
  • 16. Mitä jos äskeistä karkeaa mallia käyttäisi esipoliittisen puheen etsimiseen, ja sitten jatkomallintaisi sitä aineiston osaa?
  • 17.
  • 18. 3: Vastatietodiskurssien leviäminen laitamedioista yleisempään julkisuuteen: MV-lehti, Hommaforum, Suomi24? • Hypoteesi:
  • 19.
  • 20. Topic modeling sosiologin työkaluna: alustavia havaintoja • Aineiston tunteminen ja teoreettinen tulkinta • Pitää osata kysyä oikeita kysymyksiä ja arvioida tuloksia • Kvalitatiivisten menetelmien hyödyntäminen • Luokittelut, ”tislaaminen” • Käsityötä on suht paljon • Näissä käytetty bash- ja Python-skriptejä BeautifulSoup-kirjastolla, Exceliä, wgetiä, MALLETia ja FinnPos-lemmatisoijaa, joita kaikkia piti opetella käyttämään • Algoritmi ”black box” • Kuinka hyvin tutkijan täytyy tuntea käyttämänsä algoritmi? • Puuttuu menetelmällinen konsensus joten pitää mennä ad hoc • Miten määritellään ja sitten operationalisoidaan vaikka ”kehys”? • Miten validoidaan että löydetty ”topic” on (tietty) ”kehys”? • Tutkimusasetelmat, joissa tästä käpistelystä on muutakin kuin kuriositeettihyötyä • ”Digitalisaation” vaikutus maailmaan jota tutkitaan vs. tutkimusmenetelmiin – molemmat!