SlideShare a Scribd company logo
1 of 29
Download to read offline
Älykäs tavoittelutyö
AKU-tiedonkeruussa
Juhani S & Anna E
1
17.1.2023 Tilastokeskus
2
Tilastokeskus
17.1.2023
Väestön
tiedonkeruukäyttäytyminen
vaihtelee
Teoria: Mixed-mode –tiedonkeruu soveltuu väestötutkimuksiin
erityisen hyvin, koska tutkittavat voivat valita itselleen parhaan
tavan vastata.
Kuhunkin vastaustapaan liittyy kuitenkin erilaisia kustannuksia
ja hyötyjä, joita olisi tiedonkeruun suunnittelussa hyvä pystyä
ennakoimaan.
Onko tutkittavien tiedonkeruukäyttäytyminen täysin
satunnaista, vai voisiko sitä ennustaa ennen tiedonkeruun
alkua?
Tässä työssä meitä auttaa paradata
Vastaa verkossa vasta, kun
haastattelija motivoi?
Vastaa työmatkalla, kun saa
muistutustekstiviestissä suoran linkin
verkkolomakkelle?
Vastaa vain puhelinhaastatteluun,
koska ei ehdi tai jaksa kirjautua
verkkolomakkeelle?
3
Tilastokeskus
17.1.2023
Paradata are automatic data collected about the survey data collection process captured
during computer assisted data collection, and include call records, interviewer
observations, time stamps, keystroke data, travel and expense information, and other
data captured during the process.
(Kreuter, Couper & Lyberg 2010).
4
Tilastokeskus
17.1.2023
Mixed-mode –
tiedonkeruun
ohjaus
Haastattelijatyö on
rajattu resurssi
Katovinouman
minimointi
• Osa tiedoista kerätään
itsetäytettävällä verkko- tai
paperilomakkeella
• Puhelin- tai käyntihaastatteluilla
kerätään tiedot muilta
• Kaikille kohteille ei ole varaa
soittaa tai tehdä käyntiä
• Haastattelutyö halutaan
kohdentaa niille kohteille, joille se
on tehokkainta
• Ohjaus toteutetaan siten, että
absoluuttisen vastaajamäärän
lisäksi seurataan aktiivisesti
aineiston vinoutuneisuutta ja
tehdään korjaavia toimenpiteitä
AKU-tiedonkeruussa testataan siis
useampaa tiedonkeruustrategiaa
5
Tilastokeskus
17.1.2023
1) Todennäköisten verkkovastaajien malliperusteinen
tunnistaminen ennen tiedonkeruujakson alkua
1) Haastattelijatyön optimointi priorisoimalla helposti
”läpikäytäviä kohteita” (muuten vaikeista)
2) Tiedonkeruun loppuvaiheessa vastauskatoa oikaiseva
priorisointi (vastauspropensiteettimalli)
Aikuiskoulutustutkimuksen
tiedonkeruussa testattava tiedonkeruun
ohjausmalli
6
Tilastokeskus
17.1.2023
Ei kiinnosta vastata
Voin vastata
puhelinhaastatteluun
Vastaan mieluiten
verkossa
7
Tilastokeskus
17.1.2023
Kiinnotava lopputulema:
Esimerkiksi että kohde
vastaa verkossa pelkän
ennakkokirjeen perusteella
Kohteen sosiodemografinen
tausta:
- Koulutus, ammattiasema
- Sukupuoli, ikä, äidinkieli
- Asuinalue, kotitalouden koko
Käytettävissä olevien
yhteystietojen määrä ja laatu
- Löytyykö puhelinnumeroa, yksi
vai monta?
- Löytyykö sähköpostia (onko työ-
vai henk. koht)
- Kotitalouden muiden jäsenten
yhteystietoja?
Tiedonkeruuprosessimuuttujat
- Tekivätkö haastattelijat kohteen
tavoittelulle jotain erityistä?
- Erilainen saatekirje
- Tarjottiinko insentiiviä?
Tilastollinen malli
(esimerkiksi regressio)
- Vasemmalla olevat
tekijät selittävät
lopputulemaa
- Myös yhdysvaikutukset
tärkeitä!
Malli voidaan ”ottaa
talteen” ja ennustaa sillä
jonkin toisen tiedonkeruun
lopputulemaa
Tiedonkeruukäyttäytyminen
Esimerkki: Kuluttajien luottamus –
tiedonkeruun paradata
8
Tilastokeskus
17.1.2023
–Otetaan mallin aineistoksi Kuluttajien luottamus –tiedonkeruun
paradata vuosilta 2020-21 (vain ensimmäistä kertaa mukana
olevat)
–Ennustetaan tiedonkeruukäyttäytymistä noin 23 000 havainnolla
–Tarkoitus on, että tulokset voidaan yleistää minkä tahansa
väestöllisesti edustavan tiedonkeruun otokseen (eli samat tyypit
voidaan tunnistaa minkä tahansa tiedonkeruun tarpeisiin)
Tiedonkeruukäyttäytymisen ennusteen
jakauma
9
Tilastokeskus
17.1.2023
– Tässä on mallinnettu väestöllisesti
edustavan otoksen
tiedonkeruukäyttäytymistä
– Ennustettu vastaamisen
todennäköisyyttä (X-akseli) sekä
nopeasti verkossa (Y-akseli)
vastaamisen todennäköisyyttä
– Huomataan, että todennäköisesti
verkossa vastaavat ovat muutenkin
todennäköisiä vastaajia, joskin on
selvästi myös sellaisia
väestöryhmiä, joita kannattaa
tavoitella nimenomaan puhelimella
Mies 69, ylempi kk, suomi,
puhelin ja sähköposti
Nainen 38, merkonomi,
suomi, vain sähköposti
Mies 29, prosessinhoitaja,
AMK, ruotsi, sähköposti ja
puhelin
Tiedonkeruukäyttäytymisen ennusteen
jakauma
10
Tilastokeskus
17.1.2023
Odotetusta vastauskäyttäytymisestä
voi muodostaa ryhmittelyanalyysillä
profiloinnin, jonka perusteella kohteet
voi jakaa eri tiedonkeruujaksoille
riippuen käytettävissä olevasta
haatattelijaresurssista.
Vuoden 2022
Aikuiskoulutustutkimuksen otos
jaettiin tällä tekniikalla kolmeen yhtä
suureen osaan, jossa suurimman
verkkovastaustodennäköisyyden
omaavat rajattiin ensimmäisessä
vaiheessa haastattelutyön
ulkopuolelle.
AKU-tiedonkeruun kokemuksia
11
Tilastokeskus
17.1.2023
–Kun tiedonkeruun otoksesta tunnistettiin nk. ”helpot
verkkovastaajat”, saattoivat haastattelijat keskittyä
tiedonkeruun alussa sellaisiin kohteisiin, jotka todella
hyötyvät haastattelijan tavoittelusta
–Lokakuun loppuun mennessä ”verkko-ositteen” vastausaste
oli sama kuin samaan aikaan käynnistetty
”haastattelijaosite” (eli noin 30 %)
–Tiedonkeruu jatkuu vuoden loppuun ja lopulliset tulokset
julkaistaan aikanaan
AKU-tiedonkeruussa testataan siis
useampaa tiedonkeruustrategiaa
12
Tilastokeskus
17.1.2023
1) Todennäköisten verkkovastaajien malliperusteinen
tunnistaminen ennen tiedonkeruujakson alkua
- Tärkeä, koska esittelemäni koeasetelman datasta on nk. kerma
kuorittu tähän tiedonkeruuositteeseen
2) Haastattelijatyön optimointi priorisoimalla helposti
”läpikäytäviä kohteita” (muuten vaikeista)
3) Tiedonkeruun loppuvaiheessa vastauskatoa oikaiseva
priorisointi (vastauspropensiteettimalli)
Minkälaisesta tiedosta on hyötyä
tiedonkeruun ohjauksessa?
13
Tilastokeskus
17.1.2023
ID Kohde Ikä
1001 Matti 42
1002 Laura 66
1003 Seppo 24
1004 Emil 32
1005 Maija 51
1006 Kalervo 21
1007 Erik 44
1008 Anna 29
1009 Helena 37
…..
4999 Åke 69
Kuvitteellisen tiedonkeruun otos
Jos olisit suunnittelemassa tämän
otoksen kohteiden tavoittelua sillä
perusteella, että haluaisit
maksimoida käytettävissä olevan
haastattelijatyön panos-tuotos –
suhdetta, niin mitä tietoa tarvitsisit?
Minkälaisesta tiedosta on hyötyä
tiedonkeruun ohjauksessa?
14
Tilastokeskus
17.1.2023
ID Kohde Ikä Tarvittava
haastattelutyö
1001 Matti 42 23 min
1002 Laura 66 12 min
1003 Seppo 24 52 min
1004 Emil 32 15 min
1005 Maija 51 35 min
1006 Kalervo 21 32 min
1007 Erik 44 42 min
1008 Anna 29 12 min
1009 Helena 37 48 min
…..
4999 Åke 69 92 min
Kuvitteellisen tiedonkeruun otos
Jos olisit suunnittelemassa tämän
otoksen kohteiden tavoittelua sillä
perusteella, että haluaisit
maksimoida käytettävissä olevan
haastattelijatyön panos-tuotos –
suhdetta, niin mitä tietoa tarvitsisit?
1. Ainakin sen, kuinka paljon
haastattelijan työtä kohteen
tavoittaminen vie
Minkälaisesta tiedosta on hyötyä
tiedonkeruun ohjauksessa?
15
Tilastokeskus
17.1.2023
ID Kohde Ikä Tarvittava
haastattelutyö
Tod. saada
haastateltua
1001 Matti 42 23 min 44 %
1002 Laura 66 12 min 52 %
1003 Seppo 24 52 min 17 %
1004 Emil 32 15 min 33 %
1005 Maija 51 35 min 78 %
1006 Kalervo 21 32 min 42 %
1007 Erik 44 42 min 23 %
1008 Anna 29 12 min 33 %
1009 Helena 37 48 min 46 %
…..
4999 Åke 69 92 min 98 %
Kuvitteellisen tiedonkeruun otos
Jos olisit suunnittelemassa tämän
otoksen kohteiden tavoittelua sillä
perusteella, että haluaisit
maksimoida käytettävissä olevan
haastattelijatyön panos-tuotos –
suhdetta, niin mitä tietoa tarvitsisit?
1. Ainakin sen, kuinka paljon
haastattelijan työtä kohteen
tavoittaminen vie
2. Kuinka todennäköisesti tavoittelu
johtaa haastatteluun tai
verkkovastaukseen?
Minkälaisesta tiedosta on hyötyä
tiedonkeruun ohjauksessa?
16
Tilastokeskus
17.1.2023
ID Kohde Ikä A Tarvittava
haastattelutyö
B Tod. saada
haastateltua
A/B
1001 Matti 42 23 min 44 % 0.87
1002 Laura 66 12 min 52 % 0.38
1003 Seppo 24 52 min 17 % 5.10
1004 Emil 32 15 min 33 % 0.76
1005 Maija 51 35 min 78 % 0.75
1006 Kalervo 21 32 min 42 % 1.27
1007 Erik 44 42 min 23 % 3.04
1008 Anna 29 12 min 33 % 0.61
1009 Helena 37 48 min 46 % 1.74
…..
4999 Åke 69 92 min 98 % 1.56
Kuvitteellisen tiedonkeruun otos
Jos olisit suunnittelemassa tämän
otoksen kohteiden tavoittelua sillä
perusteella, että haluaisit
maksimoida käytettävissä olevan
haastattelijatyön panos-tuotos –
suhdetta, niin mitä tietoa tarvitsisit?
1. Ainakin sen, kuinka paljon
haastattelijan työtä kohteen
tavoittaminen vie
2. Kuinka todennäköisesti tavoittelu
johtaa haastatteluun tai
verkkovastaukseen?
3. Näiden suhdeluku!
Tiedonkeruuprosessin
ohjaaminen…
17
Tilastokeskus
17.1.2023
–Jos tiedetään kunkin otoskohteen tavoitteluun tarvittava
työaika…
–Sekä todennäköisyys sille, että tavoittelu johtaa lopulta
onnistuneeseen haastatteluun
-> Näiden osamäärä kuvaa laskennallisesti sitä, montako
tämän tyyppistä kohdetta saadaan haastateltua käytettyä
haastattelutyötuntia kohti.
18
Tilastokeskus
17.1.2023
Jakso 1 (ei-verkossa todennäköisesti vastaavat)
Jakso 2 (ei-verkossa todennäköisesti vastaavat)
Jakso 3 (Todennäköiset verkkovastaajat)
Verrokkijakso
Priorisointikokeilu
(Haastattelijat alkavat
tavoitella marraskuussa)
Ongelma?
19
Tilastokeskus
17.1.2023
–Haastattelijoiden käyttämät työtunnit saatavilla kuukausitasolla,
eikä yksilöi sitä, minkä kohteen tavoitteluun on käytetty työaikaa
–Haastavimmista kohteista on usein vähiten paradataa (kun
yhteystietoja tavoitteluun ei ole!)
–Kuinka siis tunnistaa työaikataloudellisesti haastavat kohteet?
–Ratkaisu: Regression – The Workhorse of Data Science
Eli mallinnetaan haastattelijoiden työajan käyttöä regressiolla (tämä
muuten samalla vastaa ikuisuuskysymykseen “mihin haastattelijan
työaika menee?”)
20
Tilastokeskus
17.1.2023
Haastattelijaparadata:
- Jokainen kohteen
tavoittelu omalla rivillään
- Puhelut, sähköpostit,
tekstiviestit
- Yhteydenoton välineet ja
lopputulemat
- Haastattelijan omat
viestimuotoilut eroteltuna
mallipohjista
- Yhteystietojen haku eri
välineillä
- Mukana myös keskitetyt
massaviestit (ei mukana
mallinnuksessa)
Jakson 1 paradata elo-
syyskuu
Haastattelijoiden käyttämät työtunnit
Tiedonkeruuseen käytetyt tunnit
kuukausitasolla per haastattelija
Portista:
Haastattelijoiden tekemiset
Haastattelijan tekemät toimenpiteet
kuukausitasolla aggregoituna:
- Karkeistetaan toimenpiteitä
Aggregoidaan
haastattelija*
kuukausi
+
Mallinnetaan
Regressiomalli
Kuvaa sitä, kuinka paljon työaikaa
keskimääräisellä haastattelijalla
menee tyypilliseen
tavoittelutoimenpiteeseen
(Vakioidaan lisäksi elokuun
koulutuksiin kulunut työaika, ja
huomioidaan puhelinhaastattelun
pituus ~40 min)
Haastattelijoiden tekemiset
Haastattelijan kaikki kohteelle
tekemät toimenpiteet
Aggregoidaan
kohdetasolla
Kohteen tavoitteluun käytetyt työtunnit
Kuinka paljon keskimääräisellä
haastattelijalla kuluu työaikaa näiden
toimenpiteiden funktiona
Mallinnettu kohdetason
haastattelijatyöaika muuten summautuu
kokonaistyöaikaan, koska on
väistämättä mallinnettavien
toimenpiteiden lineaarikombinaatio
Malli ennustaa
Ensimmäisen mallin jälkeen meillä
on siis…
21
Tilastokeskus
17.1.2023
–Arvio siitä, kuinka paljon työaikaa kunkin 1. jakson kohteen
tavoitteluun on käytetty haastattelijoiden työaikaa
– Vain ne kohteet saavat arvoja, joita haastattelija on tavoitellut
– Joiden tavoittelu on saatu jonkinlaiseen päätökseen (eli ei
keskeneräiset kohteet)
– Keskitetyt massaviestit eivät vie haastattelijan työaikaa, joten
niiden perusteella vastanneiden työaika on 0
Imputoidaan jokaiselle otoskohteelle estimaatti
siitä, paljonko tämän kohteen työstäminen
loppuun keskimäärin vie työaikaa
22
Tilastokeskus
17.1.2023
Otoskohteen
taustatiedot:
Ikä
Äidinkieli
Koulutus
Sukupuoli
Ammatti
Yhteystietojen
kattavuus
keruun alussa
(Jyrki)
Kohteelle ja
viitehenkilölle
löydetyt
yhteystiedot
+
Näiden
yhdysvaikutukset
(löydetty
puhelinnumero ei
ole samanarvoinen
20 vuotiaalle
nuorelle ja 62
vuotiaalle)
+
Oletus: Ensimmäisen jakson kohteiden tavoitteluun käytettyä aikaa on
mielekästä ennustaa käytettävissä olevien yhteystietojen laadulla ja
kohteen taustatekijöillä:
- Työaikaa kuluu enemmän, jos haastattelija joutuu itse hakemaan
yhteystietoja, ja yhteystietojen haun onnistumisen todennäköisyys
vaihtelee erilaisilla kohteilla
Malli
ennustaa
Jokaiselle aloittamattomalle
kohteelle (ja muille)
estimoitu keskimääräinen
tavoitteluun käytettävä
työaika (siihen että
tavoittelutyö käydään
loppuun saakka)
Jonka jälkeen meillä on…
23
Tilastokeskus
17.1.2023
–Jakson 1 datan perusteella estimoiden paras mahdollinen
arvio siitä, paljonko kukin jakson 2 aloittamaton kohde tulee
viemään työaikaa
Parametri 2: Kuinka todennäköisesti
tavoittelutyön päätteeksi on saatu
haastattelu?
24
Tilastokeskus
17.1.2023
–Seuraavaksi tarvitaan jokaiselle kohteelle arvio siitä, että
tehdyn tavoittelutyön päätteeksi on saatu haastattelu
–Malliin otetaan mukaan 1. jaksolta vain ”loppuun asti”
kalutut kohteet eli kohteet, joiden tavoittelu on päättynyt
tavalla tai toisella (tässä voisi hyödyntää Cox –regressiota,
mutta en tällä aikataululla pysty siihen)
–Logistinen regressio, jossa selittäjinä kohteen tausta (ikä,
koulutus, sukupuoli, ammatti) sekä yhteystietojen kattavuus
(kohteen ja viitehenkilön yhteystiedot) + näiden interaktiot
Parametri 2: Kuinka todennäköisesti putken
päässä odottaa saatu vastaus tai haastattelu?
25
Tilastokeskus
17.1.2023
Otoskohteen
taustatiedot:
Ikä
Äidinkieli
Koulutus
Sukupuoli
Ammatti
Yhteystietojen
kattavuus
keruun alussa
Kohteelle ja
viitehenkilölle
löydetyt
yhteystiedot
+
Näiden
yhdysvaikutukset
(löydetty
puhelinnumero ei
ole samanarvoinen
20 vuotiaalle
nuorelle ja 62
vuotiaalle)
+
Täytyy mallintaa edellisestä riippumatta, sillä tavoitteluketjun pituus ja
vaivalloisuus täytyy olettaa riippumattomaksi saadusta haastattelusta
Malli
ennustaa
Jokaiselle aloittamattomalle
kohteelle todennäköisyys
sille, että tavoitteluketjun
päätteeksi on saatu
haastattelu tai
verkkovastaus
Jonka jälkeen meillä on…
26
Tilastokeskus
17.1.2023
–Jokaiselle aloittamattomalle kohteelle estimoitu
todennäköisyys siitä, että haastattelijan tavoitteluketjun
päässä siintää haastattelu…
–Hillotolppa: Pistetään tämä ristiin työaikaestimaatin
kanssa?
– Näiden osamäärä kuvaa sitä, kuinka monta tämän tyyppistä
kohdetta saadaan käytettyä haastattelijatyötuntia kohden
Nyt meillä on priorisointia varten
tarvittavat parametrit
27
Tilastokeskus
17.1.2023
Kohteen koulutustaso Yhteystiedot Työaika minuutteina Onnistumis-%
Saatua haastattelua
tunnissa
Ei perusasteen jälkeistä Ei yhteystietoja 12.7 23 % 1.09
Ei perusasteen jälkeistä Pelkkä sähköposti 10.7 33 % 1.82
Ei perusasteen jälkeistä Pelkkä puhelin 31,0 57 % 1.09
Toinen aste Ei yhteystietoja 15.4 40 % 1.55
Toinen aste Pelkkä sähköposti 12,0 41 % 2.06
Toinen aste Pelkkä puhelin 26.5 68 % 1.54
Alempi korkea-aste Ei yhteystietoja 13.7 48 % 2.12
Alempi korkea-aste Pelkkä sähköposti 11.8 66 % 3.34
Alempi korkea-aste Pelkkä puhelin 26.3 86 % 1.97
Ylempi korkea-aste Ei yhteystietoja 15.3 75 % 2.92
Ylempi korkea-aste Pelkkä sähköposti 8,0 83 % 6.26
Nämä estimoidaan kohdetasolla, mutta ohessa esimerkinomaisesti yksiulotteinen tarkastelu yhden
muuttujan (koulutustaso) ja yhteystietojen kattavuuden suhteen:
- Kuvaa tämänkaltaisen kohteen tavoitteluun keskimäärin kuluvaa työaikaa
- Tämänkaltaisen kohteen tavoittelun keskimääräistä onnistumista saadun vastauksen näkökulmasta
Priorisoidaan tämän mukaan
niin, että aloitetaan kohteista,
joihin käytetty työaika tuottaa
eniten haastatteluja
Vaikutusten arviointi – Onko tavoittelu ollut lokakuussa
työajankäytöllisesti tehokkaampaa?
28
Tilastokeskus
17.1.2023
Verrokkidata: Jakson 1 1.-30.9. aikana saadut haastattelut, käytetty haastattelijatyöaika ja
tavoittelutyö
Kokeilu: Jakson 2 1.-31.10. aikana saadut haastattelut, käytetty haastattelijatyöaika ja tavoittelutyö
Huom! Koeasetelma on epätäydellinen!
Tulos: Jaksot 1 ja 2 ovat menestyneet about
yhtä hyvin?
Toisaalta haastattelijat ovat käyttäneet
lokakuussa keruuseen noin 12 % vähemmän
työaikaa, joka lisäksi jakautuu kahden jakson
välille (tekevät lokakuussa vielä syyskuussa
kesken jääneitä).
Käytetty työaika pitää vielä allokoida
keruujaksoille, mutta vaikuttaa muuten hyvin
lupaavalta!
0
100
200
300
400
500
600
700
800
900
Jakso 1 (haast) Jakso 2 (haast) Jakso 3 (web)
Lopuksi
29
Tilastokeskus
17.1.2023
–Tiedostan hyvin, että kokeilussa oleva priorisointi itsessään on
omiaan kasvattamaan aineiston vinoumaa (joskaan ei ehkä niin
paljon kuin voisi luulla)
–Koeasetelman tarkoituksena on kuitenkin kerätä evidenssiä
priorisoinnin vaikuttavuudesta, ja sillä haetaan siten suurinta
mahdollista efektiä, jotta sen voisi tilastollisesti havaita
rajallisesta aineistosta (+ sekoittava mallivirhe)
–Entä jos priorisointiin lisättäisiin vielä kolmas parametri
kuvaamaan sitä, kuinka paljon kohde jäädessään katoon
kontribuoi estimaatin keskivirheeseen?

More Related Content

More from Tilastokeskus

Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, Tilastokeskus
Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, TilastokeskusKasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, Tilastokeskus
Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, TilastokeskusTilastokeskus
 
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...Tilastokeskus
 
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, Tilastokeskus
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, TilastokeskusMitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, Tilastokeskus
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, TilastokeskusTilastokeskus
 
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...Tilastokeskus
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, TilastokeskusTilastokeskus
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, TilastokeskusTilastokeskus
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, TilastokeskusTilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, TilastokeskusTilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, TilastokeskusTilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, TilastokeskusTilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, TilastokeskusTilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...Tilastokeskus
 
Lääkärien vuokratyö, Heli Udd, Tilastokeskus
Lääkärien vuokratyö, Heli Udd, TilastokeskusLääkärien vuokratyö, Heli Udd, Tilastokeskus
Lääkärien vuokratyö, Heli Udd, TilastokeskusTilastokeskus
 

More from Tilastokeskus (20)

Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, Tilastokeskus
Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, TilastokeskusKasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, Tilastokeskus
Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, Tilastokeskus
 
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...
 
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, Tilastokeskus
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, TilastokeskusMitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, Tilastokeskus
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, Tilastokeskus
 
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...
 
Lääkärien vuokratyö, Heli Udd, Tilastokeskus
Lääkärien vuokratyö, Heli Udd, TilastokeskusLääkärien vuokratyö, Heli Udd, Tilastokeskus
Lääkärien vuokratyö, Heli Udd, Tilastokeskus
 

17.11.2022 Tiedonkeruun modernisointi, Tilastokeskus

  • 1. Älykäs tavoittelutyö AKU-tiedonkeruussa Juhani S & Anna E 1 17.1.2023 Tilastokeskus
  • 2. 2 Tilastokeskus 17.1.2023 Väestön tiedonkeruukäyttäytyminen vaihtelee Teoria: Mixed-mode –tiedonkeruu soveltuu väestötutkimuksiin erityisen hyvin, koska tutkittavat voivat valita itselleen parhaan tavan vastata. Kuhunkin vastaustapaan liittyy kuitenkin erilaisia kustannuksia ja hyötyjä, joita olisi tiedonkeruun suunnittelussa hyvä pystyä ennakoimaan. Onko tutkittavien tiedonkeruukäyttäytyminen täysin satunnaista, vai voisiko sitä ennustaa ennen tiedonkeruun alkua? Tässä työssä meitä auttaa paradata Vastaa verkossa vasta, kun haastattelija motivoi? Vastaa työmatkalla, kun saa muistutustekstiviestissä suoran linkin verkkolomakkelle? Vastaa vain puhelinhaastatteluun, koska ei ehdi tai jaksa kirjautua verkkolomakkeelle?
  • 3. 3 Tilastokeskus 17.1.2023 Paradata are automatic data collected about the survey data collection process captured during computer assisted data collection, and include call records, interviewer observations, time stamps, keystroke data, travel and expense information, and other data captured during the process. (Kreuter, Couper & Lyberg 2010).
  • 4. 4 Tilastokeskus 17.1.2023 Mixed-mode – tiedonkeruun ohjaus Haastattelijatyö on rajattu resurssi Katovinouman minimointi • Osa tiedoista kerätään itsetäytettävällä verkko- tai paperilomakkeella • Puhelin- tai käyntihaastatteluilla kerätään tiedot muilta • Kaikille kohteille ei ole varaa soittaa tai tehdä käyntiä • Haastattelutyö halutaan kohdentaa niille kohteille, joille se on tehokkainta • Ohjaus toteutetaan siten, että absoluuttisen vastaajamäärän lisäksi seurataan aktiivisesti aineiston vinoutuneisuutta ja tehdään korjaavia toimenpiteitä
  • 5. AKU-tiedonkeruussa testataan siis useampaa tiedonkeruustrategiaa 5 Tilastokeskus 17.1.2023 1) Todennäköisten verkkovastaajien malliperusteinen tunnistaminen ennen tiedonkeruujakson alkua 1) Haastattelijatyön optimointi priorisoimalla helposti ”läpikäytäviä kohteita” (muuten vaikeista) 2) Tiedonkeruun loppuvaiheessa vastauskatoa oikaiseva priorisointi (vastauspropensiteettimalli)
  • 6. Aikuiskoulutustutkimuksen tiedonkeruussa testattava tiedonkeruun ohjausmalli 6 Tilastokeskus 17.1.2023 Ei kiinnosta vastata Voin vastata puhelinhaastatteluun Vastaan mieluiten verkossa
  • 7. 7 Tilastokeskus 17.1.2023 Kiinnotava lopputulema: Esimerkiksi että kohde vastaa verkossa pelkän ennakkokirjeen perusteella Kohteen sosiodemografinen tausta: - Koulutus, ammattiasema - Sukupuoli, ikä, äidinkieli - Asuinalue, kotitalouden koko Käytettävissä olevien yhteystietojen määrä ja laatu - Löytyykö puhelinnumeroa, yksi vai monta? - Löytyykö sähköpostia (onko työ- vai henk. koht) - Kotitalouden muiden jäsenten yhteystietoja? Tiedonkeruuprosessimuuttujat - Tekivätkö haastattelijat kohteen tavoittelulle jotain erityistä? - Erilainen saatekirje - Tarjottiinko insentiiviä? Tilastollinen malli (esimerkiksi regressio) - Vasemmalla olevat tekijät selittävät lopputulemaa - Myös yhdysvaikutukset tärkeitä! Malli voidaan ”ottaa talteen” ja ennustaa sillä jonkin toisen tiedonkeruun lopputulemaa Tiedonkeruukäyttäytyminen
  • 8. Esimerkki: Kuluttajien luottamus – tiedonkeruun paradata 8 Tilastokeskus 17.1.2023 –Otetaan mallin aineistoksi Kuluttajien luottamus –tiedonkeruun paradata vuosilta 2020-21 (vain ensimmäistä kertaa mukana olevat) –Ennustetaan tiedonkeruukäyttäytymistä noin 23 000 havainnolla –Tarkoitus on, että tulokset voidaan yleistää minkä tahansa väestöllisesti edustavan tiedonkeruun otokseen (eli samat tyypit voidaan tunnistaa minkä tahansa tiedonkeruun tarpeisiin)
  • 9. Tiedonkeruukäyttäytymisen ennusteen jakauma 9 Tilastokeskus 17.1.2023 – Tässä on mallinnettu väestöllisesti edustavan otoksen tiedonkeruukäyttäytymistä – Ennustettu vastaamisen todennäköisyyttä (X-akseli) sekä nopeasti verkossa (Y-akseli) vastaamisen todennäköisyyttä – Huomataan, että todennäköisesti verkossa vastaavat ovat muutenkin todennäköisiä vastaajia, joskin on selvästi myös sellaisia väestöryhmiä, joita kannattaa tavoitella nimenomaan puhelimella Mies 69, ylempi kk, suomi, puhelin ja sähköposti Nainen 38, merkonomi, suomi, vain sähköposti Mies 29, prosessinhoitaja, AMK, ruotsi, sähköposti ja puhelin
  • 10. Tiedonkeruukäyttäytymisen ennusteen jakauma 10 Tilastokeskus 17.1.2023 Odotetusta vastauskäyttäytymisestä voi muodostaa ryhmittelyanalyysillä profiloinnin, jonka perusteella kohteet voi jakaa eri tiedonkeruujaksoille riippuen käytettävissä olevasta haatattelijaresurssista. Vuoden 2022 Aikuiskoulutustutkimuksen otos jaettiin tällä tekniikalla kolmeen yhtä suureen osaan, jossa suurimman verkkovastaustodennäköisyyden omaavat rajattiin ensimmäisessä vaiheessa haastattelutyön ulkopuolelle.
  • 11. AKU-tiedonkeruun kokemuksia 11 Tilastokeskus 17.1.2023 –Kun tiedonkeruun otoksesta tunnistettiin nk. ”helpot verkkovastaajat”, saattoivat haastattelijat keskittyä tiedonkeruun alussa sellaisiin kohteisiin, jotka todella hyötyvät haastattelijan tavoittelusta –Lokakuun loppuun mennessä ”verkko-ositteen” vastausaste oli sama kuin samaan aikaan käynnistetty ”haastattelijaosite” (eli noin 30 %) –Tiedonkeruu jatkuu vuoden loppuun ja lopulliset tulokset julkaistaan aikanaan
  • 12. AKU-tiedonkeruussa testataan siis useampaa tiedonkeruustrategiaa 12 Tilastokeskus 17.1.2023 1) Todennäköisten verkkovastaajien malliperusteinen tunnistaminen ennen tiedonkeruujakson alkua - Tärkeä, koska esittelemäni koeasetelman datasta on nk. kerma kuorittu tähän tiedonkeruuositteeseen 2) Haastattelijatyön optimointi priorisoimalla helposti ”läpikäytäviä kohteita” (muuten vaikeista) 3) Tiedonkeruun loppuvaiheessa vastauskatoa oikaiseva priorisointi (vastauspropensiteettimalli)
  • 13. Minkälaisesta tiedosta on hyötyä tiedonkeruun ohjauksessa? 13 Tilastokeskus 17.1.2023 ID Kohde Ikä 1001 Matti 42 1002 Laura 66 1003 Seppo 24 1004 Emil 32 1005 Maija 51 1006 Kalervo 21 1007 Erik 44 1008 Anna 29 1009 Helena 37 ….. 4999 Åke 69 Kuvitteellisen tiedonkeruun otos Jos olisit suunnittelemassa tämän otoksen kohteiden tavoittelua sillä perusteella, että haluaisit maksimoida käytettävissä olevan haastattelijatyön panos-tuotos – suhdetta, niin mitä tietoa tarvitsisit?
  • 14. Minkälaisesta tiedosta on hyötyä tiedonkeruun ohjauksessa? 14 Tilastokeskus 17.1.2023 ID Kohde Ikä Tarvittava haastattelutyö 1001 Matti 42 23 min 1002 Laura 66 12 min 1003 Seppo 24 52 min 1004 Emil 32 15 min 1005 Maija 51 35 min 1006 Kalervo 21 32 min 1007 Erik 44 42 min 1008 Anna 29 12 min 1009 Helena 37 48 min ….. 4999 Åke 69 92 min Kuvitteellisen tiedonkeruun otos Jos olisit suunnittelemassa tämän otoksen kohteiden tavoittelua sillä perusteella, että haluaisit maksimoida käytettävissä olevan haastattelijatyön panos-tuotos – suhdetta, niin mitä tietoa tarvitsisit? 1. Ainakin sen, kuinka paljon haastattelijan työtä kohteen tavoittaminen vie
  • 15. Minkälaisesta tiedosta on hyötyä tiedonkeruun ohjauksessa? 15 Tilastokeskus 17.1.2023 ID Kohde Ikä Tarvittava haastattelutyö Tod. saada haastateltua 1001 Matti 42 23 min 44 % 1002 Laura 66 12 min 52 % 1003 Seppo 24 52 min 17 % 1004 Emil 32 15 min 33 % 1005 Maija 51 35 min 78 % 1006 Kalervo 21 32 min 42 % 1007 Erik 44 42 min 23 % 1008 Anna 29 12 min 33 % 1009 Helena 37 48 min 46 % ….. 4999 Åke 69 92 min 98 % Kuvitteellisen tiedonkeruun otos Jos olisit suunnittelemassa tämän otoksen kohteiden tavoittelua sillä perusteella, että haluaisit maksimoida käytettävissä olevan haastattelijatyön panos-tuotos – suhdetta, niin mitä tietoa tarvitsisit? 1. Ainakin sen, kuinka paljon haastattelijan työtä kohteen tavoittaminen vie 2. Kuinka todennäköisesti tavoittelu johtaa haastatteluun tai verkkovastaukseen?
  • 16. Minkälaisesta tiedosta on hyötyä tiedonkeruun ohjauksessa? 16 Tilastokeskus 17.1.2023 ID Kohde Ikä A Tarvittava haastattelutyö B Tod. saada haastateltua A/B 1001 Matti 42 23 min 44 % 0.87 1002 Laura 66 12 min 52 % 0.38 1003 Seppo 24 52 min 17 % 5.10 1004 Emil 32 15 min 33 % 0.76 1005 Maija 51 35 min 78 % 0.75 1006 Kalervo 21 32 min 42 % 1.27 1007 Erik 44 42 min 23 % 3.04 1008 Anna 29 12 min 33 % 0.61 1009 Helena 37 48 min 46 % 1.74 ….. 4999 Åke 69 92 min 98 % 1.56 Kuvitteellisen tiedonkeruun otos Jos olisit suunnittelemassa tämän otoksen kohteiden tavoittelua sillä perusteella, että haluaisit maksimoida käytettävissä olevan haastattelijatyön panos-tuotos – suhdetta, niin mitä tietoa tarvitsisit? 1. Ainakin sen, kuinka paljon haastattelijan työtä kohteen tavoittaminen vie 2. Kuinka todennäköisesti tavoittelu johtaa haastatteluun tai verkkovastaukseen? 3. Näiden suhdeluku!
  • 17. Tiedonkeruuprosessin ohjaaminen… 17 Tilastokeskus 17.1.2023 –Jos tiedetään kunkin otoskohteen tavoitteluun tarvittava työaika… –Sekä todennäköisyys sille, että tavoittelu johtaa lopulta onnistuneeseen haastatteluun -> Näiden osamäärä kuvaa laskennallisesti sitä, montako tämän tyyppistä kohdetta saadaan haastateltua käytettyä haastattelutyötuntia kohti.
  • 18. 18 Tilastokeskus 17.1.2023 Jakso 1 (ei-verkossa todennäköisesti vastaavat) Jakso 2 (ei-verkossa todennäköisesti vastaavat) Jakso 3 (Todennäköiset verkkovastaajat) Verrokkijakso Priorisointikokeilu (Haastattelijat alkavat tavoitella marraskuussa)
  • 19. Ongelma? 19 Tilastokeskus 17.1.2023 –Haastattelijoiden käyttämät työtunnit saatavilla kuukausitasolla, eikä yksilöi sitä, minkä kohteen tavoitteluun on käytetty työaikaa –Haastavimmista kohteista on usein vähiten paradataa (kun yhteystietoja tavoitteluun ei ole!) –Kuinka siis tunnistaa työaikataloudellisesti haastavat kohteet? –Ratkaisu: Regression – The Workhorse of Data Science Eli mallinnetaan haastattelijoiden työajan käyttöä regressiolla (tämä muuten samalla vastaa ikuisuuskysymykseen “mihin haastattelijan työaika menee?”)
  • 20. 20 Tilastokeskus 17.1.2023 Haastattelijaparadata: - Jokainen kohteen tavoittelu omalla rivillään - Puhelut, sähköpostit, tekstiviestit - Yhteydenoton välineet ja lopputulemat - Haastattelijan omat viestimuotoilut eroteltuna mallipohjista - Yhteystietojen haku eri välineillä - Mukana myös keskitetyt massaviestit (ei mukana mallinnuksessa) Jakson 1 paradata elo- syyskuu Haastattelijoiden käyttämät työtunnit Tiedonkeruuseen käytetyt tunnit kuukausitasolla per haastattelija Portista: Haastattelijoiden tekemiset Haastattelijan tekemät toimenpiteet kuukausitasolla aggregoituna: - Karkeistetaan toimenpiteitä Aggregoidaan haastattelija* kuukausi + Mallinnetaan Regressiomalli Kuvaa sitä, kuinka paljon työaikaa keskimääräisellä haastattelijalla menee tyypilliseen tavoittelutoimenpiteeseen (Vakioidaan lisäksi elokuun koulutuksiin kulunut työaika, ja huomioidaan puhelinhaastattelun pituus ~40 min) Haastattelijoiden tekemiset Haastattelijan kaikki kohteelle tekemät toimenpiteet Aggregoidaan kohdetasolla Kohteen tavoitteluun käytetyt työtunnit Kuinka paljon keskimääräisellä haastattelijalla kuluu työaikaa näiden toimenpiteiden funktiona Mallinnettu kohdetason haastattelijatyöaika muuten summautuu kokonaistyöaikaan, koska on väistämättä mallinnettavien toimenpiteiden lineaarikombinaatio Malli ennustaa
  • 21. Ensimmäisen mallin jälkeen meillä on siis… 21 Tilastokeskus 17.1.2023 –Arvio siitä, kuinka paljon työaikaa kunkin 1. jakson kohteen tavoitteluun on käytetty haastattelijoiden työaikaa – Vain ne kohteet saavat arvoja, joita haastattelija on tavoitellut – Joiden tavoittelu on saatu jonkinlaiseen päätökseen (eli ei keskeneräiset kohteet) – Keskitetyt massaviestit eivät vie haastattelijan työaikaa, joten niiden perusteella vastanneiden työaika on 0
  • 22. Imputoidaan jokaiselle otoskohteelle estimaatti siitä, paljonko tämän kohteen työstäminen loppuun keskimäärin vie työaikaa 22 Tilastokeskus 17.1.2023 Otoskohteen taustatiedot: Ikä Äidinkieli Koulutus Sukupuoli Ammatti Yhteystietojen kattavuus keruun alussa (Jyrki) Kohteelle ja viitehenkilölle löydetyt yhteystiedot + Näiden yhdysvaikutukset (löydetty puhelinnumero ei ole samanarvoinen 20 vuotiaalle nuorelle ja 62 vuotiaalle) + Oletus: Ensimmäisen jakson kohteiden tavoitteluun käytettyä aikaa on mielekästä ennustaa käytettävissä olevien yhteystietojen laadulla ja kohteen taustatekijöillä: - Työaikaa kuluu enemmän, jos haastattelija joutuu itse hakemaan yhteystietoja, ja yhteystietojen haun onnistumisen todennäköisyys vaihtelee erilaisilla kohteilla Malli ennustaa Jokaiselle aloittamattomalle kohteelle (ja muille) estimoitu keskimääräinen tavoitteluun käytettävä työaika (siihen että tavoittelutyö käydään loppuun saakka)
  • 23. Jonka jälkeen meillä on… 23 Tilastokeskus 17.1.2023 –Jakson 1 datan perusteella estimoiden paras mahdollinen arvio siitä, paljonko kukin jakson 2 aloittamaton kohde tulee viemään työaikaa
  • 24. Parametri 2: Kuinka todennäköisesti tavoittelutyön päätteeksi on saatu haastattelu? 24 Tilastokeskus 17.1.2023 –Seuraavaksi tarvitaan jokaiselle kohteelle arvio siitä, että tehdyn tavoittelutyön päätteeksi on saatu haastattelu –Malliin otetaan mukaan 1. jaksolta vain ”loppuun asti” kalutut kohteet eli kohteet, joiden tavoittelu on päättynyt tavalla tai toisella (tässä voisi hyödyntää Cox –regressiota, mutta en tällä aikataululla pysty siihen) –Logistinen regressio, jossa selittäjinä kohteen tausta (ikä, koulutus, sukupuoli, ammatti) sekä yhteystietojen kattavuus (kohteen ja viitehenkilön yhteystiedot) + näiden interaktiot
  • 25. Parametri 2: Kuinka todennäköisesti putken päässä odottaa saatu vastaus tai haastattelu? 25 Tilastokeskus 17.1.2023 Otoskohteen taustatiedot: Ikä Äidinkieli Koulutus Sukupuoli Ammatti Yhteystietojen kattavuus keruun alussa Kohteelle ja viitehenkilölle löydetyt yhteystiedot + Näiden yhdysvaikutukset (löydetty puhelinnumero ei ole samanarvoinen 20 vuotiaalle nuorelle ja 62 vuotiaalle) + Täytyy mallintaa edellisestä riippumatta, sillä tavoitteluketjun pituus ja vaivalloisuus täytyy olettaa riippumattomaksi saadusta haastattelusta Malli ennustaa Jokaiselle aloittamattomalle kohteelle todennäköisyys sille, että tavoitteluketjun päätteeksi on saatu haastattelu tai verkkovastaus
  • 26. Jonka jälkeen meillä on… 26 Tilastokeskus 17.1.2023 –Jokaiselle aloittamattomalle kohteelle estimoitu todennäköisyys siitä, että haastattelijan tavoitteluketjun päässä siintää haastattelu… –Hillotolppa: Pistetään tämä ristiin työaikaestimaatin kanssa? – Näiden osamäärä kuvaa sitä, kuinka monta tämän tyyppistä kohdetta saadaan käytettyä haastattelijatyötuntia kohden
  • 27. Nyt meillä on priorisointia varten tarvittavat parametrit 27 Tilastokeskus 17.1.2023 Kohteen koulutustaso Yhteystiedot Työaika minuutteina Onnistumis-% Saatua haastattelua tunnissa Ei perusasteen jälkeistä Ei yhteystietoja 12.7 23 % 1.09 Ei perusasteen jälkeistä Pelkkä sähköposti 10.7 33 % 1.82 Ei perusasteen jälkeistä Pelkkä puhelin 31,0 57 % 1.09 Toinen aste Ei yhteystietoja 15.4 40 % 1.55 Toinen aste Pelkkä sähköposti 12,0 41 % 2.06 Toinen aste Pelkkä puhelin 26.5 68 % 1.54 Alempi korkea-aste Ei yhteystietoja 13.7 48 % 2.12 Alempi korkea-aste Pelkkä sähköposti 11.8 66 % 3.34 Alempi korkea-aste Pelkkä puhelin 26.3 86 % 1.97 Ylempi korkea-aste Ei yhteystietoja 15.3 75 % 2.92 Ylempi korkea-aste Pelkkä sähköposti 8,0 83 % 6.26 Nämä estimoidaan kohdetasolla, mutta ohessa esimerkinomaisesti yksiulotteinen tarkastelu yhden muuttujan (koulutustaso) ja yhteystietojen kattavuuden suhteen: - Kuvaa tämänkaltaisen kohteen tavoitteluun keskimäärin kuluvaa työaikaa - Tämänkaltaisen kohteen tavoittelun keskimääräistä onnistumista saadun vastauksen näkökulmasta Priorisoidaan tämän mukaan niin, että aloitetaan kohteista, joihin käytetty työaika tuottaa eniten haastatteluja
  • 28. Vaikutusten arviointi – Onko tavoittelu ollut lokakuussa työajankäytöllisesti tehokkaampaa? 28 Tilastokeskus 17.1.2023 Verrokkidata: Jakson 1 1.-30.9. aikana saadut haastattelut, käytetty haastattelijatyöaika ja tavoittelutyö Kokeilu: Jakson 2 1.-31.10. aikana saadut haastattelut, käytetty haastattelijatyöaika ja tavoittelutyö Huom! Koeasetelma on epätäydellinen! Tulos: Jaksot 1 ja 2 ovat menestyneet about yhtä hyvin? Toisaalta haastattelijat ovat käyttäneet lokakuussa keruuseen noin 12 % vähemmän työaikaa, joka lisäksi jakautuu kahden jakson välille (tekevät lokakuussa vielä syyskuussa kesken jääneitä). Käytetty työaika pitää vielä allokoida keruujaksoille, mutta vaikuttaa muuten hyvin lupaavalta! 0 100 200 300 400 500 600 700 800 900 Jakso 1 (haast) Jakso 2 (haast) Jakso 3 (web)
  • 29. Lopuksi 29 Tilastokeskus 17.1.2023 –Tiedostan hyvin, että kokeilussa oleva priorisointi itsessään on omiaan kasvattamaan aineiston vinoumaa (joskaan ei ehkä niin paljon kuin voisi luulla) –Koeasetelman tarkoituksena on kuitenkin kerätä evidenssiä priorisoinnin vaikuttavuudesta, ja sillä haetaan siten suurinta mahdollista efektiä, jotta sen voisi tilastollisesti havaita rajallisesta aineistosta (+ sekoittava mallivirhe) –Entä jos priorisointiin lisättäisiin vielä kolmas parametri kuvaamaan sitä, kuinka paljon kohde jäädessään katoon kontribuoi estimaatin keskivirheeseen?