SlideShare uma empresa Scribd logo
1 de 25
Baixar para ler offline
La strategia di campionamento
dell’Indagine di copertura
del 15° Censimento generale della
Popolazione e delle Abitazioni
Monica Russo
27 giugno 2014
Obiettivi dell’indagine e parametri di interesse
L’indagine di copertura – o Post Enumeration Survey (PES) – è
un’indagine condotta in connessione con il 15° Censimento generale
della Popolazione e delle Abitazioni ed è volta alla determinazione degli
errori per eccesso (sovracopertura) o per difetto (sottocopertura)
intervenuti nel conteggio censuario.
Per i fini sopra delineati i parametri di popolazione oggetto di stima più
importanti sono:
• il tasso di copertura, espresso come rapporto tra il numero di unità
enumerate al Censimento (al netto della sovracopertura) e la
dimensione effettiva della popolazione,
• il tasso di sottocopertura, dato dal rapporto tra il numero di unità
sfuggite all’enumerazione censuaria (al netto della sovracopertura) e
la dimensione effettiva della popolazione.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
1
La popolazione obiettivo e i domini di interesse
La popolazione obiettivo della PES 2011 è costituita dagli individui
residenti in abitazioni esistenti nel territorio nazionale (escluse le
convivenze) alla data del 9 ottobre 2011.
La finalità primaria dell’indagine in esame è l’ottenimento delle stime dei
predetti parametri con riferimento ai seguenti ambiti territoriali:
• l’intero territorio nazionale,
• le regioni geografiche e le Province autonome di Trento e Bolzano.
Inoltre, è prevista la determinazione delle suddette stime relativamente a:
(i) domini territoriali sub-regionali (le province) e sub-provinciali (i tredici
comuni metropolitani); (ii) domini di studio costituiti da individui classificati
secondo l’età (in classi) e la nazionalità. Essendo questi ultimi domini non
pianificati, la precisione delle stime ad essi inerenti può essere migliorata
sia introducendo una post-stratificazione nello stimatore studiato per
l’indagine, sia attraverso l’adozione di stimatori speciali per piccole aree.
Questi domini di studio rappresentano comunque un obiettivo secondario.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
2
Il disegno di campionamento
() La PES 2011 adotta un disegno di campionamento di tipo areale a due
stadi di selezione:
 il primo stadio è costituito dai comuni, stratificati in base al
concatenamento delle regioni geografiche (le Province autonome di
Trento e Bolzano sono trattate come regioni a sé) e delle 5 classi di
dimensione demografica dei comuni secondo le modalità:
- meno di 5.000 ab.
- tra 5.000 e 10.000 ab.
- tra 10.000 e 20.000 ab.
- tra 20.000 e 100.000 ab.
- oltre 100.000 ab. e i 13 comuni metropolitani (Torino, Genova, Milano,
Venezia, Bologna, Firenze, Roma, Napoli, Bari, Palermo, Catania,
Cagliari e Messina);
 le unità di secondo stadio sono invece rappresentate dalle sezioni di
Censimento, stratificate in base alla dimensione demografica delle
sezioni in 3 modalità definite dai terzili della distribuzione della
popolazione di sezione; tutti gli individui appartenenti alle sezioni
campione vengono enumerati.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
3
Il disegno di campionamento
() Determinato il n° totale e per strato di individui campione, 𝑛 e 𝑛ℎ, in funzione
degli errori attesi delle stime del tasso di copertura, si definisce il n° di
comuni campione per strato ℎ (ℎ = 1, … , 𝐻), 𝑚ℎ, in modo da rispettare la
condizione che il valore atteso del n° di individui campione relativo al
generico strato ℎ sia uguale al n° programmato; in simboli
𝑁ℎ𝑐𝑗 𝜋ℎ𝑐𝑗
𝑗∈𝑐
= 𝑛ℎ
𝑐∈ℎ
in cui: 𝑐 ed 𝑗 denotano rispettivamente gli indici di comune e sezione; 𝑁ℎ𝑐𝑗 è
il n° di individui residenti nella generica sezione 𝑗 del comune 𝑐 dello strato
ℎ; 𝜋ℎ𝑐𝑗 è la probabilità di inclusione della sezione 𝑗 del comune 𝑐 dello strato
ℎ; 𝑠ℎ𝑐 = 𝑠ℎ = 𝑛ℎ 𝑁ℎ 𝑆ℎ è il n° minimo di sezioni campione per comune
campione, determinato attraverso una procedura di tipo iterativo, facendo
variare il n° minimo di individui da intervistare in ciascun comune campione,
𝑛ℎ, in modo da rispettare il n° complessivo desiderato di comuni che si
intende far partecipare all’indagine; 𝑁ℎ 𝑆ℎ è il n° medio di individui per
sezione riferito ad ℎ; inoltre, si ha 𝜋ℎ𝑐𝑗= 𝜋ℎ𝑐 poiché tutte le sezioni del
comune 𝑐 hanno la stessa probabilità di essere incluse nel campione.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
4
Il disegno di campionamento
() Risolvendo l’equazione rispetto all’incognita 𝑚ℎ si ottiene:
𝑚ℎ =
𝑛ℎ
𝑠ℎ
1
𝑁ℎ
𝑁ℎ𝑐
1
𝑆ℎ
𝑁ℎ𝑐𝑖
𝑖∈𝑐𝑐∈ℎ
−1
dove: 𝑁ℎ𝑐 e 𝑁ℎ denotano il n° di individui residenti rispettivamente nel
comune 𝑐 dello strato ℎ e nello strato ℎ; 𝑆ℎ è il n° di sezioni nello strato ℎ.
Il meccanismo probabilistico di formazione del campione prevede
l’estrazione delle unità primarie con probabilità variabili senza ripetizione e
l’estrazione delle unità secondarie con probabilità uguali senza ripetizione.
L’indagine ha coinvolto 255 comuni campione e 2.507 sezioni, per un totale
di 332.710 individui intervistati.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
5
Quando si verifica un errore di copertura?
L’operazione di enumerazione censuaria può essere affetta da:
• errore di sovracopertura:
tipo 1: si verifica quando per lo stesso individuo esistono due o
più ritorni censuari nella stessa sezione di censimento
tipo 2: si verifica quando per lo stesso individuo si hanno due ritorni censuari
ma in sezioni di censimento diverse
tipo 3: si verifica quando un individuo viene enumerato solo all’indirizzo
errato; quindi, è presente solo la metà errata della duplicazione nei
ritorni censuari
tipo 4: è un ritorno censuario che non avrebbe mai dovuto verificarsi poiché
fittizio o perché non facente parte della popolazione di riferimento.
N.B. In fase di stima si considerano gli errori di tipo 2 e 3. Gli errori di tipo 1 sono corretti
attraverso il processamento dei dati censuari, quelli di tipo 4 sono identificati con
ulteriore lavoro sul campo.
• errore di sottocopertura: si verifica quando una unità residente in Italia alla
data del 9 ottobre 2011 non viene rilevata dal censimento.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
6
Il processo di stima
Fasi in cui si articola il processo di stima:
Determinazione del Dual-System Estimator (DSE) corretto per
sovracopertura:
– Stima della sovracopertura
– Calcolo del DSE
Regression Estimator (RE)
Sample Balance Adjustment (SBA)
Determinazione delle stime del totale “vero” (incognito) della
popolazione residente a livello regionale e nazionale
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
7
Flowchart del processo di stima
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
8
Censimento
2011
PES
Ricerca del n°
di duplicazioni
Stima
Sovracopertura
Matching tra
Censimento e PES
DSE corretto per
sovracopertura
Regression Estimator
(stima la popolazione a
livello di regione)
Sample Balance
Adjustment
Stime della
popolazione a
livello regionale
Aggregazione delle
stime regionali
(stima la popolazione a
livello nazionale)
Stima della
popolazione a
livello nazionale
Stima della sovracopertura
(a) La sovracopertura è una mistura di:
 Duplicazioni
 Conteggi nel posto sbagliato
 Enumerazioni errate.
La nostra strategia di stima è di operare degli aggiustamenti netti:
riducendo le stime Dual-System attraverso una stima della
sovracopertura
imputando il minor numero di individui
non rimuovendo i duplicati
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
9
Stima della sovracopertura
(b) La metodologia di stima della sovracopertura si articola in 3 punti:
i) stima del numero di duplicazioni attraverso la PES
ii) stima dei conteggi nel posto sbagliato attraverso la PES
iii) calibrazione di i) mediante il numero di duplicazioni rilevate al
Censimento (il campione PES non è disegnato per ottenere stime
del numero di duplicazioni)
Assunzione chiave: la PES definisce la corretta localizzazione
dell’individuo alla data del 9 ottobre 2011
attraverso la risposta dell’intervistato alla
domanda 1.5 del questionario PES
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
10
Flowchart della stima della sovracopertura
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
11
Abbinati
Censimento-PES
nello stesso luogo
Abbinati
Censimento-PES
in luoghi diversi
Stima delle
duplicazioni nei
conteggi censuari
attraverso la PES
Stima dei
conteggi esatti
del Censimento
Stima dei
conteggi errati
del Censimento
Tasso di
duplicazione
Stima calibrata dei
conteggi errati del
Censimento attraverso
uno stimatore rapporto
Propensione alla
sovracopertura
Duplicazioni
individuate al
Censimento
Stima della sovracopertura
(d) La propensione alla sovracopertura è calcolata per ripartizione, modalità
dell’indice Hard to Count (HtC) e classi di età; è data dal rapporto
𝛾𝑎 𝑤,𝑔 =
𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑡𝑜𝑡𝑎𝑙𝑒
𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑣𝑒𝑟𝑎
=
𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑠𝑎𝑡𝑡𝑖 + 𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑟𝑟𝑎𝑡𝑖
𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑠𝑎𝑡𝑡𝑖
=
𝑌𝑎 𝑤,𝑔 + 𝐸 𝑎 𝑤,𝑔
𝑌𝑎 𝑤,𝑔
1
𝛾 𝑎 𝑤,𝑔
= fattore di sovracopertura: riduce il contributo di ogni
individuo alla DSE,
in cui:
𝑔 indica la ripartizione geografica (Nord-Ovest, Nord-Est, Centro, Sud,
Isole) incrociata con le modalità dell’indice HtC: p=1 (‘enumerazione
facile’), p=2 (‘enumerazione di media difficoltà’) e p=3 (‘enumerazione
difficile’)
𝑎 𝑤 è la classe di età (0-2 e 25-60 anni, 3-17 anni, 18-24 anni, 61 e più anni)
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
12
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Stima della sovracopertura
(e) La stima della propensione alla sovracopertura è fornita da
𝛾𝑎 𝑤,𝑔 =
𝑌𝑎 𝑤,𝑔 + 𝐸 𝑎 𝑤,𝑔
𝑌𝑎 𝑤,𝑔
=
𝑤𝑗𝑔 𝑐 𝑎 𝑤,𝑖,𝑗𝑔𝑖∈𝑗 +
𝑃
𝐷
𝑤 𝑘𝑏𝑘∈𝑆 𝑏
𝑘≠𝑗
𝑏 𝑜 𝑎 𝑤,𝑖,𝑘𝑏,𝑗𝑔𝑖∈𝑘𝑗∈𝑆 𝑔𝑗∈𝑠 𝑔
𝑤𝑗𝑔 𝑐 𝑎 𝑤,𝑖,𝑗𝑔𝑖∈𝑗𝑗∈𝑠 𝑔
in cui:
𝑖 indice di individuo
𝑏 indica la ripartizione geografica incrociata con le modalità dell’indice HtC
𝑘 indice di sezione
𝑤𝑗𝑔, 𝑤 𝑘𝑏 pesi campionari assegnati rispettivamente alla sezione 𝑗 appartenente a 𝑔 e
alla sezione 𝑘 appartenente a 𝑏
𝑐 𝑎 𝑤,𝑖,𝑗𝑔 variabile che assume il valore 1 se l’individuo 𝑖 è correttamente conteggiato dal
Censimento nella sezione 𝑗 dell’area 𝑔 e 0 altrimenti
𝑜 𝑎 𝑤,𝑖,𝑘𝑏,𝑗𝑔 variabile che assume il valore 1 se l’individuo è conteggiato erroneamente dal
Censimento nella sezione 𝑗 dell’area 𝑔 poiché la sua corretta enumerazione è
la sezione 𝑘 dell’area 𝑏, con 𝑘 ≠ 𝑗 e 𝑏 che può anche coincidere con 𝑔
𝑃
𝐷
= 𝑤𝑗𝑔 𝑤 𝑘𝑏𝑘∈𝑆 𝑏
𝑘≠𝑗
𝑏 𝑜𝑖,𝑘𝑏,𝑗𝑔𝑖∈𝑘 𝑐𝑖,𝑗𝑔𝑗∈𝑠 𝑔𝑔
13
tasso di duplicazione, dato dal rapporto tra
il n° di duplicazioni individuate nei conteggi
censuari e la stima PES dello stesso
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Calcolo del DSE
Stimato il fattore di sovracopertura, 1 𝛾𝑎 𝑤 𝑔, si determina per ciascuno degli 𝑚𝑟 𝑎𝑝
comuni campione 𝑐 il DSE corretto per sovracopertura in base all’espressione
𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 = 𝑁𝑎𝑝𝑐𝑜
𝐶
=
𝑁+1,𝑎𝑝𝑐 + 1 𝑁1+,𝑎𝑝𝑐 𝛾𝑎 𝑤 𝑔 + 1
𝑁11,𝑎𝑝𝑐 + 1
− 1
dove:
𝑎 sono le classi di età: 0-2, 3-7, 8-17, 18-24, 25-29, 30-34, 35-39, 40-44, 45-49,
50-54, 55-59, 60-64, 65-69, 70-74, 75-79, 80-84, 85 e più, separatamente per i
due sessi
𝑝 è l’indice HtC 𝑝 = 1,2,3
𝑟 è l’indice di regione geografica (𝑟 = 1, … , 21, Trento e Bolzano sono tenute distinte)
𝑐 è l’indice di comune 𝑐 = 1, … , 𝑚𝑟 𝑎𝑝 .
Tale modello rappresenta una variante del modello di Petersen (o di omogeneità
entro le liste), in cui il totale censuario 𝑁1+,𝑎𝑝𝑐 è corretto per la stima della
propensione alla sovracopertura ed è stata apportata la correzione di Chapman per
applicazioni del DSE a piccole popolazioni.
14
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Calcolo del DSE
Punto di partenza: Modello di Petersen (o di omogeneità entro le liste).
Si suppone che la PES ripeta le operazioni di Censimento su tutto il territorio
nazionale.
Si indichi con C la lista ottenuta con il Censimento e con I quella ottenuta con
l’indagine. Le ipotesi alla base del modello sono:
1. la popolazione di riferimento è chiusa e di dimensione fissata pari a 𝑁
2. le probabilità che l’unità 𝑖 appartenga o meno alla lista C e che appartenga o meno alla
lista I possono essere espresse mediante una distribuzione multinomiale in cui le
probabilità congiunte e quelle marginali sono riportate nel prospetto seguente:
15
Lista C
Si No
Si 𝑝𝑖,11 𝑝𝑖,12 𝑝𝑖,1+
No 𝑝𝑖,21 𝑝𝑖,22 𝑝𝑖,2+
𝑝𝑖,+1 𝑝𝑖,+2 1
Lista I
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Calcolo del DSE
3. le due liste, C e I, possono essere considerate il risultato di N prove mutualmente
indipendenti usando le distribuzioni multinomiali descritte al punto 2; per ogni singola unità
𝑖 si definisce una variabile 𝑥𝑖𝑎𝑏 pari ad 1 se l’unità 𝑖 cade nella cella ab e 0 altrimenti
𝑎, 𝑏 = 1,2 ; per le unità della popolazione la situazione può essere rappresentata come
segue:
dove 𝑁𝑎𝑏 = 𝑥𝑖𝑎𝑏
𝑁
𝑖=1 è il n° di unità nella cella ab 𝑎, 𝑏 = 1,2 , 𝑁𝑎+ = 𝑥𝑖𝑎𝑏
2
𝑏=1
𝑁
𝑖=1
𝑎 = 1,2 e 𝑁+𝑏 = 𝑥𝑖𝑎𝑏
2
𝑎=1
𝑁
𝑖=1 𝑏 = 1,2 ; ovviamente le quantità 𝑁22 e N non sono
osservabili
4. è possibile determinare senza errore quali unità registrate nella lista I sono presenti nella
lista C e quali no (ossia, non sono presenti errori di abbinamento)
5. entrambe le liste sono depurate da errori di registrazione e duplicazione
16
Lista C
Si No
Si 𝑁11 𝑁12 𝑁1+
No 𝑁21 𝑁22 𝑁2+
𝑁+1 𝑁+2 N
Lista I
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Calcolo del DSE
6. le probabilità che le unità siano incluse nella lista C, 𝑝𝑖1+ 𝑖 = 1, … , 𝑁 , e le probabilità
che le unità siano incluse nella lista I, 𝑝𝑖+1 𝑖 = 1, … , 𝑁 , sono costanti per ciascuna
lista, ossia soddisfano le condizioni 𝑝𝑖1+ = 𝑝1+ e 𝑝𝑖+1 = 𝑝+1 ; d’altra parte le due
probabilità 𝑝1+ e 𝑝+1 sono generalmente differenti.
In assenza di sovracopertura, avendo assunto l’indipendenza delle due
rilevazioni, una stima della numerosità della popolazione è data da
𝑁 =
𝑁+1 𝑁1+
𝑁11
Poiché con la PES non si effettua un’enumerazione completa su tutte le sezioni
censuarie ma solo su un campione di esse, le quantità 𝑁+1 e 𝑁11 sono stimabili
sulla base delle osservazioni campionarie.
Pertanto, la stima di N è ottenibile nel seguente modo
𝑁 =
𝑁+1 𝑁1+
𝑁11
17
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Regression Estimator (RE)
Per la regione geografica 𝑟 e il gruppo di popolazione 𝑎, sono date le 𝑚𝑟 𝑎
coppie di valori 𝑥 𝑎𝑝𝑐 , 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 , in cui 𝑚𝑟 𝑎 = 𝑚𝑟 𝑎𝑝𝑝 e 𝑥 𝑎𝑝𝑐 è il totale
censuario nei comuni campione della regione 𝑟 per il gruppo di popolazione 𝑎,
mentre 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 è il DSE calcolato nel modo su descritto.
Dopo aver stimato con il metodo dei minimi quadrati il coefficiente angolare 𝛽𝑟 𝑎
della retta di regressione interpolante la nuvola di punti definiti dalle 𝑚𝑟 𝑎 coppie
di valori, si determina una stima della popolazione a livello di regione geografica
𝑟, gruppo di popolazione 𝑎 e modalità 𝑝 dell’indice HtC moltiplicando 𝛽𝑟 𝑎 per
𝑋𝑟 𝑎𝑝 , che rappresenta il totale censuario inerente a tutti i comuni della regione 𝑟
per il gruppo di popolazione 𝑎 e modalità 𝑝 dell’indice HtC:
𝑁 𝑎𝑝𝑟 = 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝
18
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Sample Balance Adjustment (SBA)
Questa prima stima di 𝑁 𝑎𝑝𝑟 è poi corretta per un fattore di aggiustamento, 𝐹𝑝
𝑝 = 1,2,3 , che serve per bilanciare il campione qualora esso risulti un outlier.
In circostanze normali, il campione estratto per la PES è rappresentativo della
copertura del Censimento, poiché esso è stato disegnato a tal fine. Tuttavia, in
ogni selezione campionaria esiste il rischio che il campione estratto sia un
outlier (ossia, appartenga alle code della distribuzione) tra tutti i possibili
campioni; in altri termini, il campione PES potrebbe, per puro effetto del caso,
individuare sezioni di censimento in cui, ad esempio, il censimento ha
conteggiato l’intera popolazione e presentare, pertanto, sottocopertura zero.
Il procedimento SBA si prefigge l’obiettivo di valutare se il campione PES è
sufficientemente rappresentativo comparandolo con tutti gli altri possibili
campioni che potevano essere selezionati (se non lo è, le stime dei tassi di
copertura avrebbero una distribuzione asimmetrica, troppo alti o troppo bassi) e
correggere eventualmente la stima 𝑁 𝑎𝑝𝑟 attraverso un bilanciamento del
campione stesso.
19
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Sample Balance Adjustment (SBA)
A tal fine, sono stati utilizzati i questionari censuari dummy corrispondenti alle
famiglie per le quali non è stato ricevuto un ritorno censuario; essi sono ritenuti
essere la migliore proxy della copertura.
La procedura consta nei seguenti passi:
1. Si analizza la correlazione tra le 𝑚𝑟 𝑝 coppie 𝑞𝑟 𝑝𝑐 , 𝑞𝑟 𝑝𝑐 , in cui 𝑞𝑟 𝑝𝑐 e 𝑞𝑟 𝑝𝑐
rappresentano rispettivamente il non-response rate (ovvero, il rapporto tra il
n° di questionari censuari dummy e il n° complessivo di questionari censuari)
e la sua stima tramite la PES, al fine di stabilire se la variabile è una buona
proxy della non risposta (quindi della copertura) e, pertanto, può essere
usata se il campione relativo ad uno o più comuni risulta essere non
rappresentativo. In tal caso (ossia, se la correlazione è maggiore di 0.5), un
aggiustamento basato su di essi migliorerebbe lo stimatore regressione se il
campione non è bilanciato.
20
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Sample Balance Adjustment (SBA)
2. Si confronta il n° di questionari censuari dummy nella regione 𝑟 e modalità 𝑝
dell’HtC, 𝑌𝑟 𝑝, noto da Censimento, e la sua stima, 𝑌𝑟 𝑝, ottenuta attraverso la
PES utilizzando uno stimatore rapporto.
Se 𝑌𝑟 𝑝 risulta significativamente diverso da 𝑌𝑟 𝑝, allora il campione PES
inerente alla regione 𝑟 e modalità 𝑝 dell’HtC è verosimilmente non bilanciato.
Tuttavia, per una ulteriore e più valida verifica di tale circostanza, è opportuno
ricorrere all’impiego del test seguente.
3. Essendo nota la distribuzione dei valori veri dei questionari censuari dummy
relativi a tutti i comuni della regione 𝑟 e aventi modalità 𝑝 dell’HtC, si
determina la varianza (e non la stima) di 𝑌𝑟 𝑝, Var 𝑌𝑟 𝑝 .
Si costruisce quindi l’intervallo di confidenza al 95% intorno al valore vero 𝑌𝑟 𝑝:
𝑌𝑟 𝑝 − 2 Var 𝑌𝑟 𝑝 ≤ 𝑌𝑟 𝑝 ≤ 𝑌𝑟 𝑝 + 2 Var 𝑌𝑟 𝑝
Se la stima cade all’interno dell’intervallo allora non c’è evidenza che il
campione sia outlier; se invece cade in una delle due code, allora il campione
è un outlier. In quest’ultimo caso è opportuno applicare un fattore di
aggiustamento per migliorare il bilanciamento del campione.
21
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Sample Balance Adjustment (SBA)
4. Si calcola il fattore:
𝐹𝑟 𝑝 =
𝑌𝑟 𝑝 + 𝑋𝑟 𝑝
𝑋𝑟 𝑝
𝑀𝑟 𝑝
𝑚𝑟 𝑝
𝑌𝑟 𝑝𝑐 + 𝑋𝑟 𝑝𝑐
𝑚𝑟 𝑝
𝑐=1
𝑀𝑟 𝑝
𝑚𝑟 𝑝
𝑋𝑟 𝑝𝑐
𝑚𝑟 𝑝
𝑐=1
N.B. Se il campione è esattamente bilanciato: 𝐹𝑟 𝑝 = 1
Se il campione sottostima: 𝐹𝑟 𝑝 > 1
Se il campione sovrastima: 𝐹𝑟 𝑝 < 1
Dato il fattore 𝐹𝑟 𝑝, si determina la stima bilanciata di 𝑁 𝑎𝑝𝑟 :
𝑁 𝑎𝑝𝑟 = 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟 = 𝐹𝑟 𝑝 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝
22
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Determinazione delle stime del totale “vero” (incognito) della
popolazione residente a livello regionale e nazionale
Le stime a livello regionale sono immediatamente ottenibili sommando rispetto
alle modalità 𝑝 dell’indice HtC e ai gruppi di popolazione 𝑎:
𝑁𝑟 = 𝑁𝑎𝑝𝑟
𝑝𝑎
= 𝐹𝑟 𝑝 𝑁𝑎𝑝𝑟
𝑝𝑎
= 𝐹𝑟 𝑝 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝
𝑝𝑎
Sommando poi su tutte le regioni si ottiene la stima a livello nazionale:
𝑁 = 𝑁𝑟
𝑟
= 𝑁 𝑎𝑝𝑟
𝑝𝑎
= 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟
𝑝𝑎
= 𝐹𝑟 𝑝 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝
𝑝𝑎
23
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Valutazione della precisione delle stime della PES
L’affidabilità delle stime dei parametri di interesse dell’indagine PES è stata
valutata attraverso il calcolo dei coefficienti di variazione percentuale e degli
intervalli di confidenza. Tali indicatori sono basati sulla stima della varianza delle
stime prodotte dall’indagine in oggetto calcolata applicando il metodo bootstrap.
I campioni bootstrap sono stati ottenuti a partire da una pseudo-popolazione
costruita replicando i comuni e le sezioni campione un numero di volte pari ai
loro corrispondenti pesi campionari.
Siano 𝜃1, … , 𝜃 𝑎, … , 𝜃 𝐴 le stime del parametro 𝜃 ottenute applicando agli A
campioni bootstrap uno stimatore avente una forma funzionale uguale a quella
dello stimatore 𝜃 utilizzato per l’ottenimento delle stime dell’indagine (basate
sull’utilizzo dei dati del disegno campionario originario).
La stima bootstrap della varianza dello stimatore 𝜃 è data da:
𝑉𝐵𝑆 𝜃 =
1
𝐴 − 1
𝜃 𝑎 −
1
𝐴
𝜃 𝑎
𝐴
𝑎=1
2
𝐴
𝑎=1
24

Mais conteúdo relacionado

Semelhante a M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

A. Bernardini, A. Fasulo, M. D. Terribili - The use of the Hard To Count ind...
A. Bernardini, A. Fasulo, M. D. Terribili -  The use of the Hard To Count ind...A. Bernardini, A. Fasulo, M. D. Terribili -  The use of the Hard To Count ind...
A. Bernardini, A. Fasulo, M. D. Terribili - The use of the Hard To Count ind...Istituto nazionale di statistica
 
Nuove tecniche di rilevazione e principali risultati - di Donatella Zindato
Nuove tecniche di rilevazione e principali risultati - di Donatella ZindatoNuove tecniche di rilevazione e principali risultati - di Donatella Zindato
Nuove tecniche di rilevazione e principali risultati - di Donatella ZindatoIstituto nazionale di statistica
 
M. Porri: Integrazione di archivi e gestione di basi di dati dei numeri civici
M. Porri: Integrazione di archivi e gestione di basi di dati dei numeri civiciM. Porri: Integrazione di archivi e gestione di basi di dati dei numeri civici
M. Porri: Integrazione di archivi e gestione di basi di dati dei numeri civiciIstituto nazionale di statistica
 
M. Mazziotta, La strategia del censimento permanente: stato delle attività, c...
M. Mazziotta, La strategia del censimento permanente: stato delle attività, c...M. Mazziotta, La strategia del censimento permanente: stato delle attività, c...
M. Mazziotta, La strategia del censimento permanente: stato delle attività, c...Istituto nazionale di statistica
 
C. Ceccarelli, S. Rosati - L’utilizzo delle Liste Anagrafiche Comunali
C. Ceccarelli,  S. Rosati - L’utilizzo delle Liste Anagrafiche Comunali   C. Ceccarelli,  S. Rosati - L’utilizzo delle Liste Anagrafiche Comunali
C. Ceccarelli, S. Rosati - L’utilizzo delle Liste Anagrafiche Comunali Istituto nazionale di statistica
 
L. Mancini, S. Toti, A. Ronconi - Un’analisi multilivello dell’errore di cope...
L. Mancini, S. Toti, A. Ronconi - Un’analisi multilivello dell’errore di cope...L. Mancini, S. Toti, A. Ronconi - Un’analisi multilivello dell’errore di cope...
L. Mancini, S. Toti, A. Ronconi - Un’analisi multilivello dell’errore di cope...Istituto nazionale di statistica
 
I punti di forza del nuovo metodo utilizzato per la predisposizione dei siste...
I punti di forza del nuovo metodo utilizzato per la predisposizione dei siste...I punti di forza del nuovo metodo utilizzato per la predisposizione dei siste...
I punti di forza del nuovo metodo utilizzato per la predisposizione dei siste...Istituto nazionale di statistica
 
A. Marino, Il censimento permanente della popolazione: principali innovazioni
A. Marino,  Il censimento permanente della popolazione: principali innovazioniA. Marino,  Il censimento permanente della popolazione: principali innovazioni
A. Marino, Il censimento permanente della popolazione: principali innovazioniIstituto nazionale di statistica
 
A. Marino, Il censimento permanente della popolazione: principali innovazioni...
A. Marino, Il censimento permanente della popolazione: principali innovazioni...A. Marino, Il censimento permanente della popolazione: principali innovazioni...
A. Marino, Il censimento permanente della popolazione: principali innovazioni...Istituto nazionale di statistica
 
L. Calzola, Il censimento permanente - La nuova strategia censuaria
L. Calzola, Il censimento permanente - La nuova strategia censuariaL. Calzola, Il censimento permanente - La nuova strategia censuaria
L. Calzola, Il censimento permanente - La nuova strategia censuariaIstituto nazionale di statistica
 
L. Calzola, Il censimento permanente - La nuova strategia censuaria pg
L. Calzola, Il censimento permanente - La nuova strategia censuaria pgL. Calzola, Il censimento permanente - La nuova strategia censuaria pg
L. Calzola, Il censimento permanente - La nuova strategia censuaria pgIstituto nazionale di statistica
 
S. Falorsi, Censimento, registri, indagini - il disegno dell'integrazione
S. Falorsi, Censimento, registri, indagini - il disegno dell'integrazioneS. Falorsi, Censimento, registri, indagini - il disegno dell'integrazione
S. Falorsi, Censimento, registri, indagini - il disegno dell'integrazioneIstituto nazionale di statistica
 
Verso il Censimento permanente della popolazione e delle abitazioni - Katia A...
Verso il Censimento permanente della popolazione e delle abitazioni - Katia A...Verso il Censimento permanente della popolazione e delle abitazioni - Katia A...
Verso il Censimento permanente della popolazione e delle abitazioni - Katia A...Istituto nazionale di statistica
 
V. Buratta, Registro statistico degli individui e delle famiglie. Censimento ...
V. Buratta, Registro statistico degli individui e delle famiglie. Censimento ...V. Buratta, Registro statistico degli individui e delle famiglie. Censimento ...
V. Buratta, Registro statistico degli individui e delle famiglie. Censimento ...Istituto nazionale di statistica
 

Semelhante a M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni (18)

A. Bernardini, A. Fasulo, M. D. Terribili - The use of the Hard To Count ind...
A. Bernardini, A. Fasulo, M. D. Terribili -  The use of the Hard To Count ind...A. Bernardini, A. Fasulo, M. D. Terribili -  The use of the Hard To Count ind...
A. Bernardini, A. Fasulo, M. D. Terribili - The use of the Hard To Count ind...
 
A. Bernardini - I “numeri” della rilevazione
A. Bernardini - I “numeri” della rilevazioneA. Bernardini - I “numeri” della rilevazione
A. Bernardini - I “numeri” della rilevazione
 
Nuove tecniche di rilevazione e principali risultati - di Donatella Zindato
Nuove tecniche di rilevazione e principali risultati - di Donatella ZindatoNuove tecniche di rilevazione e principali risultati - di Donatella Zindato
Nuove tecniche di rilevazione e principali risultati - di Donatella Zindato
 
Ws2011 sessione1 calabrese_coccia_manieri_mondauto
Ws2011 sessione1 calabrese_coccia_manieri_mondautoWs2011 sessione1 calabrese_coccia_manieri_mondauto
Ws2011 sessione1 calabrese_coccia_manieri_mondauto
 
M. Porri: Integrazione di archivi e gestione di basi di dati dei numeri civici
M. Porri: Integrazione di archivi e gestione di basi di dati dei numeri civiciM. Porri: Integrazione di archivi e gestione di basi di dati dei numeri civici
M. Porri: Integrazione di archivi e gestione di basi di dati dei numeri civici
 
M. Mazziotta, La strategia del censimento permanente: stato delle attività, c...
M. Mazziotta, La strategia del censimento permanente: stato delle attività, c...M. Mazziotta, La strategia del censimento permanente: stato delle attività, c...
M. Mazziotta, La strategia del censimento permanente: stato delle attività, c...
 
C. Ceccarelli, S. Rosati - L’utilizzo delle Liste Anagrafiche Comunali
C. Ceccarelli,  S. Rosati - L’utilizzo delle Liste Anagrafiche Comunali   C. Ceccarelli,  S. Rosati - L’utilizzo delle Liste Anagrafiche Comunali
C. Ceccarelli, S. Rosati - L’utilizzo delle Liste Anagrafiche Comunali
 
L. Mancini, S. Toti, A. Ronconi - Un’analisi multilivello dell’errore di cope...
L. Mancini, S. Toti, A. Ronconi - Un’analisi multilivello dell’errore di cope...L. Mancini, S. Toti, A. Ronconi - Un’analisi multilivello dell’errore di cope...
L. Mancini, S. Toti, A. Ronconi - Un’analisi multilivello dell’errore di cope...
 
I punti di forza del nuovo metodo utilizzato per la predisposizione dei siste...
I punti di forza del nuovo metodo utilizzato per la predisposizione dei siste...I punti di forza del nuovo metodo utilizzato per la predisposizione dei siste...
I punti di forza del nuovo metodo utilizzato per la predisposizione dei siste...
 
A. Marino, Il censimento permanente della popolazione: principali innovazioni
A. Marino,  Il censimento permanente della popolazione: principali innovazioniA. Marino,  Il censimento permanente della popolazione: principali innovazioni
A. Marino, Il censimento permanente della popolazione: principali innovazioni
 
A. Marino, Il censimento permanente della popolazione: principali innovazioni...
A. Marino, Il censimento permanente della popolazione: principali innovazioni...A. Marino, Il censimento permanente della popolazione: principali innovazioni...
A. Marino, Il censimento permanente della popolazione: principali innovazioni...
 
L. Calzola, Il censimento permanente - La nuova strategia censuaria
L. Calzola, Il censimento permanente - La nuova strategia censuariaL. Calzola, Il censimento permanente - La nuova strategia censuaria
L. Calzola, Il censimento permanente - La nuova strategia censuaria
 
L. Calzola, Il censimento permanente - La nuova strategia censuaria pg
L. Calzola, Il censimento permanente - La nuova strategia censuaria pgL. Calzola, Il censimento permanente - La nuova strategia censuaria pg
L. Calzola, Il censimento permanente - La nuova strategia censuaria pg
 
S. Falorsi, Censimento, registri, indagini - il disegno dell'integrazione
S. Falorsi, Censimento, registri, indagini - il disegno dell'integrazioneS. Falorsi, Censimento, registri, indagini - il disegno dell'integrazione
S. Falorsi, Censimento, registri, indagini - il disegno dell'integrazione
 
Verso il Censimento permanente della popolazione e delle abitazioni - Katia A...
Verso il Censimento permanente della popolazione e delle abitazioni - Katia A...Verso il Censimento permanente della popolazione e delle abitazioni - Katia A...
Verso il Censimento permanente della popolazione e delle abitazioni - Katia A...
 
Consumo di suolo e scelte di pianificazione urbanistica, di Roberto Gerundo, ...
Consumo di suolo e scelte di pianificazione urbanistica, di Roberto Gerundo, ...Consumo di suolo e scelte di pianificazione urbanistica, di Roberto Gerundo, ...
Consumo di suolo e scelte di pianificazione urbanistica, di Roberto Gerundo, ...
 
V. Buratta, Registro statistico degli individui e delle famiglie. Censimento ...
V. Buratta, Registro statistico degli individui e delle famiglie. Censimento ...V. Buratta, Registro statistico degli individui e delle famiglie. Censimento ...
V. Buratta, Registro statistico degli individui e delle famiglie. Censimento ...
 
A. Cavorsi, I campioni dell'istat
A. Cavorsi, I campioni dell'istatA. Cavorsi, I campioni dell'istat
A. Cavorsi, I campioni dell'istat
 

Mais de Istituto nazionale di statistica

Mais de Istituto nazionale di statistica (20)

Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profitCensimenti Permanenti Istituzioni non profit
Censimenti Permanenti Istituzioni non profit
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
Censimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni PubblicheCensimento Permanente Istituzioni Pubbliche
Censimento Permanente Istituzioni Pubbliche
 
14a Conferenza Nazionale di Statisticacnstatistica14
14a Conferenza Nazionale di Statisticacnstatistica1414a Conferenza Nazionale di Statisticacnstatistica14
14a Conferenza Nazionale di Statisticacnstatistica14
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 

M. Russo - La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni

  • 1. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni Monica Russo 27 giugno 2014
  • 2. Obiettivi dell’indagine e parametri di interesse L’indagine di copertura – o Post Enumeration Survey (PES) – è un’indagine condotta in connessione con il 15° Censimento generale della Popolazione e delle Abitazioni ed è volta alla determinazione degli errori per eccesso (sovracopertura) o per difetto (sottocopertura) intervenuti nel conteggio censuario. Per i fini sopra delineati i parametri di popolazione oggetto di stima più importanti sono: • il tasso di copertura, espresso come rapporto tra il numero di unità enumerate al Censimento (al netto della sovracopertura) e la dimensione effettiva della popolazione, • il tasso di sottocopertura, dato dal rapporto tra il numero di unità sfuggite all’enumerazione censuaria (al netto della sovracopertura) e la dimensione effettiva della popolazione. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 1
  • 3. La popolazione obiettivo e i domini di interesse La popolazione obiettivo della PES 2011 è costituita dagli individui residenti in abitazioni esistenti nel territorio nazionale (escluse le convivenze) alla data del 9 ottobre 2011. La finalità primaria dell’indagine in esame è l’ottenimento delle stime dei predetti parametri con riferimento ai seguenti ambiti territoriali: • l’intero territorio nazionale, • le regioni geografiche e le Province autonome di Trento e Bolzano. Inoltre, è prevista la determinazione delle suddette stime relativamente a: (i) domini territoriali sub-regionali (le province) e sub-provinciali (i tredici comuni metropolitani); (ii) domini di studio costituiti da individui classificati secondo l’età (in classi) e la nazionalità. Essendo questi ultimi domini non pianificati, la precisione delle stime ad essi inerenti può essere migliorata sia introducendo una post-stratificazione nello stimatore studiato per l’indagine, sia attraverso l’adozione di stimatori speciali per piccole aree. Questi domini di studio rappresentano comunque un obiettivo secondario. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 2
  • 4. Il disegno di campionamento () La PES 2011 adotta un disegno di campionamento di tipo areale a due stadi di selezione:  il primo stadio è costituito dai comuni, stratificati in base al concatenamento delle regioni geografiche (le Province autonome di Trento e Bolzano sono trattate come regioni a sé) e delle 5 classi di dimensione demografica dei comuni secondo le modalità: - meno di 5.000 ab. - tra 5.000 e 10.000 ab. - tra 10.000 e 20.000 ab. - tra 20.000 e 100.000 ab. - oltre 100.000 ab. e i 13 comuni metropolitani (Torino, Genova, Milano, Venezia, Bologna, Firenze, Roma, Napoli, Bari, Palermo, Catania, Cagliari e Messina);  le unità di secondo stadio sono invece rappresentate dalle sezioni di Censimento, stratificate in base alla dimensione demografica delle sezioni in 3 modalità definite dai terzili della distribuzione della popolazione di sezione; tutti gli individui appartenenti alle sezioni campione vengono enumerati. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 3
  • 5. Il disegno di campionamento () Determinato il n° totale e per strato di individui campione, 𝑛 e 𝑛ℎ, in funzione degli errori attesi delle stime del tasso di copertura, si definisce il n° di comuni campione per strato ℎ (ℎ = 1, … , 𝐻), 𝑚ℎ, in modo da rispettare la condizione che il valore atteso del n° di individui campione relativo al generico strato ℎ sia uguale al n° programmato; in simboli 𝑁ℎ𝑐𝑗 𝜋ℎ𝑐𝑗 𝑗∈𝑐 = 𝑛ℎ 𝑐∈ℎ in cui: 𝑐 ed 𝑗 denotano rispettivamente gli indici di comune e sezione; 𝑁ℎ𝑐𝑗 è il n° di individui residenti nella generica sezione 𝑗 del comune 𝑐 dello strato ℎ; 𝜋ℎ𝑐𝑗 è la probabilità di inclusione della sezione 𝑗 del comune 𝑐 dello strato ℎ; 𝑠ℎ𝑐 = 𝑠ℎ = 𝑛ℎ 𝑁ℎ 𝑆ℎ è il n° minimo di sezioni campione per comune campione, determinato attraverso una procedura di tipo iterativo, facendo variare il n° minimo di individui da intervistare in ciascun comune campione, 𝑛ℎ, in modo da rispettare il n° complessivo desiderato di comuni che si intende far partecipare all’indagine; 𝑁ℎ 𝑆ℎ è il n° medio di individui per sezione riferito ad ℎ; inoltre, si ha 𝜋ℎ𝑐𝑗= 𝜋ℎ𝑐 poiché tutte le sezioni del comune 𝑐 hanno la stessa probabilità di essere incluse nel campione. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 4
  • 6. Il disegno di campionamento () Risolvendo l’equazione rispetto all’incognita 𝑚ℎ si ottiene: 𝑚ℎ = 𝑛ℎ 𝑠ℎ 1 𝑁ℎ 𝑁ℎ𝑐 1 𝑆ℎ 𝑁ℎ𝑐𝑖 𝑖∈𝑐𝑐∈ℎ −1 dove: 𝑁ℎ𝑐 e 𝑁ℎ denotano il n° di individui residenti rispettivamente nel comune 𝑐 dello strato ℎ e nello strato ℎ; 𝑆ℎ è il n° di sezioni nello strato ℎ. Il meccanismo probabilistico di formazione del campione prevede l’estrazione delle unità primarie con probabilità variabili senza ripetizione e l’estrazione delle unità secondarie con probabilità uguali senza ripetizione. L’indagine ha coinvolto 255 comuni campione e 2.507 sezioni, per un totale di 332.710 individui intervistati. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 5
  • 7. Quando si verifica un errore di copertura? L’operazione di enumerazione censuaria può essere affetta da: • errore di sovracopertura: tipo 1: si verifica quando per lo stesso individuo esistono due o più ritorni censuari nella stessa sezione di censimento tipo 2: si verifica quando per lo stesso individuo si hanno due ritorni censuari ma in sezioni di censimento diverse tipo 3: si verifica quando un individuo viene enumerato solo all’indirizzo errato; quindi, è presente solo la metà errata della duplicazione nei ritorni censuari tipo 4: è un ritorno censuario che non avrebbe mai dovuto verificarsi poiché fittizio o perché non facente parte della popolazione di riferimento. N.B. In fase di stima si considerano gli errori di tipo 2 e 3. Gli errori di tipo 1 sono corretti attraverso il processamento dei dati censuari, quelli di tipo 4 sono identificati con ulteriore lavoro sul campo. • errore di sottocopertura: si verifica quando una unità residente in Italia alla data del 9 ottobre 2011 non viene rilevata dal censimento. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 6
  • 8. Il processo di stima Fasi in cui si articola il processo di stima: Determinazione del Dual-System Estimator (DSE) corretto per sovracopertura: – Stima della sovracopertura – Calcolo del DSE Regression Estimator (RE) Sample Balance Adjustment (SBA) Determinazione delle stime del totale “vero” (incognito) della popolazione residente a livello regionale e nazionale La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 7
  • 9. Flowchart del processo di stima La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 8 Censimento 2011 PES Ricerca del n° di duplicazioni Stima Sovracopertura Matching tra Censimento e PES DSE corretto per sovracopertura Regression Estimator (stima la popolazione a livello di regione) Sample Balance Adjustment Stime della popolazione a livello regionale Aggregazione delle stime regionali (stima la popolazione a livello nazionale) Stima della popolazione a livello nazionale
  • 10. Stima della sovracopertura (a) La sovracopertura è una mistura di:  Duplicazioni  Conteggi nel posto sbagliato  Enumerazioni errate. La nostra strategia di stima è di operare degli aggiustamenti netti: riducendo le stime Dual-System attraverso una stima della sovracopertura imputando il minor numero di individui non rimuovendo i duplicati La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 9
  • 11. Stima della sovracopertura (b) La metodologia di stima della sovracopertura si articola in 3 punti: i) stima del numero di duplicazioni attraverso la PES ii) stima dei conteggi nel posto sbagliato attraverso la PES iii) calibrazione di i) mediante il numero di duplicazioni rilevate al Censimento (il campione PES non è disegnato per ottenere stime del numero di duplicazioni) Assunzione chiave: la PES definisce la corretta localizzazione dell’individuo alla data del 9 ottobre 2011 attraverso la risposta dell’intervistato alla domanda 1.5 del questionario PES La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 10
  • 12. Flowchart della stima della sovracopertura La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 11 Abbinati Censimento-PES nello stesso luogo Abbinati Censimento-PES in luoghi diversi Stima delle duplicazioni nei conteggi censuari attraverso la PES Stima dei conteggi esatti del Censimento Stima dei conteggi errati del Censimento Tasso di duplicazione Stima calibrata dei conteggi errati del Censimento attraverso uno stimatore rapporto Propensione alla sovracopertura Duplicazioni individuate al Censimento
  • 13. Stima della sovracopertura (d) La propensione alla sovracopertura è calcolata per ripartizione, modalità dell’indice Hard to Count (HtC) e classi di età; è data dal rapporto 𝛾𝑎 𝑤,𝑔 = 𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑣𝑒𝑟𝑎 = 𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑠𝑎𝑡𝑡𝑖 + 𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑟𝑟𝑎𝑡𝑖 𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑠𝑎𝑡𝑡𝑖 = 𝑌𝑎 𝑤,𝑔 + 𝐸 𝑎 𝑤,𝑔 𝑌𝑎 𝑤,𝑔 1 𝛾 𝑎 𝑤,𝑔 = fattore di sovracopertura: riduce il contributo di ogni individuo alla DSE, in cui: 𝑔 indica la ripartizione geografica (Nord-Ovest, Nord-Est, Centro, Sud, Isole) incrociata con le modalità dell’indice HtC: p=1 (‘enumerazione facile’), p=2 (‘enumerazione di media difficoltà’) e p=3 (‘enumerazione difficile’) 𝑎 𝑤 è la classe di età (0-2 e 25-60 anni, 3-17 anni, 18-24 anni, 61 e più anni) La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 12
  • 14. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Stima della sovracopertura (e) La stima della propensione alla sovracopertura è fornita da 𝛾𝑎 𝑤,𝑔 = 𝑌𝑎 𝑤,𝑔 + 𝐸 𝑎 𝑤,𝑔 𝑌𝑎 𝑤,𝑔 = 𝑤𝑗𝑔 𝑐 𝑎 𝑤,𝑖,𝑗𝑔𝑖∈𝑗 + 𝑃 𝐷 𝑤 𝑘𝑏𝑘∈𝑆 𝑏 𝑘≠𝑗 𝑏 𝑜 𝑎 𝑤,𝑖,𝑘𝑏,𝑗𝑔𝑖∈𝑘𝑗∈𝑆 𝑔𝑗∈𝑠 𝑔 𝑤𝑗𝑔 𝑐 𝑎 𝑤,𝑖,𝑗𝑔𝑖∈𝑗𝑗∈𝑠 𝑔 in cui: 𝑖 indice di individuo 𝑏 indica la ripartizione geografica incrociata con le modalità dell’indice HtC 𝑘 indice di sezione 𝑤𝑗𝑔, 𝑤 𝑘𝑏 pesi campionari assegnati rispettivamente alla sezione 𝑗 appartenente a 𝑔 e alla sezione 𝑘 appartenente a 𝑏 𝑐 𝑎 𝑤,𝑖,𝑗𝑔 variabile che assume il valore 1 se l’individuo 𝑖 è correttamente conteggiato dal Censimento nella sezione 𝑗 dell’area 𝑔 e 0 altrimenti 𝑜 𝑎 𝑤,𝑖,𝑘𝑏,𝑗𝑔 variabile che assume il valore 1 se l’individuo è conteggiato erroneamente dal Censimento nella sezione 𝑗 dell’area 𝑔 poiché la sua corretta enumerazione è la sezione 𝑘 dell’area 𝑏, con 𝑘 ≠ 𝑗 e 𝑏 che può anche coincidere con 𝑔 𝑃 𝐷 = 𝑤𝑗𝑔 𝑤 𝑘𝑏𝑘∈𝑆 𝑏 𝑘≠𝑗 𝑏 𝑜𝑖,𝑘𝑏,𝑗𝑔𝑖∈𝑘 𝑐𝑖,𝑗𝑔𝑗∈𝑠 𝑔𝑔 13 tasso di duplicazione, dato dal rapporto tra il n° di duplicazioni individuate nei conteggi censuari e la stima PES dello stesso
  • 15. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Calcolo del DSE Stimato il fattore di sovracopertura, 1 𝛾𝑎 𝑤 𝑔, si determina per ciascuno degli 𝑚𝑟 𝑎𝑝 comuni campione 𝑐 il DSE corretto per sovracopertura in base all’espressione 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 = 𝑁𝑎𝑝𝑐𝑜 𝐶 = 𝑁+1,𝑎𝑝𝑐 + 1 𝑁1+,𝑎𝑝𝑐 𝛾𝑎 𝑤 𝑔 + 1 𝑁11,𝑎𝑝𝑐 + 1 − 1 dove: 𝑎 sono le classi di età: 0-2, 3-7, 8-17, 18-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59, 60-64, 65-69, 70-74, 75-79, 80-84, 85 e più, separatamente per i due sessi 𝑝 è l’indice HtC 𝑝 = 1,2,3 𝑟 è l’indice di regione geografica (𝑟 = 1, … , 21, Trento e Bolzano sono tenute distinte) 𝑐 è l’indice di comune 𝑐 = 1, … , 𝑚𝑟 𝑎𝑝 . Tale modello rappresenta una variante del modello di Petersen (o di omogeneità entro le liste), in cui il totale censuario 𝑁1+,𝑎𝑝𝑐 è corretto per la stima della propensione alla sovracopertura ed è stata apportata la correzione di Chapman per applicazioni del DSE a piccole popolazioni. 14
  • 16. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Calcolo del DSE Punto di partenza: Modello di Petersen (o di omogeneità entro le liste). Si suppone che la PES ripeta le operazioni di Censimento su tutto il territorio nazionale. Si indichi con C la lista ottenuta con il Censimento e con I quella ottenuta con l’indagine. Le ipotesi alla base del modello sono: 1. la popolazione di riferimento è chiusa e di dimensione fissata pari a 𝑁 2. le probabilità che l’unità 𝑖 appartenga o meno alla lista C e che appartenga o meno alla lista I possono essere espresse mediante una distribuzione multinomiale in cui le probabilità congiunte e quelle marginali sono riportate nel prospetto seguente: 15 Lista C Si No Si 𝑝𝑖,11 𝑝𝑖,12 𝑝𝑖,1+ No 𝑝𝑖,21 𝑝𝑖,22 𝑝𝑖,2+ 𝑝𝑖,+1 𝑝𝑖,+2 1 Lista I
  • 17. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Calcolo del DSE 3. le due liste, C e I, possono essere considerate il risultato di N prove mutualmente indipendenti usando le distribuzioni multinomiali descritte al punto 2; per ogni singola unità 𝑖 si definisce una variabile 𝑥𝑖𝑎𝑏 pari ad 1 se l’unità 𝑖 cade nella cella ab e 0 altrimenti 𝑎, 𝑏 = 1,2 ; per le unità della popolazione la situazione può essere rappresentata come segue: dove 𝑁𝑎𝑏 = 𝑥𝑖𝑎𝑏 𝑁 𝑖=1 è il n° di unità nella cella ab 𝑎, 𝑏 = 1,2 , 𝑁𝑎+ = 𝑥𝑖𝑎𝑏 2 𝑏=1 𝑁 𝑖=1 𝑎 = 1,2 e 𝑁+𝑏 = 𝑥𝑖𝑎𝑏 2 𝑎=1 𝑁 𝑖=1 𝑏 = 1,2 ; ovviamente le quantità 𝑁22 e N non sono osservabili 4. è possibile determinare senza errore quali unità registrate nella lista I sono presenti nella lista C e quali no (ossia, non sono presenti errori di abbinamento) 5. entrambe le liste sono depurate da errori di registrazione e duplicazione 16 Lista C Si No Si 𝑁11 𝑁12 𝑁1+ No 𝑁21 𝑁22 𝑁2+ 𝑁+1 𝑁+2 N Lista I
  • 18. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Calcolo del DSE 6. le probabilità che le unità siano incluse nella lista C, 𝑝𝑖1+ 𝑖 = 1, … , 𝑁 , e le probabilità che le unità siano incluse nella lista I, 𝑝𝑖+1 𝑖 = 1, … , 𝑁 , sono costanti per ciascuna lista, ossia soddisfano le condizioni 𝑝𝑖1+ = 𝑝1+ e 𝑝𝑖+1 = 𝑝+1 ; d’altra parte le due probabilità 𝑝1+ e 𝑝+1 sono generalmente differenti. In assenza di sovracopertura, avendo assunto l’indipendenza delle due rilevazioni, una stima della numerosità della popolazione è data da 𝑁 = 𝑁+1 𝑁1+ 𝑁11 Poiché con la PES non si effettua un’enumerazione completa su tutte le sezioni censuarie ma solo su un campione di esse, le quantità 𝑁+1 e 𝑁11 sono stimabili sulla base delle osservazioni campionarie. Pertanto, la stima di N è ottenibile nel seguente modo 𝑁 = 𝑁+1 𝑁1+ 𝑁11 17
  • 19. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Regression Estimator (RE) Per la regione geografica 𝑟 e il gruppo di popolazione 𝑎, sono date le 𝑚𝑟 𝑎 coppie di valori 𝑥 𝑎𝑝𝑐 , 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 , in cui 𝑚𝑟 𝑎 = 𝑚𝑟 𝑎𝑝𝑝 e 𝑥 𝑎𝑝𝑐 è il totale censuario nei comuni campione della regione 𝑟 per il gruppo di popolazione 𝑎, mentre 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 è il DSE calcolato nel modo su descritto. Dopo aver stimato con il metodo dei minimi quadrati il coefficiente angolare 𝛽𝑟 𝑎 della retta di regressione interpolante la nuvola di punti definiti dalle 𝑚𝑟 𝑎 coppie di valori, si determina una stima della popolazione a livello di regione geografica 𝑟, gruppo di popolazione 𝑎 e modalità 𝑝 dell’indice HtC moltiplicando 𝛽𝑟 𝑎 per 𝑋𝑟 𝑎𝑝 , che rappresenta il totale censuario inerente a tutti i comuni della regione 𝑟 per il gruppo di popolazione 𝑎 e modalità 𝑝 dell’indice HtC: 𝑁 𝑎𝑝𝑟 = 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝 18
  • 20. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Sample Balance Adjustment (SBA) Questa prima stima di 𝑁 𝑎𝑝𝑟 è poi corretta per un fattore di aggiustamento, 𝐹𝑝 𝑝 = 1,2,3 , che serve per bilanciare il campione qualora esso risulti un outlier. In circostanze normali, il campione estratto per la PES è rappresentativo della copertura del Censimento, poiché esso è stato disegnato a tal fine. Tuttavia, in ogni selezione campionaria esiste il rischio che il campione estratto sia un outlier (ossia, appartenga alle code della distribuzione) tra tutti i possibili campioni; in altri termini, il campione PES potrebbe, per puro effetto del caso, individuare sezioni di censimento in cui, ad esempio, il censimento ha conteggiato l’intera popolazione e presentare, pertanto, sottocopertura zero. Il procedimento SBA si prefigge l’obiettivo di valutare se il campione PES è sufficientemente rappresentativo comparandolo con tutti gli altri possibili campioni che potevano essere selezionati (se non lo è, le stime dei tassi di copertura avrebbero una distribuzione asimmetrica, troppo alti o troppo bassi) e correggere eventualmente la stima 𝑁 𝑎𝑝𝑟 attraverso un bilanciamento del campione stesso. 19
  • 21. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Sample Balance Adjustment (SBA) A tal fine, sono stati utilizzati i questionari censuari dummy corrispondenti alle famiglie per le quali non è stato ricevuto un ritorno censuario; essi sono ritenuti essere la migliore proxy della copertura. La procedura consta nei seguenti passi: 1. Si analizza la correlazione tra le 𝑚𝑟 𝑝 coppie 𝑞𝑟 𝑝𝑐 , 𝑞𝑟 𝑝𝑐 , in cui 𝑞𝑟 𝑝𝑐 e 𝑞𝑟 𝑝𝑐 rappresentano rispettivamente il non-response rate (ovvero, il rapporto tra il n° di questionari censuari dummy e il n° complessivo di questionari censuari) e la sua stima tramite la PES, al fine di stabilire se la variabile è una buona proxy della non risposta (quindi della copertura) e, pertanto, può essere usata se il campione relativo ad uno o più comuni risulta essere non rappresentativo. In tal caso (ossia, se la correlazione è maggiore di 0.5), un aggiustamento basato su di essi migliorerebbe lo stimatore regressione se il campione non è bilanciato. 20
  • 22. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Sample Balance Adjustment (SBA) 2. Si confronta il n° di questionari censuari dummy nella regione 𝑟 e modalità 𝑝 dell’HtC, 𝑌𝑟 𝑝, noto da Censimento, e la sua stima, 𝑌𝑟 𝑝, ottenuta attraverso la PES utilizzando uno stimatore rapporto. Se 𝑌𝑟 𝑝 risulta significativamente diverso da 𝑌𝑟 𝑝, allora il campione PES inerente alla regione 𝑟 e modalità 𝑝 dell’HtC è verosimilmente non bilanciato. Tuttavia, per una ulteriore e più valida verifica di tale circostanza, è opportuno ricorrere all’impiego del test seguente. 3. Essendo nota la distribuzione dei valori veri dei questionari censuari dummy relativi a tutti i comuni della regione 𝑟 e aventi modalità 𝑝 dell’HtC, si determina la varianza (e non la stima) di 𝑌𝑟 𝑝, Var 𝑌𝑟 𝑝 . Si costruisce quindi l’intervallo di confidenza al 95% intorno al valore vero 𝑌𝑟 𝑝: 𝑌𝑟 𝑝 − 2 Var 𝑌𝑟 𝑝 ≤ 𝑌𝑟 𝑝 ≤ 𝑌𝑟 𝑝 + 2 Var 𝑌𝑟 𝑝 Se la stima cade all’interno dell’intervallo allora non c’è evidenza che il campione sia outlier; se invece cade in una delle due code, allora il campione è un outlier. In quest’ultimo caso è opportuno applicare un fattore di aggiustamento per migliorare il bilanciamento del campione. 21
  • 23. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Sample Balance Adjustment (SBA) 4. Si calcola il fattore: 𝐹𝑟 𝑝 = 𝑌𝑟 𝑝 + 𝑋𝑟 𝑝 𝑋𝑟 𝑝 𝑀𝑟 𝑝 𝑚𝑟 𝑝 𝑌𝑟 𝑝𝑐 + 𝑋𝑟 𝑝𝑐 𝑚𝑟 𝑝 𝑐=1 𝑀𝑟 𝑝 𝑚𝑟 𝑝 𝑋𝑟 𝑝𝑐 𝑚𝑟 𝑝 𝑐=1 N.B. Se il campione è esattamente bilanciato: 𝐹𝑟 𝑝 = 1 Se il campione sottostima: 𝐹𝑟 𝑝 > 1 Se il campione sovrastima: 𝐹𝑟 𝑝 < 1 Dato il fattore 𝐹𝑟 𝑝, si determina la stima bilanciata di 𝑁 𝑎𝑝𝑟 : 𝑁 𝑎𝑝𝑟 = 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟 = 𝐹𝑟 𝑝 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝 22
  • 24. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Determinazione delle stime del totale “vero” (incognito) della popolazione residente a livello regionale e nazionale Le stime a livello regionale sono immediatamente ottenibili sommando rispetto alle modalità 𝑝 dell’indice HtC e ai gruppi di popolazione 𝑎: 𝑁𝑟 = 𝑁𝑎𝑝𝑟 𝑝𝑎 = 𝐹𝑟 𝑝 𝑁𝑎𝑝𝑟 𝑝𝑎 = 𝐹𝑟 𝑝 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝 𝑝𝑎 Sommando poi su tutte le regioni si ottiene la stima a livello nazionale: 𝑁 = 𝑁𝑟 𝑟 = 𝑁 𝑎𝑝𝑟 𝑝𝑎 = 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟 𝑝𝑎 = 𝐹𝑟 𝑝 𝛽𝑟 𝑎 𝑋𝑟 𝑎𝑝 𝑝𝑎 23
  • 25. La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle Abitazioni, Monica Russo – Roma, 27 giugno 2014 Valutazione della precisione delle stime della PES L’affidabilità delle stime dei parametri di interesse dell’indagine PES è stata valutata attraverso il calcolo dei coefficienti di variazione percentuale e degli intervalli di confidenza. Tali indicatori sono basati sulla stima della varianza delle stime prodotte dall’indagine in oggetto calcolata applicando il metodo bootstrap. I campioni bootstrap sono stati ottenuti a partire da una pseudo-popolazione costruita replicando i comuni e le sezioni campione un numero di volte pari ai loro corrispondenti pesi campionari. Siano 𝜃1, … , 𝜃 𝑎, … , 𝜃 𝐴 le stime del parametro 𝜃 ottenute applicando agli A campioni bootstrap uno stimatore avente una forma funzionale uguale a quella dello stimatore 𝜃 utilizzato per l’ottenimento delle stime dell’indagine (basate sull’utilizzo dei dati del disegno campionario originario). La stima bootstrap della varianza dello stimatore 𝜃 è data da: 𝑉𝐵𝑆 𝜃 = 1 𝐴 − 1 𝜃 𝑎 − 1 𝐴 𝜃 𝑎 𝐴 𝑎=1 2 𝐴 𝑎=1 24