SlideShare uma empresa Scribd logo
1 de 67
Baixar para ler offline
3
UNIVERSITÀ DEGLI STUDI DI SALERNO
Dipartimento di Scienze Economiche e Statistiche
Corso di Laurea Magistrale in Economia
Curriculum in Economia e Finanza
TESINA IN
Laboratorio di statistica e data mining
I Millennials e il lavoro
di:
Addonizio Martina, De Sio Annapaola, Gravina Luca,
Lenza Cariolita, Leo Michela, Leo Stefano
2
Premessa
Sin da 1959, l’Istat (Istituto Nazionale di Statistica) ha condotto un’indagine campionaria sulle
forze di lavoro in Italia con periodicità trimestrale nei mesi di gennaio, aprile, luglio e ottobre. Dal
2004 la rilevazione ha assunto carattere continuativo - in linea con quanto stabilito dall’Unione
europea - ed ha preso il nome di Rilevazione Continua sulle Forze di Lavoro. 1
Il presente elaborato, per rispondere all’esigenza di fornire un’evidenza statistica in merito alla
condizione occupazionale dei giovani di età compresa fra i 18 e i 34 anni (cd. “Millennials”) in
Italia, si basa sulla manipolazione e l’analisi dei dati di cui sopra, rilevati nell’indagine effettuata il
secondo trimestre del 2018, che risultano essere 13155.
I dati forniti dall’Istat – aventi originariamente ad oggetto tutti i componenti di famiglie estratte
casualmente dalla lista anagrafica di ogni comune campione – sono stati infatti filtrati direttamente
su Excel per fascia d’età e ripuliti di quelle variabili che avrebbero fornito uno scarso contributo
nel perseguimento dell’obiettivo principale.
Successivamente, il file è stato esportato in .csv e caricato in R attraverso la funzione
read.table(), così come indicato di seguito:
read.table(file=”dati_finali.csv”, header=T, quote=””, sep=”;”)
dati <- read.table(file=”dati_finali.csv”, header=T, quote=””, sep=”;”)
Per consultare la lista completa delle variabili utilizzate è consigliabile consultare l’Allegato 1.
1
Per una trattazione più ampia e dettagliata, si faccia riferimento al volume “ISTAT, La rilevazione sulle forze di lavoro:
contenuti, metodologie, organizzazione, Metodi e Norme, Roma, 2006.
3
Sommario
Premessa 2
Introduzione 5
CAPITOLO UNO
ANALISI DELLA CONDIZIONE OCCUPAZIONALE
1.1 Il campione di riferimento 6
1.2 Il livello di istruzione dei Millennials italiani 10
1.3 Analisi dei settori lavorativi 15
CAPITOLO DUE
IL GENDER GAP
2.1 Il “gender pay gap” nella generazione dei Millennials 17
2.2 Differenze di genere nel più alto livello di istruzione raggiunto 20
2.3 Le retribuzioni per livello di istruzione 21
2.4 L’effetto del titolo di studio sulla retribuzione percepita 24
2.5 Il gender pay gap nelle macroregioni 29
2.6 Il contractual gender gap 34
CAPITOLO TRE
BOOTSTRAP
3. Il bootstrap 41
Conclusioni 49
ALLEGATO 1
PROCEDIMENTI ALTERNATIVI
1. Le retribuzioni per livello di istruzione: procedimento alternativo 50
2. Il gender pay gap nelle macroregioni: procedimento alternativo 53
4
3. Il contractual gender gap: procedimento alternativo 57
ALLEGATO 2
APPENDICE
1.1.: Il campione di riferimento 62
1.2.: Il livello di istruzione dei Millennials italiani 63
1.3.: Analisi dei settori lavorativi 64
1.4.: Il contractual gender gap (1). 65
1.5.: Il contractual gender gap (2). 67
5
Introduzione
Il seguente lavoro rappresenta un’analisi dettagliata sulla condizione occupazionale dei
Millennials, successiva ad un’intensa fase di snellimento del campione di riferimento, al fine di
rendere l’analisi in oggetto più facile da gestire.
Il focus di questa indagine è voler rispondere alla seguente domanda: “Come variano le condizioni
occupazionali e retributive degli individui oggetto del campione tenendo conto della differenza di
genere, in base ad una determinata fascia d’età e ad una determinata macroregione di
appartenenza?”
In un primo momento, l’analisi è volta a fornire una panoramica generale su quelle che sono le
caratteristiche del campione osservato - dapprima su scala nazionale, in seguito su tre specifiche
aree di interesse (Nord, Centro e Sud) - su cui si è voluto anzitempo porre l’attenzione: il titolo di
studio più elevato conseguito, lo status occupazionale e, per i soli individui occupati, il settore
lavorativo di appartenenza.
Successivamente, lo studio verterà sulle figure dei soli lavoratori e, nello specifico, sulla differenza
tra uomo e donna dal punto di vista di retribuzioni salariali e di tipologia contrattuale (a parità di
condizioni), comunemente conosciuta come “Gender Gap”. Quest’ultimo, essendo un tema
estremamente sensibile ed attuale, verrà affrontato con l’ausilio di una serie di rappresentazioni
grafiche e con uno strumento esplicativo delle relazioni intercorrenti tra le variabili, quale la
regressione multipla.
Il punto finale dell’elaborato è volto all’utilizzo del Bootstrap. Il Bootstrap è una tecnica statistica
non parametrica di ricampionamento con reimmissione, attraverso questo metodo si andrà a
verificare la bontà della stima di due valori importanti ai fini della nostra indagine, ottenuti tramite
una media campionaria: la retribuzione media delle donne e degli uomini in possesso di una
laurea.
La manipolazione dei dati è stata effettuata attraverso l’uso di uno specifico programma, chiamato
R, che è un linguaggio di programmazione e un ambiente di sviluppo specifico per compiere
analisi statistiche, le cui librerie implementano un’ampia varietà di tecniche statistiche e grafiche.
6
CAPITOLO UNO
ANALISI DELLA CONDIZIONE OCCUPAZIONALE
È risaputo che il tasso di disoccupazione giovanile in Italia sia tra i più preoccupanti, se messo a
confronto con quello degli altri Paesi dell’UE. Ciononostante, diverse statistiche facilmente
reperibili online dimostrano come la generazione Y sia una generazione dinamica, versatile e
capace di adattarsi ad ogni situazione. Molti giovani si dichiarano, infatti, disponibili a svolgere
mansioni del tutto opposte al percorso di studi eventualmente intrapreso, così come incarichi che
probabilmente finiranno per incupire le loro prospettive lavorative future.
I dati Istat raccontano essere proprio la generazione dei Millennials a pagare più aspramente il
prezzo della crisi del 2008: i giovani sotto la soglia di povertà assoluta sono passati dal 3,1% del
2005 al 10% del 2017, anche se, stando alle ultime previsioni, c’è chi ritiene che la crisi potrebbe
essere alle nostre spalle già all’alba del 20202
.
Con la Rilevazione Continua sulle Forze di Lavoro, l’Istituto Nazionale di Statistica mette ogni
anno a disposizione di chiunque ne abbia interesse dati relativi ad un campione rappresentativo
della popolazione italiana. Prendendo in esame il secondo trimestre del 2018, si è scelto di
condurre un’indagine sulla condizione occupazionale dei soli giovani di età compresa fra i 18 e i
34 anni per un totale di 13155 individui. È indispensabile, dunque, per l’analisi e la manipolazione
dei suddetti dati, una breve presentazione degli intervistati, focalizzandosi su quegli aspetti che
si ritengono essere di particolare rilievo.
Inoltre, si precisa che, per evidenziare se e in che misura l’appartenenza ad una specifica
macroregione influisce sui risultati che si otterranno di qui a poco, le indagini verranno spesso
ripetute sia su base nazionale che macroregionale.
1.1 Il campione di riferimento
Una prima necessaria classificazione riguarda lo stato occupazionale, principale aggregato di
riferimento dell’indagine. Gli individui si sono auto-classificati in occupati, in cerca di lavoro,
inattivi, di cui le definizioni generali:
• Occupati: comprendono gli individui di 15 anni e più, che nella settimana di riferimento:
hanno svolto almeno un’ora di lavoro in una qualsiasi attività che preveda un corrispettivo
monetario o in natura; hanno svolto almeno un’ora di lavoro non retribuito nella ditta di
un familiare nella quale collaborano abitualmente; sono assenti dal lavoro (ad esempio,
per ferie o malattia).
I dipendenti assenti dal lavoro sono considerati occupati se l’assenza non supera tre
mesi, oppure se durante l’assenza continuano a percepire almeno il 50% della
retribuzione. Gli indipendenti assenti dal lavoro, ad eccezione dei coadiuvanti familiari,
sono considerati occupati se, durante il periodo di assenza, mantengono l’attività. I
coadiuvanti familiari sono considerati occupati se l’assenza non supera tre mesi;
2
Cfr. C.M. Martino, “Giovani italiani, tra i più poveri e meno occupati. Ma tra i Millennials c’è chi reagisce”,
IlFattoQuotidiano.it, Luglio 2017.
7
• Persone in cerca di lavoro: comprendono le persone non occupate tra 15 e 74 anni
che: hanno effettuato almeno un’azione attiva di ricerca di lavoro nei trenta giorni che
precedono l’intervista e sono disponibili a lavorare (o ad avviare un’attività autonoma)
entro le due settimane successive all’intervista; oppure, inizieranno un lavoro entro tre
mesi dalla data dell’intervista e sono disponibili a lavorare (o ad avviare un’attività
autonoma) entro le due settimane successive all’intervista, qualora fosse possibile
anticipare l’inizio del lavoro;
• Inattivi: comprendono le persone che non fanno parte delle forze di lavoro, ovvero quelle
non classificate come occupate o in cerca di occupazione.
Di seguito, si mostra la procedura per la realizzazione di un diagramma circolare che sintetizzi le
classificazioni di cui sopra, contestualizzate al campione preso in esame.
# Si considerano le frequenze assolute, relative alla condizione
occupazionale : COND3: 1=“occupati”, 2=“in cerca”, 3=“inattivi”),
richiamando il comando table():
> table(dati$COND3)
1 2 3
6311 1477 5367
# Si preferisce, però, considerare le frequenze relative, ottenute mediante
l’utilizzo della funzione prop.table() e arrotondate con il comando
round():
> round(prop.table(table(dati$COND3))*100)
1 2 3
48 11 41
# Per la rappresentazione grafica delle frequenze è utile definire prima i
seguenti argomenti:
> labs.legend <- c("occupati", "in cerca", "inattivi") # etichette
> labs.pie <- c("6311 (48%)", "1477 (11%)", "5367 (41%)") # valori grafico
> cols.pie <- c("red", "darkgreen", "grey") # colori del grafico
# Si utilizza pie() per la realizzazione del diagramma circolare e, per
facilitare la lettura, si inserisce la legenda:
> pie(table(dati$COND3), labels=labs.pie, main="Condizione occupazionale
in Italia", col=cols.pie)
> legend(locator(1), legend=labs.legend, col=cols.pie, pch=c(1,1,1),
bty="n")
8
Grafico 1
*analisi effettuata su un campione di n=13155
Dunque, dal grafico è possibile evincere che, nell’ambito di tutto il territorio nazionale, i giovani di
età compresa fra i 18 e i 34 anni del campione analizzato sono per il 48% occupati, per il 41%
inattivi e solo l’11% è in cerca di lavoro.
Tuttavia, prima ancora di poter esprimere un giudizio sulla percentuale di occupati, negativo o
positivo che sia, bisogna ricordare che la presenza di individui che non hanno ancora terminato
gli studi scolastici o universitari potrebbe influenzare in maniera molto rilevante la percentuale
degli inattivi. Ciò rende questo dato solo parzialmente rappresentativo della realtà.
Infatti, i dati in esame evidenziano che circa il 36% del campione corrisponde a giovani con o
senza diploma che rientrano nella categoria degli inattivi, pari all’87% degli inattivi totali3
. È un
elemento molto significativo, che sottolinea come tale classificazione sia facilmente influenzabile
dalle caratteristiche individuali momentanee.
Ad ogni modo, per una serie di motivazioni legate alla natura del campione, che non consente
una più approfondita analisi del fenomeno – data l’indisponibilità di dataset successivi, se non
quello relativo al terzo trimestre del 2018, troppo ravvicinato per poter essere esplicativo –, e non
essendo questo l’oggetto di studio dell’indagine, si è deciso di non interrogarsi ulteriormente sulle
implicazioni di tali digressioni e di proseguire attenendosi alle evidenze numeriche.
La stessa indagine è stata effettuata anche a livello macroregionale, intendendo per
“macroregione” la classificazione delle aree Nord, Centro e Sud, al fine di verificare come
l’occupazione si distribuisce sul territorio italiano.
3
Tali percentuali sono state ottenute con il procedimento riportato in Apx 1.1.
9
# Prima di poter costruire il grafico, è necessario organizzare il dataset,
così da renderne più agevole la manipolazione. Si sostituiscono ai livelli
della variabile RIP3 - 1, 2 e 3 - rispettivamente le etichette “Nord”,
“Centro” e “Sud”.
> dati$RIP3 <- factor(dati$RIP3, labels=c("Nord", "Centro", "Sud"))
# Lo stesso procedimento viene effettuato per la variabile COND3, che
rappresenta i livelli occupazionali:
> dati$COND3 <- factor(dati$COND3, labels=c("Occupati", "In cerca",
"Inattivi"))
# Si estrapolano le frequenze assolute congiunte:
> table(dati$COND3, dati$RIP3)
# Si crea la matrice di dati per condizione occupazionale e macroregioni:
> matrice.disocc <- as.matrix(table(dati$COND3, dati$RIP3))
# Derivata la matrice, è possibile costruire il grafico a barre:
> grafico2 <- barplot(matrice.disocc, beside=T, main="Differenze
occupazionali fra le macroregioni", col=c("purple", "brown", "pink"),
ylab="Frequenze", ylim=c(0,4000))
# Per semplicità, pur considerando come numerosità campionaria quella in
frequenze assolute, si riportano le frequenze relative percentuali sopra
ogni barra, ottenute attraverso il comando prop.table():
> matrice.percent2 <- round(prop.table(as.matrix(table(dati$COND3,
dati$RIP3)))*100)
> text(grafico2, matrice.disocc,
labels=paste(as.vector(matrice.percent2), "%", sep=""), pos=3)
# Inoltre, per maggiore chiarezza, viene aggiunta una legenda:
> legend(locator(1), legend=c("Occupati", "In cerca", "Inattivi"),
col=c("red", "darkgreen", "grey") pch=c(15,15,15), bty="n")
10
Grafico 2
*analisi effettuata su un campione di n=13155 individui, di cui 6577 del Nord, 2604 del Centro e 3974 del Sud
Dal grafico precedente, ottenuto su scala nazionale, è risultata una percentuale di occupazione
pari al 48%. Tuttavia, differenziando l’analisi in macroregioni, si evince che il Nord registra il più
alto tasso di occupazione (pari al 28% del campione), quasi il triplo dei valori registrati per il Centro
e per il Sud (10%).
Diverse possono essere le cause di tale discrepanza, una delle quali potrebbe essere il differente
livello medio d’istruzione presente nelle tre aree geografiche d’interesse. Pertanto, scopo del
presente elaborato sarà quello si soffermarsi su tale aspetto, prendendo spesso in esame il più
alto titolo di studio conseguito dagli individui al momento dell’intervista.
1.2 Il livello di istruzione dei Millennials italiani
Negli anni Settanta appena il 14% della popolazione con meno di 30 anni aveva un diploma in
tasca e i laureati erano solo l’1%. Vent’anni dopo è aumentata sensibilmente la quota di giovani
diplomati: nel 1991 erano il 31,5% dei giovani under 30, mentre i laureati erano ancora su livelli
11
molto bassi (3%)4
. Ad oggi, si è registrata una notevole crescita del livello d’istruzione, come
mostrato nel Grafico 3.
# La variabile TISTUD, composta originariamente da 10 livelli, ognuno
associato ad un particolare titolo, è stata riclassificata in solo 4 macro-
gruppi:
1) “No Titolo”, composta da coloro i quali posseggono un titolo
inferiore al diploma;
2) “Diplomati”;
3) “Laureati Triennale”;
4) “Laureati Magistrale”.
> dati$TISTUD <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo', 'No
titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale',
'Laureati triennale','Laureati magistrale', 'Laureati magistrale'))
# sulla base della variabile RIP3 riclassificata
> dati$RIP3 <-factor(dati$RIP3,labels=c('Nord','Centro','Sud'))
# si crea la tabella di frequenze assolute fra le due variabili di
interesse:
> table(dati$TISTUD, dati$RIP3)
Nord Centro Sud
No titolo 1807 710 1295
Diplomati 3418 1412 2074
Laureati triennale 686 251 283
Laureati magistrale 666 231 322
# Per una migliore comparazione dei dati, si preferisce utilizzare la
tabella delle frequenze relative per colonna (margin=2). Dopodiché la si
rende una matrice, condizione necessaria per costruire il grafico a barre:
> matrice.tistud <- round(prop.table(as.matrix(table(dati$TISTUD,
dati$RIP3)), margin=2)*100)
> matrice.tistud
Nord Centro Sud
No titolo 27 27 33
Diplomati 52 54 52
Laureati triennale 10 10 7
Laureati magistrale 10 9 8
4
Cfr. F. Barbieri, A. Magnani, “Il lavoro ai tempi dei millennials. Svantaggi e vantaggi di essere under 30.”, Il Sole 24
Ore, Febbraio 2018.
12
# Si può, infine, costruire il seguente grafico:
> grafico_3 <- barplot(matrice.tistud, beside=T, ylab="Frequenze relative
in %", main="Livello di istruzione nelle macroregioni", ylim=c(0,80),
col=c(“darkturquoise", "firebrick1", "rosybrown1", "darkblue”))
# Si aggiungono le percentuali:
> text(grafico_3, matrice.tistud, labels=paste(as.vector(matrice.tistud),
"%", sep=""), pos=3)
# Si inserisce una legenda:
> legend(locator(1), legend=c("No titolo", "Diploma", "Triennale",
"Magistrale"), pch=c(15,15,15,15), bty="n", col=c("darkturquoise",
"firebrick1", "rosybrown1", "darkblue"))
Grafico 3
* percentuali ottenute su n=13155 individui, di cui 6577 del Nord, 2604 del Centro e 3974 del Sud
Dalla rappresentazione grafica sopra realizzata, è possibile definire ed osservare la composizione
della popolazione nelle tre macroregioni di interesse, in funzione del titolo di studio posseduto.
Al Nord, dei 6577 individui osservati, il 27% è in possesso di un titolo di studio inferiore al diploma,
il 52% ha conseguito la maturità scolastica, il 10% ha conseguito una laurea di I livello e il restante
10% quella di II livello. Proporzioni simili, seppur su campioni diversi e più ridotti, si ripresentano
13
al Centro e al Sud: al Centro il 27% possiede un titolo inferiore al diploma, il 54% è diplomato, il
10% possiede una laurea triennale e il 9% una laurea magistrale; al Sud tali valori si aggirano
rispettivamente intorno al 33%, 52%, 7% e 8%. Ciò che, da tali percentuali, si può dedurre è la
comune composizione della popolazione: in tutte le tre macroregioni, la fetta più corposa è
rappresentata dai diplomati, mentre quella più esigua dai laureati.
Per concludere la fase descrittiva del campione, ci si sofferma, di seguito, sui soli individui
occupati in modo da individuare a quale titolo di studio è associata una maggiore percentuale in
termini di occupazione e in quale macroregione.
# Con la funzione table() si considerano le frequenze assolute degli
individui in base all'intersezione di tre variabili: TISTUD (riclassificata
in 4 gruppi), RIP3 e COND3. Si ottiene in questo modo un array avente sulla
prima pagina le frequenze congiunte relative agli 'occupati', sulla seconda
quelle relative agli 'in cerca' e sulla terza gli 'inattivi'.
> dati$TISTUD <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo', 'No
titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale',
'Laureati triennale','Laureati magistrale', 'Laureati magistrale'))
> dati$COND3 <-factor(dati$COND3, labels=c('Occupati', 'In cerca',
'Inattivi'))
> dati$RIP3 <-factor(dati$RIP3,labels=c('Nord','Centro','Sud'))
> table(dati$TISTUD, dati$RIP3, dati$COND3)
# Da esse, si calcolano le frequenze relative con il comando prop.table()
e, dato che quelle di interesse sono solo quelle concernenti gli occupati,
si estrae dall'array solo il primo foglio, lo si trasforma in una matrice
e lo si rinomina come segue:
> occupati <- as.matrix(round(prop.table(table(dati$TISTUD, dati$RIP3,
dati$COND3), margin=3)*100)[,,1])
> occupati
Nord Centro Sud
No titolo 12 4 5
Diplomati 32 11 12
Laureati triennale 7 2 2
Laureati magistrale 8 3 3
# Si rappresentano i risultati così ottenuti in un grafico, dopodiché si
inseriscono le percentuali di riferimento e la legenda:
> grafico4 <- barplot(occupati, beside=T, ylim= c(0,40), ylab="numero di
occupati in %", main= "L'occupazione a livello macroregionale per titolo
di studio", col=c("darkturquoise", "firebrick1", "rosybrown1",
"darkblue"))
> text(grafico4, occupati, labels=paste(occupati, "%", sep=""), pos=3)
14
> legend(locator(1), legend=c("No titolo", "Diploma", "Triennale",
"Magistrale"), pch=15, bty="n", col=c("darkturquoise", "firebrick1",
"rosybrown1", "darkblue"))
Grafico 4
* analisi effettuata su 6311 individui (occupati), pari al 48% del campione,
di cui 3708 del Nord, 1261 del Centro e 1342 del Sud
Dal grafico emerge come i diplomati rappresentino la stragrande maggioranza della forza lavoro
in tutte e tre le macroaree, seguiti da coloro che hanno un titolo inferiore al diploma e solo infine
dai laureati.
Un'analisi più approfondita in merito al titolo di studio e alla possibilità di trovare lavoro permette
inoltre di evidenziare come il fatto di possedere una laurea, per quanto possa aiutare a trovare
occupazione, non produce lo stesso effetto lungo tutto il territorio italiano: mentre al Nord il 78%
dei laureati risulta occupato e al Centro il 61%, al Sud solo il 45.5% dei laureati trova lavoro. Tale
discrepanza è purtroppo presente per tutti i titoli di studio5
. Ad impattare su tale gap vi è, senza
alcun dubbio, il fatto che Regioni quali Piemonte, Lombardia e Veneto, ed in particolar modo le
grandi città metropolitane come Milano, offrano maggiori possibilità lavorative, soprattutto ad alta
specializzazione.
Pertanto, si può ritenere che l'appartenenza ad una specifica area geografica, ancora oggi, incida
fortemente sulle possibilità dei giovani italiani, con forte svantaggio per i giovani del Sud, i quali
5
Il procedimento effettuato per ricavare tali percentuali è stato riportato nell’Apx 1.2.
15
soffrono di prospettive lavorative più ristrette, a causa di un tessuto industriale meno sviluppato.
Nord e Sud continuano dunque ad essere due mondi sempre più distanti.
1.3 Analisi dei settori lavorativi
All’interno dell’economia nazionale la ripartizione dei dati occupazionali interessa soprattutto i
settori dell’industria in senso stretto (21%), del commercio (17%) e quelli legati ai servizi (42%)6
.
Nei servizi spiccano le attività alberghiere e di ristorazione, le attività immobiliari e imprenditoriali,
e le assunzioni da parte di aziende legate ai settori dell’istruzione, della sanità e dell’assistenza
sociale.
Al fine del completamento dell’analisi generale del campione di riferimento, si pone dunque
l’attenzione sui diversi settori lavorativi e sulle rispettive percentuali occupazionali: considerando
il raggruppamento ATECO delle attività economiche in 12 classi (CAT12), è stata effettuata
un’analisi macroregionale dei settori lavorativi con un più alto livello di occupazione per ogni
macroregione.
# Si rinominano le etichette di CAT12:
> dati$CAT12 <- factor(dati$CAT12, labels=c("Agricoltura, silvicoltura e
pesca", "Industria in senso stretto", "Costruzioni", "Commercio",
"Alberghi e ristoranti", "Trasporto e magazzinaggio", "Informazione e
comunicazione", "Attività finanziarie e assicurative", "Attività
immobiliari e imprenditoriali", "Amministrazione pubblica e difesa",
"Istruzione, sanità e servizi sociali", "Altri servizi collettivi e
personali"))
# A questo punto, le variabili di interesse vengono ripulite degli NA:
> cat12 <- dati$CAT12[!is.na(dati$CAT12)]
> rip33 <- dati$RIP3[!is.na(dati$CAT12)]
> rip33 <- factor(rip33, labels=c("Nord", "Centro","Sud"))
# È dunque possibile generare la tabella di frequenze relative di riga:
> tab <- round(prop.table(table(rip33, cat12), margin=1)*100)
# attraverso la funzione par() si prepara la finestra in cui verrà
rappresentato il grafico, specificando l’argomento mai si determinano le
dimensioni dei margini, mentre con l’argomento las si indica l’orientamento
delle etichette di Y, in questo orizzontale:
> par(mai=c(1,2.5,1,0), las=1)
> barplot(as.matrix(tab), beside=T, horiz=T, main="Concentrazione
occupazionale nei settori produttivi", xlim=c(0,25), cex.names=0.85,
6
Il procedimento effettuato per ricavare tali percentuali è stato riportato nell’Apx 1.3.
16
col=c("lightslategray", "lavender", "lightskyblue"), axes=F, xlab="tasso
di occupazione (in %)", cex.main=1.5)
# Avendo eliminato gli assi, è possibile ricostruirli a piacimento:
> xticks <- c(0,2,4,6,8,10,12,14,16,18,20,22,24,26)
> axis(side=1, at=xticks, labels=xticks)
> legend(locator(1), legend=c("Nord", "Centro", "Sud"),
col=c("lightslategray","lavender", "lightskyblue"), pch=c(15,15),
bty="n", cex=1)
Grafico 5
*analisi effettuata su n=6311 individui, di cui 3708 del Nord, 1261 del Centro e 1342 del Sud
Analizzando la situazione occupazionale all’interno dei vari settori a livello macroregionale, così
come rappresentata nel grafico 5, emerge come la distribuzione degli occupati sia abbastanza
omogenea nelle tre macroaree di interesse, in quanto le percentuali di occupati tra i vari settori
non presentano differenze significative. Al Nord prevale il settore dell’industria in senso stretto –
con una percentuale del 24% - seguito dal settore del commercio (15%) e dai suddetti servizi,
con percentuali pari al 12% circa per ciascun settore. Lo stesso si registra per il Centro.
L’economia del Mezzogiorno segue all’incirca lo stesso andamento, con la differenza che il
settore che presenta la maggior percentuale di occupati è quello del commercio – con una
percentuale pari al 22% - seguito dall’industria in senso stretto (15%) e dai restanti servizi. Bassi,
invece, risultano i tassi di occupazione rilevati per le imprese finanziarie e assicurative, per i
servizi di informazione e comunicazione e gli altri settori esaminati, su tutto il territorio nazionale.
Si termina così questa prima parte dell’analisi del campione, per poi entrare nel vivo della
trattazione e soffermarsi su quelli che sono i più rilevanti indicatori della condizione occupazione
dei giovani italiani, quali il reddito e le tipologie contrattuali .
17
CAPITOLO DUE
IL GENDER GAP
L'uguaglianza tra le condizioni sociali, economiche e culturali di uomini e donne nel nostro Paese
è ancora lontana. A dirlo è l'ultimo Global Gender Gap Report7
, che mette in evidenza dati
secondo i quali l'universo femminile è ancora penalizzato a livello di identità di genere.
Eppure, dal 13 febbraio 1881, data in cui fu usato per la prima volta il termine "femminismo" per
indicare le mobilitazioni per il diritto di voto in Francia, è passato molto tempo. Ma sembra che,
nonostante le donne studino di più e non si sposino più a tutti i costi, siano ancora relegate a
spettatrici del successo dei colleghi uomini.
Compongono il concetto di “gender gap” tutte quelle disparità che si riscontrano a livello di
condizioni economiche, di accesso al lavoro, sociali e di istruzione che influenzano le vite degli
esseri umani, in base al loro genere sessuale di appartenenza. Tradizionalmente, quando si parla
di gender gap, si tende a osservare l'esistenza di maggiori penalizzazioni per le donne rispetto
agli uomini.
Nonostante l'Italia sia l'ottava economia del mondo e il 51% della popolazione italiana sia
costituita da donne, siamo solo al cinquantesimo posto su 144 nazioni indagate dal report,
sorpassati da Burundi, Serbia e Mozambico. Eppure, le donne studiano di più e vivono tre anni
in più rispetto agli uomini. A pesare sulla disparità sono l'economia e la politica.
Secondo il Global Gender Gap Report solo il 54% delle donne infatti lavora e, chi lo
fa, guadagna 0.48 € per ogni euro guadagnato dai colleghi maschi. Il salario annuo di una
donna ammonta a 23mila euro. Quello di un uomo, 44mila.
Ma come cambia lo scenario per chi si immette nel mondo del lavoro per la prima volta? Le
giovani donne vivono la disparità di genere in egual misura rispetto alle loro madri?
2.1 Il “gender pay gap” nella generazione dei Millennials
Il campione oggetto di questo studio è composto da 6639 (50,47%) uomini e 6516 (49,53%)
donne. Tuttavia, per poter analizzare le differenze salariali di genere si è dovuto tenere conto solo
di quegli individui che hanno fornito informazioni in merito alla retribuzione mensile netta
percepita. Tali individui hanno formato un sotto-campione di dimensioni ridotte, composto da
2968 uomini e 2301 donne, per un totale di 5269.
Di seguito viene riportato il procedimento per la scrematura del campione, utile per la creazione
di un boxplot che evidenzi, laddove presente, il gender pay gap nel sotto-campione poc’anzi
menzionato.
7
Il Global Gender Gap Report, introdotto dal World Economic Forum nel 2006, fornisce un quadro che mostra
l'ampiezza e la portata del divario di genere in tutto il mondo. Per ogni nazione l'indice fissa uno standard del divario di
genere basandosi su criteri economici, politici, educazione e salute, e fornisce una classifica dei paesi, permettendo un
confronto efficace sia tra regioni che gruppi di reddito nel tempo. (Fonte: Wikipedia)
18
# Per poter analizzare la differenza nelle retribuzioni medie fra uomo e
donna, è necessario eliminare dai dati presenti nella variabile RETRIB gli
NA.
> retribuzioni <- dati$RETRIB[!is.na(dati$RETRIB)]
# Se inizialmente i valori delle retribuzioni erano pari a 13155 (la
numerosità del campione), avendo eliminato i missing value si avrà:
> length(retribuzioni)
[1] 5269
# Di conseguenza, dovendo lavorare su variabili della stessa lunghezza,
dovrà essere filtrata anche la variabile SESSO in modo tale da renderla di
lunghezza pari a 5269:
> sesso <- dati$SESSO
> sesso.retrib <- sesso[retribuzioni]
> length(sesso.retrib)
[1] 5269
# A questo punto, è possibile ricavare la retribuzione degli uomini e quella
delle donne:
retrib.donne <- retribuzioni[sesso.retrib==2]
retrib.uomini <- retribuzioni[sesso.retrib==1]
# La media di retribuzione degli uomini e delle donne sarà:
> media.donne <- mean(retrib.donne)
> media.uomini <- mean(retrib.uomini)
> media.donne
[1] 1025.228
> media.uomini
[1] 1208.315
# È possibile ora lanciare il comando per ottenere il boxplot:
> boxplot(retrib.uomini, retrib.donne, names=c("Uomini", "Donne"),
col=c("lightblue","pink"), main="Differenze retributive medie di genere",
ylab="retribuzione netta mensile in Euro", xlab="Genere")
19
# Per ricavare i valori della mediana per entrambi i boxplot, si utilizza
il comando quantile():
> quantile(retrib.uomini)
0% 25% 50% 75% 100%
250 1000 1200 1400 3000
> quantile(retrib.donne)
0% 25% 50% 75% 100%
250 700 1000 1300 3000
# A questo punto, per una più facile lettura, viene inserito manualmente
il valore delle mediane:
> text(locator(1), "1200")
> text(locator(1), "1000")
Grafico 6
*campione composto da n= 5269 individui, di cui 2968 uomini e 2301 donne
20
Facendo una proporzione tra la retribuzione media maschile e quella femminile8
a fronte di 1€
guadagnato dai giovani occupati maschi, le giovani donne guadagnano circa 0.85€.
Si tratta comunque di una situazione di diseguaglianza, seppure non accentuata quanto quella
indicata nel Global Gender Report.
2.2 Differenze di genere nel più alto livello di istruzione
raggiunto
Storicamente l’accesso delle donne all’istruzione, specialmente ai livelli più alti, è stato molto
limitato, soprattutto a causa di un retaggio culturale molto tradizionalista all’interno delle famiglie;
questa tendenza ha iniziato a cambiare negli anni '60, quando le donne hanno iniziato ad
acquisire maggior capacità di autodeterminazione su ogni aspetto della loro vita.
Questo tipo di dinamica è stata poi resa confermata da vari studi che testimoniano come il livello
di scolarità femminile sia costantemente cresciuto negli ultimi 50 anni. Oggi, nel 2019, il numero
di donne laureate è leggermente superiore a quello degli uomini laureati.
# Si costruisce la matrice delle frequenze assolute, tra le variabili TISTUD
- riclassificata in 4 macrogruppi- e SESSO (1 uomini, 2 donne):
> dati$TISTUD <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo', 'No
titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale',
'Laureati triennale','Laureati magistrale', 'Laureati magistrale'))
> matrice.tistud.sesso <- as.matrix(table(dati$SESSO,dati$TISTUD))
> barplot.tistud.sesso <- barplot(matrice.tistud.sesso, beside=T,
ylim=c(0,4000), col=c("lightblue", "pink"), main="Livello di istruzione
del sottocampione", ylab="Frequenze assolute", cex.axis=1.5, cex.sub=1.5,
font.sub=2)
> text(barplot.tistud.sesso, y=matrice.tistud.sesso, pos=3,
labels=paste(as.vector(round(matrice.tistud.sesso)), "", sep=""), cex=1)
> legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue",
"pink"), pch=c(15,15), bty="n", cex=1.5)
8
1208.315 : 1025.228 = 1 : x → dove 1208.315 è la retribuzione media degli uomini (in €) e 1025.228 è la retribuzione
media delle donne (in €).
21
Come mostrato nel grafico di seguito proposto, le donne in possesso di laurea facenti parte del
campione, sono più numerose degli uomini laureati; viceversa accade per i titoli di studio inferiori.
Si può affermare, dunque, che le donne siano – in media – più istruite degli uomini.
Ciononostante, come si evidenzierà nelle pagine successive, gli uomini percepiscono retribuzioni
più alte rispetto alle donne.
Grafico 7
**campione composto da n= 5269 individui, di cui 2968 uomini e 2301 donne
2.3 Le retribuzioni per livello di istruzione
Nel 2015 l’Istat ha condotto un’indagine sulla composizione degli occupati per genere e classe di
età anagrafica, rilevando un forte divario salariale fra gli uomini e le donne laureati. Questo
perché, secondo alcuni, il fatto che le donne laureate fossero mediamente più giovani degli uomini
andava a ripercuotersi anche sui livelli retributivi.
Considerando il sistema nazionale, che in termini retributivi ha come elemento distintivo gli scatti
di anzianità, viene facile pensare che, a età media inferiore, corrisponde una retribuzione
inferiore. Motivo per cui, già a distanza di soli 3 anni, il gap con gli uomini si è ristretto, avendo le
22
donne raggiunto con maggiore frequenza quei ruoli che nel 2015 erano prevalentemente ricoperti
da uomini.
# Al fine di lavorare unicamente con gli individui che hanno effettivamente
dato informazioni sulla retribuzione mensile percepita, partendo dal
dataset iniziale, si fa ricorso alla funzione filter(), la quale permette
di creare un nuovo data frame (dati2) in cui la variabile RETRIB non
presenta missing values:
> library(dplyr)
> dati2 <- filter(dati, dati$RETRIB!="NA")
# Allo stesso modo, sempre attraverso la funzione filter(), da dati2 si
estraggono e suddividono gli individui in base al titolo di studio
conseguito in 3 classi: ‘laureati’, ‘diplomati’ e ‘no titolo’:
> laureati <- filter(dati2, dati2$TISTUD=="7"|dati2$TISTUD=="8" |
dati2$TISTUD=="9" | dati2$TISTUD=="10")
> diplomati <- filter(dati2, dati2$TISTUD=="4" | dati2$TISTUD=="5" |
dati2$TISTUD=="6")
> no.titolo <- filter(dati2, dati2$TISTUD=="1" | dati2$TISTUD=="2" |
dati2$TISTUD=="3")
# Per ciascuno di questi data frame si isolano le retribuzioni di uomini e
donne, al fine di calcolare le rispettive medie. Per i laureati:
> retrib_u.l <- laureati$RETRIB[laureati$SESSO==1] # retribuzioni
uomini laureati
> retrib_d.l <- laureati$RETRIB[laureati$SESSO==2] # retribuzioni
donne laureate
# Per i diplomati:
> retrib_u.d <- diplomati$RETRIB[diplomati$SESSO==1] # retribuzioni
uomini diplomati
> retrib_d.d <- diplomati$RETRIB[diplomati$SESSO==2] # retribuzioni
donne diplomate
# Per i no titolo:
> retrib_u.nt <- no.titolo$RETRIB[no.titolo$SESSO==1] # retribuzioni
uomini no titolo
23
> retrib_d.nt <- no.titolo$RETRIB[no.titolo$SESSO==2] # retribuzioni
donne no titolo
# Con le retribuzioni così ottenute si definiscono due vettori, uno per gli
uomini e uno per le donne, contenenti le rispettive retribuzioni medie
associate a ciascun titolo:
> x <- c(mean(retrib_u.l), mean(retrib_u.d), mean(retrib_u.nt))
> y <- c(mean(retrib_d.l), mean(retrib_d.d), mean(retrib_d.nt))
# Essi, combinati tra loro attraverso il comando rbind(), andranno a formare
la matrice delle retribuzioni:
> matrice_retrib <- rbind(x, y)
> dimnames(matrice_retrib)[[1]]<- c("uomo", "donna")
> dimnames(matrice_retrib)[[2]]<- c("laurea", "diploma", "no titolo")
# Ciò è utile per la rappresentazione del seguente grafico a barre:
> retrib_nazionali <- barplot(matrice_retrib, beside=T, ylim= c(0,1800),
col=c("lightblue", "pink"), main="Livello di retribuzione medio per
titolo di studio", ylab="retribuzione media mensile netta in Euro",
names.arg=c("Laureati", "Diplomati", "No titolo"))
> text(retrib_nazionali, y=matrice_retrib,
labels=paste(round(matrice_retrib), "€", sep=""), pos=3)
> legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue",
"pink"), pch=c(15,15), bty="n")
N.B. in allegato è possibile visionare un procedimento alternativo, attraverso cui è stato possibile giungere alle medesime
conclusioni utilizzando il ciclo for (si veda, Allegato “Procedimenti Alternativi” §1).
24
A dispetto di quanto concluso nelle indagini effettuate nel 2015, la differenza maggiore fra la
retribuzione media mensile degli uomini e delle donne si ha per quel gruppo di individui che non
ha conseguito il diploma.
All’aumentare del grado di istruzione raggiunto, infatti, il gender pay gap si restringe: fra un uomo
e una donna, entrambi in possesso di laurea, si registra una differenza salariale pari a €177.
2.4 L’effetto del titolo di studio sulla retribuzione percepita
Gli stessi risultati finora discussi possono essere raggiunti implementando una regressione
multipla del reddito in funzione del livello di istruzione e del genere, che tenga conto anche dei
termini di interazione tra i regressori. Al fine di una più immediata interpretazione si definiscono
le seguenti variabili di interesse:
➢ RETRIB, corrispondente alla variabile dipendente 𝑌𝑖 ;
➢ TISTUD, ossia uno dei regressori. Essa, essendo riclassificata su 4 livelli (‘No titolo’, ‘Diplomati’,
‘Laureati triennale’ e ‘Laureati magistrale’) è una variabile non misurabile numericamente - ossia
categorica - pertanto, è necessario ridefinirla in 4 nuove variabili binarie che possono assumere
solo valori 0 o 1 (cd. variabili Dummy):
Laureati Diplomati No titolo
Livello di retribuzione medio per titolo di studio
retribuzionemediamensilenettainEuro
050010001500
1395€
1218€ 1203€
965€
1110€
841€
Uomo
Donna
Grafico 8
*analisi effettuata su:
n=2986 uomini, di cui 463 laureati,1725 diplomati,780 no titolo;
n=2301 donne, di cui 729 laureate, 1199 diplomate, 373 no titolo.
25
𝑇𝑆1𝑖 = {
1 𝑠𝑒 𝑖 = 𝑛𝑜 𝑡𝑖𝑡𝑜𝑙𝑜
0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
}; 𝑇𝑆2𝑖 = {
1 𝑠𝑒 𝑖 = 𝑑𝑖𝑝𝑙𝑜𝑚𝑎𝑡𝑖
0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
} ;
𝑇𝑆3𝑖 = {
1 𝑠𝑒 𝑖 = 𝑡𝑟𝑖𝑒𝑛𝑛𝑎𝑙𝑒
0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
} ; 𝑇𝑆4𝑖 = {
1 𝑠𝑒 𝑖 = 𝑚𝑎𝑔𝑖𝑠𝑡𝑟𝑎𝑙𝑒
0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
} .
➢ SESSO, anch’essa variabile qualitativa e ulteriore regressore, viene ridefinita nelle due
seguenti variabili binarie:
𝑆1𝑖 = {
1 𝑠𝑒 𝑖 = 𝑢𝑜𝑚𝑜
0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
} ; 𝑆2𝑖 = {
1 𝑠𝑒 𝑖 = 𝑑𝑜𝑛𝑛𝑎
0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
} .
Da qui, si costruisce il seguente modello di regressione multipla:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑇𝑆2𝑖 + 𝛽2 𝑇𝑆3𝑖 + 𝛽3 𝑇𝑆4𝑖 + 𝛽4 𝑆2𝑖 +
+ 𝛽5( 𝑇𝑆2𝑖 ∗ 𝑆2𝑖) + 𝛽6( 𝑇𝑆3𝑖 ∗ 𝑆2𝑖) + 𝛽7( 𝑇𝑆4 ∗ 𝑆2𝑖) + 𝑢𝑖
dal quale si ottengono come risultato 8 rette differenti, che assumono pendenze diverse a
seconda della condizione che viene soddisfatta. Tale regressione può essere sviluppata in R in
modo molto più semplice e veloce, utilizzando la funzione lm(), come di seguito esposto:
# Per praticità si rinominano le variabili come segue:
sesso <- as.factor(dati$SESSO)
reddito <- dati$RETRIB
tistud.4 <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo', 'No
titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale',
'Laureati triennale','Laureati magistrale', 'Laureati magistrale'))
# Attraverso la funzione lm() è possibile riassumere la distribuzione dei
dati adattandola ad un modello lineare. Si effettua, dunque, una regressione
multipla che ha come variabile dipendente il reddito mensile netto e come
regressori il titolo di studio conseguito e il genere dell’individuo,
considerando i termini di interazione tra questi ultimi.
> regressione <- lm(reddito ~ tistud.4 + sesso + tistud.4:sesso)
> summary(regressione)
26
# summary() è una funzione che produce come risultato la sintesi di tutte
le variabili contenute nel primo argomento, e in questo caso contiene una
serie di informazioni per valutare il fit del modello e i parametri delle
rette.
# Nel dettaglio: la prima parte (Call) riporta la formula di R usata per
il fit; la seconda parte riassume la distribuzione dei residui, cioè gli
scarti dei valori osservati da quelli stimati dal modello; la terza parte
presenta invece i parametri stimati, ossia i coefficienti, l’errore
standard del parametro stimato e il test t, basato sulla distribuzione t
di Student, dell’ipotesi nulla che il parametro sia nullo. Infine, l’ultima
parte riporta alcuni indicatori relativi alla bontà dell’adattamento del
modello: il residual standard error, altro non è che la radice dell’errore
quadratico medio (errore di predizione); R-squared, ossia la proporzione
di varianza dei dati osservati ‘spiegata’ dal modello, ed infine la
statistica F, che si riferisce a un test d’ipotesi congiunta sui regressori
del modello, per cui gli stessi siano tutti uguali a zero.
Dall’output di regressione si evince che la retribuzione media degli uomini in possesso di un titolo
di studio inferiore al diploma, rappresentato dall’intercetta β0, risulta essere pari a 1109.87€.
Valore, questo, che per gli stessi uomini tende progressivamente ad aumentare al crescere del
livello di istruzione conseguito.
Come è possibile osservare, infatti, a ciascun titolo di studio è associato un rispettivo coefficiente,
volto ad indicare l’incremento di retribuzione in funzione del titolo ottenuto: per gli uomini in
possesso di diploma, la retribuzione media si incrementa di +92.91€, raggiungendo quota
1202.78€; per quelli che hanno conseguito una laurea di I livello, la retribuzione media si assesta
intorno ai 1316.73€, con un incremento di +206.86€; infine, per coloro in possesso di una laurea
di II livello, la media retributiva sale a 1458.47€, registrando un aumento di +348.60€.
In ogni caso, dunque, l’effetto dei diversi titoli di studio posseduti sulla retribuzione media è
positivo, progressivamente crescente quanto più è alto il titolo conseguito, e significativamente
27
diverso da zero: a dimostrazione di ciò, basti osservare il livello di significatività dei rispettivi
coefficienti.
«Ma, tra tutti questi dati, dove e come si posizionano le donne? A quanto ammonta il gap
retributivo, in funzione del titolo di studio da esse conseguito?» Per rispondere a tali interrogativi
la regressione considera, come ulteriore regressore, il genere - una variabile indipendente binaria
- che si accende solo se l’individuo oggetto di studio è donna.
Nell’output sopra ottenuto, si può osservare come il coefficiente della variabile “sesso2” - che
rappresenta null’altro che il cosiddetto “effetto donna” - sia significativamente diverso da 0 e
negativo: il solo fatto di essere una donna ha, dunque, un impatto negativo sulla retribuzione
media mensile (1109.87€), pari a -268.53€.
Pertanto, la retribuzione media percepita da una donna in possesso di un titolo di studio inferiore
al diploma sarà pari all’intercetta al netto dell’effetto donna, ossia
1109.87 - 268.53 = 841€.
Allo stesso modo, dalle interazioni calcolate tra l’”effetto donna” e il titolo di studio posseduto, è
possibile ottenere le differenze di retribuzione in funzione del livello di istruzione conseguito: per
le donne in possesso di diploma, la retribuzione media si incrementa di +123,81€, raggiungendo
quota 965.18€; per coloro che hanno conseguito una laurea di I livello, la retribuzione media si
assesta intorno ai 1162.81€, con un incremento di +321,47€; infine, per quelle donne in possesso
di una laurea di II livello, la media retributiva sale a 1265.86€, registrando un aumento di +
424.52€ .
Sembra evidente come, dai dati sopra riportati, le donne godrebbero di un incremento retributivo,
progressivamente crescente per titoli di studio più elevati, maggiore di quello previsto per gli
uomini (ad esempio 424.52€ per le laureate magistrali contro i 348.60€ degli uomini). Tuttavia, le
retribuzioni medie finali rivelano come a guadagnare di meno, per tutti i titoli di studio osservati,
siano proprio le donne: dato che potrebbe sembrare fuorviante con quanto precedentemente
detto, ma che trova riscontro nel fatto che ad impattare fortemente sulle retribuzioni medie sia
proprio l’”effetto donna”.
I più scettici potrebbero pensare ad un vero e proprio fenomeno discriminatorio, e chissà se non
sia proprio così: resta il fatto che l’essere donna in quanto tale, impatta molto più dell’effetto
generato da qualsiasi titolo di studio posseduto, andando ad annullarne i benefici.
Per semplicità esplicativa, i diversi risultati possibili della regressione sono rappresentati nella
Tabella 1, riportata di seguito.
Tabella 1: risultati regressione multipla con interazioni fra variabili
𝒀𝒊 = 𝑺𝟐𝒊 = 𝟏
(𝑑𝑜𝑛𝑛𝑎)
𝑺𝟐𝒊 = 𝟎
(𝑢𝑜𝑚𝑜)
𝑻𝑺𝟐𝒊 = 𝑻𝑺𝟑𝒊 =
= 𝑻𝑺𝟒 = 𝟎
(𝑁𝑜 𝑡𝑖𝑡𝑜𝑙𝑜)
𝛽0 + 𝛽4 =
= 1109.87 − 268.53 =
841.34
𝛽0 = 1109.87
𝑻𝑺𝟐𝒊 = 𝟏
(𝐷𝑖𝑝𝑙𝑜𝑚𝑎𝑡𝑖)
𝛽0 + 𝛽1 + 𝛽4 + 𝛽5 =
= 1109.87 + 92.91 − 268.53 + 30.9 =
= 965.18
𝛽0 + 𝛽1 =
= 1109.87 + 92.91 =
= 1202.78
𝑻𝑺𝟑𝒊 = 𝟏
(𝐿𝑎𝑢𝑟𝑒𝑎𝑡𝑖 𝑡𝑟𝑖𝑒𝑛𝑛𝑎𝑙𝑒)
𝛽0 + 𝛽2 + 𝛽4 + 𝛽6 =
= 1109.87 + 206.86 − 268.53 + 114.61 =
= 1162.81
𝛽0 + 𝛽2 =
= 1109.87 + 206.86 =
= 1316.73
𝑻𝑺𝟒𝒊 = 𝟏
(𝐿𝑎𝑢𝑟𝑒𝑎𝑡𝑖 𝑚𝑎𝑔𝑖𝑠𝑡𝑟𝑎𝑙𝑒)
𝛽0 + 𝛽3 + 𝛽4 + 𝛽7 =
= 1109.87 + 348.60 − 268.53 + 75.92 =
= 1265.86
𝛽0 + 𝛽3 =
= 1109.87 + 348.60 =
= 1458.47
28
In definitiva, si può senza dubbio evincere come il Gender pay gap esista e sia fortemente
accentuato tra i Millennials, in particolare misura tra coloro che posseggono un titolo di studio
inferiore al diploma, dal momento in cui la differenza di salario medio tra uomini e donne è ben di
268.53€, a discapito di queste ultime. Per di più, rispetto a quanto avviene per gli uomini in cui le
discrepanze retributive registrano variazioni importanti per titoli di studio sempre più alti, per le
donne tali differenze risultano meno accentuate: addirittura, l’”effetto laurea triennale”, per esse,
risulta essere maggiore dell’”effetto laurea magistrale”. Indubbiamente un risultato inaspettato
questo, dovuto probabilmente al fatto che, del nostro campione osservato al momento della
rilevazione, le donne con laurea triennale avessero maggiori anni di esperienza lavorativa (con
conseguenti scatti di anzianità ecc.), essendo entrate prima nel mondo del lavoro.
È infine opportuno, per maggiore chiarezza delle rilevazioni ottenute, fare ulteriori due
considerazioni: innanzitutto, è importante osservare che i termini di interazione tra l’”effetto
donna” con l’”effetto diploma” e con l’”effetto laurea magistrale” non sono significativi, ossia non
impattano in modo rilevante sulla retribuzione; poi, osservando il valore dell’R-quadro, si nota
come tale regressione spieghi solo il 12% della varianza dei dati osservati. Pertanto, nonostante
tale regressione sembri fatta bene, non si può ritenere essere immune da problemi di validità
interna, come ad esempio variabili omesse rilevanti, misspecificazione, errori di misurazione nelle
variabili o casualità simultanea: tutti aspetti che possono portare all’inconsistenza e/o alla
distorsione degli stimatori.
Di seguito, si è ritenuto opportuno riportare un grafico di dispersione che riassuma al suo interno
i risultati empirici fin qui osservati.
# Si costruisce un grafico di dispersione con le variabili utilizzate nella
regressione al fine di mostrare come sono distribuite le retribuzioni in
funzione del titolo di studio e del genere. Innanzitutto, si configurano i
parametri grafici attraverso la funzione par(), specificando- mediante gli
argomenti mai e las - rispettivamente le misure della finestra e
l’orientamento delle etichette :
> par(mai=c(1,2,1,1), las=2)
> plot(reddito, tistud.4, yaxt="n", ann=F)
> title(xlab="retribuzioni", main="Retribuzioni per titolo di studio e
genere")
> axis(side=2, at=(1:4), labels= c("No titolo" , "Diploma", "Triennale",
"Magistrale"))
# Si rappresentano in celeste gli uomini e in rosa le donne:
> points(reddito[sesso==1],tistud.4[sesso==1], col="cyan")
> points(reddito[sesso==2],tistud.4[sesso==2], col="deeppink")
# Dopodiché, con il comando points() si evidenziano le retribuzioni medie
associate a ciascuna categoria:
> medie_uomini<- c(1110,1203,1317,1458)
> medie_donne <- c(841,965,1163,1265)
29
> points(medie_donne,y=c(1,2,3,4), col="mediumvioletred", pch=16, cex=2)
> points(medie_uomini,y=c(1,2,3,4), col="cyan2", pch=16, cex=2)
# Tali punti vengono poi uniti tra loro con due linee, una per gli uomini
e una per le donne, attraverso il comando lines():
> lines(x=medie_uomini, y=c(1,2,3,4), type="l", col="cyan2")
> lines(x=medie_donne, y=c(1,2,3,4), type="l", col="mediumvioletred")
> legend(locator(1), legend=c("Uomo", "Donna","Medie uomo","Medie
donna"), col=c("cyan","deeppink","cyan2","mediumvioletred"),
pch=c(1,1,16,16), bty="n")
Grafico 9
*analisi effettuata su un campione di n=5269 individui, di cui 2968 uomini e 2301 donne
Dal grafico emerge quanto già ampiamente discusso in precedenza, ossia che per ogni livello di
istruzione la retribuzione media delle donne è sempre inferiore rispetto a quella percepita dagli
uomini. Ciò spiega la maggiore concentrazione, a parità di titolo di studio, di individui femminili
in corrispondenza di fasce di reddito più basse, rispetto agli uomini che, invece, risultano essere
maggiormente presenti tra i valori positivamente anomali rispetto alla media nazionale.
2.5 Il gender pay gap nelle macroregioni
Un’analisi più approfondita del campione permette inoltre di verificare se tali livelli retributivi
siano stabili su tutto il territorio nazionale o se, a parità di condizioni - genere e titolo di studio -
vi siano differenze a livello macroregionale.
30
# A partire dai data frame creati in precedenza: ‘laureati’, ‘diplomati’ e
‘no titolo’
> library(dplyr)
> laureati <- filter(dati2,
dati2$TISTUD=="7"|dati2$TISTUD=="8"|dati2$TISTUD=="9"|dati2$TISTUD=="10")
> diplomati <- filter(dati2, dati2$TISTUD=="4" | dati2$TISTUD=="5" |
dati2$TISTUD=="6")
> no.titolo <- filter(dati2, dati2$TISTUD=="1" | dati2$TISTUD=="2" |
dati2$TISTUD=="3")
# si estraggono per ciascuna categoria gli uomini e le donne in base alla
propria macroregione di appartenenza: Nord (RIP3=1), Centro (RIP3=2) e Sud
(RIP3=3); al fine di isolare le corrispondenti retribuzioni.
# Per i laureati:
> retrib_u.l.nord <- laureati$RETRIB[laureati$SESSO==1&laureati$RIP3==1]
# uomini nord
> retrib_u.l.centro <-laureati$RETRIB[laureati$SESSO==1&laureati$RIP3==2]
# uomini centro
> retrib_u.l.sud <- laureati$RETRIB[laureati$SESSO==1&laureati$RIP3==3]
# uomini sud
> retrib_d.l.nord <- laureati$RETRIB[laureati$SESSO==2&laureati$RIP3==1]
# donne nord
> retrib_d.l.centro <-laureati$RETRIB[laureati$SESSO==2&laureati$RIP3==2]
# donne centro
> retrib_d.l.sud <- laureati$RETRIB[laureati$SESSO==2&laureati$RIP3==3]
# donne sud
# Per i diplomati:
> retrib_u.d.nord<-diplomati$RETRIB[diplomati$SESSO==1&diplomati$RIP3==1]
# uomini nord
> retrib_u.d.centro<-
diplomati$RETRIB[diplomati$SESSO==1&diplomati$RIP3==2] # uomini centro
> retrib_u.d.sud<- diplomati$RETRIB[diplomati$SESSO==1&diplomati$RIP3==3]
# uomini sud
> retrib_d.d.nord <-
diplomati$RETRIB[diplomati$SESSO==2&diplomati$RIP3==1] # donne nord
31
> retrib_d.d.centro <-
diplomati$RETRIB[diplomati$SESSO==2&diplomati$RIP3==2] # donne centro
> retrib_d.d.sud <-diplomati$RETRIB[diplomati$SESSO==2&diplomati$RIP3==3]
# donne sud
# Per i no titolo:
> retrib_u.nt.nord <-
no.titolo$RETRIB[no.titolo$SESSO==1&no.titolo$RIP3==1] # uomini nord
> retrib_u.nt.centro <-
no.titolo$RETRIB[no.titolo$SESSO==1&no.titolo$RIP3==2] # uomini centro
> retrib_u.nt.sud <-
no.titolo$RETRIB[no.titolo$SESSO==1&no.titolo$RIP3==3] # uomini sud
> retrib_d.nt.nord <-
no.titolo$RETRIB[no.titolo$SESSO==2&no.titolo$RIP3==1] # donne nord
> retrib_d.nt.centro <-
no.titolo$RETRIB[no.titolo$SESSO==2&no.titolo$RIP3==2] # donne centro
> retrib_d.nt.sud <-
no.titolo$RETRIB[no.titolo$SESSO==2&no.titolo$RIP3==3] # donne sud
# Per ogni categoria si definiscono due vettori, uno per gli uomini e uno
per le donne, contenenti i livelli medi di retribuzione in base alla
ripartizione geografica di appartenenza, necessari per la costruzione delle
corrispondenti matrici. Partendo dai laureati:
> x.laurea <- c(mean(retrib_u.l.nord), mean(retrib_u.l.centro),
mean(retrib_u.l.sud))
> y.laurea <- c(mean(retrib_d.l.nord), mean(retrib_d.l.centro),
mean(retrib_d.l.sud))
> matrice.retrib_laurea <- rbind(x.laurea,y.laurea)
> dimnames(matrice.retrib_laurea)[[1]] <- c("uomo", "donna")
> dimnames(matrice.retrib_laurea)[[2]] <- c("Nord", "Centro", "Sud")
# Si esegue lo stesso procedimento per i diplomati…
> x.diploma <- c(mean(retrib_u.d.nord), mean(retrib_u.d.centro),
mean(retrib_u.d.sud))
> y.diploma <- c(mean(retrib_d.d.nord), mean(retrib_d.d.centro),
mean(retrib_d.d.sud))
> matrice.retrib_diploma <- rbind(x.diploma, y.diploma)
> dimnames(matrice.retrib_diploma)[[1]] <- c("uomo", "donna")
32
> dimnames(matrice.retrib_diploma)[[2]] <- c("Nord", "Centro", "Sud")
# … e per i no titolo:
> x.no.titolo <- c(mean(retrib_u.nt.nord), mean(retrib_u.nt.centro),
mean(retrib_u.nt.sud))
> y.no.titolo <- c(mean(retrib_d.nt.nord), mean(retrib_d.nt.centro),
mean(retrib_d.nt.sud))
> matrice.retrib_no.titolo <- rbind(x.no.titolo, y.no.titolo)
> dimnames(matrice.retrib_no.titolo)[[1]] <- c("uomo", "donna")
> dimnames(matrice.retrib_no.titolo)[[2]] <- c("Nord", "Centro", "Sud)
# Attraverso l’argomento mfcol, specificato nella funzione par() – utile
per impostare i parametri grafici- si prepara la finestra grafica ad
accogliere tre grafici uno accanto all’altro:
> par(mfcol=c(1,3)) # indica ad R di dividere la finestra
in 1 riga e 3 colonne
# Senza chiudere la finestra, si procede con l’inviare i comandi dei
grafici che si intende rappresentare:
# barplot per i laureati
> retrib_laureati<- barplot(matrice.retrib_laurea, beside=T, ylim=
c(0,1800), col=c("lightblue", "pink"), sub="Laureati", ylab="retribuzione
media mensile netta in Euro",cex.axis=1.5, cex.sub=1.5, font.sub=2)
> text (retrib_laureati,y=(matrice.retrib_laurea), pos=3,
labels=paste(as.vector(round(matrice.retrib_laurea)),"€",sep=""),cex=1)
> legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue",
"pink"), pch=c(15,15), bty="n", cex=1.5)
# barplot per i diplomati
> retrib_diplomati <- barplot(matrice.retrib_diploma, beside=T,
ylim=c(0,1800), col=c("lightblue", "pink"), sub="Diplomati",
ylab="retribuzione media mensile netta in Euro",cex.axis=1.5,
cex.sub=1.5, font.sub=2)
> text(retrib_diplomati,y=matrice.retrib_diploma, pos=3,
labels=paste(as.vector(round(matrice.retrib_diploma)),"€", sep=""),cex=1)
> title("Livelli di retribuzione medi per titolo conseguito",
cex.main=1.5)
# barplot per i no titolo
33
> retrib_no.titolo <- barplot(matrice.retrib_no.titolo, beside=T,
ylim=c(0,1800), col=c("lightblue", "pink"), sub="No titolo",
ylab="retribuzione media mensile netta in Euro", cex.axis=1.5,
cex.sub=1.5, font.sub=2)
> text(retrib_no.titolo,y=matrice.retrib_no.titolo, pos=3, cex=1,
labels=paste(as.vector(round(matrice.retrib_no.titolo)),"€", sep="")
N.B. in allegato è possibile visionare un procedimento alternativo, attraverso cui è stato possibile giungere alle medesime
conclusioni utilizzando il ciclo for (si veda, Allegato “Procedimenti Alternativi” §2).
Il grafico conferma che, anche per gli under 34, i dati delle retribuzioni forniscono uno spaccato
abbastanza eterogeneo dell’Italia. Un laureato uomo del Nord guadagna circa 200€ in più di un
laureato del sud e la differenza resta pressoché la stessa anche per il genere femminile,
quest’ultimo caratterizzato, però, da livelli retributivi ancora più bassi.
I più pignoli, tuttavia, potrebbero individuare non pochi dettagli che renderebbero questi dati poco
rappresentativi: si pensi, ad esempio, all’alto costo della vita al Nord oppure all’evasione fiscale,
un fenomeno che coinvolge molto più il meridione che le altre macroregioni italiane. Ma che il
lavoro nero ci sia o meno, non si può certo negare che la maggior parte delle famiglie del sud non
navighi nell’oro e che, inoltre, molti giovani siano costretti a spostarsi al Nord per ambire a
condizioni lavorative più gratificanti. È stato addirittura sottolineato, alla luce della nuova iniziativa
proposta nella Legge di Bilancio 2019 dal Movimento Cinque Stelle, che non ci sarà una grossa
differenza tra quanto guadagnato da molti lavoratori e quanto avuto da chi potrà usufruire
del Reddito di Cittadinanza, in quanto i giovani italiani guadagnano in media poco più dei €780
Nord Centro Sud
Laureati
retribuzionemediamensilenettainEuro
050010001500
1436€
1279€
1397€
1164€
1232€
1059€
Uomo
Donna
Nord Centro Sud
Diplomati
retribuzionemediamensilenettainEuro
050010001500
1287€
1029€
1123€
914€
1033€
822€
Livelli di retribuzione medi per titolo conseguito
Nord Centro Sud
No titolo
retribuzionemediamensilenettainEuro
050010001500
1194€
921€
1101€
797€
943€
640€
Grafico 10
*n laureati: 1192, di cui 463 uomini (296 nord,90 centro,77 sud) e 729 donne (469 nord, 124 centro, 136 sud);
*n diplomati: 2924, di cui 1725 uomini (1033 nord, 334 centro, 358 sud) e 1199 donne (719 nord, 248 centro, 232sud);
*n ‘no titolo’: 1153, di cui 780 uomini (415 nord, 165 centro, 200 sud) e 373 donne (227 nord, 72 centro, 74sud).
34
proposti dal Governo. La situazione – secondo Pierangelo Albini, direttore dell’area welfare
di Confindustria – potrebbe generare un forte disincentivo nel cercare un’occupazione dal
momento che non ci sarebbe un miglioramento delle proprie condizioni economiche9
.
2.6 Il contractual gender gap
Se dalle analisi finora condotte è stato possibile dedurre che il gender pay gap esista e sia
evidente, ci si chiede se si possa dire lo stesso anche per le principali tipologie contrattuali: i
contratti a tempo determinato e quelli a tempo indeterminato.
Secondo un’opinione comune sembra che, negli ultimi anni, il fenomeno della precarietà abbia
coinvolto più le donne che gli uomini, probabilmente per mitigare gli animi di coloro i quali
ritenevano discriminatorio l’atteggiamento dei datori di lavoro nei confronti del sesso debole. Si
stima infatti che il 77,1% dei Millennials occupati intervistati abbia un lavoro full-time, di cui solo il
27% è di sesso femminile10
. Il restante 22,9% possiede un lavoro a tempo parziale, di cui il 7,5%
è uomo, ma il 15,4% è donna.
A confermare la tesi secondo cui i giovani lavorano part-time perché costretti, sono gli stessi
intervistati: nella variabile MOTIV_PT sono state riassunte, infatti, le motivazioni che hanno spinto
gli stessi ad accettare un lavoro precario. Si rileva che dei 1447 individui assunti a tempo parziale
il 74% non ha trovato un lavoro a tempo pieno, mentre solo il 20% (di cui il 15% di sesso
femminile) ha scelto volontariamente un contratto più flessibile, per motivi legati allo studio, alla
salute, alla famiglia o per altri motivi personali11
.
In aggiunta, dal dataset in esame è possibile ricavare informazioni sulla posizione professionale
di ogni individuo. Si stima che circa 5269 giovani, pari all’83% degli individui occupati, lavori alle
dipendenze, mentre una più bassa percentuale (17%) è riservata ai giovani che svolgono un
lavoro autonomo.12
Essendo coloro i quali svolgono un lavoro indipendente una minoranza fra i
giovani intervistati, ci si servirà, nelle prossime analisi, di chi svolge un lavoro alle dipendenze per
evidenziare l’eventuale presenza di quello che viene definito il “contractual gender gap”.
In prima istanza, si effettuerà una verifica della percentuale di somministrazione di contratti a
tempo determinato e indeterminato, sia per gli uomini che per le donne; successivamente, verrà
aggiunta all’analisi la variabile TISTUD al fine di sottolinearne le differenze sulla base del titolo di
studio del campione di riferimento.
# Le variabili di interesse sono DETIND (=1 per il lavoro a tempo
determinato, e 2 per quello a tempo indeterminato) e SESSO (=1 per gli
uomini, 2 per le donne). si parte dalle loro frequenze assolute congiunte
> table(dati$SESSO,dati$DETIND)
1 2
1 1117 1851
9
Per approfondimenti, si veda “Al sud stipendi più bassi del reddito di cittadinanza”, di M. Costarella. URL: <
http://www.ntacalabria.it/notizie-evidenza/sud-stipendi-bassi-reddito-cittadinanza.html>
10
Il procedimento effettuato per ricavare tali percentuali è stato riportato nell’Apx 1.4, pt.1.
11
Il procedimento effettuato per ricavare tali percentuali è riportato nell’Apx 1.4, pt.2.
12
Il procedimento effettuato per ricavare tali percentuali è riportato nell’Apx 1.4, pt.3.
35
2 930 1371
# per poi calcolare le rispettive frequenze relative che, moltiplicate a
loro volta per 100 e arrotondate, fungono da base per la seguente
matrice:
> matrice_detind <-
as.matrix(round(prop.table(table(dati$SESSO,dati$DETIND), margin=2)*100))
> dimnames(matrice_detind)[[1]] <- c("uomo","donna")
> dimnames(matrice_detind)[[2]] <- c("A tempo determinato", "A tempo
indeterminato")
> matrice_detind
A tempo determinato A tempo indeterminato
uomo 55 57
donna 45 43
# Tale matrice è necessaria per la costruzione del seguente barplot:
> grafico_contr <- barplot(matrice_detind, beside=T, main=”Gender Gap per
tipologia contrattuale su base nazionale”,col=c(“lightblue”,”pink”),
ylab=”Frequenze relative in %”, ylim=c(0,80), cex.main=1.2)
> text(grafico_contr, y=matrice_detind,
labels=as.vector(round(matrice_detind1)), pos=3)
> legend(locator(1), legend=c(“Uomo”, “Donna”), col=c(“lightblue”,
“pink”), pch=c(15,15), bty=”n”)
36
Grafico 11
*campione composto da n=5269 individui, di cui 2968 uomini (1117 a tempo determinato e 1851 a tempo indeterminato)
e 2301 donne (939 a tempo determinato e 1371 a tempo indeterminato)
Dal grafico si evidenzia come per entrambe le tipologie contrattuali esista un divario tra gli uomini
e le donne, specialmente in corrispondenza di quelli a tempo indeterminato: infatti, il 57% degli
uomini è assunto a tempo indeterminato, contro il 43% delle donne.
Nonostante all’interno del campione le donne assunte a tempo indeterminato (26%) siano più
delle giovani assunte a tempo determinato (18%), la stipula di un contratto con clausola di stabilità
resta un fenomeno preponderante fra gli uomini (35%)13
.
Introducendo, come precedentemente accennato, la variabile riferita al titolo di studio
conseguito dai lavoratori dipendenti, si otterranno due rappresentazioni grafiche atte ad
evidenziare il gender gap rispettivamente per i contratti a tempo determinato e per quelli a tempo
indeterminato.
# Innanzitutto, si ricorda di ridurre i livelli di TISTUD da 10 a 4, così
da considerare soltanto i: “No titolo”, “Diplomati”, “Laureati
triennale”, “Laureati magistrale”.
> dati$TISTUD <- factor(dati$TISTUD, labels=c("No titolo", "No titolo",
"No titolo", "Diplomati", "Diplomati", "Diplomati", "Laureati triennale",
"Laureati triennale","Laureati magistrale", "Laureati magistrale"))
13
Il procedimento effettuato per ricavare tali percentuali è riportato in Apx 1.5.
A tempo determinato A tempo indeterminato
Gender Gap per tipologia contrattuale su base nazionale
Frequenzerelativein%
020406080
55
45
57
43
Uomo
Donna
37
# Da TISTUD vengono estratti gli uomini e le donne occupati a tempo
determinato:
> uom.det <- dati$TISTUD[dati$SESSO==1 & dati$DETIND==1]
> don.det <- dati$TISTUD[dati$SESSO==2 & dati$DETIND==1]
# Si costruisce poi la matrice, ottenuta considerando le frequenze
relative, arrotondate e moltiplicate per 100.
> matrice.det <- round(prop.table(as.matrix(rbind(table(uom.det),
table(don.det))), margin=2) *100)
> dimnames(matrice.det)[[1]] <- c("Uomini det","Donne det")
> matrice.det
No titolo Diplomati Laureati triennale Laureati magistrale
Uomini det 67 58 37 34
Donne det 33 42 63 66
# Dalla matrice, è dunque possibile costruire il barplot:
grafico_det <- barplot(matrice.det, beside=T, main="Gender Gap nei
contratti a tempo determinato per titolo di studio",
col=c("lightblue","pink"), ylab="Frequenze relative in %", ylim=c(0,80),
cex.main=1.2)
text(grafico_det, y=matrice.det, labels=as.vector(round(matrice.det)),
pos=3)
legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue", "pink"),
pch=c(15,15), bty="n")
38
Grafico 12
*campione composto da n=2047 individui, di cui 1117 uomini (282 No titolo, 672 Diplomati, 77 Laureati triennale e 86
laureati magistrale) e 930 donne (142 No titolo, 488 Diplomati, 133 Laureati triennale e 167 laureati magistrale)
Il gap che sussiste nei contratti di lavoro a tempo determinato tra uomini e donne è, come si
può osservare, fortemente influenzato dal titolo di studio rispettivamente conseguito. Più
specificamente, se per i “No titolo” (ovvero coloro che all’attivo posseggono un titolo inferiore al
diploma) si registra una più elevata percentuale di uomini assunti a tempo determinato (67%)
rispetto alle donne (33%), tale trend tende via via a ridursi, per poi capovolgersi per titoli di
studio più elevati: basti osservare come, per coloro che hanno conseguito una laurea
magistrale, il gap che si registra sfavorisca nettamente le donne, assunte a tempo determinato
con una percentuale del 67%, contro il 34% degli uomini.
Per quanto riguarda invece il gender gap nei contratti a tempo indeterminato:
#Da TISTUD, ridotto da 10 a 4 livelli, si estraggono gli uomini e le donne
occupate a tempo indeterminato:
> dati$TISTUD <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo', 'No
titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale',
'Laureati triennale','Laureati magistrale', 'Laureati magistrale'))
> uom.indet <- dati$TISTUD[dati$SESSO==1 & dati$DETIND==2]
> don.indet <- dati$TISTUD[dati$SESSO==2 & dati$DETIND==2]
39
# Successivamente si costruisce la matrice delle frequenze relative, da cui
ricavare il grafico:
> matrice.indet <- round(prop.table(as.matrix(rbind(table(uom.indet),
table(don.indet))), margin=2) *100)
> dimnames(matrice.indet)[[1]]<-c("Uomini indet","Donne indet")
> matrice.indet
No titolo Diplomati Laureati triennale Laureati magistrale
Uomini indet 68 60 39 43
Donne indet 32 40 61 57
# Per la costruzione del barplot:
> grafico_indet <- barplot(matrice.indet, beside=T, main="Gender Gap nei
contratti a tempo indeterminato per titolo di studio", ylim=c(0,80),
col=c("lightblue","pink"), ylab="Frequenze relative in %", cex.main=1.2)
> text(grafico_indet, y=matrice.indet,
labels=as.vector(round(matrice.indet)), pos=3)
> legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue",
"pink"), pch=c(15,15), bty="n")
Grafico 13
*campione composto da n=3222 individui, di cui 1851 uomini ( 498 No titolo, 1053 Diplomati, 131 Laureati triennale e
169 laureati magistrale) e 1371 donne ( 231 No titolo, 711 Diplomati, 205 Laureati triennale e 224 laureati magistrale)
40
Simile al caso precedentemente analizzato è la condizione occupazionale per gli individui del
campione assunti a tempo indeterminato. Se il gap risulta essere estremamente elevato per i
soggetti in possesso di un titolo di studio inferiore al diploma (confermando in ogni caso il
trattamento di sfavore nei confronti delle donne in merito ad una tipologia contrattuale più stabile)
man mano che il grado di istruzione aumenta si possono osservare due fenomeni: in primo luogo,
il gender gap tende ad assottigliarsi sempre più, nonostante le differenze percentuali tra uomini
e donne assunti a tempo indeterminato rimangano significative; in secondo luogo, a partire da
livelli di istruzione più elevati, come lauree di I e II livello, il trend tende a cambiare rotta,
registrando una maggiore percentuale di donne assunte a tempo indeterminato rispetto agli
uomini ( rispettivamente il 61% contro il 39% per i laureati triennali, e i 57% contro il 43% per i
laureati magistrali).
41
CAPITOLO TRE
BOOTSTRAP
Uno degli scopi principali della statistica è quello di ricavare, tramite l’esame di un campione,
alcune proprietà della popolazione da cui esso è stato estratto. In altri termini, si cerca di stimare
un parametro di una popolazione, la cui distribuzione è ignota, attraverso uno stimatore (funzione
dei dati campionari). Tuttavia, una volta scelto lo stimatore non è sempre facile calcolare quanto
esso si accurato: si dovrebbe poter disporre di diversi campioni estratti dalla stessa popolazione
in modo da poter calcolare il valore dello stimatore su ogni campione per poi calcolarne la
variabilità, ma questo raramente si verifica. Ed è qui che entra in gioco la tecnica del bootstrap,
la quale si basa sull’idea di ricavare dalla distribuzione empirica del campione – unica
informazione di cui si dispone sulla distribuzione della popolazione – numerosi campioni
attraverso una procedura di ricampionamento con reinserimento. In questo modo si possono
calcolare diverse stime del parametro di interesse, con le quali si è poi in grado di ottenere misure
di variabilità dello stimatore, quali errore standard e intervalli di confidenza.
La procedura del bootstrap consiste, dunque, in un metodo di stima o di approssimazione
della distribuzione campionaria di una statistica e delle sue caratteristiche, in genere non
parametrico, in quanto poggia su ipotesi generali che non riguardano la forma funzionale della
statistica dello stimatore. Inoltre, essendo una tecnica di ricampionamento basata su calcoli
informatici, si sostituisce all’analisi matematica facendo ricorso a tecniche di approssimazione
numerica quale il Metodo Monte Carlo abbinato al principio di sostituzione (plug-in); rendendo il
bootstrap un metodo di stima inferenziale computer intensive. Le stime così ottenute godono in
generale di ottime proprietà dal punto di vista della consistenza e dell’accuratezza, tanto che
spesso l’approssimazione fornita dal bootstrap risulta addirittura migliore rispetto alla classica
approssimazione normale della teoria asintotica.
Infine, qualora si fosse in grado di fare ipotesi sulla forma funzionale della funzione generatrice
dei dati si potrebbe ricorrere ad un approccio di tipo parametrico.
Per concludere l’analisi, si procede dunque con l’implementare la tecnica del bootstrap sulle
retribuzioni osservate nel campione oggetto di studio. In particolare, si intendono calcolare l’errore
standard e gli intervalli di confidenza delle medie campionarie relative, rispettivamente, alle
retribuzioni degli uomini e delle donne in possesso di una laurea, al fine di valutare l’accuratezza
delle stime ottenute e giungere ad un’approssimazione delle funzioni di distribuzione
campionarie.
Presupposto necessario per effettuare un’analisi di tipo bootstrap è che i dati del campione siano
i.i.d., qualità facilmente attribuibile al dataset oggetto di studio. Tuttavia, non è possibile fare
supposizioni sulle caratteristiche della funzione di ripartizione generatrice dei dati, pertanto si
utilizzerà il cd. Bootstrap classico (non parametrico).
# Si carica il dataset e la libreria dplyr per filtrare i dati di
partenza ed estrarre solo gli individui che possiedono una laurea:
> dati <- read.table(file="dati_finali.csv", header=T, quote="", sep=";")
42
> library(dplyr)
> dati2 <- filter(dati, dati$RETRIB!="NA")
> laureati <- filter(dati2,
dati2$TISTUD=="7"|dati2$TISTUD=="8"|dati2$TISTUD=="9"|dati2$TISTUD=="10")
# Da questo data frame si isolano le retribuzioni di uomini e donne, al
fine di calcolare le rispettive medie. Per i laureati:
> retrib_u.l <- laureati$RETRIB[laureati$SESSO==1] # uomini laureati
> retrib_d.l <- laureati$RETRIB[laureati$SESSO==2] # donne laureate
# Dopo averlo installato, viene caricato il package che permette di
effettuare il bootstrap:
> library(boot)
# Prima di procedere al ricampionamento mediante la funzione boot() è
necessario definire una funzione – data.fun - che calcoli le statistiche
da sottoporre a indagine bootstrap. Tale funzione accetta sempre un minimo
di due argomenti, ossia il vettore o il data frame che contiene i dati
originali e un vettore contenente gli indici necessari per estrarre gli
elementi dal campione originario (individuano la posizione delle
osservazioni da prendere per costruire i campioni bootstrap). In questo
caso le statistiche da estrarre altro non sono che la media e la deviazione
standard calcolati sui diversi campioni bootstrap.
> data.fun <- function(data, index) {
xbar <- mean(data[index])
xsd <- sd(data[index])
c(xbar, xsd)
}
# la funzione restituisce un vettore contenente la media del campione e la
sua deviazione standard. A questo punto si può procedere con la funzione
boot(),che è dove avviene il vero e proprio bootstrap. Tre sono gli
argomenti principali richiesti: il vettore contenente i dati di misura
‘reali’ (le retribuzioni), la funzione da usare per il ricampionamento
(data.fun) e il numero di repliche bootstrap da effettuare.
# Si effettua il bootstrap sulle retribuzioni degli uomini laureati:
> res.boot <- boot(retrib_u.l, data.fun, R = 10000)
43
> res.boot
> res.boot$t0
[1] 1394.7948 483.3862 # restituisce i valori delle statistiche
sui dati originali
> mean(res.boot$t[,1])
[1] 1394.4 # media della statistica ‘1’ sulle
repliche bootstrap
# Si rappresentano, poi, le repliche bootstrap con il seguente grafico :
> hist(res.boot$t[,1], nclass=50, probability=TRUE, xlim=c(1300,1500),
main="Distribuzione bootstrap della statistica media")
# mediante due linee si evidenziano in rosso la media campionaria -
ottenuta sul campione originario, oggetto di analisi, e in blu la stima
bootstrap:
> abline(v=c(res.boot$t0[1], mean(res.boot$t[,1])), col=c("red","blue"))
> legend(locator(1), legend=c("media campionaria","stima bootstrap"),
col=c("red","blue"), lty=c(1,1), bty="n", cex=0.8)
# dopodiché, con il comando lines() si evidenza come la distribuzione
delle medie bootstrap si approssimi ad una Normale:
> lines(seq(1000,2000, length=2000), dnorm(seq(1000,2000, length=2000),
mean= 1394, sd=(483/sqrt(463))), col="springgreen3")
44
Grafico 14
Dal grafico, emerge in primis come la distribuzione bootstrap della media campionaria si
approssimi ad una Normale e, inoltre, essendo la distorsione delle stime (bias) minima (la
differenza fra la media delle repliche bootstrap e la stima effettuata sul campione) risulta come le
statistiche calcolate – in questo caso media e deviazione standard – siano pressoché identiche a
quelle prodotte dalla tecnica bootstrap.
# Attraverso la funzione boot.ci () si possono ottenere gli intervalli di
confidenza delle statistiche. Tale funzione genera 5 diversi tipi di
intervalli di confidenza non parametrici a due lati: Normal (basato sulla
normale asintotica), Basic (l'intervallo di bootstrap di base, centrato
rispetto alla media) Studentizzato (centrato, oltre che rispetto alla
media, anche rispetto alla varianza), Percentile (basato su un intervallo
più semplice ma meno attendibile, viene preso il percentile
sull'istogramma originario senza centrarlo, ossia centrato sulla media
del bootstrap) e il BCa (l'intervallo percentile bootstrap corretto).
Mentre il primo deriva dall’approssimazione asintotica normale, gli altri
derivano dai risultati delle repliche bootstrap.
45
> boot.ci(res.boot)
Tali intervalli di confidenza per la media forniscono un campo di variazione all'interno del quale ci
si aspetta di trovare il parametro incognito della popolazione con un livello di attendibilità del 95%.
Pertanto, ci si aspetta che su 10000 intervalli di confidenza (uno per ogni replica) 9500
contengano il vero parametro della popolazione di riferimento, ovvero la vera media delle
retribuzioni in riferimento agli uomini laureati.
Si può concludere che la stima bootstrap della media delle retribuzioni degli uomini laureati
rappresenta un’ottima approssimazione della vera media della popolazione, così come la media
campionaria, avendo precedentemente dimostrato che queste sono pressoché identiche. Le
considerazioni finora espresse basandosi su questo valore possono dunque considerarsi
affidabili, almeno da un punto di vista strettamente numerico e posti i dati a nostra disposizione.
Così come fatto per gli uomini, di seguito si implementa il bootstrap per la media delle retribuzioni
delle donne.
# Si effettua il bootstrap sulle retribuzioni delle donne laureate:
> res.boot2 <- boot(retrib_d.l, data.fun, R = 10000)
> res.boot2
> res.boot2$t0 # valori delle statistiche sui dati originali
46
[1] 1218.0796 439.9939
> mean(res.boot2$t[,1])
[1] 1218.122 # media della statistica ‘1’ sulle
repliche bootstrap
# Sui nuovi dati, viene generato l’istogramma:
> hist(res.boot2$t[,1], nclass=50, probability=TRUE, xlim=c(1150,1300),
main="Distribuzione bootstrap della statistica media", axis=F)
> xticks <- c(1150,1160,1170,1180,1190,1200,1210,1220,1230,1240,1250,
1260,1270,1280)
> axis(side=1, at=xticks, labels=xticks)
> axis(2)
> abline(v=c(res.boot2$t0[1], mean(res.boot2$t[,1])),
col=c("red","blue"))
> legend(locator(1), legend=c("media campionaria","stima bootstrap"),
col=c("red","blue"), lty=c(1,1), bty="n", cex=0.8)
> lines(seq(1000,2000, length=2000), dnorm(seq(1000,2000, length=2000),
mean= 1218.0796, sd=(439.9939/sqrt(729))), col="springgreen3")
47
Grafico 15
Anche in questo caso, si nota una sovrapposizione delle rette che identificano le due medie, in
quanto i risultati bootstrap confermano l’accuratezza delle stime condotte sul campione.
> boot.ci(res.boot2)
Infine, come si può osservare dall’output sopra riportato, gli intervalli di confidenza bootstrap
presentano valori estremi pressoché identici, sia tra di essi che con quelli dell’intervallo standard,
derivante dalla approssimazione asintotica normale. Pertanto, alla luce di quanto emerso dal
bootstrap sulla retribuzione media delle donne laureate si possono estendere le conclusioni
precedentemente formulate per la retribuzione media maschile. Sinteticamente, quindi, anche la
48
stima di questo parametro si può considerare estremamente affidabile e corrispondente quasi del
tutto al vero parametro incognito.
49
Conclusioni
In conclusione, da questa approfondita analisi della condizione occupazionale dei Millennials in
Italia non si possono che confermare le sensazioni e le idee diffuse tra l’opinione pubblica e
soprattutto tra i giovani: vi sono una serie di barriere all’entrata del mercato del lavoro per i
millennials e spesso la retribuzione non è adeguata all’aspettativa che si aveva all’inizio del
proprio percorso di studi, tanto più che questo sia approfondito.
I dati più evidenti sono quelli riguardanti il divario in termini di occupazione, istruzione e salario
tra Nord e Sud, derivante da una ormai tristemente nota questione meridionale che si perpetua
nel Paese da decenni. Dal punto di vista della generazione Y, questa differenza sta a significare
minori possibilità di realizzazione professionale per i giovani meridionali che porta molti alla
conseguente scelta obbligata del trasferimento dalla propria regione di origine verso il Nord Italia,
mentre chi decide di restare si trova a dover affrontare un contesto socio-economico svantaggiato
rispetto ai colleghi settentrionali.
Altra triste conferma la si è avuta sull’esistenza del cd. Gender Gap, la differenza salariale tra
uomo e donna a parità di altre condizioni, che però sta gradualmente diminuendo tra i giovani
rispetto alla media nazionale, segno questo che nel prossimo futuro si potrà sperare in una
limitazione ed infine scomparsa di questo fenomeno, continuando a combattere in tal senso.
In definitiva, questo spaccato di vita professionale dei giovani italiani non si propone di essere
esaustivo né tantomeno portatore di risposte a problemi di ampio respiro, ma può essere utile per
fornire uno sguardo d’insieme, supportato da dati reali, su un argomento spesso trattato e talvolta
distorto dai media per permettere ad un lettore esterno di essere in grado di trarre
autonomamente le proprie conclusioni.
50
ALLEGATO 1
PROCEDIMENTI ALTERNATIVI
In alcuni punti, nella manipolazione dei dati con il software R, si è ritenuto utile ripetere i
procedimenti in modo più semplice ed intuitivo, utilizzando scorciatoie e comandi quali funzioni,
ciclo for() e la funzione aggregate().
1. Le retribuzioni per livello di istruzione: procedimento
alternativo
Per rendere più rapida la costruzione del barplot delle retribuzioni medie per livello di istruzione,
è necessario definire in primis alcune variabili che saranno più facilmente richiamabili di seguito:
# La prima cosa da fare è eliminare da dati$RETRIB tutti gli NA e
filtrare di conseguenza sesso e titolo di studio.
> retribuzioni <- dati$RETRIB[!is.na(dati$RETRIB)] ## retribuzioni
> length(retribuzioni)
[1] 5269
# Viene riscalata la variabile TISTUD in 4 livelli in questo modo:
> dati$TISTUD <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo',
'No titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale',
'Laureati triennale','Laureati magistrale', 'Laureati magistrale'))
# poi viene filtrata dati$TISTUD (in seguito “tistud”), selezionando solo
gli individui diversi da NA in dati$RETRIB:
tistud <- dati$TISTUD[!is.na(dati$RETRIB)] ## titolo di studio
> length(tistud)
# [1] 5269
> sesso <- dati$SESSO[!is.na(dati$RETRIB)] ## sesso
> length(sesso)
51
# [1] 5269
> rip3 <- dati$RIP3[!is.na(dati$RETRIB)] ## macroregioni
> length(rip3)
# [1] 5269
Definite queste variabili, si utilizza il ciclo for per ricavare automaticamente le retribuzioni medie
per titolo di studio, sia per le donne che per gli uomini, come di seguito indicato:
# Per poter utilizzare più comodamente il ciclo for, vengo etichettati
nuovamente i livelli della variabile TISTUD, sostituendo ai 4 titoli di
studio i numeri da 1 a 4:
> tistud <- factor(tistud, labels=c('1','2','3','4'))
# A questo punto, si definiscono i vettori delle medie con il ciclo for()
medie.auto1 <- vector() ### si dichiara l'oggetto come vettore vuoto
nn <- c(1,2,3,4)
for (nn in 1:4) {
medie.auto1[[nn]] <- mean(retribuzioni[tistud==nn & sesso==1])
}
medie.auto1
# Si esegue lo stesso procedimento per creare il vettore con le
retribuzioni medie delle donne:
medie.auto2 <- vector()
nn <- c(1,2,3,4)
for (nn in 1:4) {
52
medie.auto2[[nn]] <- mean(retribuzioni[tistud==nn & sesso==2])
}
medie.auto2
# A questo punto, è possibile creare la matrice con i vettori appena
create:
> matrice.auto <- as.matrix(rbind(medie.auto1, medie.auto2))
> dimnames(matrice.auto)[[1]] <- c("uomini", "donne")
> dimnames(matrice.auto)[[2]] <- c("no titolo", "diploma", "triennale",
"magistrale")
> barplot(matrice.auto, beside=T, col=c("lightblue", "pink"),
main="Livello di retribuzione medio per titolo di studio", xlab="Titolo
di studio", ylab="Retribuzione media mensile netta in Euro",
ylim=c(0,1600))
> barplot.auto <- barplot(matrice.auto, beside=T, col=c("lightblue",
"pink"), main="Livello di retribuzione medio per titolo di studio",
xlab="Titolo di studio", ylab="Retribuzione media mensile netta in Euro",
ylim=c(0,1600))
> text(barplot.auto, y=matrice.auto,
labels=paste(as.vector(round(matrice.auto, digit=0)), "???", sep=""),
pos=3)
> legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue",
"pink"), pch=c(15,15), bty="n")
53
È possibile notare una coincidenza dei valori delle retribuzioni medie per gli uomini e per le
donne con il procedimento alle pagine 22-23. L’unica differenza è che, in precedenza, avendo
utilizzato il package dplyr per raggruppare i titoli di studio, non è stata fatta alcuna differenza fra
i laureati triennale e magistrale.
2. Il gender pay gap nelle macroregioni: procedimento
alternativo
Di seguito, si illustra il procedimento alternativo implementato per evidenziare le differenze di
retribuzione per titolo di studio nelle macroregioni.
Obiettivo perseguito è creare quattro grafici affiancati, uno per ogni titolo di studio, prendendo in
considerazione le funzioni poc’anzi create.
# Si crea un nuovo data frame con le variabili create in precedenza:
> dati2 <- data.frame(sesso, tistud, rip3, retribuzioni)
# Si utilizza la funzione aggregate() per calcolare automaticamente le
retribuzioni medie:
> aggr_data <- aggregate(retribuzioni ~ tistud * sesso * rip3, FUN=mean,
data=dati2)
54
# Vengono nuovamente raggruppati i dati per creare le quattro matrici di
cui si necessita:
> m_no.titolo <- aggr_data[aggr_data$tistud==1,2:4]
> m_diplomati <- aggr_data[aggr_data$tistud==2,2:4]
> m_triennale <- aggr_data[aggr_data$tistud==3,2:4]
> m_magistrale <- aggr_data[aggr_data$tistud==4,2:4]
# Di seguito, si creano le matrici e i grafici affiancati, dopo aver
preparato la finestra:
55
> matrix_m_no.titolo <- as.matrix(round(cbind(m_no.titolo[1:2,3],
m_no.titolo[3:4,3], m_no.titolo[5:6,3])))
dimnames(matrix_m_no.titolo)[[1]]<- c("uomo", "donna")
dimnames(matrix_m_no.titolo)[[2]]<- c("Nord", "Centro", "Sud")
> matrix_m_diplomati <- as.matrix(round(cbind(m_diplomati[1:2,3],
m_diplomati[3:4,3], m_diplomati[5:6,3])))
dimnames(matrix_m_diplomati)[[1]]<- c("uomo", "donna")
dimnames(matrix_m_diplomati)[[2]]<- c("Nord", "Centro", "Sud")
> matrix_m_triennale <- as.matrix(round(cbind(m_triennale [1:2,3],
m_triennale [3:4,3],m_triennale [5:6,3])))
dimnames(matrix_m_triennale)[[1]]<- c("uomo", "donna")
dimnames(matrix_m_triennale)[[2]]<- c("Nord", "Centro", "Sud")
> matrix_m_magistrale <- as.matrix(round(cbind(m_magistrale[1:2,3],
m_magistrale[3:4,3],m_magistrale[5:6,3])))
dimnames(matrix_m_magistrale)[[1]]<- c("uomo", "donna")
dimnames(matrix_m_magistrale)[[2]]<- c("Nord", "Centro", "Sud")
> par(mfcol=c(2,2))
> retrib_laureati_t <- barplot(matrix_m_triennale, beside=T, ylim=
c(0,1800), col=c("lightblue", "pink"), sub="Laureati triennale",
ylab="retribuzione media mensile netta in Euro",cex.axis=1.5,
cex.sub=1.5, font.sub=2)
> text (retrib_laureati_t,y=(matrix_m_triennale), pos=3,
labels=paste(as.vector(round(matrix_m_triennale)),"€",sep=""),cex=1)
> retrib_laureati_m <- barplot(matrix_m_magistrale, beside=T, ylim=
c(0,1800), col=c("lightblue", "pink"), sub="Laureati magistrale",
56
ylab="retribuzione media mensile netta in Euro",cex.axis=1.5,
cex.sub=1.5, font.sub=2)
> text (retrib_laureati_m,y=(matrix_m_magistrale), pos=3,
labels=paste(as.vector(round(matrix_m_magistrale)),"€", sep=""),cex=1)
> legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue",
"pink"), pch=c(15,15), bty="n", cex=1.5)
> retrib_diplomati <- barplot(matrix_m_diplomati, beside=T,
ylim=c(0,1800), col=c("lightblue", "pink"), sub="Diplomati",
ylab="retribuzione media mensile netta in Euro",cex.axis=1.5,
cex.sub=1.5, font.sub=2)
> text(retrib_diplomati,y=matrix_m_diplomati, pos=3,
labels=paste(as.vector(round(matrix_m_diplomati)),"€", sep=""),cex=1)
> retrib_no.titolo <- barplot(matrix_m_no.titolo, beside=T,
ylim=c(0,1800), col=c("lightblue", "pink"), sub="No titolo",
ylab="retribuzione media mensile netta in Euro", cex.axis=1.5,
cex.sub=1.5, font.sub=2)
> text(retrib_no.titolo,y=matrix_m_no.titolo, pos=3, cex=1,
labels=paste(as.vector(round(matrix_m_no.titolo)),"€",sep=""))
57
3. Il contractual gender gap: procedimento alternativo
Per la parte relativa al contractual gender gap è stata costruita una funzione ad hoc in grado di
generare automaticamente il barplot d’interesse, definiti alcuni argomenti.
Di seguito, si riporta il corpo della funzione generica e, successivamente, verrà utilizzata per
espletare gli stessi obiettivi prefissati nel paragrafo §2.6.
> fix(detind)
function (xx, yy, bars, asse.x, nn, mm) {
# L'obiettivo di questa funzione è creare una matrice di frequenze relative
# (per colonna) di dimensione (nn)x(mm), dove nn e mm rappresentano
#rispettivamente il numero delle modalità presenti nelle variabili xx e yy.
### Si definiscono le variabili da iterare all'interno dei cicli for:
jj <- levels(as.factor(xx))
ii <- levels(as.factor(yy))
for(jj in 1:mm) {
for(ii in 1:nn) {
matrice <- prop.table(as.matrix(rbind
(table(yy, xx))), margin=2)*100
}
}
# Per poter, in futuro, assegnare i nomi alle dimensioni della matrice,
# inseriamo due variabili generiche tra gli argomenti della funzione che,
# dunque, una volta imputate, verranno rinominate:
dimnames(matrice)[[1]] <- bars
dimnames(matrice)[[2]] <- asse.x
# Successivamente, viene generato il barplot delle frequenze relative
# della matrice:
> par(mai=c(1,1,1,1), cex.main=2, cex.sub=1, cex=0.8)
58
> grafico <- barplot(matrice, beside=T, ylim=c(0,max(matrice)+5),
col=rainbow(length(bars)), ylab="Frequenze relative")
> text(grafico, y=matrice, labels=paste(as.vector(round(matrice,
digit=2)), "%", sep=""), pos=3)
> legend(locator(1), legend=bars, col=rainbow(length(bars)),
pch=15, bty="n")
# Oltre al grafico, la funzione dovrà restituire la matrice di frequenze
relative:
matrice
}
# Ai fini del corretto utilizzo della funzione, la variabile TISTUD deve
essere riclassificata in 4 modalità.
> detind(xx=dati$DETIND, yy=dati$SESSO, nn=2, mm=2, asse.x=c("tempo det",
"tempo indet"), bars=c("Uomini", "Donne"))
tempo det tempo indet
Uomini 54.56766 57.44879
Donne 45.43234 42.55121
> title(main="Gender gap per tipologia contrattuale su base nazionale")
59
Il grafico che si ottiene è esattamente uguale Grafico 11, con la sola differenza che è stato
ottenuto tramite una funzione che ha generalizzato il primo procedimento implementato.
# Applicando la suddetta funzione alle diverse tipologie contrattuali si
sono ottenuti i seguenti risultati. In questo caso, l’obiettivo è quello
di poter osservare il gender gap tra uomo e donna sia nei contratti a tempo
determinato, sia in quelli a tempo indeterminato, prendendo in
considerazione i diversi titoli di studio degli stessi individui. Otteniamo
così due rappresentazioni grafiche: la prima per i contratti a tempo
determinato, la seconda per i contratti a tempo indeterminato.
> detind(xx=dati$TISTUD[dati$DETIND==1], yy=dati$SESSO[dati$DETIND==1],
nn=2, mm=2, asse.x=c("No titolo", "diplomati", "laureati triennale",
"laureati magistrale"), bars=c("Uomini", "Donne"))
No titolo diplomati triennale magistrale
Uomini 66.50943 57.93103 36.66667 33.99209
Donne 33.49057 42.06897 63.33333 66.00791
> title(main="Gender gap nel contratti a tempo determinato per titolo di
studio")
60
> detind(xx=dati$TISTUD[dati$DETIND==2], yy=dati$SESSO[dati$DETIND==2],
nn=2, mm=2, asse.x=c("No titolo", "diplomati", "laureati triennale",
"laureati magistrale"), bars=c("Uomini", "Donne"))
No titolo diplomati triennale magistrale
Uomini 68.31276 59.69388 38.9881 43.00254
Donne 31.68724 40.30612 61.0119 56.99746
> title(main="Gender gap nel contratti a tempo indeterminato per titolo
di studio")
61
62
ALLEGATO 2
APPENDICE
1.1.: Il campione di riferimento
# Per rendere più fruibili le informazioni estrapolate, è opportuno
riclassificare le variabili.
# La variabile COND3, che rappresenta appunto la condizione occupazionale
degli individui, presenta le modalità 1, 2 e 3, che corrispondono
rispettivamente alle condizioni “Occupati”, “In cerca” e “Inattivi”.
> dati$COND3 <- factor(dati$COND3, labels=c("Occupati", "In cerca",
"Inattivi"))
La variabile TISTUD, composta originariamente da 10 livelli, ognuno
associato ad un particolare titolo, è stata riclassificata in solo 4 macro-
gruppi:
1) “No Titolo”, composta da coloro i quali posseggono un titolo
inferiore al diploma;
2) “Diplomati”;
3) “Laureati Triennale”;
4) “Laureati Magistrale”.
> dati$TISTUD <- factor(dati$TISTUD, labels=c("No titolo", "No titolo", "No
titolo", "Diplomati", "Diplomati", "Diplomati", "Laureati triennale",
"Laureati triennale", "Laureati magistrale", "Laureati magistrale"))
# Si calcolano le frequenze relative rispetto al titolo di studio e alla
condizione occupazionale degli individui, con riferimento all’intera
popolazione:
> prop.table(table(dati$TISTUD, dati$COND3))*100
1 2 3
No titolo 10.2242493 3.5423793 15.2109464 +
Diplomati 26.1269479 5.9977195 20.3572786 = 35.568%
Laureati triennale 5.1159255 0.6005321 3.5575827
Laureati magistrale 6.5070315 1.0870391 1.6723679
# Si calcolano le frequenze relative, rispetto alla condizione
occupazionale, del titolo di studio in possesso dagli individui:
63
> prop.table(table(dati$TISTUD, dati$COND3), margin=2)*100
1 2 3
No titolo 21.311995 31.550440 37.283399 +
Diplomati 54.460466 53.419093 49.897522 = 87,181%
Laureati triennale 10.663920 5.348680 8.719955
Laureati magistrale 13.563619 9.681787 4.099124
1.2.: Il livello di istruzione dei Millennials italiani
# Se si considerano le frequenze connesse alle variabili TISTUD, COND3 e
RIP3 – relative al titolo di studio conseguito, alla condizione
occupazionale e alla ripartizione geografica di appartenenza - si ottiene
un array di dimensioni 4x3x3: avente su ciascun foglio le frequenze relative
agli individui appartenenti al Nord, al Centro e al Sud:
> table(dati$TISTUD,dati$COND3, dati$RIP3)
# si isola ciascun foglio :
> nord <- table(dati$TISTUD,dati$COND3, dati$RIP3)[,,1]
> centro <- table(dati$TISTUD,dati$COND3, dati$RIP3)[,,2]
> sud <- table(dati$TISTUD,dati$COND3, dati$RIP3)[,,3]
# e si calcolano, su ciascuno di questi, le frequenze relative percentuali
sul totale degli individui appartenenti ad una specifica area:
> round(prop.table(nord,margin=1)*100)
Occupati In cerca Inattivi
No titolo 41 9 50
Diplomati 59 9 33
Laureati triennale 64 5 31
Laureati magistrale 78 8 14
# 73% dei laureati del nord è occupato
> round(prop.table(centro,margin=1)*100)
Occupati In cerca Inattivi
No titolo 39 11 50
Diplomati 49 12 39
Laureati triennale 50 8 42
Laureati magistrale 72 8 20
# 61% dei laureati del centro è occupato
I millennials e il lavoro
I millennials e il lavoro
I millennials e il lavoro
I millennials e il lavoro

Mais conteúdo relacionado

Semelhante a I millennials e il lavoro

Quando il lavoro è usurante
Quando il lavoro è usuranteQuando il lavoro è usurante
Quando il lavoro è usuranteFabio Bolo
 
Indice rosa regionale: un approccio quantitativo alla questione di genere
Indice rosa regionale: un approccio quantitativo alla questione di genereIndice rosa regionale: un approccio quantitativo alla questione di genere
Indice rosa regionale: un approccio quantitativo alla questione di genereCarlo Romagnoli
 
F. Pintaldi, F. Rapiti, C. Baldi, D.Ichim, M.E. Pontecorvo, R.Rizzi, I dati d...
F. Pintaldi, F. Rapiti, C. Baldi, D.Ichim, M.E. Pontecorvo, R.Rizzi, I dati d...F. Pintaldi, F. Rapiti, C. Baldi, D.Ichim, M.E. Pontecorvo, R.Rizzi, I dati d...
F. Pintaldi, F. Rapiti, C. Baldi, D.Ichim, M.E. Pontecorvo, R.Rizzi, I dati d...Istituto nazionale di statistica
 
2014 Report on Social Recruiting
2014 Report on Social Recruiting2014 Report on Social Recruiting
2014 Report on Social RecruitingPaolo Alessandrini
 
Invecchiamento
InvecchiamentoInvecchiamento
InvecchiamentoRebeggiani
 
Le parole per capire i numeri, i numeri per capire il mondo
Le parole per capire i numeri, i numeri per capire il mondoLe parole per capire i numeri, i numeri per capire il mondo
Le parole per capire i numeri, i numeri per capire il mondoGiovanni Barbieri
 
Report d3.2 16 luglio 2014
Report d3.2 16 luglio 2014Report d3.2 16 luglio 2014
Report d3.2 16 luglio 2014OssCom
 
Italia nel tempo sospeso - Seconda Survey - Aprile 2020
Italia nel tempo sospeso - Seconda Survey - Aprile 2020Italia nel tempo sospeso - Seconda Survey - Aprile 2020
Italia nel tempo sospeso - Seconda Survey - Aprile 2020Oliviero Cresta
 
L'Italia nel tempo sospeso - Report seconda Survey
L'Italia nel tempo sospeso - Report seconda SurveyL'Italia nel tempo sospeso - Report seconda Survey
L'Italia nel tempo sospeso - Report seconda SurveyOliviero Cresta
 
L'Italia nel Tempo Sospeso - Reporst seconda survey
L'Italia nel Tempo Sospeso - Reporst seconda survey L'Italia nel Tempo Sospeso - Reporst seconda survey
L'Italia nel Tempo Sospeso - Reporst seconda survey Viviana Arcangeli
 
Il Gap retributivo e la differenza di genere: analisi comparativa nell'applic...
Il Gap retributivo e la differenza di genere: analisi comparativa nell'applic...Il Gap retributivo e la differenza di genere: analisi comparativa nell'applic...
Il Gap retributivo e la differenza di genere: analisi comparativa nell'applic...Solco Srl
 
Finanziare il Welfare - Presente e Futuro del Pay-as-you-go in Italia, Europa...
Finanziare il Welfare - Presente e Futuro del Pay-as-you-go in Italia, Europa...Finanziare il Welfare - Presente e Futuro del Pay-as-you-go in Italia, Europa...
Finanziare il Welfare - Presente e Futuro del Pay-as-you-go in Italia, Europa...Nc Salerno
 
L'Italia nel tempo sospeso - Survey 3
L'Italia nel tempo sospeso - Survey 3L'Italia nel tempo sospeso - Survey 3
L'Italia nel tempo sospeso - Survey 3Oliviero Cresta
 
F. Gaudio, F. Quintieri - Il Bes dei giovani Uno studio micro-generazionale
F. Gaudio, F.  Quintieri - Il Bes dei giovani Uno studio micro-generazionaleF. Gaudio, F.  Quintieri - Il Bes dei giovani Uno studio micro-generazionale
F. Gaudio, F. Quintieri - Il Bes dei giovani Uno studio micro-generazionaleIstituto nazionale di statistica
 
Rapporto Famiglie e lavoro
Rapporto Famiglie e lavoroRapporto Famiglie e lavoro
Rapporto Famiglie e lavoroEnricoPanini
 
29 bena bmc-ph_2013 statistiche infortuni
29   bena bmc-ph_2013 statistiche infortuni29   bena bmc-ph_2013 statistiche infortuni
29 bena bmc-ph_2013 statistiche infortuniClaudio Volpi
 

Semelhante a I millennials e il lavoro (20)

Quando il lavoro è usurante
Quando il lavoro è usuranteQuando il lavoro è usurante
Quando il lavoro è usurante
 
Indice rosa regionale: un approccio quantitativo alla questione di genere
Indice rosa regionale: un approccio quantitativo alla questione di genereIndice rosa regionale: un approccio quantitativo alla questione di genere
Indice rosa regionale: un approccio quantitativo alla questione di genere
 
F. Pintaldi, F. Rapiti, C. Baldi, D.Ichim, M.E. Pontecorvo, R.Rizzi, I dati d...
F. Pintaldi, F. Rapiti, C. Baldi, D.Ichim, M.E. Pontecorvo, R.Rizzi, I dati d...F. Pintaldi, F. Rapiti, C. Baldi, D.Ichim, M.E. Pontecorvo, R.Rizzi, I dati d...
F. Pintaldi, F. Rapiti, C. Baldi, D.Ichim, M.E. Pontecorvo, R.Rizzi, I dati d...
 
2014 Report on Social Recruiting
2014 Report on Social Recruiting2014 Report on Social Recruiting
2014 Report on Social Recruiting
 
Invecchiamento
InvecchiamentoInvecchiamento
Invecchiamento
 
Le parole per capire i numeri, i numeri per capire il mondo
Le parole per capire i numeri, i numeri per capire il mondoLe parole per capire i numeri, i numeri per capire il mondo
Le parole per capire i numeri, i numeri per capire il mondo
 
Ws2011 sessione6 calabrese_camiz_manieri_mondauto
Ws2011 sessione6 calabrese_camiz_manieri_mondautoWs2011 sessione6 calabrese_camiz_manieri_mondauto
Ws2011 sessione6 calabrese_camiz_manieri_mondauto
 
Report d3.2 16 luglio 2014
Report d3.2 16 luglio 2014Report d3.2 16 luglio 2014
Report d3.2 16 luglio 2014
 
Italia nel tempo sospeso - Seconda Survey - Aprile 2020
Italia nel tempo sospeso - Seconda Survey - Aprile 2020Italia nel tempo sospeso - Seconda Survey - Aprile 2020
Italia nel tempo sospeso - Seconda Survey - Aprile 2020
 
L'Italia nel tempo sospeso - Report seconda Survey
L'Italia nel tempo sospeso - Report seconda SurveyL'Italia nel tempo sospeso - Report seconda Survey
L'Italia nel tempo sospeso - Report seconda Survey
 
L'Italia nel Tempo Sospeso - Reporst seconda survey
L'Italia nel Tempo Sospeso - Reporst seconda survey L'Italia nel Tempo Sospeso - Reporst seconda survey
L'Italia nel Tempo Sospeso - Reporst seconda survey
 
Il Gap retributivo e la differenza di genere: analisi comparativa nell'applic...
Il Gap retributivo e la differenza di genere: analisi comparativa nell'applic...Il Gap retributivo e la differenza di genere: analisi comparativa nell'applic...
Il Gap retributivo e la differenza di genere: analisi comparativa nell'applic...
 
Isfol
IsfolIsfol
Isfol
 
Finanziare il Welfare - Presente e Futuro del Pay-as-you-go in Italia, Europa...
Finanziare il Welfare - Presente e Futuro del Pay-as-you-go in Italia, Europa...Finanziare il Welfare - Presente e Futuro del Pay-as-you-go in Italia, Europa...
Finanziare il Welfare - Presente e Futuro del Pay-as-you-go in Italia, Europa...
 
L'Italia nel tempo sospeso - Survey 3
L'Italia nel tempo sospeso - Survey 3L'Italia nel tempo sospeso - Survey 3
L'Italia nel tempo sospeso - Survey 3
 
F. Gaudio, F. Quintieri - Il Bes dei giovani Uno studio micro-generazionale
F. Gaudio, F.  Quintieri - Il Bes dei giovani Uno studio micro-generazionaleF. Gaudio, F.  Quintieri - Il Bes dei giovani Uno studio micro-generazionale
F. Gaudio, F. Quintieri - Il Bes dei giovani Uno studio micro-generazionale
 
M. Sisti, Statistica al servizio delle decisioni
M. Sisti, Statistica al servizio delle decisioni   M. Sisti, Statistica al servizio delle decisioni
M. Sisti, Statistica al servizio delle decisioni
 
Rapporto Famiglie e lavoro
Rapporto Famiglie e lavoroRapporto Famiglie e lavoro
Rapporto Famiglie e lavoro
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
29 bena bmc-ph_2013 statistiche infortuni
29   bena bmc-ph_2013 statistiche infortuni29   bena bmc-ph_2013 statistiche infortuni
29 bena bmc-ph_2013 statistiche infortuni
 

I millennials e il lavoro

  • 1. 3 UNIVERSITÀ DEGLI STUDI DI SALERNO Dipartimento di Scienze Economiche e Statistiche Corso di Laurea Magistrale in Economia Curriculum in Economia e Finanza TESINA IN Laboratorio di statistica e data mining I Millennials e il lavoro di: Addonizio Martina, De Sio Annapaola, Gravina Luca, Lenza Cariolita, Leo Michela, Leo Stefano
  • 2. 2 Premessa Sin da 1959, l’Istat (Istituto Nazionale di Statistica) ha condotto un’indagine campionaria sulle forze di lavoro in Italia con periodicità trimestrale nei mesi di gennaio, aprile, luglio e ottobre. Dal 2004 la rilevazione ha assunto carattere continuativo - in linea con quanto stabilito dall’Unione europea - ed ha preso il nome di Rilevazione Continua sulle Forze di Lavoro. 1 Il presente elaborato, per rispondere all’esigenza di fornire un’evidenza statistica in merito alla condizione occupazionale dei giovani di età compresa fra i 18 e i 34 anni (cd. “Millennials”) in Italia, si basa sulla manipolazione e l’analisi dei dati di cui sopra, rilevati nell’indagine effettuata il secondo trimestre del 2018, che risultano essere 13155. I dati forniti dall’Istat – aventi originariamente ad oggetto tutti i componenti di famiglie estratte casualmente dalla lista anagrafica di ogni comune campione – sono stati infatti filtrati direttamente su Excel per fascia d’età e ripuliti di quelle variabili che avrebbero fornito uno scarso contributo nel perseguimento dell’obiettivo principale. Successivamente, il file è stato esportato in .csv e caricato in R attraverso la funzione read.table(), così come indicato di seguito: read.table(file=”dati_finali.csv”, header=T, quote=””, sep=”;”) dati <- read.table(file=”dati_finali.csv”, header=T, quote=””, sep=”;”) Per consultare la lista completa delle variabili utilizzate è consigliabile consultare l’Allegato 1. 1 Per una trattazione più ampia e dettagliata, si faccia riferimento al volume “ISTAT, La rilevazione sulle forze di lavoro: contenuti, metodologie, organizzazione, Metodi e Norme, Roma, 2006.
  • 3. 3 Sommario Premessa 2 Introduzione 5 CAPITOLO UNO ANALISI DELLA CONDIZIONE OCCUPAZIONALE 1.1 Il campione di riferimento 6 1.2 Il livello di istruzione dei Millennials italiani 10 1.3 Analisi dei settori lavorativi 15 CAPITOLO DUE IL GENDER GAP 2.1 Il “gender pay gap” nella generazione dei Millennials 17 2.2 Differenze di genere nel più alto livello di istruzione raggiunto 20 2.3 Le retribuzioni per livello di istruzione 21 2.4 L’effetto del titolo di studio sulla retribuzione percepita 24 2.5 Il gender pay gap nelle macroregioni 29 2.6 Il contractual gender gap 34 CAPITOLO TRE BOOTSTRAP 3. Il bootstrap 41 Conclusioni 49 ALLEGATO 1 PROCEDIMENTI ALTERNATIVI 1. Le retribuzioni per livello di istruzione: procedimento alternativo 50 2. Il gender pay gap nelle macroregioni: procedimento alternativo 53
  • 4. 4 3. Il contractual gender gap: procedimento alternativo 57 ALLEGATO 2 APPENDICE 1.1.: Il campione di riferimento 62 1.2.: Il livello di istruzione dei Millennials italiani 63 1.3.: Analisi dei settori lavorativi 64 1.4.: Il contractual gender gap (1). 65 1.5.: Il contractual gender gap (2). 67
  • 5. 5 Introduzione Il seguente lavoro rappresenta un’analisi dettagliata sulla condizione occupazionale dei Millennials, successiva ad un’intensa fase di snellimento del campione di riferimento, al fine di rendere l’analisi in oggetto più facile da gestire. Il focus di questa indagine è voler rispondere alla seguente domanda: “Come variano le condizioni occupazionali e retributive degli individui oggetto del campione tenendo conto della differenza di genere, in base ad una determinata fascia d’età e ad una determinata macroregione di appartenenza?” In un primo momento, l’analisi è volta a fornire una panoramica generale su quelle che sono le caratteristiche del campione osservato - dapprima su scala nazionale, in seguito su tre specifiche aree di interesse (Nord, Centro e Sud) - su cui si è voluto anzitempo porre l’attenzione: il titolo di studio più elevato conseguito, lo status occupazionale e, per i soli individui occupati, il settore lavorativo di appartenenza. Successivamente, lo studio verterà sulle figure dei soli lavoratori e, nello specifico, sulla differenza tra uomo e donna dal punto di vista di retribuzioni salariali e di tipologia contrattuale (a parità di condizioni), comunemente conosciuta come “Gender Gap”. Quest’ultimo, essendo un tema estremamente sensibile ed attuale, verrà affrontato con l’ausilio di una serie di rappresentazioni grafiche e con uno strumento esplicativo delle relazioni intercorrenti tra le variabili, quale la regressione multipla. Il punto finale dell’elaborato è volto all’utilizzo del Bootstrap. Il Bootstrap è una tecnica statistica non parametrica di ricampionamento con reimmissione, attraverso questo metodo si andrà a verificare la bontà della stima di due valori importanti ai fini della nostra indagine, ottenuti tramite una media campionaria: la retribuzione media delle donne e degli uomini in possesso di una laurea. La manipolazione dei dati è stata effettuata attraverso l’uso di uno specifico programma, chiamato R, che è un linguaggio di programmazione e un ambiente di sviluppo specifico per compiere analisi statistiche, le cui librerie implementano un’ampia varietà di tecniche statistiche e grafiche.
  • 6. 6 CAPITOLO UNO ANALISI DELLA CONDIZIONE OCCUPAZIONALE È risaputo che il tasso di disoccupazione giovanile in Italia sia tra i più preoccupanti, se messo a confronto con quello degli altri Paesi dell’UE. Ciononostante, diverse statistiche facilmente reperibili online dimostrano come la generazione Y sia una generazione dinamica, versatile e capace di adattarsi ad ogni situazione. Molti giovani si dichiarano, infatti, disponibili a svolgere mansioni del tutto opposte al percorso di studi eventualmente intrapreso, così come incarichi che probabilmente finiranno per incupire le loro prospettive lavorative future. I dati Istat raccontano essere proprio la generazione dei Millennials a pagare più aspramente il prezzo della crisi del 2008: i giovani sotto la soglia di povertà assoluta sono passati dal 3,1% del 2005 al 10% del 2017, anche se, stando alle ultime previsioni, c’è chi ritiene che la crisi potrebbe essere alle nostre spalle già all’alba del 20202 . Con la Rilevazione Continua sulle Forze di Lavoro, l’Istituto Nazionale di Statistica mette ogni anno a disposizione di chiunque ne abbia interesse dati relativi ad un campione rappresentativo della popolazione italiana. Prendendo in esame il secondo trimestre del 2018, si è scelto di condurre un’indagine sulla condizione occupazionale dei soli giovani di età compresa fra i 18 e i 34 anni per un totale di 13155 individui. È indispensabile, dunque, per l’analisi e la manipolazione dei suddetti dati, una breve presentazione degli intervistati, focalizzandosi su quegli aspetti che si ritengono essere di particolare rilievo. Inoltre, si precisa che, per evidenziare se e in che misura l’appartenenza ad una specifica macroregione influisce sui risultati che si otterranno di qui a poco, le indagini verranno spesso ripetute sia su base nazionale che macroregionale. 1.1 Il campione di riferimento Una prima necessaria classificazione riguarda lo stato occupazionale, principale aggregato di riferimento dell’indagine. Gli individui si sono auto-classificati in occupati, in cerca di lavoro, inattivi, di cui le definizioni generali: • Occupati: comprendono gli individui di 15 anni e più, che nella settimana di riferimento: hanno svolto almeno un’ora di lavoro in una qualsiasi attività che preveda un corrispettivo monetario o in natura; hanno svolto almeno un’ora di lavoro non retribuito nella ditta di un familiare nella quale collaborano abitualmente; sono assenti dal lavoro (ad esempio, per ferie o malattia). I dipendenti assenti dal lavoro sono considerati occupati se l’assenza non supera tre mesi, oppure se durante l’assenza continuano a percepire almeno il 50% della retribuzione. Gli indipendenti assenti dal lavoro, ad eccezione dei coadiuvanti familiari, sono considerati occupati se, durante il periodo di assenza, mantengono l’attività. I coadiuvanti familiari sono considerati occupati se l’assenza non supera tre mesi; 2 Cfr. C.M. Martino, “Giovani italiani, tra i più poveri e meno occupati. Ma tra i Millennials c’è chi reagisce”, IlFattoQuotidiano.it, Luglio 2017.
  • 7. 7 • Persone in cerca di lavoro: comprendono le persone non occupate tra 15 e 74 anni che: hanno effettuato almeno un’azione attiva di ricerca di lavoro nei trenta giorni che precedono l’intervista e sono disponibili a lavorare (o ad avviare un’attività autonoma) entro le due settimane successive all’intervista; oppure, inizieranno un lavoro entro tre mesi dalla data dell’intervista e sono disponibili a lavorare (o ad avviare un’attività autonoma) entro le due settimane successive all’intervista, qualora fosse possibile anticipare l’inizio del lavoro; • Inattivi: comprendono le persone che non fanno parte delle forze di lavoro, ovvero quelle non classificate come occupate o in cerca di occupazione. Di seguito, si mostra la procedura per la realizzazione di un diagramma circolare che sintetizzi le classificazioni di cui sopra, contestualizzate al campione preso in esame. # Si considerano le frequenze assolute, relative alla condizione occupazionale : COND3: 1=“occupati”, 2=“in cerca”, 3=“inattivi”), richiamando il comando table(): > table(dati$COND3) 1 2 3 6311 1477 5367 # Si preferisce, però, considerare le frequenze relative, ottenute mediante l’utilizzo della funzione prop.table() e arrotondate con il comando round(): > round(prop.table(table(dati$COND3))*100) 1 2 3 48 11 41 # Per la rappresentazione grafica delle frequenze è utile definire prima i seguenti argomenti: > labs.legend <- c("occupati", "in cerca", "inattivi") # etichette > labs.pie <- c("6311 (48%)", "1477 (11%)", "5367 (41%)") # valori grafico > cols.pie <- c("red", "darkgreen", "grey") # colori del grafico # Si utilizza pie() per la realizzazione del diagramma circolare e, per facilitare la lettura, si inserisce la legenda: > pie(table(dati$COND3), labels=labs.pie, main="Condizione occupazionale in Italia", col=cols.pie) > legend(locator(1), legend=labs.legend, col=cols.pie, pch=c(1,1,1), bty="n")
  • 8. 8 Grafico 1 *analisi effettuata su un campione di n=13155 Dunque, dal grafico è possibile evincere che, nell’ambito di tutto il territorio nazionale, i giovani di età compresa fra i 18 e i 34 anni del campione analizzato sono per il 48% occupati, per il 41% inattivi e solo l’11% è in cerca di lavoro. Tuttavia, prima ancora di poter esprimere un giudizio sulla percentuale di occupati, negativo o positivo che sia, bisogna ricordare che la presenza di individui che non hanno ancora terminato gli studi scolastici o universitari potrebbe influenzare in maniera molto rilevante la percentuale degli inattivi. Ciò rende questo dato solo parzialmente rappresentativo della realtà. Infatti, i dati in esame evidenziano che circa il 36% del campione corrisponde a giovani con o senza diploma che rientrano nella categoria degli inattivi, pari all’87% degli inattivi totali3 . È un elemento molto significativo, che sottolinea come tale classificazione sia facilmente influenzabile dalle caratteristiche individuali momentanee. Ad ogni modo, per una serie di motivazioni legate alla natura del campione, che non consente una più approfondita analisi del fenomeno – data l’indisponibilità di dataset successivi, se non quello relativo al terzo trimestre del 2018, troppo ravvicinato per poter essere esplicativo –, e non essendo questo l’oggetto di studio dell’indagine, si è deciso di non interrogarsi ulteriormente sulle implicazioni di tali digressioni e di proseguire attenendosi alle evidenze numeriche. La stessa indagine è stata effettuata anche a livello macroregionale, intendendo per “macroregione” la classificazione delle aree Nord, Centro e Sud, al fine di verificare come l’occupazione si distribuisce sul territorio italiano. 3 Tali percentuali sono state ottenute con il procedimento riportato in Apx 1.1.
  • 9. 9 # Prima di poter costruire il grafico, è necessario organizzare il dataset, così da renderne più agevole la manipolazione. Si sostituiscono ai livelli della variabile RIP3 - 1, 2 e 3 - rispettivamente le etichette “Nord”, “Centro” e “Sud”. > dati$RIP3 <- factor(dati$RIP3, labels=c("Nord", "Centro", "Sud")) # Lo stesso procedimento viene effettuato per la variabile COND3, che rappresenta i livelli occupazionali: > dati$COND3 <- factor(dati$COND3, labels=c("Occupati", "In cerca", "Inattivi")) # Si estrapolano le frequenze assolute congiunte: > table(dati$COND3, dati$RIP3) # Si crea la matrice di dati per condizione occupazionale e macroregioni: > matrice.disocc <- as.matrix(table(dati$COND3, dati$RIP3)) # Derivata la matrice, è possibile costruire il grafico a barre: > grafico2 <- barplot(matrice.disocc, beside=T, main="Differenze occupazionali fra le macroregioni", col=c("purple", "brown", "pink"), ylab="Frequenze", ylim=c(0,4000)) # Per semplicità, pur considerando come numerosità campionaria quella in frequenze assolute, si riportano le frequenze relative percentuali sopra ogni barra, ottenute attraverso il comando prop.table(): > matrice.percent2 <- round(prop.table(as.matrix(table(dati$COND3, dati$RIP3)))*100) > text(grafico2, matrice.disocc, labels=paste(as.vector(matrice.percent2), "%", sep=""), pos=3) # Inoltre, per maggiore chiarezza, viene aggiunta una legenda: > legend(locator(1), legend=c("Occupati", "In cerca", "Inattivi"), col=c("red", "darkgreen", "grey") pch=c(15,15,15), bty="n")
  • 10. 10 Grafico 2 *analisi effettuata su un campione di n=13155 individui, di cui 6577 del Nord, 2604 del Centro e 3974 del Sud Dal grafico precedente, ottenuto su scala nazionale, è risultata una percentuale di occupazione pari al 48%. Tuttavia, differenziando l’analisi in macroregioni, si evince che il Nord registra il più alto tasso di occupazione (pari al 28% del campione), quasi il triplo dei valori registrati per il Centro e per il Sud (10%). Diverse possono essere le cause di tale discrepanza, una delle quali potrebbe essere il differente livello medio d’istruzione presente nelle tre aree geografiche d’interesse. Pertanto, scopo del presente elaborato sarà quello si soffermarsi su tale aspetto, prendendo spesso in esame il più alto titolo di studio conseguito dagli individui al momento dell’intervista. 1.2 Il livello di istruzione dei Millennials italiani Negli anni Settanta appena il 14% della popolazione con meno di 30 anni aveva un diploma in tasca e i laureati erano solo l’1%. Vent’anni dopo è aumentata sensibilmente la quota di giovani diplomati: nel 1991 erano il 31,5% dei giovani under 30, mentre i laureati erano ancora su livelli
  • 11. 11 molto bassi (3%)4 . Ad oggi, si è registrata una notevole crescita del livello d’istruzione, come mostrato nel Grafico 3. # La variabile TISTUD, composta originariamente da 10 livelli, ognuno associato ad un particolare titolo, è stata riclassificata in solo 4 macro- gruppi: 1) “No Titolo”, composta da coloro i quali posseggono un titolo inferiore al diploma; 2) “Diplomati”; 3) “Laureati Triennale”; 4) “Laureati Magistrale”. > dati$TISTUD <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo', 'No titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale', 'Laureati triennale','Laureati magistrale', 'Laureati magistrale')) # sulla base della variabile RIP3 riclassificata > dati$RIP3 <-factor(dati$RIP3,labels=c('Nord','Centro','Sud')) # si crea la tabella di frequenze assolute fra le due variabili di interesse: > table(dati$TISTUD, dati$RIP3) Nord Centro Sud No titolo 1807 710 1295 Diplomati 3418 1412 2074 Laureati triennale 686 251 283 Laureati magistrale 666 231 322 # Per una migliore comparazione dei dati, si preferisce utilizzare la tabella delle frequenze relative per colonna (margin=2). Dopodiché la si rende una matrice, condizione necessaria per costruire il grafico a barre: > matrice.tistud <- round(prop.table(as.matrix(table(dati$TISTUD, dati$RIP3)), margin=2)*100) > matrice.tistud Nord Centro Sud No titolo 27 27 33 Diplomati 52 54 52 Laureati triennale 10 10 7 Laureati magistrale 10 9 8 4 Cfr. F. Barbieri, A. Magnani, “Il lavoro ai tempi dei millennials. Svantaggi e vantaggi di essere under 30.”, Il Sole 24 Ore, Febbraio 2018.
  • 12. 12 # Si può, infine, costruire il seguente grafico: > grafico_3 <- barplot(matrice.tistud, beside=T, ylab="Frequenze relative in %", main="Livello di istruzione nelle macroregioni", ylim=c(0,80), col=c(“darkturquoise", "firebrick1", "rosybrown1", "darkblue”)) # Si aggiungono le percentuali: > text(grafico_3, matrice.tistud, labels=paste(as.vector(matrice.tistud), "%", sep=""), pos=3) # Si inserisce una legenda: > legend(locator(1), legend=c("No titolo", "Diploma", "Triennale", "Magistrale"), pch=c(15,15,15,15), bty="n", col=c("darkturquoise", "firebrick1", "rosybrown1", "darkblue")) Grafico 3 * percentuali ottenute su n=13155 individui, di cui 6577 del Nord, 2604 del Centro e 3974 del Sud Dalla rappresentazione grafica sopra realizzata, è possibile definire ed osservare la composizione della popolazione nelle tre macroregioni di interesse, in funzione del titolo di studio posseduto. Al Nord, dei 6577 individui osservati, il 27% è in possesso di un titolo di studio inferiore al diploma, il 52% ha conseguito la maturità scolastica, il 10% ha conseguito una laurea di I livello e il restante 10% quella di II livello. Proporzioni simili, seppur su campioni diversi e più ridotti, si ripresentano
  • 13. 13 al Centro e al Sud: al Centro il 27% possiede un titolo inferiore al diploma, il 54% è diplomato, il 10% possiede una laurea triennale e il 9% una laurea magistrale; al Sud tali valori si aggirano rispettivamente intorno al 33%, 52%, 7% e 8%. Ciò che, da tali percentuali, si può dedurre è la comune composizione della popolazione: in tutte le tre macroregioni, la fetta più corposa è rappresentata dai diplomati, mentre quella più esigua dai laureati. Per concludere la fase descrittiva del campione, ci si sofferma, di seguito, sui soli individui occupati in modo da individuare a quale titolo di studio è associata una maggiore percentuale in termini di occupazione e in quale macroregione. # Con la funzione table() si considerano le frequenze assolute degli individui in base all'intersezione di tre variabili: TISTUD (riclassificata in 4 gruppi), RIP3 e COND3. Si ottiene in questo modo un array avente sulla prima pagina le frequenze congiunte relative agli 'occupati', sulla seconda quelle relative agli 'in cerca' e sulla terza gli 'inattivi'. > dati$TISTUD <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo', 'No titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale', 'Laureati triennale','Laureati magistrale', 'Laureati magistrale')) > dati$COND3 <-factor(dati$COND3, labels=c('Occupati', 'In cerca', 'Inattivi')) > dati$RIP3 <-factor(dati$RIP3,labels=c('Nord','Centro','Sud')) > table(dati$TISTUD, dati$RIP3, dati$COND3) # Da esse, si calcolano le frequenze relative con il comando prop.table() e, dato che quelle di interesse sono solo quelle concernenti gli occupati, si estrae dall'array solo il primo foglio, lo si trasforma in una matrice e lo si rinomina come segue: > occupati <- as.matrix(round(prop.table(table(dati$TISTUD, dati$RIP3, dati$COND3), margin=3)*100)[,,1]) > occupati Nord Centro Sud No titolo 12 4 5 Diplomati 32 11 12 Laureati triennale 7 2 2 Laureati magistrale 8 3 3 # Si rappresentano i risultati così ottenuti in un grafico, dopodiché si inseriscono le percentuali di riferimento e la legenda: > grafico4 <- barplot(occupati, beside=T, ylim= c(0,40), ylab="numero di occupati in %", main= "L'occupazione a livello macroregionale per titolo di studio", col=c("darkturquoise", "firebrick1", "rosybrown1", "darkblue")) > text(grafico4, occupati, labels=paste(occupati, "%", sep=""), pos=3)
  • 14. 14 > legend(locator(1), legend=c("No titolo", "Diploma", "Triennale", "Magistrale"), pch=15, bty="n", col=c("darkturquoise", "firebrick1", "rosybrown1", "darkblue")) Grafico 4 * analisi effettuata su 6311 individui (occupati), pari al 48% del campione, di cui 3708 del Nord, 1261 del Centro e 1342 del Sud Dal grafico emerge come i diplomati rappresentino la stragrande maggioranza della forza lavoro in tutte e tre le macroaree, seguiti da coloro che hanno un titolo inferiore al diploma e solo infine dai laureati. Un'analisi più approfondita in merito al titolo di studio e alla possibilità di trovare lavoro permette inoltre di evidenziare come il fatto di possedere una laurea, per quanto possa aiutare a trovare occupazione, non produce lo stesso effetto lungo tutto il territorio italiano: mentre al Nord il 78% dei laureati risulta occupato e al Centro il 61%, al Sud solo il 45.5% dei laureati trova lavoro. Tale discrepanza è purtroppo presente per tutti i titoli di studio5 . Ad impattare su tale gap vi è, senza alcun dubbio, il fatto che Regioni quali Piemonte, Lombardia e Veneto, ed in particolar modo le grandi città metropolitane come Milano, offrano maggiori possibilità lavorative, soprattutto ad alta specializzazione. Pertanto, si può ritenere che l'appartenenza ad una specifica area geografica, ancora oggi, incida fortemente sulle possibilità dei giovani italiani, con forte svantaggio per i giovani del Sud, i quali 5 Il procedimento effettuato per ricavare tali percentuali è stato riportato nell’Apx 1.2.
  • 15. 15 soffrono di prospettive lavorative più ristrette, a causa di un tessuto industriale meno sviluppato. Nord e Sud continuano dunque ad essere due mondi sempre più distanti. 1.3 Analisi dei settori lavorativi All’interno dell’economia nazionale la ripartizione dei dati occupazionali interessa soprattutto i settori dell’industria in senso stretto (21%), del commercio (17%) e quelli legati ai servizi (42%)6 . Nei servizi spiccano le attività alberghiere e di ristorazione, le attività immobiliari e imprenditoriali, e le assunzioni da parte di aziende legate ai settori dell’istruzione, della sanità e dell’assistenza sociale. Al fine del completamento dell’analisi generale del campione di riferimento, si pone dunque l’attenzione sui diversi settori lavorativi e sulle rispettive percentuali occupazionali: considerando il raggruppamento ATECO delle attività economiche in 12 classi (CAT12), è stata effettuata un’analisi macroregionale dei settori lavorativi con un più alto livello di occupazione per ogni macroregione. # Si rinominano le etichette di CAT12: > dati$CAT12 <- factor(dati$CAT12, labels=c("Agricoltura, silvicoltura e pesca", "Industria in senso stretto", "Costruzioni", "Commercio", "Alberghi e ristoranti", "Trasporto e magazzinaggio", "Informazione e comunicazione", "Attività finanziarie e assicurative", "Attività immobiliari e imprenditoriali", "Amministrazione pubblica e difesa", "Istruzione, sanità e servizi sociali", "Altri servizi collettivi e personali")) # A questo punto, le variabili di interesse vengono ripulite degli NA: > cat12 <- dati$CAT12[!is.na(dati$CAT12)] > rip33 <- dati$RIP3[!is.na(dati$CAT12)] > rip33 <- factor(rip33, labels=c("Nord", "Centro","Sud")) # È dunque possibile generare la tabella di frequenze relative di riga: > tab <- round(prop.table(table(rip33, cat12), margin=1)*100) # attraverso la funzione par() si prepara la finestra in cui verrà rappresentato il grafico, specificando l’argomento mai si determinano le dimensioni dei margini, mentre con l’argomento las si indica l’orientamento delle etichette di Y, in questo orizzontale: > par(mai=c(1,2.5,1,0), las=1) > barplot(as.matrix(tab), beside=T, horiz=T, main="Concentrazione occupazionale nei settori produttivi", xlim=c(0,25), cex.names=0.85, 6 Il procedimento effettuato per ricavare tali percentuali è stato riportato nell’Apx 1.3.
  • 16. 16 col=c("lightslategray", "lavender", "lightskyblue"), axes=F, xlab="tasso di occupazione (in %)", cex.main=1.5) # Avendo eliminato gli assi, è possibile ricostruirli a piacimento: > xticks <- c(0,2,4,6,8,10,12,14,16,18,20,22,24,26) > axis(side=1, at=xticks, labels=xticks) > legend(locator(1), legend=c("Nord", "Centro", "Sud"), col=c("lightslategray","lavender", "lightskyblue"), pch=c(15,15), bty="n", cex=1) Grafico 5 *analisi effettuata su n=6311 individui, di cui 3708 del Nord, 1261 del Centro e 1342 del Sud Analizzando la situazione occupazionale all’interno dei vari settori a livello macroregionale, così come rappresentata nel grafico 5, emerge come la distribuzione degli occupati sia abbastanza omogenea nelle tre macroaree di interesse, in quanto le percentuali di occupati tra i vari settori non presentano differenze significative. Al Nord prevale il settore dell’industria in senso stretto – con una percentuale del 24% - seguito dal settore del commercio (15%) e dai suddetti servizi, con percentuali pari al 12% circa per ciascun settore. Lo stesso si registra per il Centro. L’economia del Mezzogiorno segue all’incirca lo stesso andamento, con la differenza che il settore che presenta la maggior percentuale di occupati è quello del commercio – con una percentuale pari al 22% - seguito dall’industria in senso stretto (15%) e dai restanti servizi. Bassi, invece, risultano i tassi di occupazione rilevati per le imprese finanziarie e assicurative, per i servizi di informazione e comunicazione e gli altri settori esaminati, su tutto il territorio nazionale. Si termina così questa prima parte dell’analisi del campione, per poi entrare nel vivo della trattazione e soffermarsi su quelli che sono i più rilevanti indicatori della condizione occupazione dei giovani italiani, quali il reddito e le tipologie contrattuali .
  • 17. 17 CAPITOLO DUE IL GENDER GAP L'uguaglianza tra le condizioni sociali, economiche e culturali di uomini e donne nel nostro Paese è ancora lontana. A dirlo è l'ultimo Global Gender Gap Report7 , che mette in evidenza dati secondo i quali l'universo femminile è ancora penalizzato a livello di identità di genere. Eppure, dal 13 febbraio 1881, data in cui fu usato per la prima volta il termine "femminismo" per indicare le mobilitazioni per il diritto di voto in Francia, è passato molto tempo. Ma sembra che, nonostante le donne studino di più e non si sposino più a tutti i costi, siano ancora relegate a spettatrici del successo dei colleghi uomini. Compongono il concetto di “gender gap” tutte quelle disparità che si riscontrano a livello di condizioni economiche, di accesso al lavoro, sociali e di istruzione che influenzano le vite degli esseri umani, in base al loro genere sessuale di appartenenza. Tradizionalmente, quando si parla di gender gap, si tende a osservare l'esistenza di maggiori penalizzazioni per le donne rispetto agli uomini. Nonostante l'Italia sia l'ottava economia del mondo e il 51% della popolazione italiana sia costituita da donne, siamo solo al cinquantesimo posto su 144 nazioni indagate dal report, sorpassati da Burundi, Serbia e Mozambico. Eppure, le donne studiano di più e vivono tre anni in più rispetto agli uomini. A pesare sulla disparità sono l'economia e la politica. Secondo il Global Gender Gap Report solo il 54% delle donne infatti lavora e, chi lo fa, guadagna 0.48 € per ogni euro guadagnato dai colleghi maschi. Il salario annuo di una donna ammonta a 23mila euro. Quello di un uomo, 44mila. Ma come cambia lo scenario per chi si immette nel mondo del lavoro per la prima volta? Le giovani donne vivono la disparità di genere in egual misura rispetto alle loro madri? 2.1 Il “gender pay gap” nella generazione dei Millennials Il campione oggetto di questo studio è composto da 6639 (50,47%) uomini e 6516 (49,53%) donne. Tuttavia, per poter analizzare le differenze salariali di genere si è dovuto tenere conto solo di quegli individui che hanno fornito informazioni in merito alla retribuzione mensile netta percepita. Tali individui hanno formato un sotto-campione di dimensioni ridotte, composto da 2968 uomini e 2301 donne, per un totale di 5269. Di seguito viene riportato il procedimento per la scrematura del campione, utile per la creazione di un boxplot che evidenzi, laddove presente, il gender pay gap nel sotto-campione poc’anzi menzionato. 7 Il Global Gender Gap Report, introdotto dal World Economic Forum nel 2006, fornisce un quadro che mostra l'ampiezza e la portata del divario di genere in tutto il mondo. Per ogni nazione l'indice fissa uno standard del divario di genere basandosi su criteri economici, politici, educazione e salute, e fornisce una classifica dei paesi, permettendo un confronto efficace sia tra regioni che gruppi di reddito nel tempo. (Fonte: Wikipedia)
  • 18. 18 # Per poter analizzare la differenza nelle retribuzioni medie fra uomo e donna, è necessario eliminare dai dati presenti nella variabile RETRIB gli NA. > retribuzioni <- dati$RETRIB[!is.na(dati$RETRIB)] # Se inizialmente i valori delle retribuzioni erano pari a 13155 (la numerosità del campione), avendo eliminato i missing value si avrà: > length(retribuzioni) [1] 5269 # Di conseguenza, dovendo lavorare su variabili della stessa lunghezza, dovrà essere filtrata anche la variabile SESSO in modo tale da renderla di lunghezza pari a 5269: > sesso <- dati$SESSO > sesso.retrib <- sesso[retribuzioni] > length(sesso.retrib) [1] 5269 # A questo punto, è possibile ricavare la retribuzione degli uomini e quella delle donne: retrib.donne <- retribuzioni[sesso.retrib==2] retrib.uomini <- retribuzioni[sesso.retrib==1] # La media di retribuzione degli uomini e delle donne sarà: > media.donne <- mean(retrib.donne) > media.uomini <- mean(retrib.uomini) > media.donne [1] 1025.228 > media.uomini [1] 1208.315 # È possibile ora lanciare il comando per ottenere il boxplot: > boxplot(retrib.uomini, retrib.donne, names=c("Uomini", "Donne"), col=c("lightblue","pink"), main="Differenze retributive medie di genere", ylab="retribuzione netta mensile in Euro", xlab="Genere")
  • 19. 19 # Per ricavare i valori della mediana per entrambi i boxplot, si utilizza il comando quantile(): > quantile(retrib.uomini) 0% 25% 50% 75% 100% 250 1000 1200 1400 3000 > quantile(retrib.donne) 0% 25% 50% 75% 100% 250 700 1000 1300 3000 # A questo punto, per una più facile lettura, viene inserito manualmente il valore delle mediane: > text(locator(1), "1200") > text(locator(1), "1000") Grafico 6 *campione composto da n= 5269 individui, di cui 2968 uomini e 2301 donne
  • 20. 20 Facendo una proporzione tra la retribuzione media maschile e quella femminile8 a fronte di 1€ guadagnato dai giovani occupati maschi, le giovani donne guadagnano circa 0.85€. Si tratta comunque di una situazione di diseguaglianza, seppure non accentuata quanto quella indicata nel Global Gender Report. 2.2 Differenze di genere nel più alto livello di istruzione raggiunto Storicamente l’accesso delle donne all’istruzione, specialmente ai livelli più alti, è stato molto limitato, soprattutto a causa di un retaggio culturale molto tradizionalista all’interno delle famiglie; questa tendenza ha iniziato a cambiare negli anni '60, quando le donne hanno iniziato ad acquisire maggior capacità di autodeterminazione su ogni aspetto della loro vita. Questo tipo di dinamica è stata poi resa confermata da vari studi che testimoniano come il livello di scolarità femminile sia costantemente cresciuto negli ultimi 50 anni. Oggi, nel 2019, il numero di donne laureate è leggermente superiore a quello degli uomini laureati. # Si costruisce la matrice delle frequenze assolute, tra le variabili TISTUD - riclassificata in 4 macrogruppi- e SESSO (1 uomini, 2 donne): > dati$TISTUD <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo', 'No titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale', 'Laureati triennale','Laureati magistrale', 'Laureati magistrale')) > matrice.tistud.sesso <- as.matrix(table(dati$SESSO,dati$TISTUD)) > barplot.tistud.sesso <- barplot(matrice.tistud.sesso, beside=T, ylim=c(0,4000), col=c("lightblue", "pink"), main="Livello di istruzione del sottocampione", ylab="Frequenze assolute", cex.axis=1.5, cex.sub=1.5, font.sub=2) > text(barplot.tistud.sesso, y=matrice.tistud.sesso, pos=3, labels=paste(as.vector(round(matrice.tistud.sesso)), "", sep=""), cex=1) > legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue", "pink"), pch=c(15,15), bty="n", cex=1.5) 8 1208.315 : 1025.228 = 1 : x → dove 1208.315 è la retribuzione media degli uomini (in €) e 1025.228 è la retribuzione media delle donne (in €).
  • 21. 21 Come mostrato nel grafico di seguito proposto, le donne in possesso di laurea facenti parte del campione, sono più numerose degli uomini laureati; viceversa accade per i titoli di studio inferiori. Si può affermare, dunque, che le donne siano – in media – più istruite degli uomini. Ciononostante, come si evidenzierà nelle pagine successive, gli uomini percepiscono retribuzioni più alte rispetto alle donne. Grafico 7 **campione composto da n= 5269 individui, di cui 2968 uomini e 2301 donne 2.3 Le retribuzioni per livello di istruzione Nel 2015 l’Istat ha condotto un’indagine sulla composizione degli occupati per genere e classe di età anagrafica, rilevando un forte divario salariale fra gli uomini e le donne laureati. Questo perché, secondo alcuni, il fatto che le donne laureate fossero mediamente più giovani degli uomini andava a ripercuotersi anche sui livelli retributivi. Considerando il sistema nazionale, che in termini retributivi ha come elemento distintivo gli scatti di anzianità, viene facile pensare che, a età media inferiore, corrisponde una retribuzione inferiore. Motivo per cui, già a distanza di soli 3 anni, il gap con gli uomini si è ristretto, avendo le
  • 22. 22 donne raggiunto con maggiore frequenza quei ruoli che nel 2015 erano prevalentemente ricoperti da uomini. # Al fine di lavorare unicamente con gli individui che hanno effettivamente dato informazioni sulla retribuzione mensile percepita, partendo dal dataset iniziale, si fa ricorso alla funzione filter(), la quale permette di creare un nuovo data frame (dati2) in cui la variabile RETRIB non presenta missing values: > library(dplyr) > dati2 <- filter(dati, dati$RETRIB!="NA") # Allo stesso modo, sempre attraverso la funzione filter(), da dati2 si estraggono e suddividono gli individui in base al titolo di studio conseguito in 3 classi: ‘laureati’, ‘diplomati’ e ‘no titolo’: > laureati <- filter(dati2, dati2$TISTUD=="7"|dati2$TISTUD=="8" | dati2$TISTUD=="9" | dati2$TISTUD=="10") > diplomati <- filter(dati2, dati2$TISTUD=="4" | dati2$TISTUD=="5" | dati2$TISTUD=="6") > no.titolo <- filter(dati2, dati2$TISTUD=="1" | dati2$TISTUD=="2" | dati2$TISTUD=="3") # Per ciascuno di questi data frame si isolano le retribuzioni di uomini e donne, al fine di calcolare le rispettive medie. Per i laureati: > retrib_u.l <- laureati$RETRIB[laureati$SESSO==1] # retribuzioni uomini laureati > retrib_d.l <- laureati$RETRIB[laureati$SESSO==2] # retribuzioni donne laureate # Per i diplomati: > retrib_u.d <- diplomati$RETRIB[diplomati$SESSO==1] # retribuzioni uomini diplomati > retrib_d.d <- diplomati$RETRIB[diplomati$SESSO==2] # retribuzioni donne diplomate # Per i no titolo: > retrib_u.nt <- no.titolo$RETRIB[no.titolo$SESSO==1] # retribuzioni uomini no titolo
  • 23. 23 > retrib_d.nt <- no.titolo$RETRIB[no.titolo$SESSO==2] # retribuzioni donne no titolo # Con le retribuzioni così ottenute si definiscono due vettori, uno per gli uomini e uno per le donne, contenenti le rispettive retribuzioni medie associate a ciascun titolo: > x <- c(mean(retrib_u.l), mean(retrib_u.d), mean(retrib_u.nt)) > y <- c(mean(retrib_d.l), mean(retrib_d.d), mean(retrib_d.nt)) # Essi, combinati tra loro attraverso il comando rbind(), andranno a formare la matrice delle retribuzioni: > matrice_retrib <- rbind(x, y) > dimnames(matrice_retrib)[[1]]<- c("uomo", "donna") > dimnames(matrice_retrib)[[2]]<- c("laurea", "diploma", "no titolo") # Ciò è utile per la rappresentazione del seguente grafico a barre: > retrib_nazionali <- barplot(matrice_retrib, beside=T, ylim= c(0,1800), col=c("lightblue", "pink"), main="Livello di retribuzione medio per titolo di studio", ylab="retribuzione media mensile netta in Euro", names.arg=c("Laureati", "Diplomati", "No titolo")) > text(retrib_nazionali, y=matrice_retrib, labels=paste(round(matrice_retrib), "€", sep=""), pos=3) > legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue", "pink"), pch=c(15,15), bty="n") N.B. in allegato è possibile visionare un procedimento alternativo, attraverso cui è stato possibile giungere alle medesime conclusioni utilizzando il ciclo for (si veda, Allegato “Procedimenti Alternativi” §1).
  • 24. 24 A dispetto di quanto concluso nelle indagini effettuate nel 2015, la differenza maggiore fra la retribuzione media mensile degli uomini e delle donne si ha per quel gruppo di individui che non ha conseguito il diploma. All’aumentare del grado di istruzione raggiunto, infatti, il gender pay gap si restringe: fra un uomo e una donna, entrambi in possesso di laurea, si registra una differenza salariale pari a €177. 2.4 L’effetto del titolo di studio sulla retribuzione percepita Gli stessi risultati finora discussi possono essere raggiunti implementando una regressione multipla del reddito in funzione del livello di istruzione e del genere, che tenga conto anche dei termini di interazione tra i regressori. Al fine di una più immediata interpretazione si definiscono le seguenti variabili di interesse: ➢ RETRIB, corrispondente alla variabile dipendente 𝑌𝑖 ; ➢ TISTUD, ossia uno dei regressori. Essa, essendo riclassificata su 4 livelli (‘No titolo’, ‘Diplomati’, ‘Laureati triennale’ e ‘Laureati magistrale’) è una variabile non misurabile numericamente - ossia categorica - pertanto, è necessario ridefinirla in 4 nuove variabili binarie che possono assumere solo valori 0 o 1 (cd. variabili Dummy): Laureati Diplomati No titolo Livello di retribuzione medio per titolo di studio retribuzionemediamensilenettainEuro 050010001500 1395€ 1218€ 1203€ 965€ 1110€ 841€ Uomo Donna Grafico 8 *analisi effettuata su: n=2986 uomini, di cui 463 laureati,1725 diplomati,780 no titolo; n=2301 donne, di cui 729 laureate, 1199 diplomate, 373 no titolo.
  • 25. 25 𝑇𝑆1𝑖 = { 1 𝑠𝑒 𝑖 = 𝑛𝑜 𝑡𝑖𝑡𝑜𝑙𝑜 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 }; 𝑇𝑆2𝑖 = { 1 𝑠𝑒 𝑖 = 𝑑𝑖𝑝𝑙𝑜𝑚𝑎𝑡𝑖 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 } ; 𝑇𝑆3𝑖 = { 1 𝑠𝑒 𝑖 = 𝑡𝑟𝑖𝑒𝑛𝑛𝑎𝑙𝑒 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 } ; 𝑇𝑆4𝑖 = { 1 𝑠𝑒 𝑖 = 𝑚𝑎𝑔𝑖𝑠𝑡𝑟𝑎𝑙𝑒 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 } . ➢ SESSO, anch’essa variabile qualitativa e ulteriore regressore, viene ridefinita nelle due seguenti variabili binarie: 𝑆1𝑖 = { 1 𝑠𝑒 𝑖 = 𝑢𝑜𝑚𝑜 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 } ; 𝑆2𝑖 = { 1 𝑠𝑒 𝑖 = 𝑑𝑜𝑛𝑛𝑎 0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 } . Da qui, si costruisce il seguente modello di regressione multipla: 𝑌𝑖 = 𝛽0 + 𝛽1 𝑇𝑆2𝑖 + 𝛽2 𝑇𝑆3𝑖 + 𝛽3 𝑇𝑆4𝑖 + 𝛽4 𝑆2𝑖 + + 𝛽5( 𝑇𝑆2𝑖 ∗ 𝑆2𝑖) + 𝛽6( 𝑇𝑆3𝑖 ∗ 𝑆2𝑖) + 𝛽7( 𝑇𝑆4 ∗ 𝑆2𝑖) + 𝑢𝑖 dal quale si ottengono come risultato 8 rette differenti, che assumono pendenze diverse a seconda della condizione che viene soddisfatta. Tale regressione può essere sviluppata in R in modo molto più semplice e veloce, utilizzando la funzione lm(), come di seguito esposto: # Per praticità si rinominano le variabili come segue: sesso <- as.factor(dati$SESSO) reddito <- dati$RETRIB tistud.4 <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo', 'No titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale', 'Laureati triennale','Laureati magistrale', 'Laureati magistrale')) # Attraverso la funzione lm() è possibile riassumere la distribuzione dei dati adattandola ad un modello lineare. Si effettua, dunque, una regressione multipla che ha come variabile dipendente il reddito mensile netto e come regressori il titolo di studio conseguito e il genere dell’individuo, considerando i termini di interazione tra questi ultimi. > regressione <- lm(reddito ~ tistud.4 + sesso + tistud.4:sesso) > summary(regressione)
  • 26. 26 # summary() è una funzione che produce come risultato la sintesi di tutte le variabili contenute nel primo argomento, e in questo caso contiene una serie di informazioni per valutare il fit del modello e i parametri delle rette. # Nel dettaglio: la prima parte (Call) riporta la formula di R usata per il fit; la seconda parte riassume la distribuzione dei residui, cioè gli scarti dei valori osservati da quelli stimati dal modello; la terza parte presenta invece i parametri stimati, ossia i coefficienti, l’errore standard del parametro stimato e il test t, basato sulla distribuzione t di Student, dell’ipotesi nulla che il parametro sia nullo. Infine, l’ultima parte riporta alcuni indicatori relativi alla bontà dell’adattamento del modello: il residual standard error, altro non è che la radice dell’errore quadratico medio (errore di predizione); R-squared, ossia la proporzione di varianza dei dati osservati ‘spiegata’ dal modello, ed infine la statistica F, che si riferisce a un test d’ipotesi congiunta sui regressori del modello, per cui gli stessi siano tutti uguali a zero. Dall’output di regressione si evince che la retribuzione media degli uomini in possesso di un titolo di studio inferiore al diploma, rappresentato dall’intercetta β0, risulta essere pari a 1109.87€. Valore, questo, che per gli stessi uomini tende progressivamente ad aumentare al crescere del livello di istruzione conseguito. Come è possibile osservare, infatti, a ciascun titolo di studio è associato un rispettivo coefficiente, volto ad indicare l’incremento di retribuzione in funzione del titolo ottenuto: per gli uomini in possesso di diploma, la retribuzione media si incrementa di +92.91€, raggiungendo quota 1202.78€; per quelli che hanno conseguito una laurea di I livello, la retribuzione media si assesta intorno ai 1316.73€, con un incremento di +206.86€; infine, per coloro in possesso di una laurea di II livello, la media retributiva sale a 1458.47€, registrando un aumento di +348.60€. In ogni caso, dunque, l’effetto dei diversi titoli di studio posseduti sulla retribuzione media è positivo, progressivamente crescente quanto più è alto il titolo conseguito, e significativamente
  • 27. 27 diverso da zero: a dimostrazione di ciò, basti osservare il livello di significatività dei rispettivi coefficienti. «Ma, tra tutti questi dati, dove e come si posizionano le donne? A quanto ammonta il gap retributivo, in funzione del titolo di studio da esse conseguito?» Per rispondere a tali interrogativi la regressione considera, come ulteriore regressore, il genere - una variabile indipendente binaria - che si accende solo se l’individuo oggetto di studio è donna. Nell’output sopra ottenuto, si può osservare come il coefficiente della variabile “sesso2” - che rappresenta null’altro che il cosiddetto “effetto donna” - sia significativamente diverso da 0 e negativo: il solo fatto di essere una donna ha, dunque, un impatto negativo sulla retribuzione media mensile (1109.87€), pari a -268.53€. Pertanto, la retribuzione media percepita da una donna in possesso di un titolo di studio inferiore al diploma sarà pari all’intercetta al netto dell’effetto donna, ossia 1109.87 - 268.53 = 841€. Allo stesso modo, dalle interazioni calcolate tra l’”effetto donna” e il titolo di studio posseduto, è possibile ottenere le differenze di retribuzione in funzione del livello di istruzione conseguito: per le donne in possesso di diploma, la retribuzione media si incrementa di +123,81€, raggiungendo quota 965.18€; per coloro che hanno conseguito una laurea di I livello, la retribuzione media si assesta intorno ai 1162.81€, con un incremento di +321,47€; infine, per quelle donne in possesso di una laurea di II livello, la media retributiva sale a 1265.86€, registrando un aumento di + 424.52€ . Sembra evidente come, dai dati sopra riportati, le donne godrebbero di un incremento retributivo, progressivamente crescente per titoli di studio più elevati, maggiore di quello previsto per gli uomini (ad esempio 424.52€ per le laureate magistrali contro i 348.60€ degli uomini). Tuttavia, le retribuzioni medie finali rivelano come a guadagnare di meno, per tutti i titoli di studio osservati, siano proprio le donne: dato che potrebbe sembrare fuorviante con quanto precedentemente detto, ma che trova riscontro nel fatto che ad impattare fortemente sulle retribuzioni medie sia proprio l’”effetto donna”. I più scettici potrebbero pensare ad un vero e proprio fenomeno discriminatorio, e chissà se non sia proprio così: resta il fatto che l’essere donna in quanto tale, impatta molto più dell’effetto generato da qualsiasi titolo di studio posseduto, andando ad annullarne i benefici. Per semplicità esplicativa, i diversi risultati possibili della regressione sono rappresentati nella Tabella 1, riportata di seguito. Tabella 1: risultati regressione multipla con interazioni fra variabili 𝒀𝒊 = 𝑺𝟐𝒊 = 𝟏 (𝑑𝑜𝑛𝑛𝑎) 𝑺𝟐𝒊 = 𝟎 (𝑢𝑜𝑚𝑜) 𝑻𝑺𝟐𝒊 = 𝑻𝑺𝟑𝒊 = = 𝑻𝑺𝟒 = 𝟎 (𝑁𝑜 𝑡𝑖𝑡𝑜𝑙𝑜) 𝛽0 + 𝛽4 = = 1109.87 − 268.53 = 841.34 𝛽0 = 1109.87 𝑻𝑺𝟐𝒊 = 𝟏 (𝐷𝑖𝑝𝑙𝑜𝑚𝑎𝑡𝑖) 𝛽0 + 𝛽1 + 𝛽4 + 𝛽5 = = 1109.87 + 92.91 − 268.53 + 30.9 = = 965.18 𝛽0 + 𝛽1 = = 1109.87 + 92.91 = = 1202.78 𝑻𝑺𝟑𝒊 = 𝟏 (𝐿𝑎𝑢𝑟𝑒𝑎𝑡𝑖 𝑡𝑟𝑖𝑒𝑛𝑛𝑎𝑙𝑒) 𝛽0 + 𝛽2 + 𝛽4 + 𝛽6 = = 1109.87 + 206.86 − 268.53 + 114.61 = = 1162.81 𝛽0 + 𝛽2 = = 1109.87 + 206.86 = = 1316.73 𝑻𝑺𝟒𝒊 = 𝟏 (𝐿𝑎𝑢𝑟𝑒𝑎𝑡𝑖 𝑚𝑎𝑔𝑖𝑠𝑡𝑟𝑎𝑙𝑒) 𝛽0 + 𝛽3 + 𝛽4 + 𝛽7 = = 1109.87 + 348.60 − 268.53 + 75.92 = = 1265.86 𝛽0 + 𝛽3 = = 1109.87 + 348.60 = = 1458.47
  • 28. 28 In definitiva, si può senza dubbio evincere come il Gender pay gap esista e sia fortemente accentuato tra i Millennials, in particolare misura tra coloro che posseggono un titolo di studio inferiore al diploma, dal momento in cui la differenza di salario medio tra uomini e donne è ben di 268.53€, a discapito di queste ultime. Per di più, rispetto a quanto avviene per gli uomini in cui le discrepanze retributive registrano variazioni importanti per titoli di studio sempre più alti, per le donne tali differenze risultano meno accentuate: addirittura, l’”effetto laurea triennale”, per esse, risulta essere maggiore dell’”effetto laurea magistrale”. Indubbiamente un risultato inaspettato questo, dovuto probabilmente al fatto che, del nostro campione osservato al momento della rilevazione, le donne con laurea triennale avessero maggiori anni di esperienza lavorativa (con conseguenti scatti di anzianità ecc.), essendo entrate prima nel mondo del lavoro. È infine opportuno, per maggiore chiarezza delle rilevazioni ottenute, fare ulteriori due considerazioni: innanzitutto, è importante osservare che i termini di interazione tra l’”effetto donna” con l’”effetto diploma” e con l’”effetto laurea magistrale” non sono significativi, ossia non impattano in modo rilevante sulla retribuzione; poi, osservando il valore dell’R-quadro, si nota come tale regressione spieghi solo il 12% della varianza dei dati osservati. Pertanto, nonostante tale regressione sembri fatta bene, non si può ritenere essere immune da problemi di validità interna, come ad esempio variabili omesse rilevanti, misspecificazione, errori di misurazione nelle variabili o casualità simultanea: tutti aspetti che possono portare all’inconsistenza e/o alla distorsione degli stimatori. Di seguito, si è ritenuto opportuno riportare un grafico di dispersione che riassuma al suo interno i risultati empirici fin qui osservati. # Si costruisce un grafico di dispersione con le variabili utilizzate nella regressione al fine di mostrare come sono distribuite le retribuzioni in funzione del titolo di studio e del genere. Innanzitutto, si configurano i parametri grafici attraverso la funzione par(), specificando- mediante gli argomenti mai e las - rispettivamente le misure della finestra e l’orientamento delle etichette : > par(mai=c(1,2,1,1), las=2) > plot(reddito, tistud.4, yaxt="n", ann=F) > title(xlab="retribuzioni", main="Retribuzioni per titolo di studio e genere") > axis(side=2, at=(1:4), labels= c("No titolo" , "Diploma", "Triennale", "Magistrale")) # Si rappresentano in celeste gli uomini e in rosa le donne: > points(reddito[sesso==1],tistud.4[sesso==1], col="cyan") > points(reddito[sesso==2],tistud.4[sesso==2], col="deeppink") # Dopodiché, con il comando points() si evidenziano le retribuzioni medie associate a ciascuna categoria: > medie_uomini<- c(1110,1203,1317,1458) > medie_donne <- c(841,965,1163,1265)
  • 29. 29 > points(medie_donne,y=c(1,2,3,4), col="mediumvioletred", pch=16, cex=2) > points(medie_uomini,y=c(1,2,3,4), col="cyan2", pch=16, cex=2) # Tali punti vengono poi uniti tra loro con due linee, una per gli uomini e una per le donne, attraverso il comando lines(): > lines(x=medie_uomini, y=c(1,2,3,4), type="l", col="cyan2") > lines(x=medie_donne, y=c(1,2,3,4), type="l", col="mediumvioletred") > legend(locator(1), legend=c("Uomo", "Donna","Medie uomo","Medie donna"), col=c("cyan","deeppink","cyan2","mediumvioletred"), pch=c(1,1,16,16), bty="n") Grafico 9 *analisi effettuata su un campione di n=5269 individui, di cui 2968 uomini e 2301 donne Dal grafico emerge quanto già ampiamente discusso in precedenza, ossia che per ogni livello di istruzione la retribuzione media delle donne è sempre inferiore rispetto a quella percepita dagli uomini. Ciò spiega la maggiore concentrazione, a parità di titolo di studio, di individui femminili in corrispondenza di fasce di reddito più basse, rispetto agli uomini che, invece, risultano essere maggiormente presenti tra i valori positivamente anomali rispetto alla media nazionale. 2.5 Il gender pay gap nelle macroregioni Un’analisi più approfondita del campione permette inoltre di verificare se tali livelli retributivi siano stabili su tutto il territorio nazionale o se, a parità di condizioni - genere e titolo di studio - vi siano differenze a livello macroregionale.
  • 30. 30 # A partire dai data frame creati in precedenza: ‘laureati’, ‘diplomati’ e ‘no titolo’ > library(dplyr) > laureati <- filter(dati2, dati2$TISTUD=="7"|dati2$TISTUD=="8"|dati2$TISTUD=="9"|dati2$TISTUD=="10") > diplomati <- filter(dati2, dati2$TISTUD=="4" | dati2$TISTUD=="5" | dati2$TISTUD=="6") > no.titolo <- filter(dati2, dati2$TISTUD=="1" | dati2$TISTUD=="2" | dati2$TISTUD=="3") # si estraggono per ciascuna categoria gli uomini e le donne in base alla propria macroregione di appartenenza: Nord (RIP3=1), Centro (RIP3=2) e Sud (RIP3=3); al fine di isolare le corrispondenti retribuzioni. # Per i laureati: > retrib_u.l.nord <- laureati$RETRIB[laureati$SESSO==1&laureati$RIP3==1] # uomini nord > retrib_u.l.centro <-laureati$RETRIB[laureati$SESSO==1&laureati$RIP3==2] # uomini centro > retrib_u.l.sud <- laureati$RETRIB[laureati$SESSO==1&laureati$RIP3==3] # uomini sud > retrib_d.l.nord <- laureati$RETRIB[laureati$SESSO==2&laureati$RIP3==1] # donne nord > retrib_d.l.centro <-laureati$RETRIB[laureati$SESSO==2&laureati$RIP3==2] # donne centro > retrib_d.l.sud <- laureati$RETRIB[laureati$SESSO==2&laureati$RIP3==3] # donne sud # Per i diplomati: > retrib_u.d.nord<-diplomati$RETRIB[diplomati$SESSO==1&diplomati$RIP3==1] # uomini nord > retrib_u.d.centro<- diplomati$RETRIB[diplomati$SESSO==1&diplomati$RIP3==2] # uomini centro > retrib_u.d.sud<- diplomati$RETRIB[diplomati$SESSO==1&diplomati$RIP3==3] # uomini sud > retrib_d.d.nord <- diplomati$RETRIB[diplomati$SESSO==2&diplomati$RIP3==1] # donne nord
  • 31. 31 > retrib_d.d.centro <- diplomati$RETRIB[diplomati$SESSO==2&diplomati$RIP3==2] # donne centro > retrib_d.d.sud <-diplomati$RETRIB[diplomati$SESSO==2&diplomati$RIP3==3] # donne sud # Per i no titolo: > retrib_u.nt.nord <- no.titolo$RETRIB[no.titolo$SESSO==1&no.titolo$RIP3==1] # uomini nord > retrib_u.nt.centro <- no.titolo$RETRIB[no.titolo$SESSO==1&no.titolo$RIP3==2] # uomini centro > retrib_u.nt.sud <- no.titolo$RETRIB[no.titolo$SESSO==1&no.titolo$RIP3==3] # uomini sud > retrib_d.nt.nord <- no.titolo$RETRIB[no.titolo$SESSO==2&no.titolo$RIP3==1] # donne nord > retrib_d.nt.centro <- no.titolo$RETRIB[no.titolo$SESSO==2&no.titolo$RIP3==2] # donne centro > retrib_d.nt.sud <- no.titolo$RETRIB[no.titolo$SESSO==2&no.titolo$RIP3==3] # donne sud # Per ogni categoria si definiscono due vettori, uno per gli uomini e uno per le donne, contenenti i livelli medi di retribuzione in base alla ripartizione geografica di appartenenza, necessari per la costruzione delle corrispondenti matrici. Partendo dai laureati: > x.laurea <- c(mean(retrib_u.l.nord), mean(retrib_u.l.centro), mean(retrib_u.l.sud)) > y.laurea <- c(mean(retrib_d.l.nord), mean(retrib_d.l.centro), mean(retrib_d.l.sud)) > matrice.retrib_laurea <- rbind(x.laurea,y.laurea) > dimnames(matrice.retrib_laurea)[[1]] <- c("uomo", "donna") > dimnames(matrice.retrib_laurea)[[2]] <- c("Nord", "Centro", "Sud") # Si esegue lo stesso procedimento per i diplomati… > x.diploma <- c(mean(retrib_u.d.nord), mean(retrib_u.d.centro), mean(retrib_u.d.sud)) > y.diploma <- c(mean(retrib_d.d.nord), mean(retrib_d.d.centro), mean(retrib_d.d.sud)) > matrice.retrib_diploma <- rbind(x.diploma, y.diploma) > dimnames(matrice.retrib_diploma)[[1]] <- c("uomo", "donna")
  • 32. 32 > dimnames(matrice.retrib_diploma)[[2]] <- c("Nord", "Centro", "Sud") # … e per i no titolo: > x.no.titolo <- c(mean(retrib_u.nt.nord), mean(retrib_u.nt.centro), mean(retrib_u.nt.sud)) > y.no.titolo <- c(mean(retrib_d.nt.nord), mean(retrib_d.nt.centro), mean(retrib_d.nt.sud)) > matrice.retrib_no.titolo <- rbind(x.no.titolo, y.no.titolo) > dimnames(matrice.retrib_no.titolo)[[1]] <- c("uomo", "donna") > dimnames(matrice.retrib_no.titolo)[[2]] <- c("Nord", "Centro", "Sud) # Attraverso l’argomento mfcol, specificato nella funzione par() – utile per impostare i parametri grafici- si prepara la finestra grafica ad accogliere tre grafici uno accanto all’altro: > par(mfcol=c(1,3)) # indica ad R di dividere la finestra in 1 riga e 3 colonne # Senza chiudere la finestra, si procede con l’inviare i comandi dei grafici che si intende rappresentare: # barplot per i laureati > retrib_laureati<- barplot(matrice.retrib_laurea, beside=T, ylim= c(0,1800), col=c("lightblue", "pink"), sub="Laureati", ylab="retribuzione media mensile netta in Euro",cex.axis=1.5, cex.sub=1.5, font.sub=2) > text (retrib_laureati,y=(matrice.retrib_laurea), pos=3, labels=paste(as.vector(round(matrice.retrib_laurea)),"€",sep=""),cex=1) > legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue", "pink"), pch=c(15,15), bty="n", cex=1.5) # barplot per i diplomati > retrib_diplomati <- barplot(matrice.retrib_diploma, beside=T, ylim=c(0,1800), col=c("lightblue", "pink"), sub="Diplomati", ylab="retribuzione media mensile netta in Euro",cex.axis=1.5, cex.sub=1.5, font.sub=2) > text(retrib_diplomati,y=matrice.retrib_diploma, pos=3, labels=paste(as.vector(round(matrice.retrib_diploma)),"€", sep=""),cex=1) > title("Livelli di retribuzione medi per titolo conseguito", cex.main=1.5) # barplot per i no titolo
  • 33. 33 > retrib_no.titolo <- barplot(matrice.retrib_no.titolo, beside=T, ylim=c(0,1800), col=c("lightblue", "pink"), sub="No titolo", ylab="retribuzione media mensile netta in Euro", cex.axis=1.5, cex.sub=1.5, font.sub=2) > text(retrib_no.titolo,y=matrice.retrib_no.titolo, pos=3, cex=1, labels=paste(as.vector(round(matrice.retrib_no.titolo)),"€", sep="") N.B. in allegato è possibile visionare un procedimento alternativo, attraverso cui è stato possibile giungere alle medesime conclusioni utilizzando il ciclo for (si veda, Allegato “Procedimenti Alternativi” §2). Il grafico conferma che, anche per gli under 34, i dati delle retribuzioni forniscono uno spaccato abbastanza eterogeneo dell’Italia. Un laureato uomo del Nord guadagna circa 200€ in più di un laureato del sud e la differenza resta pressoché la stessa anche per il genere femminile, quest’ultimo caratterizzato, però, da livelli retributivi ancora più bassi. I più pignoli, tuttavia, potrebbero individuare non pochi dettagli che renderebbero questi dati poco rappresentativi: si pensi, ad esempio, all’alto costo della vita al Nord oppure all’evasione fiscale, un fenomeno che coinvolge molto più il meridione che le altre macroregioni italiane. Ma che il lavoro nero ci sia o meno, non si può certo negare che la maggior parte delle famiglie del sud non navighi nell’oro e che, inoltre, molti giovani siano costretti a spostarsi al Nord per ambire a condizioni lavorative più gratificanti. È stato addirittura sottolineato, alla luce della nuova iniziativa proposta nella Legge di Bilancio 2019 dal Movimento Cinque Stelle, che non ci sarà una grossa differenza tra quanto guadagnato da molti lavoratori e quanto avuto da chi potrà usufruire del Reddito di Cittadinanza, in quanto i giovani italiani guadagnano in media poco più dei €780 Nord Centro Sud Laureati retribuzionemediamensilenettainEuro 050010001500 1436€ 1279€ 1397€ 1164€ 1232€ 1059€ Uomo Donna Nord Centro Sud Diplomati retribuzionemediamensilenettainEuro 050010001500 1287€ 1029€ 1123€ 914€ 1033€ 822€ Livelli di retribuzione medi per titolo conseguito Nord Centro Sud No titolo retribuzionemediamensilenettainEuro 050010001500 1194€ 921€ 1101€ 797€ 943€ 640€ Grafico 10 *n laureati: 1192, di cui 463 uomini (296 nord,90 centro,77 sud) e 729 donne (469 nord, 124 centro, 136 sud); *n diplomati: 2924, di cui 1725 uomini (1033 nord, 334 centro, 358 sud) e 1199 donne (719 nord, 248 centro, 232sud); *n ‘no titolo’: 1153, di cui 780 uomini (415 nord, 165 centro, 200 sud) e 373 donne (227 nord, 72 centro, 74sud).
  • 34. 34 proposti dal Governo. La situazione – secondo Pierangelo Albini, direttore dell’area welfare di Confindustria – potrebbe generare un forte disincentivo nel cercare un’occupazione dal momento che non ci sarebbe un miglioramento delle proprie condizioni economiche9 . 2.6 Il contractual gender gap Se dalle analisi finora condotte è stato possibile dedurre che il gender pay gap esista e sia evidente, ci si chiede se si possa dire lo stesso anche per le principali tipologie contrattuali: i contratti a tempo determinato e quelli a tempo indeterminato. Secondo un’opinione comune sembra che, negli ultimi anni, il fenomeno della precarietà abbia coinvolto più le donne che gli uomini, probabilmente per mitigare gli animi di coloro i quali ritenevano discriminatorio l’atteggiamento dei datori di lavoro nei confronti del sesso debole. Si stima infatti che il 77,1% dei Millennials occupati intervistati abbia un lavoro full-time, di cui solo il 27% è di sesso femminile10 . Il restante 22,9% possiede un lavoro a tempo parziale, di cui il 7,5% è uomo, ma il 15,4% è donna. A confermare la tesi secondo cui i giovani lavorano part-time perché costretti, sono gli stessi intervistati: nella variabile MOTIV_PT sono state riassunte, infatti, le motivazioni che hanno spinto gli stessi ad accettare un lavoro precario. Si rileva che dei 1447 individui assunti a tempo parziale il 74% non ha trovato un lavoro a tempo pieno, mentre solo il 20% (di cui il 15% di sesso femminile) ha scelto volontariamente un contratto più flessibile, per motivi legati allo studio, alla salute, alla famiglia o per altri motivi personali11 . In aggiunta, dal dataset in esame è possibile ricavare informazioni sulla posizione professionale di ogni individuo. Si stima che circa 5269 giovani, pari all’83% degli individui occupati, lavori alle dipendenze, mentre una più bassa percentuale (17%) è riservata ai giovani che svolgono un lavoro autonomo.12 Essendo coloro i quali svolgono un lavoro indipendente una minoranza fra i giovani intervistati, ci si servirà, nelle prossime analisi, di chi svolge un lavoro alle dipendenze per evidenziare l’eventuale presenza di quello che viene definito il “contractual gender gap”. In prima istanza, si effettuerà una verifica della percentuale di somministrazione di contratti a tempo determinato e indeterminato, sia per gli uomini che per le donne; successivamente, verrà aggiunta all’analisi la variabile TISTUD al fine di sottolinearne le differenze sulla base del titolo di studio del campione di riferimento. # Le variabili di interesse sono DETIND (=1 per il lavoro a tempo determinato, e 2 per quello a tempo indeterminato) e SESSO (=1 per gli uomini, 2 per le donne). si parte dalle loro frequenze assolute congiunte > table(dati$SESSO,dati$DETIND) 1 2 1 1117 1851 9 Per approfondimenti, si veda “Al sud stipendi più bassi del reddito di cittadinanza”, di M. Costarella. URL: < http://www.ntacalabria.it/notizie-evidenza/sud-stipendi-bassi-reddito-cittadinanza.html> 10 Il procedimento effettuato per ricavare tali percentuali è stato riportato nell’Apx 1.4, pt.1. 11 Il procedimento effettuato per ricavare tali percentuali è riportato nell’Apx 1.4, pt.2. 12 Il procedimento effettuato per ricavare tali percentuali è riportato nell’Apx 1.4, pt.3.
  • 35. 35 2 930 1371 # per poi calcolare le rispettive frequenze relative che, moltiplicate a loro volta per 100 e arrotondate, fungono da base per la seguente matrice: > matrice_detind <- as.matrix(round(prop.table(table(dati$SESSO,dati$DETIND), margin=2)*100)) > dimnames(matrice_detind)[[1]] <- c("uomo","donna") > dimnames(matrice_detind)[[2]] <- c("A tempo determinato", "A tempo indeterminato") > matrice_detind A tempo determinato A tempo indeterminato uomo 55 57 donna 45 43 # Tale matrice è necessaria per la costruzione del seguente barplot: > grafico_contr <- barplot(matrice_detind, beside=T, main=”Gender Gap per tipologia contrattuale su base nazionale”,col=c(“lightblue”,”pink”), ylab=”Frequenze relative in %”, ylim=c(0,80), cex.main=1.2) > text(grafico_contr, y=matrice_detind, labels=as.vector(round(matrice_detind1)), pos=3) > legend(locator(1), legend=c(“Uomo”, “Donna”), col=c(“lightblue”, “pink”), pch=c(15,15), bty=”n”)
  • 36. 36 Grafico 11 *campione composto da n=5269 individui, di cui 2968 uomini (1117 a tempo determinato e 1851 a tempo indeterminato) e 2301 donne (939 a tempo determinato e 1371 a tempo indeterminato) Dal grafico si evidenzia come per entrambe le tipologie contrattuali esista un divario tra gli uomini e le donne, specialmente in corrispondenza di quelli a tempo indeterminato: infatti, il 57% degli uomini è assunto a tempo indeterminato, contro il 43% delle donne. Nonostante all’interno del campione le donne assunte a tempo indeterminato (26%) siano più delle giovani assunte a tempo determinato (18%), la stipula di un contratto con clausola di stabilità resta un fenomeno preponderante fra gli uomini (35%)13 . Introducendo, come precedentemente accennato, la variabile riferita al titolo di studio conseguito dai lavoratori dipendenti, si otterranno due rappresentazioni grafiche atte ad evidenziare il gender gap rispettivamente per i contratti a tempo determinato e per quelli a tempo indeterminato. # Innanzitutto, si ricorda di ridurre i livelli di TISTUD da 10 a 4, così da considerare soltanto i: “No titolo”, “Diplomati”, “Laureati triennale”, “Laureati magistrale”. > dati$TISTUD <- factor(dati$TISTUD, labels=c("No titolo", "No titolo", "No titolo", "Diplomati", "Diplomati", "Diplomati", "Laureati triennale", "Laureati triennale","Laureati magistrale", "Laureati magistrale")) 13 Il procedimento effettuato per ricavare tali percentuali è riportato in Apx 1.5. A tempo determinato A tempo indeterminato Gender Gap per tipologia contrattuale su base nazionale Frequenzerelativein% 020406080 55 45 57 43 Uomo Donna
  • 37. 37 # Da TISTUD vengono estratti gli uomini e le donne occupati a tempo determinato: > uom.det <- dati$TISTUD[dati$SESSO==1 & dati$DETIND==1] > don.det <- dati$TISTUD[dati$SESSO==2 & dati$DETIND==1] # Si costruisce poi la matrice, ottenuta considerando le frequenze relative, arrotondate e moltiplicate per 100. > matrice.det <- round(prop.table(as.matrix(rbind(table(uom.det), table(don.det))), margin=2) *100) > dimnames(matrice.det)[[1]] <- c("Uomini det","Donne det") > matrice.det No titolo Diplomati Laureati triennale Laureati magistrale Uomini det 67 58 37 34 Donne det 33 42 63 66 # Dalla matrice, è dunque possibile costruire il barplot: grafico_det <- barplot(matrice.det, beside=T, main="Gender Gap nei contratti a tempo determinato per titolo di studio", col=c("lightblue","pink"), ylab="Frequenze relative in %", ylim=c(0,80), cex.main=1.2) text(grafico_det, y=matrice.det, labels=as.vector(round(matrice.det)), pos=3) legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue", "pink"), pch=c(15,15), bty="n")
  • 38. 38 Grafico 12 *campione composto da n=2047 individui, di cui 1117 uomini (282 No titolo, 672 Diplomati, 77 Laureati triennale e 86 laureati magistrale) e 930 donne (142 No titolo, 488 Diplomati, 133 Laureati triennale e 167 laureati magistrale) Il gap che sussiste nei contratti di lavoro a tempo determinato tra uomini e donne è, come si può osservare, fortemente influenzato dal titolo di studio rispettivamente conseguito. Più specificamente, se per i “No titolo” (ovvero coloro che all’attivo posseggono un titolo inferiore al diploma) si registra una più elevata percentuale di uomini assunti a tempo determinato (67%) rispetto alle donne (33%), tale trend tende via via a ridursi, per poi capovolgersi per titoli di studio più elevati: basti osservare come, per coloro che hanno conseguito una laurea magistrale, il gap che si registra sfavorisca nettamente le donne, assunte a tempo determinato con una percentuale del 67%, contro il 34% degli uomini. Per quanto riguarda invece il gender gap nei contratti a tempo indeterminato: #Da TISTUD, ridotto da 10 a 4 livelli, si estraggono gli uomini e le donne occupate a tempo indeterminato: > dati$TISTUD <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo', 'No titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale', 'Laureati triennale','Laureati magistrale', 'Laureati magistrale')) > uom.indet <- dati$TISTUD[dati$SESSO==1 & dati$DETIND==2] > don.indet <- dati$TISTUD[dati$SESSO==2 & dati$DETIND==2]
  • 39. 39 # Successivamente si costruisce la matrice delle frequenze relative, da cui ricavare il grafico: > matrice.indet <- round(prop.table(as.matrix(rbind(table(uom.indet), table(don.indet))), margin=2) *100) > dimnames(matrice.indet)[[1]]<-c("Uomini indet","Donne indet") > matrice.indet No titolo Diplomati Laureati triennale Laureati magistrale Uomini indet 68 60 39 43 Donne indet 32 40 61 57 # Per la costruzione del barplot: > grafico_indet <- barplot(matrice.indet, beside=T, main="Gender Gap nei contratti a tempo indeterminato per titolo di studio", ylim=c(0,80), col=c("lightblue","pink"), ylab="Frequenze relative in %", cex.main=1.2) > text(grafico_indet, y=matrice.indet, labels=as.vector(round(matrice.indet)), pos=3) > legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue", "pink"), pch=c(15,15), bty="n") Grafico 13 *campione composto da n=3222 individui, di cui 1851 uomini ( 498 No titolo, 1053 Diplomati, 131 Laureati triennale e 169 laureati magistrale) e 1371 donne ( 231 No titolo, 711 Diplomati, 205 Laureati triennale e 224 laureati magistrale)
  • 40. 40 Simile al caso precedentemente analizzato è la condizione occupazionale per gli individui del campione assunti a tempo indeterminato. Se il gap risulta essere estremamente elevato per i soggetti in possesso di un titolo di studio inferiore al diploma (confermando in ogni caso il trattamento di sfavore nei confronti delle donne in merito ad una tipologia contrattuale più stabile) man mano che il grado di istruzione aumenta si possono osservare due fenomeni: in primo luogo, il gender gap tende ad assottigliarsi sempre più, nonostante le differenze percentuali tra uomini e donne assunti a tempo indeterminato rimangano significative; in secondo luogo, a partire da livelli di istruzione più elevati, come lauree di I e II livello, il trend tende a cambiare rotta, registrando una maggiore percentuale di donne assunte a tempo indeterminato rispetto agli uomini ( rispettivamente il 61% contro il 39% per i laureati triennali, e i 57% contro il 43% per i laureati magistrali).
  • 41. 41 CAPITOLO TRE BOOTSTRAP Uno degli scopi principali della statistica è quello di ricavare, tramite l’esame di un campione, alcune proprietà della popolazione da cui esso è stato estratto. In altri termini, si cerca di stimare un parametro di una popolazione, la cui distribuzione è ignota, attraverso uno stimatore (funzione dei dati campionari). Tuttavia, una volta scelto lo stimatore non è sempre facile calcolare quanto esso si accurato: si dovrebbe poter disporre di diversi campioni estratti dalla stessa popolazione in modo da poter calcolare il valore dello stimatore su ogni campione per poi calcolarne la variabilità, ma questo raramente si verifica. Ed è qui che entra in gioco la tecnica del bootstrap, la quale si basa sull’idea di ricavare dalla distribuzione empirica del campione – unica informazione di cui si dispone sulla distribuzione della popolazione – numerosi campioni attraverso una procedura di ricampionamento con reinserimento. In questo modo si possono calcolare diverse stime del parametro di interesse, con le quali si è poi in grado di ottenere misure di variabilità dello stimatore, quali errore standard e intervalli di confidenza. La procedura del bootstrap consiste, dunque, in un metodo di stima o di approssimazione della distribuzione campionaria di una statistica e delle sue caratteristiche, in genere non parametrico, in quanto poggia su ipotesi generali che non riguardano la forma funzionale della statistica dello stimatore. Inoltre, essendo una tecnica di ricampionamento basata su calcoli informatici, si sostituisce all’analisi matematica facendo ricorso a tecniche di approssimazione numerica quale il Metodo Monte Carlo abbinato al principio di sostituzione (plug-in); rendendo il bootstrap un metodo di stima inferenziale computer intensive. Le stime così ottenute godono in generale di ottime proprietà dal punto di vista della consistenza e dell’accuratezza, tanto che spesso l’approssimazione fornita dal bootstrap risulta addirittura migliore rispetto alla classica approssimazione normale della teoria asintotica. Infine, qualora si fosse in grado di fare ipotesi sulla forma funzionale della funzione generatrice dei dati si potrebbe ricorrere ad un approccio di tipo parametrico. Per concludere l’analisi, si procede dunque con l’implementare la tecnica del bootstrap sulle retribuzioni osservate nel campione oggetto di studio. In particolare, si intendono calcolare l’errore standard e gli intervalli di confidenza delle medie campionarie relative, rispettivamente, alle retribuzioni degli uomini e delle donne in possesso di una laurea, al fine di valutare l’accuratezza delle stime ottenute e giungere ad un’approssimazione delle funzioni di distribuzione campionarie. Presupposto necessario per effettuare un’analisi di tipo bootstrap è che i dati del campione siano i.i.d., qualità facilmente attribuibile al dataset oggetto di studio. Tuttavia, non è possibile fare supposizioni sulle caratteristiche della funzione di ripartizione generatrice dei dati, pertanto si utilizzerà il cd. Bootstrap classico (non parametrico). # Si carica il dataset e la libreria dplyr per filtrare i dati di partenza ed estrarre solo gli individui che possiedono una laurea: > dati <- read.table(file="dati_finali.csv", header=T, quote="", sep=";")
  • 42. 42 > library(dplyr) > dati2 <- filter(dati, dati$RETRIB!="NA") > laureati <- filter(dati2, dati2$TISTUD=="7"|dati2$TISTUD=="8"|dati2$TISTUD=="9"|dati2$TISTUD=="10") # Da questo data frame si isolano le retribuzioni di uomini e donne, al fine di calcolare le rispettive medie. Per i laureati: > retrib_u.l <- laureati$RETRIB[laureati$SESSO==1] # uomini laureati > retrib_d.l <- laureati$RETRIB[laureati$SESSO==2] # donne laureate # Dopo averlo installato, viene caricato il package che permette di effettuare il bootstrap: > library(boot) # Prima di procedere al ricampionamento mediante la funzione boot() è necessario definire una funzione – data.fun - che calcoli le statistiche da sottoporre a indagine bootstrap. Tale funzione accetta sempre un minimo di due argomenti, ossia il vettore o il data frame che contiene i dati originali e un vettore contenente gli indici necessari per estrarre gli elementi dal campione originario (individuano la posizione delle osservazioni da prendere per costruire i campioni bootstrap). In questo caso le statistiche da estrarre altro non sono che la media e la deviazione standard calcolati sui diversi campioni bootstrap. > data.fun <- function(data, index) { xbar <- mean(data[index]) xsd <- sd(data[index]) c(xbar, xsd) } # la funzione restituisce un vettore contenente la media del campione e la sua deviazione standard. A questo punto si può procedere con la funzione boot(),che è dove avviene il vero e proprio bootstrap. Tre sono gli argomenti principali richiesti: il vettore contenente i dati di misura ‘reali’ (le retribuzioni), la funzione da usare per il ricampionamento (data.fun) e il numero di repliche bootstrap da effettuare. # Si effettua il bootstrap sulle retribuzioni degli uomini laureati: > res.boot <- boot(retrib_u.l, data.fun, R = 10000)
  • 43. 43 > res.boot > res.boot$t0 [1] 1394.7948 483.3862 # restituisce i valori delle statistiche sui dati originali > mean(res.boot$t[,1]) [1] 1394.4 # media della statistica ‘1’ sulle repliche bootstrap # Si rappresentano, poi, le repliche bootstrap con il seguente grafico : > hist(res.boot$t[,1], nclass=50, probability=TRUE, xlim=c(1300,1500), main="Distribuzione bootstrap della statistica media") # mediante due linee si evidenziano in rosso la media campionaria - ottenuta sul campione originario, oggetto di analisi, e in blu la stima bootstrap: > abline(v=c(res.boot$t0[1], mean(res.boot$t[,1])), col=c("red","blue")) > legend(locator(1), legend=c("media campionaria","stima bootstrap"), col=c("red","blue"), lty=c(1,1), bty="n", cex=0.8) # dopodiché, con il comando lines() si evidenza come la distribuzione delle medie bootstrap si approssimi ad una Normale: > lines(seq(1000,2000, length=2000), dnorm(seq(1000,2000, length=2000), mean= 1394, sd=(483/sqrt(463))), col="springgreen3")
  • 44. 44 Grafico 14 Dal grafico, emerge in primis come la distribuzione bootstrap della media campionaria si approssimi ad una Normale e, inoltre, essendo la distorsione delle stime (bias) minima (la differenza fra la media delle repliche bootstrap e la stima effettuata sul campione) risulta come le statistiche calcolate – in questo caso media e deviazione standard – siano pressoché identiche a quelle prodotte dalla tecnica bootstrap. # Attraverso la funzione boot.ci () si possono ottenere gli intervalli di confidenza delle statistiche. Tale funzione genera 5 diversi tipi di intervalli di confidenza non parametrici a due lati: Normal (basato sulla normale asintotica), Basic (l'intervallo di bootstrap di base, centrato rispetto alla media) Studentizzato (centrato, oltre che rispetto alla media, anche rispetto alla varianza), Percentile (basato su un intervallo più semplice ma meno attendibile, viene preso il percentile sull'istogramma originario senza centrarlo, ossia centrato sulla media del bootstrap) e il BCa (l'intervallo percentile bootstrap corretto). Mentre il primo deriva dall’approssimazione asintotica normale, gli altri derivano dai risultati delle repliche bootstrap.
  • 45. 45 > boot.ci(res.boot) Tali intervalli di confidenza per la media forniscono un campo di variazione all'interno del quale ci si aspetta di trovare il parametro incognito della popolazione con un livello di attendibilità del 95%. Pertanto, ci si aspetta che su 10000 intervalli di confidenza (uno per ogni replica) 9500 contengano il vero parametro della popolazione di riferimento, ovvero la vera media delle retribuzioni in riferimento agli uomini laureati. Si può concludere che la stima bootstrap della media delle retribuzioni degli uomini laureati rappresenta un’ottima approssimazione della vera media della popolazione, così come la media campionaria, avendo precedentemente dimostrato che queste sono pressoché identiche. Le considerazioni finora espresse basandosi su questo valore possono dunque considerarsi affidabili, almeno da un punto di vista strettamente numerico e posti i dati a nostra disposizione. Così come fatto per gli uomini, di seguito si implementa il bootstrap per la media delle retribuzioni delle donne. # Si effettua il bootstrap sulle retribuzioni delle donne laureate: > res.boot2 <- boot(retrib_d.l, data.fun, R = 10000) > res.boot2 > res.boot2$t0 # valori delle statistiche sui dati originali
  • 46. 46 [1] 1218.0796 439.9939 > mean(res.boot2$t[,1]) [1] 1218.122 # media della statistica ‘1’ sulle repliche bootstrap # Sui nuovi dati, viene generato l’istogramma: > hist(res.boot2$t[,1], nclass=50, probability=TRUE, xlim=c(1150,1300), main="Distribuzione bootstrap della statistica media", axis=F) > xticks <- c(1150,1160,1170,1180,1190,1200,1210,1220,1230,1240,1250, 1260,1270,1280) > axis(side=1, at=xticks, labels=xticks) > axis(2) > abline(v=c(res.boot2$t0[1], mean(res.boot2$t[,1])), col=c("red","blue")) > legend(locator(1), legend=c("media campionaria","stima bootstrap"), col=c("red","blue"), lty=c(1,1), bty="n", cex=0.8) > lines(seq(1000,2000, length=2000), dnorm(seq(1000,2000, length=2000), mean= 1218.0796, sd=(439.9939/sqrt(729))), col="springgreen3")
  • 47. 47 Grafico 15 Anche in questo caso, si nota una sovrapposizione delle rette che identificano le due medie, in quanto i risultati bootstrap confermano l’accuratezza delle stime condotte sul campione. > boot.ci(res.boot2) Infine, come si può osservare dall’output sopra riportato, gli intervalli di confidenza bootstrap presentano valori estremi pressoché identici, sia tra di essi che con quelli dell’intervallo standard, derivante dalla approssimazione asintotica normale. Pertanto, alla luce di quanto emerso dal bootstrap sulla retribuzione media delle donne laureate si possono estendere le conclusioni precedentemente formulate per la retribuzione media maschile. Sinteticamente, quindi, anche la
  • 48. 48 stima di questo parametro si può considerare estremamente affidabile e corrispondente quasi del tutto al vero parametro incognito.
  • 49. 49 Conclusioni In conclusione, da questa approfondita analisi della condizione occupazionale dei Millennials in Italia non si possono che confermare le sensazioni e le idee diffuse tra l’opinione pubblica e soprattutto tra i giovani: vi sono una serie di barriere all’entrata del mercato del lavoro per i millennials e spesso la retribuzione non è adeguata all’aspettativa che si aveva all’inizio del proprio percorso di studi, tanto più che questo sia approfondito. I dati più evidenti sono quelli riguardanti il divario in termini di occupazione, istruzione e salario tra Nord e Sud, derivante da una ormai tristemente nota questione meridionale che si perpetua nel Paese da decenni. Dal punto di vista della generazione Y, questa differenza sta a significare minori possibilità di realizzazione professionale per i giovani meridionali che porta molti alla conseguente scelta obbligata del trasferimento dalla propria regione di origine verso il Nord Italia, mentre chi decide di restare si trova a dover affrontare un contesto socio-economico svantaggiato rispetto ai colleghi settentrionali. Altra triste conferma la si è avuta sull’esistenza del cd. Gender Gap, la differenza salariale tra uomo e donna a parità di altre condizioni, che però sta gradualmente diminuendo tra i giovani rispetto alla media nazionale, segno questo che nel prossimo futuro si potrà sperare in una limitazione ed infine scomparsa di questo fenomeno, continuando a combattere in tal senso. In definitiva, questo spaccato di vita professionale dei giovani italiani non si propone di essere esaustivo né tantomeno portatore di risposte a problemi di ampio respiro, ma può essere utile per fornire uno sguardo d’insieme, supportato da dati reali, su un argomento spesso trattato e talvolta distorto dai media per permettere ad un lettore esterno di essere in grado di trarre autonomamente le proprie conclusioni.
  • 50. 50 ALLEGATO 1 PROCEDIMENTI ALTERNATIVI In alcuni punti, nella manipolazione dei dati con il software R, si è ritenuto utile ripetere i procedimenti in modo più semplice ed intuitivo, utilizzando scorciatoie e comandi quali funzioni, ciclo for() e la funzione aggregate(). 1. Le retribuzioni per livello di istruzione: procedimento alternativo Per rendere più rapida la costruzione del barplot delle retribuzioni medie per livello di istruzione, è necessario definire in primis alcune variabili che saranno più facilmente richiamabili di seguito: # La prima cosa da fare è eliminare da dati$RETRIB tutti gli NA e filtrare di conseguenza sesso e titolo di studio. > retribuzioni <- dati$RETRIB[!is.na(dati$RETRIB)] ## retribuzioni > length(retribuzioni) [1] 5269 # Viene riscalata la variabile TISTUD in 4 livelli in questo modo: > dati$TISTUD <- factor(dati$TISTUD, labels=c('No titolo', 'No titolo', 'No titolo', 'Diplomati', 'Diplomati', 'Diplomati', 'Laureati triennale', 'Laureati triennale','Laureati magistrale', 'Laureati magistrale')) # poi viene filtrata dati$TISTUD (in seguito “tistud”), selezionando solo gli individui diversi da NA in dati$RETRIB: tistud <- dati$TISTUD[!is.na(dati$RETRIB)] ## titolo di studio > length(tistud) # [1] 5269 > sesso <- dati$SESSO[!is.na(dati$RETRIB)] ## sesso > length(sesso)
  • 51. 51 # [1] 5269 > rip3 <- dati$RIP3[!is.na(dati$RETRIB)] ## macroregioni > length(rip3) # [1] 5269 Definite queste variabili, si utilizza il ciclo for per ricavare automaticamente le retribuzioni medie per titolo di studio, sia per le donne che per gli uomini, come di seguito indicato: # Per poter utilizzare più comodamente il ciclo for, vengo etichettati nuovamente i livelli della variabile TISTUD, sostituendo ai 4 titoli di studio i numeri da 1 a 4: > tistud <- factor(tistud, labels=c('1','2','3','4')) # A questo punto, si definiscono i vettori delle medie con il ciclo for() medie.auto1 <- vector() ### si dichiara l'oggetto come vettore vuoto nn <- c(1,2,3,4) for (nn in 1:4) { medie.auto1[[nn]] <- mean(retribuzioni[tistud==nn & sesso==1]) } medie.auto1 # Si esegue lo stesso procedimento per creare il vettore con le retribuzioni medie delle donne: medie.auto2 <- vector() nn <- c(1,2,3,4) for (nn in 1:4) {
  • 52. 52 medie.auto2[[nn]] <- mean(retribuzioni[tistud==nn & sesso==2]) } medie.auto2 # A questo punto, è possibile creare la matrice con i vettori appena create: > matrice.auto <- as.matrix(rbind(medie.auto1, medie.auto2)) > dimnames(matrice.auto)[[1]] <- c("uomini", "donne") > dimnames(matrice.auto)[[2]] <- c("no titolo", "diploma", "triennale", "magistrale") > barplot(matrice.auto, beside=T, col=c("lightblue", "pink"), main="Livello di retribuzione medio per titolo di studio", xlab="Titolo di studio", ylab="Retribuzione media mensile netta in Euro", ylim=c(0,1600)) > barplot.auto <- barplot(matrice.auto, beside=T, col=c("lightblue", "pink"), main="Livello di retribuzione medio per titolo di studio", xlab="Titolo di studio", ylab="Retribuzione media mensile netta in Euro", ylim=c(0,1600)) > text(barplot.auto, y=matrice.auto, labels=paste(as.vector(round(matrice.auto, digit=0)), "???", sep=""), pos=3) > legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue", "pink"), pch=c(15,15), bty="n")
  • 53. 53 È possibile notare una coincidenza dei valori delle retribuzioni medie per gli uomini e per le donne con il procedimento alle pagine 22-23. L’unica differenza è che, in precedenza, avendo utilizzato il package dplyr per raggruppare i titoli di studio, non è stata fatta alcuna differenza fra i laureati triennale e magistrale. 2. Il gender pay gap nelle macroregioni: procedimento alternativo Di seguito, si illustra il procedimento alternativo implementato per evidenziare le differenze di retribuzione per titolo di studio nelle macroregioni. Obiettivo perseguito è creare quattro grafici affiancati, uno per ogni titolo di studio, prendendo in considerazione le funzioni poc’anzi create. # Si crea un nuovo data frame con le variabili create in precedenza: > dati2 <- data.frame(sesso, tistud, rip3, retribuzioni) # Si utilizza la funzione aggregate() per calcolare automaticamente le retribuzioni medie: > aggr_data <- aggregate(retribuzioni ~ tistud * sesso * rip3, FUN=mean, data=dati2)
  • 54. 54 # Vengono nuovamente raggruppati i dati per creare le quattro matrici di cui si necessita: > m_no.titolo <- aggr_data[aggr_data$tistud==1,2:4] > m_diplomati <- aggr_data[aggr_data$tistud==2,2:4] > m_triennale <- aggr_data[aggr_data$tistud==3,2:4] > m_magistrale <- aggr_data[aggr_data$tistud==4,2:4] # Di seguito, si creano le matrici e i grafici affiancati, dopo aver preparato la finestra:
  • 55. 55 > matrix_m_no.titolo <- as.matrix(round(cbind(m_no.titolo[1:2,3], m_no.titolo[3:4,3], m_no.titolo[5:6,3]))) dimnames(matrix_m_no.titolo)[[1]]<- c("uomo", "donna") dimnames(matrix_m_no.titolo)[[2]]<- c("Nord", "Centro", "Sud") > matrix_m_diplomati <- as.matrix(round(cbind(m_diplomati[1:2,3], m_diplomati[3:4,3], m_diplomati[5:6,3]))) dimnames(matrix_m_diplomati)[[1]]<- c("uomo", "donna") dimnames(matrix_m_diplomati)[[2]]<- c("Nord", "Centro", "Sud") > matrix_m_triennale <- as.matrix(round(cbind(m_triennale [1:2,3], m_triennale [3:4,3],m_triennale [5:6,3]))) dimnames(matrix_m_triennale)[[1]]<- c("uomo", "donna") dimnames(matrix_m_triennale)[[2]]<- c("Nord", "Centro", "Sud") > matrix_m_magistrale <- as.matrix(round(cbind(m_magistrale[1:2,3], m_magistrale[3:4,3],m_magistrale[5:6,3]))) dimnames(matrix_m_magistrale)[[1]]<- c("uomo", "donna") dimnames(matrix_m_magistrale)[[2]]<- c("Nord", "Centro", "Sud") > par(mfcol=c(2,2)) > retrib_laureati_t <- barplot(matrix_m_triennale, beside=T, ylim= c(0,1800), col=c("lightblue", "pink"), sub="Laureati triennale", ylab="retribuzione media mensile netta in Euro",cex.axis=1.5, cex.sub=1.5, font.sub=2) > text (retrib_laureati_t,y=(matrix_m_triennale), pos=3, labels=paste(as.vector(round(matrix_m_triennale)),"€",sep=""),cex=1) > retrib_laureati_m <- barplot(matrix_m_magistrale, beside=T, ylim= c(0,1800), col=c("lightblue", "pink"), sub="Laureati magistrale",
  • 56. 56 ylab="retribuzione media mensile netta in Euro",cex.axis=1.5, cex.sub=1.5, font.sub=2) > text (retrib_laureati_m,y=(matrix_m_magistrale), pos=3, labels=paste(as.vector(round(matrix_m_magistrale)),"€", sep=""),cex=1) > legend(locator(1), legend=c("Uomo", "Donna"), col=c("lightblue", "pink"), pch=c(15,15), bty="n", cex=1.5) > retrib_diplomati <- barplot(matrix_m_diplomati, beside=T, ylim=c(0,1800), col=c("lightblue", "pink"), sub="Diplomati", ylab="retribuzione media mensile netta in Euro",cex.axis=1.5, cex.sub=1.5, font.sub=2) > text(retrib_diplomati,y=matrix_m_diplomati, pos=3, labels=paste(as.vector(round(matrix_m_diplomati)),"€", sep=""),cex=1) > retrib_no.titolo <- barplot(matrix_m_no.titolo, beside=T, ylim=c(0,1800), col=c("lightblue", "pink"), sub="No titolo", ylab="retribuzione media mensile netta in Euro", cex.axis=1.5, cex.sub=1.5, font.sub=2) > text(retrib_no.titolo,y=matrix_m_no.titolo, pos=3, cex=1, labels=paste(as.vector(round(matrix_m_no.titolo)),"€",sep=""))
  • 57. 57 3. Il contractual gender gap: procedimento alternativo Per la parte relativa al contractual gender gap è stata costruita una funzione ad hoc in grado di generare automaticamente il barplot d’interesse, definiti alcuni argomenti. Di seguito, si riporta il corpo della funzione generica e, successivamente, verrà utilizzata per espletare gli stessi obiettivi prefissati nel paragrafo §2.6. > fix(detind) function (xx, yy, bars, asse.x, nn, mm) { # L'obiettivo di questa funzione è creare una matrice di frequenze relative # (per colonna) di dimensione (nn)x(mm), dove nn e mm rappresentano #rispettivamente il numero delle modalità presenti nelle variabili xx e yy. ### Si definiscono le variabili da iterare all'interno dei cicli for: jj <- levels(as.factor(xx)) ii <- levels(as.factor(yy)) for(jj in 1:mm) { for(ii in 1:nn) { matrice <- prop.table(as.matrix(rbind (table(yy, xx))), margin=2)*100 } } # Per poter, in futuro, assegnare i nomi alle dimensioni della matrice, # inseriamo due variabili generiche tra gli argomenti della funzione che, # dunque, una volta imputate, verranno rinominate: dimnames(matrice)[[1]] <- bars dimnames(matrice)[[2]] <- asse.x # Successivamente, viene generato il barplot delle frequenze relative # della matrice: > par(mai=c(1,1,1,1), cex.main=2, cex.sub=1, cex=0.8)
  • 58. 58 > grafico <- barplot(matrice, beside=T, ylim=c(0,max(matrice)+5), col=rainbow(length(bars)), ylab="Frequenze relative") > text(grafico, y=matrice, labels=paste(as.vector(round(matrice, digit=2)), "%", sep=""), pos=3) > legend(locator(1), legend=bars, col=rainbow(length(bars)), pch=15, bty="n") # Oltre al grafico, la funzione dovrà restituire la matrice di frequenze relative: matrice } # Ai fini del corretto utilizzo della funzione, la variabile TISTUD deve essere riclassificata in 4 modalità. > detind(xx=dati$DETIND, yy=dati$SESSO, nn=2, mm=2, asse.x=c("tempo det", "tempo indet"), bars=c("Uomini", "Donne")) tempo det tempo indet Uomini 54.56766 57.44879 Donne 45.43234 42.55121 > title(main="Gender gap per tipologia contrattuale su base nazionale")
  • 59. 59 Il grafico che si ottiene è esattamente uguale Grafico 11, con la sola differenza che è stato ottenuto tramite una funzione che ha generalizzato il primo procedimento implementato. # Applicando la suddetta funzione alle diverse tipologie contrattuali si sono ottenuti i seguenti risultati. In questo caso, l’obiettivo è quello di poter osservare il gender gap tra uomo e donna sia nei contratti a tempo determinato, sia in quelli a tempo indeterminato, prendendo in considerazione i diversi titoli di studio degli stessi individui. Otteniamo così due rappresentazioni grafiche: la prima per i contratti a tempo determinato, la seconda per i contratti a tempo indeterminato. > detind(xx=dati$TISTUD[dati$DETIND==1], yy=dati$SESSO[dati$DETIND==1], nn=2, mm=2, asse.x=c("No titolo", "diplomati", "laureati triennale", "laureati magistrale"), bars=c("Uomini", "Donne")) No titolo diplomati triennale magistrale Uomini 66.50943 57.93103 36.66667 33.99209 Donne 33.49057 42.06897 63.33333 66.00791 > title(main="Gender gap nel contratti a tempo determinato per titolo di studio")
  • 60. 60 > detind(xx=dati$TISTUD[dati$DETIND==2], yy=dati$SESSO[dati$DETIND==2], nn=2, mm=2, asse.x=c("No titolo", "diplomati", "laureati triennale", "laureati magistrale"), bars=c("Uomini", "Donne")) No titolo diplomati triennale magistrale Uomini 68.31276 59.69388 38.9881 43.00254 Donne 31.68724 40.30612 61.0119 56.99746 > title(main="Gender gap nel contratti a tempo indeterminato per titolo di studio")
  • 61. 61
  • 62. 62 ALLEGATO 2 APPENDICE 1.1.: Il campione di riferimento # Per rendere più fruibili le informazioni estrapolate, è opportuno riclassificare le variabili. # La variabile COND3, che rappresenta appunto la condizione occupazionale degli individui, presenta le modalità 1, 2 e 3, che corrispondono rispettivamente alle condizioni “Occupati”, “In cerca” e “Inattivi”. > dati$COND3 <- factor(dati$COND3, labels=c("Occupati", "In cerca", "Inattivi")) La variabile TISTUD, composta originariamente da 10 livelli, ognuno associato ad un particolare titolo, è stata riclassificata in solo 4 macro- gruppi: 1) “No Titolo”, composta da coloro i quali posseggono un titolo inferiore al diploma; 2) “Diplomati”; 3) “Laureati Triennale”; 4) “Laureati Magistrale”. > dati$TISTUD <- factor(dati$TISTUD, labels=c("No titolo", "No titolo", "No titolo", "Diplomati", "Diplomati", "Diplomati", "Laureati triennale", "Laureati triennale", "Laureati magistrale", "Laureati magistrale")) # Si calcolano le frequenze relative rispetto al titolo di studio e alla condizione occupazionale degli individui, con riferimento all’intera popolazione: > prop.table(table(dati$TISTUD, dati$COND3))*100 1 2 3 No titolo 10.2242493 3.5423793 15.2109464 + Diplomati 26.1269479 5.9977195 20.3572786 = 35.568% Laureati triennale 5.1159255 0.6005321 3.5575827 Laureati magistrale 6.5070315 1.0870391 1.6723679 # Si calcolano le frequenze relative, rispetto alla condizione occupazionale, del titolo di studio in possesso dagli individui:
  • 63. 63 > prop.table(table(dati$TISTUD, dati$COND3), margin=2)*100 1 2 3 No titolo 21.311995 31.550440 37.283399 + Diplomati 54.460466 53.419093 49.897522 = 87,181% Laureati triennale 10.663920 5.348680 8.719955 Laureati magistrale 13.563619 9.681787 4.099124 1.2.: Il livello di istruzione dei Millennials italiani # Se si considerano le frequenze connesse alle variabili TISTUD, COND3 e RIP3 – relative al titolo di studio conseguito, alla condizione occupazionale e alla ripartizione geografica di appartenenza - si ottiene un array di dimensioni 4x3x3: avente su ciascun foglio le frequenze relative agli individui appartenenti al Nord, al Centro e al Sud: > table(dati$TISTUD,dati$COND3, dati$RIP3) # si isola ciascun foglio : > nord <- table(dati$TISTUD,dati$COND3, dati$RIP3)[,,1] > centro <- table(dati$TISTUD,dati$COND3, dati$RIP3)[,,2] > sud <- table(dati$TISTUD,dati$COND3, dati$RIP3)[,,3] # e si calcolano, su ciascuno di questi, le frequenze relative percentuali sul totale degli individui appartenenti ad una specifica area: > round(prop.table(nord,margin=1)*100) Occupati In cerca Inattivi No titolo 41 9 50 Diplomati 59 9 33 Laureati triennale 64 5 31 Laureati magistrale 78 8 14 # 73% dei laureati del nord è occupato > round(prop.table(centro,margin=1)*100) Occupati In cerca Inattivi No titolo 39 11 50 Diplomati 49 12 39 Laureati triennale 50 8 42 Laureati magistrale 72 8 20 # 61% dei laureati del centro è occupato