Shrinkage methods

INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
Shrinkage Methods
Federico Cozza
Luca Vitale
Universit`a degli studi di Salerno
23 Gennaio 2017
1 / 23

INDICE
INTRODUZIONE
OLS
Panoramica
Problematiche
SHRINKAGE METHODS
Ridge Regression
Lasso
Elastic Net
LARS
LARS
CONCLUSIONI
2 / 23

INTRODUZIONE
Rapida crescita delle nuove tecnologie
Crescita dei dati disponibili
Maggiore granularit`a degli studi
Poche osservazioni, molte variabili!
Necessit`a di alternative a OLS (Ordinary Least Squares)
3 / 23

PANORAMICA
Metodo per stimare modello di regressione lineare
Y = Xβ +
Minimizzare RSS
β = (XTX)−1XTY
Best Linear Unbiased Estimator (BLUE) se si veriﬁcano le
condizioni di Gauss-Markov
4 / 23

UN CASO PRATICO
Osservare l’andamento del tasso criminale negli USA
Studio condotto dall’FBI su dati
raccolti nel 1960
Dati aggregati dei 47 stati
americani
http://www.statsci.org/data/general/uscrime.html
5 / 23

I DATI
Table: Descrizione variabili
M PERCENTAGE OF MALES AGED 14–24 IN TOTAL STATE POPULATION
ED MEAN YEARS OF SCHOOLING OF THE POPULATION AGED 25 YEARS OR OVER
PO1 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1960
PO2 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1959
LF LABOUR FORCE PARTICIPATION RATE OF CIVILIAN URBAN MALES IN THE AGE-GROUP 14-24
M.F NUMBER OF MALES PER 100 FEMALES
POP STATE POPULATION IN 1960 IN HUNDRED THOUSANDS
NW PERCENTAGE OF NONWHITES IN THE POPULATION
U1 UNEMPLOYMENT RATE OF URBAN MALES 14–24
U2 UNEMPLOYMENT RATE OF URBAN MALES 35–39
WEALTH WEALTH: MEDIAN VALUE OF TRANSFERABLE ASSETS OR FAMILY INCOME
INEQ INCOME INEQUALITY: PERCENTAGE OF FAMILIES EARNING BELOW HALF THE MEDIAN INCOME
PROB PROBABILITY OF IMPRISONMENT: RATIO OF NUMBER OF COMMITMENTS TO NUMBER OF OFFENSES
TIME AVERAGE TIME IN MONTHS SERVED BY OFFENDERS IN STATE PRISONS BEFORE THEIR FIRST RELEASE
CRIME CRIME RATE: NUMBER OF OFFENSES PER 100,000 POPULATION IN 1960
Sono presenti 47 osservazioni, ognuna con i dati aggregati di
un diverso stato americano
6 / 23

OLS: RISULTATI
Table: Indici VIF
M Ed Po1 Po2 LF M.F Pop NW U1 U2 Wealth Ineq Prob Time
3.64 5.07 79.09 87.4 2.32 4.22 3.26 3.54 5.86 4.47 11.95 9.16 4.49 3.78
MSE = 0.108233 — κ-Condition number = 424.0668
7 / 23

PROBLEMATICHE
1. Dipendenze non lineari (log-transform)
2. Pi`u variabili che osservazioni (Shrinkage Methods)
3. Multicollinearit`a (Ridge Regression)
4. Variabili ridondanti (Lasso ed Elastic Net)
8 / 23

SHRINKAGE METHODS
Metodi di stima con coefﬁcienti ”portati verso lo zero” tramite
parametro di shrinkage λ
Aumento del bias
Riduzione della
varianza
Stima pi`u precisa per
opportuna scelta di λ
9 / 23

RIDGE REGRESSION
Stima dei coefﬁcienti β di Y = Xβ + con
ˆβRidge = argmin
n
i=1
yi − β0 −
p
j=1
βjxij
2
+ λ
p
j=1
β2
j
ˆβRidge = (XTX + λI)−1XTY
det(XTX + λI) = 0
Meno gradi di libert`a ⇒ Bene
anche quando p > n
10 / 23

RIDGE REGRESSION: PROBLEMATICHE
β >> 0 nel modello
reale ⇒ Performance
non ottimali
ˆβi
Ridge
difﬁcilmente
uguale a zero ⇒ Non
adatto per Variable
Selection
11 / 23

RIDGE REGRESSION: RISULTATI
MSE = 0.082783 — Minimum λ = 0.037
12 / 23

LASSO
ˆβLasso = argmin
n
i=1
yi − β0 −
p
j=1
βjxij
2
+ λ
p
j=1
βj
13 / 23

LASSO: VANTAGGI E PROBLEMATICHE
ˆβi
Lasso
non significativi
posti a zero ⇒ Ideale per
Variable Selection
Bene quando è spiccata
l’importanza di un
gruppo ristretto di
parametri
Quando p >> n, Lasso
seleziona al più n variabili
Di solito con n > p Ridge
Regression meglio di
Lasso
Da un gruppo di variabili
correlate ne viene scelta
solo una
14 / 23

LASSO: VANTAGGI E PROBLEMATICHE-2
All’aumentare dei gradi di lib-
ert`a (i.e. al diminuire di λ), i
ˆβi delle variabili importanti au-
mentano drasticamente; quelli
meno signiﬁcativi tendono a ri-
manere uguali a zero
Il Lasso tende a selezionare
solo uno dei geni di un path-
way, perdendo l’interazione fra
i geni
15 / 23

LASSO: RISULTATI
MSE = 0.072829 — Minimum λ = 0.013
16 / 23

ELASTIC NET
ˆβNEN = argmin
n
i=1
yi − β0 −
p
j=1
βjxij
2
+ λ1
p
j=1
βj + λ2
p
j=1
β2
j
17 / 23

ELASTIC NET-2
Combina Lasso e Ridge Regression. Seleziona variabili pi`u
importanti (Lasso), e altre variabili escluse (Ridge Regression),
eventualmente correlate con quelle del Lasso.
Spesso `e infatti interessante selezionare un gruppo intero di
variabili correlate (ad esempio per pathway e microarray)
Per migliorare le performance rispetto alla versione Naive
⇒ ˆβEN = (1 + λ2)ˆβNEN
Sui nostri dati Elastic Net non apporta miglioramenti rispetto a
Lasso
18 / 23

I METODI A CONFRONTO
VARIABILE OLS RIDGE LASSO
Intercept 6.7427 6.7435 6.7436
M 0.1243 0.0464 0.0794
ED 0.3296 0.0495 0.1199
PO1 0.5548 0.0816 0.2453
PO2 -0.3210 0.0718 0
LF -0.0559 0.0146 0
M.F -0.0069 0.0408 0.0175
POP -0.0698 0.0053 0
NW 0.1046 0.0592 0.0621
U1 -0.5670 -0.0071 0
U2 0.1611 0.0470 0.0519
WEALTH 0.1601 0.0235 0
INEQ 0.3817 0.0516 0.1187
PROB -0.0834 -0.0392 -0.0345
TIME 0.0441 0.0289 0.0113
MSE 0.1082 0.0827 0.0728
19 / 23

LARS
Algoritmo per la selezione del modello per regressione lineare
Evoluzione di
Forward Stagewise
Selection
Computazionalmente
efficiente
Indicato per alta
dimensionalità, a
meno di
multicollinearità
20 / 23

LARS: L’ALGORITMO
1. Inizializza vettore ˆβ = 0
2. Scegli la variabile xj più correlata col vettore dei residui
corrente
3. Incrementa ˆβj il più possibile fin quando una variabile xk
ha correlazione con i residui pari a quella di xj
4. Varia ( ˆβj, ˆβk) muovendoti in direzione equiangolare tra xj e
xk
5. Continua fin quando tutti i predittori sono stati inseriti nel
modello
21 / 23

CONCLUSIONI
22 / 23

FINE
GRAZIE PER L’ATTENZIONE
23 / 23

Shrinkage methods

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (8)

Destaque

Destaque (20)

Mais de Luca Vitale

Mais de Luca Vitale (11)

Último

Último (19)

Shrinkage methods