1. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
Shrinkage Methods
Federico Cozza
Luca Vitale
Universit`a degli studi di Salerno
23 Gennaio 2017
1 / 23
2. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
INDICE
INTRODUZIONE
OLS
Panoramica
Problematiche
SHRINKAGE METHODS
Ridge Regression
Lasso
Elastic Net
LARS
LARS
CONCLUSIONI
2 / 23
3. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
INTRODUZIONE
Rapida crescita delle nuove tecnologie
Crescita dei dati disponibili
Maggiore granularit`a degli studi
Poche osservazioni, molte variabili!
Necessit`a di alternative a OLS (Ordinary Least Squares)
3 / 23
4. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
PANORAMICA
Metodo per stimare modello di regressione lineare
Y = Xβ +
Minimizzare RSS
β = (XTX)−1XTY
Best Linear Unbiased Estimator (BLUE) se si verificano le
condizioni di Gauss-Markov
4 / 23
5. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
UN CASO PRATICO
Osservare l’andamento del tasso criminale negli USA
Studio condotto dall’FBI su dati
raccolti nel 1960
Dati aggregati dei 47 stati
americani
http://www.statsci.org/data/general/uscrime.html
5 / 23
6. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
I DATI
Table: Descrizione variabili
M PERCENTAGE OF MALES AGED 14–24 IN TOTAL STATE POPULATION
ED MEAN YEARS OF SCHOOLING OF THE POPULATION AGED 25 YEARS OR OVER
PO1 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1960
PO2 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1959
LF LABOUR FORCE PARTICIPATION RATE OF CIVILIAN URBAN MALES IN THE AGE-GROUP 14-24
M.F NUMBER OF MALES PER 100 FEMALES
POP STATE POPULATION IN 1960 IN HUNDRED THOUSANDS
NW PERCENTAGE OF NONWHITES IN THE POPULATION
U1 UNEMPLOYMENT RATE OF URBAN MALES 14–24
U2 UNEMPLOYMENT RATE OF URBAN MALES 35–39
WEALTH WEALTH: MEDIAN VALUE OF TRANSFERABLE ASSETS OR FAMILY INCOME
INEQ INCOME INEQUALITY: PERCENTAGE OF FAMILIES EARNING BELOW HALF THE MEDIAN INCOME
PROB PROBABILITY OF IMPRISONMENT: RATIO OF NUMBER OF COMMITMENTS TO NUMBER OF OFFENSES
TIME AVERAGE TIME IN MONTHS SERVED BY OFFENDERS IN STATE PRISONS BEFORE THEIR FIRST RELEASE
CRIME CRIME RATE: NUMBER OF OFFENSES PER 100,000 POPULATION IN 1960
Sono presenti 47 osservazioni, ognuna con i dati aggregati di
un diverso stato americano
6 / 23
7. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
OLS: RISULTATI
Table: Indici VIF
M Ed Po1 Po2 LF M.F Pop NW U1 U2 Wealth Ineq Prob Time
3.64 5.07 79.09 87.4 2.32 4.22 3.26 3.54 5.86 4.47 11.95 9.16 4.49 3.78
MSE = 0.108233 — κ-Condition number = 424.0668
7 / 23
8. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
PROBLEMATICHE
1. Dipendenze non lineari (log-transform)
2. Pi`u variabili che osservazioni (Shrinkage Methods)
3. Multicollinearit`a (Ridge Regression)
4. Variabili ridondanti (Lasso ed Elastic Net)
8 / 23
9. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
SHRINKAGE METHODS
Metodi di stima con coefficienti ”portati verso lo zero” tramite
parametro di shrinkage λ
Aumento del bias
Riduzione della
varianza
Stima pi`u precisa per
opportuna scelta di λ
9 / 23
10. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
RIDGE REGRESSION
Stima dei coefficienti β di Y = Xβ + con
ˆβRidge = argmin
n
i=1
yi − β0 −
p
j=1
βjxij
2
+ λ
p
j=1
β2
j
ˆβRidge = (XTX + λI)−1XTY
det(XTX + λI) = 0
Meno gradi di libert`a ⇒ Bene
anche quando p > n
10 / 23
11. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
RIDGE REGRESSION: PROBLEMATICHE
β >> 0 nel modello
reale ⇒ Performance
non ottimali
ˆβi
Ridge
difficilmente
uguale a zero ⇒ Non
adatto per Variable
Selection
11 / 23
13. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LASSO
ˆβLasso = argmin
n
i=1
yi − β0 −
p
j=1
βjxij
2
+ λ
p
j=1
βj
13 / 23
14. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LASSO: VANTAGGI E PROBLEMATICHE
ˆβi
Lasso
non significativi
posti a zero ⇒ Ideale per
Variable Selection
Bene quando `e spiccata
l’importanza di un
gruppo ristretto di
parametri
Quando p >> n, Lasso
seleziona al pi`u n variabili
Di solito con n > p Ridge
Regression meglio di
Lasso
Da un gruppo di variabili
correlate ne viene scelta
solo una
14 / 23
15. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LASSO: VANTAGGI E PROBLEMATICHE-2
All’aumentare dei gradi di lib-
ert`a (i.e. al diminuire di λ), i
ˆβi delle variabili importanti au-
mentano drasticamente; quelli
meno significativi tendono a ri-
manere uguali a zero
Il Lasso tende a selezionare
solo uno dei geni di un path-
way, perdendo l’interazione fra
i geni
15 / 23
17. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
ELASTIC NET
ˆβNEN = argmin
n
i=1
yi − β0 −
p
j=1
βjxij
2
+ λ1
p
j=1
βj + λ2
p
j=1
β2
j
17 / 23
18. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
ELASTIC NET-2
Combina Lasso e Ridge Regression. Seleziona variabili pi`u
importanti (Lasso), e altre variabili escluse (Ridge Regression),
eventualmente correlate con quelle del Lasso.
Spesso `e infatti interessante selezionare un gruppo intero di
variabili correlate (ad esempio per pathway e microarray)
Per migliorare le performance rispetto alla versione Naive
⇒ ˆβEN = (1 + λ2)ˆβNEN
Sui nostri dati Elastic Net non apporta miglioramenti rispetto a
Lasso
18 / 23
20. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LARS
Algoritmo per la selezione del modello per regressione lineare
Evoluzione di
Forward Stagewise
Selection
Computazionalmente
efficiente
Indicato per alta
dimensionalit`a, a
meno di
multicollinearit`a
20 / 23
21. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LARS: L’ALGORITMO
1. Inizializza vettore ˆβ = 0
2. Scegli la variabile xj pi`u correlata col vettore dei residui
corrente
3. Incrementa ˆβj il pi`u possibile fin quando una variabile xk
ha correlazione con i residui pari a quella di xj
4. Varia ( ˆβj, ˆβk) muovendoti in direzione equiangolare tra xj e
xk
5. Continua fin quando tutti i predittori sono stati inseriti nel
modello
21 / 23