SlideShare uma empresa Scribd logo
1 de 23
Baixar para ler offline
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
Shrinkage Methods
Federico Cozza
Luca Vitale
Universit`a degli studi di Salerno
23 Gennaio 2017
1 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
INDICE
INTRODUZIONE
OLS
Panoramica
Problematiche
SHRINKAGE METHODS
Ridge Regression
Lasso
Elastic Net
LARS
LARS
CONCLUSIONI
2 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
INTRODUZIONE
Rapida crescita delle nuove tecnologie
Crescita dei dati disponibili
Maggiore granularit`a degli studi
Poche osservazioni, molte variabili!
Necessit`a di alternative a OLS (Ordinary Least Squares)
3 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
PANORAMICA
Metodo per stimare modello di regressione lineare
Y = Xβ +
Minimizzare RSS
β = (XTX)−1XTY
Best Linear Unbiased Estimator (BLUE) se si verificano le
condizioni di Gauss-Markov
4 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
UN CASO PRATICO
Osservare l’andamento del tasso criminale negli USA
Studio condotto dall’FBI su dati
raccolti nel 1960
Dati aggregati dei 47 stati
americani
http://www.statsci.org/data/general/uscrime.html
5 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
I DATI
Table: Descrizione variabili
M PERCENTAGE OF MALES AGED 14–24 IN TOTAL STATE POPULATION
ED MEAN YEARS OF SCHOOLING OF THE POPULATION AGED 25 YEARS OR OVER
PO1 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1960
PO2 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1959
LF LABOUR FORCE PARTICIPATION RATE OF CIVILIAN URBAN MALES IN THE AGE-GROUP 14-24
M.F NUMBER OF MALES PER 100 FEMALES
POP STATE POPULATION IN 1960 IN HUNDRED THOUSANDS
NW PERCENTAGE OF NONWHITES IN THE POPULATION
U1 UNEMPLOYMENT RATE OF URBAN MALES 14–24
U2 UNEMPLOYMENT RATE OF URBAN MALES 35–39
WEALTH WEALTH: MEDIAN VALUE OF TRANSFERABLE ASSETS OR FAMILY INCOME
INEQ INCOME INEQUALITY: PERCENTAGE OF FAMILIES EARNING BELOW HALF THE MEDIAN INCOME
PROB PROBABILITY OF IMPRISONMENT: RATIO OF NUMBER OF COMMITMENTS TO NUMBER OF OFFENSES
TIME AVERAGE TIME IN MONTHS SERVED BY OFFENDERS IN STATE PRISONS BEFORE THEIR FIRST RELEASE
CRIME CRIME RATE: NUMBER OF OFFENSES PER 100,000 POPULATION IN 1960
Sono presenti 47 osservazioni, ognuna con i dati aggregati di
un diverso stato americano
6 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
OLS: RISULTATI
Table: Indici VIF
M Ed Po1 Po2 LF M.F Pop NW U1 U2 Wealth Ineq Prob Time
3.64 5.07 79.09 87.4 2.32 4.22 3.26 3.54 5.86 4.47 11.95 9.16 4.49 3.78
MSE = 0.108233 — κ-Condition number = 424.0668
7 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
PROBLEMATICHE
1. Dipendenze non lineari (log-transform)
2. Pi`u variabili che osservazioni (Shrinkage Methods)
3. Multicollinearit`a (Ridge Regression)
4. Variabili ridondanti (Lasso ed Elastic Net)
8 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
SHRINKAGE METHODS
Metodi di stima con coefficienti ”portati verso lo zero” tramite
parametro di shrinkage λ
Aumento del bias
Riduzione della
varianza
Stima pi`u precisa per
opportuna scelta di λ
9 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
RIDGE REGRESSION
Stima dei coefficienti β di Y = Xβ + con
ˆβRidge = argmin
n
i=1
yi − β0 −
p
j=1
βjxij
2
+ λ
p
j=1
β2
j
ˆβRidge = (XTX + λI)−1XTY
det(XTX + λI) = 0
Meno gradi di libert`a ⇒ Bene
anche quando p > n
10 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
RIDGE REGRESSION: PROBLEMATICHE
β >> 0 nel modello
reale ⇒ Performance
non ottimali
ˆβi
Ridge
difficilmente
uguale a zero ⇒ Non
adatto per Variable
Selection
11 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
RIDGE REGRESSION: RISULTATI
MSE = 0.082783 — Minimum λ = 0.037
12 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LASSO
ˆβLasso = argmin
n
i=1
yi − β0 −
p
j=1
βjxij
2
+ λ
p
j=1
βj
13 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LASSO: VANTAGGI E PROBLEMATICHE
ˆβi
Lasso
non significativi
posti a zero ⇒ Ideale per
Variable Selection
Bene quando `e spiccata
l’importanza di un
gruppo ristretto di
parametri
Quando p >> n, Lasso
seleziona al pi`u n variabili
Di solito con n > p Ridge
Regression meglio di
Lasso
Da un gruppo di variabili
correlate ne viene scelta
solo una
14 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LASSO: VANTAGGI E PROBLEMATICHE-2
All’aumentare dei gradi di lib-
ert`a (i.e. al diminuire di λ), i
ˆβi delle variabili importanti au-
mentano drasticamente; quelli
meno significativi tendono a ri-
manere uguali a zero
Il Lasso tende a selezionare
solo uno dei geni di un path-
way, perdendo l’interazione fra
i geni
15 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LASSO: RISULTATI
MSE = 0.072829 — Minimum λ = 0.013
16 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
ELASTIC NET
ˆβNEN = argmin
n
i=1
yi − β0 −
p
j=1
βjxij
2
+ λ1
p
j=1
βj + λ2
p
j=1
β2
j
17 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
ELASTIC NET-2
Combina Lasso e Ridge Regression. Seleziona variabili pi`u
importanti (Lasso), e altre variabili escluse (Ridge Regression),
eventualmente correlate con quelle del Lasso.
Spesso `e infatti interessante selezionare un gruppo intero di
variabili correlate (ad esempio per pathway e microarray)
Per migliorare le performance rispetto alla versione Naive
⇒ ˆβEN = (1 + λ2)ˆβNEN
Sui nostri dati Elastic Net non apporta miglioramenti rispetto a
Lasso
18 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
I METODI A CONFRONTO
VARIABILE OLS RIDGE LASSO
Intercept 6.7427 6.7435 6.7436
M 0.1243 0.0464 0.0794
ED 0.3296 0.0495 0.1199
PO1 0.5548 0.0816 0.2453
PO2 -0.3210 0.0718 0
LF -0.0559 0.0146 0
M.F -0.0069 0.0408 0.0175
POP -0.0698 0.0053 0
NW 0.1046 0.0592 0.0621
U1 -0.5670 -0.0071 0
U2 0.1611 0.0470 0.0519
WEALTH 0.1601 0.0235 0
INEQ 0.3817 0.0516 0.1187
PROB -0.0834 -0.0392 -0.0345
TIME 0.0441 0.0289 0.0113
MSE 0.1082 0.0827 0.0728
19 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LARS
Algoritmo per la selezione del modello per regressione lineare
Evoluzione di
Forward Stagewise
Selection
Computazionalmente
efficiente
Indicato per alta
dimensionalit`a, a
meno di
multicollinearit`a
20 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
LARS: L’ALGORITMO
1. Inizializza vettore ˆβ = 0
2. Scegli la variabile xj pi`u correlata col vettore dei residui
corrente
3. Incrementa ˆβj il pi`u possibile fin quando una variabile xk
ha correlazione con i residui pari a quella di xj
4. Varia ( ˆβj, ˆβk) muovendoti in direzione equiangolare tra xj e
xk
5. Continua fin quando tutti i predittori sono stati inseriti nel
modello
21 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
CONCLUSIONI
22 / 23
INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI
FINE
GRAZIE PER L’ATTENZIONE
23 / 23

Mais conteúdo relacionado

Mais procurados

Chapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive netsChapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive netsKyeongUkJang
 
WINDA ARIKA SKRIPSI
WINDA ARIKA SKRIPSIWINDA ARIKA SKRIPSI
WINDA ARIKA SKRIPSImrifqis
 
Cluster validation
Cluster validationCluster validation
Cluster validationRohitPaul52
 
Lecture_3_k-mean-clustering.ppt
Lecture_3_k-mean-clustering.pptLecture_3_k-mean-clustering.ppt
Lecture_3_k-mean-clustering.pptSyedNahin1
 
Horspool Algorithm in Design and Analysis of Algorithms in VTU
Horspool Algorithm in Design and Analysis of Algorithms in VTUHorspool Algorithm in Design and Analysis of Algorithms in VTU
Horspool Algorithm in Design and Analysis of Algorithms in VTUSaMarthHitnalli
 

Mais procurados (8)

Chapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive netsChapter 10 sequence modeling recurrent and recursive nets
Chapter 10 sequence modeling recurrent and recursive nets
 
Random Forest Algoritması
Random Forest AlgoritmasıRandom Forest Algoritması
Random Forest Algoritması
 
Asset Tracking System
Asset Tracking SystemAsset Tracking System
Asset Tracking System
 
WINDA ARIKA SKRIPSI
WINDA ARIKA SKRIPSIWINDA ARIKA SKRIPSI
WINDA ARIKA SKRIPSI
 
Cluster validation
Cluster validationCluster validation
Cluster validation
 
Knn
KnnKnn
Knn
 
Lecture_3_k-mean-clustering.ppt
Lecture_3_k-mean-clustering.pptLecture_3_k-mean-clustering.ppt
Lecture_3_k-mean-clustering.ppt
 
Horspool Algorithm in Design and Analysis of Algorithms in VTU
Horspool Algorithm in Design and Analysis of Algorithms in VTUHorspool Algorithm in Design and Analysis of Algorithms in VTU
Horspool Algorithm in Design and Analysis of Algorithms in VTU
 

Destaque

Learning Non-Linear Functions for Text Classification
Learning Non-Linear Functions for Text ClassificationLearning Non-Linear Functions for Text Classification
Learning Non-Linear Functions for Text Classificationaiaioo
 
Sublevel open stopping assignment
Sublevel open stopping assignmentSublevel open stopping assignment
Sublevel open stopping assignmentvirendrasuryawanshi
 
/.Amd mnt/lotus/host/home/jaishakthi/presentation/rmeet1/rmeet 1
/.Amd mnt/lotus/host/home/jaishakthi/presentation/rmeet1/rmeet 1/.Amd mnt/lotus/host/home/jaishakthi/presentation/rmeet1/rmeet 1
/.Amd mnt/lotus/host/home/jaishakthi/presentation/rmeet1/rmeet 1Dr. Jai Sakthi
 
Unified Contact Riemannian Manifold Admitting SemiSymmetric Metric S-Connection
Unified Contact Riemannian Manifold Admitting SemiSymmetric Metric S-ConnectionUnified Contact Riemannian Manifold Admitting SemiSymmetric Metric S-Connection
Unified Contact Riemannian Manifold Admitting SemiSymmetric Metric S-Connectioniosrjce
 
Digital Image Processing (DIP)
Digital Image Processing (DIP)Digital Image Processing (DIP)
Digital Image Processing (DIP)Srikanth VNV
 
Digital Image Processing
Digital Image ProcessingDigital Image Processing
Digital Image ProcessingSamir Sabry
 
Digital Image Processing
Digital Image ProcessingDigital Image Processing
Digital Image ProcessingShaleen Saini
 
Shrinkage finishing for cellulosic fabrics
Shrinkage finishing for cellulosic fabricsShrinkage finishing for cellulosic fabrics
Shrinkage finishing for cellulosic fabricsRajeev Sharan
 
Basic image processing
Basic image processingBasic image processing
Basic image processingJay Thakkar
 
Introduction to Digital Image Processing
Introduction to Digital Image ProcessingIntroduction to Digital Image Processing
Introduction to Digital Image ProcessingJulio Seaman
 
Digital image processing techniques
Digital image processing techniquesDigital image processing techniques
Digital image processing techniquesShab Bi
 
1.arithmetic & logical operations
1.arithmetic & logical operations1.arithmetic & logical operations
1.arithmetic & logical operationsmukesh bhardwaj
 

Destaque (20)

Shrinkage
ShrinkageShrinkage
Shrinkage
 
Learning Non-Linear Functions for Text Classification
Learning Non-Linear Functions for Text ClassificationLearning Non-Linear Functions for Text Classification
Learning Non-Linear Functions for Text Classification
 
Pollution
PollutionPollution
Pollution
 
Sublevel open stopping assignment
Sublevel open stopping assignmentSublevel open stopping assignment
Sublevel open stopping assignment
 
Mining methods2
Mining methods2Mining methods2
Mining methods2
 
/.Amd mnt/lotus/host/home/jaishakthi/presentation/rmeet1/rmeet 1
/.Amd mnt/lotus/host/home/jaishakthi/presentation/rmeet1/rmeet 1/.Amd mnt/lotus/host/home/jaishakthi/presentation/rmeet1/rmeet 1
/.Amd mnt/lotus/host/home/jaishakthi/presentation/rmeet1/rmeet 1
 
Image processing tutorial
Image processing tutorialImage processing tutorial
Image processing tutorial
 
Unified Contact Riemannian Manifold Admitting SemiSymmetric Metric S-Connection
Unified Contact Riemannian Manifold Admitting SemiSymmetric Metric S-ConnectionUnified Contact Riemannian Manifold Admitting SemiSymmetric Metric S-Connection
Unified Contact Riemannian Manifold Admitting SemiSymmetric Metric S-Connection
 
Digital Image Processing (DIP)
Digital Image Processing (DIP)Digital Image Processing (DIP)
Digital Image Processing (DIP)
 
Digital Image Processing
Digital Image ProcessingDigital Image Processing
Digital Image Processing
 
Digital Image Processing
Digital Image ProcessingDigital Image Processing
Digital Image Processing
 
Shrinkage finishing for cellulosic fabrics
Shrinkage finishing for cellulosic fabricsShrinkage finishing for cellulosic fabrics
Shrinkage finishing for cellulosic fabrics
 
image theory
image theoryimage theory
image theory
 
Image compression Algorithms
Image compression AlgorithmsImage compression Algorithms
Image compression Algorithms
 
Basic image processing
Basic image processingBasic image processing
Basic image processing
 
Shrinkage and Vertical Crater Retreat Stoping
Shrinkage and Vertical Crater Retreat StopingShrinkage and Vertical Crater Retreat Stoping
Shrinkage and Vertical Crater Retreat Stoping
 
Introduction to Digital Image Processing
Introduction to Digital Image ProcessingIntroduction to Digital Image Processing
Introduction to Digital Image Processing
 
Digital Image Processing
Digital Image ProcessingDigital Image Processing
Digital Image Processing
 
Digital image processing techniques
Digital image processing techniquesDigital image processing techniques
Digital image processing techniques
 
1.arithmetic & logical operations
1.arithmetic & logical operations1.arithmetic & logical operations
1.arithmetic & logical operations
 

Mais de Luca Vitale

Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...
Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...
Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...Luca Vitale
 
A pathway and SVM based tool for tumor classification
A pathway and SVM based tool for tumor classificationA pathway and SVM based tool for tumor classification
A pathway and SVM based tool for tumor classificationLuca Vitale
 
Pathway based OMICs data classification
Pathway based OMICs data classificationPathway based OMICs data classification
Pathway based OMICs data classificationLuca Vitale
 
Metodi per la soluzione di problemi di programmazione non lineare
Metodi per la soluzione di problemi di programmazione non lineareMetodi per la soluzione di problemi di programmazione non lineare
Metodi per la soluzione di problemi di programmazione non lineareLuca Vitale
 
Log structured-file-system
Log structured-file-systemLog structured-file-system
Log structured-file-systemLuca Vitale
 
Utilizzo dei Thread
Utilizzo dei ThreadUtilizzo dei Thread
Utilizzo dei ThreadLuca Vitale
 
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbiClassificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbiLuca Vitale
 
Linguaggi Context-Sensitive e Linear Bounded Automata
Linguaggi Context-Sensitive e Linear Bounded AutomataLinguaggi Context-Sensitive e Linear Bounded Automata
Linguaggi Context-Sensitive e Linear Bounded AutomataLuca Vitale
 
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUs
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUsSoluzione numerica di equazioni differenziali a grandi dimensioni su GPUs
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUsLuca Vitale
 

Mais de Luca Vitale (11)

Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...
Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...
Estimation of the Latent Signals for Consensus Across Multiple Ranked Lists u...
 
A pathway and SVM based tool for tumor classification
A pathway and SVM based tool for tumor classificationA pathway and SVM based tool for tumor classification
A pathway and SVM based tool for tumor classification
 
Pathway based OMICs data classification
Pathway based OMICs data classificationPathway based OMICs data classification
Pathway based OMICs data classification
 
JSON-LD
JSON-LDJSON-LD
JSON-LD
 
Metodi per la soluzione di problemi di programmazione non lineare
Metodi per la soluzione di problemi di programmazione non lineareMetodi per la soluzione di problemi di programmazione non lineare
Metodi per la soluzione di problemi di programmazione non lineare
 
Log structured-file-system
Log structured-file-systemLog structured-file-system
Log structured-file-system
 
Utilizzo dei Thread
Utilizzo dei ThreadUtilizzo dei Thread
Utilizzo dei Thread
 
S3
S3S3
S3
 
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbiClassificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
 
Linguaggi Context-Sensitive e Linear Bounded Automata
Linguaggi Context-Sensitive e Linear Bounded AutomataLinguaggi Context-Sensitive e Linear Bounded Automata
Linguaggi Context-Sensitive e Linear Bounded Automata
 
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUs
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUsSoluzione numerica di equazioni differenziali a grandi dimensioni su GPUs
Soluzione numerica di equazioni differenziali a grandi dimensioni su GPUs
 

Último

Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxtecongo2007
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoyanmeng831
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxlorenzodemidio01
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaSalvatore Cianciabella
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxtecongo2007
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxlorenzodemidio01
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxlorenzodemidio01
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................giorgiadeascaniis59
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.camillaorlando17
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................giorgiadeascaniis59
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileNicola Rabbi
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxtecongo2007
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....giorgiadeascaniis59
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxlorenzodemidio01
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxlorenzodemidio01
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxtecongo2007
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxlorenzodemidio01
 

Último (19)

Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 

Shrinkage methods

  • 1. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI Shrinkage Methods Federico Cozza Luca Vitale Universit`a degli studi di Salerno 23 Gennaio 2017 1 / 23
  • 2. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI INDICE INTRODUZIONE OLS Panoramica Problematiche SHRINKAGE METHODS Ridge Regression Lasso Elastic Net LARS LARS CONCLUSIONI 2 / 23
  • 3. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI INTRODUZIONE Rapida crescita delle nuove tecnologie Crescita dei dati disponibili Maggiore granularit`a degli studi Poche osservazioni, molte variabili! Necessit`a di alternative a OLS (Ordinary Least Squares) 3 / 23
  • 4. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI PANORAMICA Metodo per stimare modello di regressione lineare Y = Xβ + Minimizzare RSS β = (XTX)−1XTY Best Linear Unbiased Estimator (BLUE) se si verificano le condizioni di Gauss-Markov 4 / 23
  • 5. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI UN CASO PRATICO Osservare l’andamento del tasso criminale negli USA Studio condotto dall’FBI su dati raccolti nel 1960 Dati aggregati dei 47 stati americani http://www.statsci.org/data/general/uscrime.html 5 / 23
  • 6. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI I DATI Table: Descrizione variabili M PERCENTAGE OF MALES AGED 14–24 IN TOTAL STATE POPULATION ED MEAN YEARS OF SCHOOLING OF THE POPULATION AGED 25 YEARS OR OVER PO1 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1960 PO2 PER CAPITA EXPENDITURE ON POLICE PROTECTION IN 1959 LF LABOUR FORCE PARTICIPATION RATE OF CIVILIAN URBAN MALES IN THE AGE-GROUP 14-24 M.F NUMBER OF MALES PER 100 FEMALES POP STATE POPULATION IN 1960 IN HUNDRED THOUSANDS NW PERCENTAGE OF NONWHITES IN THE POPULATION U1 UNEMPLOYMENT RATE OF URBAN MALES 14–24 U2 UNEMPLOYMENT RATE OF URBAN MALES 35–39 WEALTH WEALTH: MEDIAN VALUE OF TRANSFERABLE ASSETS OR FAMILY INCOME INEQ INCOME INEQUALITY: PERCENTAGE OF FAMILIES EARNING BELOW HALF THE MEDIAN INCOME PROB PROBABILITY OF IMPRISONMENT: RATIO OF NUMBER OF COMMITMENTS TO NUMBER OF OFFENSES TIME AVERAGE TIME IN MONTHS SERVED BY OFFENDERS IN STATE PRISONS BEFORE THEIR FIRST RELEASE CRIME CRIME RATE: NUMBER OF OFFENSES PER 100,000 POPULATION IN 1960 Sono presenti 47 osservazioni, ognuna con i dati aggregati di un diverso stato americano 6 / 23
  • 7. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI OLS: RISULTATI Table: Indici VIF M Ed Po1 Po2 LF M.F Pop NW U1 U2 Wealth Ineq Prob Time 3.64 5.07 79.09 87.4 2.32 4.22 3.26 3.54 5.86 4.47 11.95 9.16 4.49 3.78 MSE = 0.108233 — κ-Condition number = 424.0668 7 / 23
  • 8. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI PROBLEMATICHE 1. Dipendenze non lineari (log-transform) 2. Pi`u variabili che osservazioni (Shrinkage Methods) 3. Multicollinearit`a (Ridge Regression) 4. Variabili ridondanti (Lasso ed Elastic Net) 8 / 23
  • 9. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI SHRINKAGE METHODS Metodi di stima con coefficienti ”portati verso lo zero” tramite parametro di shrinkage λ Aumento del bias Riduzione della varianza Stima pi`u precisa per opportuna scelta di λ 9 / 23
  • 10. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI RIDGE REGRESSION Stima dei coefficienti β di Y = Xβ + con ˆβRidge = argmin n i=1 yi − β0 − p j=1 βjxij 2 + λ p j=1 β2 j ˆβRidge = (XTX + λI)−1XTY det(XTX + λI) = 0 Meno gradi di libert`a ⇒ Bene anche quando p > n 10 / 23
  • 11. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI RIDGE REGRESSION: PROBLEMATICHE β >> 0 nel modello reale ⇒ Performance non ottimali ˆβi Ridge difficilmente uguale a zero ⇒ Non adatto per Variable Selection 11 / 23
  • 12. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI RIDGE REGRESSION: RISULTATI MSE = 0.082783 — Minimum λ = 0.037 12 / 23
  • 13. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI LASSO ˆβLasso = argmin n i=1 yi − β0 − p j=1 βjxij 2 + λ p j=1 βj 13 / 23
  • 14. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI LASSO: VANTAGGI E PROBLEMATICHE ˆβi Lasso non significativi posti a zero ⇒ Ideale per Variable Selection Bene quando `e spiccata l’importanza di un gruppo ristretto di parametri Quando p >> n, Lasso seleziona al pi`u n variabili Di solito con n > p Ridge Regression meglio di Lasso Da un gruppo di variabili correlate ne viene scelta solo una 14 / 23
  • 15. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI LASSO: VANTAGGI E PROBLEMATICHE-2 All’aumentare dei gradi di lib- ert`a (i.e. al diminuire di λ), i ˆβi delle variabili importanti au- mentano drasticamente; quelli meno significativi tendono a ri- manere uguali a zero Il Lasso tende a selezionare solo uno dei geni di un path- way, perdendo l’interazione fra i geni 15 / 23
  • 16. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI LASSO: RISULTATI MSE = 0.072829 — Minimum λ = 0.013 16 / 23
  • 17. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI ELASTIC NET ˆβNEN = argmin n i=1 yi − β0 − p j=1 βjxij 2 + λ1 p j=1 βj + λ2 p j=1 β2 j 17 / 23
  • 18. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI ELASTIC NET-2 Combina Lasso e Ridge Regression. Seleziona variabili pi`u importanti (Lasso), e altre variabili escluse (Ridge Regression), eventualmente correlate con quelle del Lasso. Spesso `e infatti interessante selezionare un gruppo intero di variabili correlate (ad esempio per pathway e microarray) Per migliorare le performance rispetto alla versione Naive ⇒ ˆβEN = (1 + λ2)ˆβNEN Sui nostri dati Elastic Net non apporta miglioramenti rispetto a Lasso 18 / 23
  • 19. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI I METODI A CONFRONTO VARIABILE OLS RIDGE LASSO Intercept 6.7427 6.7435 6.7436 M 0.1243 0.0464 0.0794 ED 0.3296 0.0495 0.1199 PO1 0.5548 0.0816 0.2453 PO2 -0.3210 0.0718 0 LF -0.0559 0.0146 0 M.F -0.0069 0.0408 0.0175 POP -0.0698 0.0053 0 NW 0.1046 0.0592 0.0621 U1 -0.5670 -0.0071 0 U2 0.1611 0.0470 0.0519 WEALTH 0.1601 0.0235 0 INEQ 0.3817 0.0516 0.1187 PROB -0.0834 -0.0392 -0.0345 TIME 0.0441 0.0289 0.0113 MSE 0.1082 0.0827 0.0728 19 / 23
  • 20. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI LARS Algoritmo per la selezione del modello per regressione lineare Evoluzione di Forward Stagewise Selection Computazionalmente efficiente Indicato per alta dimensionalit`a, a meno di multicollinearit`a 20 / 23
  • 21. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI LARS: L’ALGORITMO 1. Inizializza vettore ˆβ = 0 2. Scegli la variabile xj pi`u correlata col vettore dei residui corrente 3. Incrementa ˆβj il pi`u possibile fin quando una variabile xk ha correlazione con i residui pari a quella di xj 4. Varia ( ˆβj, ˆβk) muovendoti in direzione equiangolare tra xj e xk 5. Continua fin quando tutti i predittori sono stati inseriti nel modello 21 / 23
  • 22. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI CONCLUSIONI 22 / 23
  • 23. INTRODUZIONE OLS SHRINKAGE METHODS LARS CONCLUSIONI FINE GRAZIE PER L’ATTENZIONE 23 / 23