Intro vrais loc-print

institut de science financiere et d’assurances laboratoire saf

Université Claude Bernard Lyon 1
Institut de Science Financière et d’Assurances

Introduction aux méthodes de lissage
par vraisemblance locale
Applications à l’assurance dépendance

Julien Tomas
Institut de Science Financière et d’Assurances
Laboratoire de recherche de Sciences Actuarielle et Financière

30/11/2012 - ISFA - Modèles de durée - Applications actuarielles
Slide 1/138


Table des matières
Modification de la fonction de poids
1 Introduction aux bordures
L’assurance dépendance Variance, influence et degrés de
Notions démographiques et notation liberté
Hypothèse de mortalité constante Intervalles de confiance
par morceaux Sélection des paramètres
Présentation des données Conclusion
Prémisses sur les modèles de lissage 3 Méthodes adaptatives de
Rappel sur les GLMs vraisemblance locale
Intersection des intervalles de
2 Méthode de vraisemblance locale confiance
Des GLMs à la vraisemblance locale Facteurs de correction de la fenêtre
Illustration de l’idée générale d’observation
Equations de vraisemblance 4 Applications
Résolution des équations de Surfaces ajustées
vraisemblance Analyse des résidus
Implémentation de l’algorithme sous Comparaisons
R 5 Conclusions

Slide 2/138 — Julien Tomas — Introduction aux méthodes de lissage par vraisemblance locale — 30/11/2012 - ISFA - Modèles de durée - Applications actuarielles


Table des matières
R 5 Conclusions



L’assurance dépendance

• Mix de prestations sociales et santé fournit sur une base
journalière, à domicile ou dans une institution, à des individus
souﬀrant d’une perte de mobilité ou d’autonomie dans leur activité
journalière.
• Peut être individuelle ou collective.
• Garantit le paiement d’une indemnité, sous la forme d’un bénéﬁce
numéraire qui peut être proportionnel au degré de dépendance.
• Voir Kessler (2008) et Courbage et Roudaut (2011) pour des
études sur le marché français de l’assurance dépendance.




• Niveaux des primes et des réserves ainsi que la gestion d’une
portefeuille d’assurance dépendance sont très sensibles au choix de
la table de mortalité adoptée.
• Construction d’une table est un exercice diﬃcile :
• petits portefeuilles et taux de mortalité très volatiles,
• lien fort entre l’âge de survenance et la pathologie.
Nécessite de construire des tables de mortalité en fonction de l’âge
de survenance et l’ancienneté,
• les taux de mortalité diminuent très rapidement avec l’ancienneté.
• En pratique, on utilise des méthodes qui s’appuient lourdement sur
les opinions d’expert.
• Le but : avoir des méthodes plus rigoureuses



Analyse de la mortalité

Analyser les variations de la mortalité en fonction de
• l’âge de survenance de la pathologie v ,
• et de l’ancienneté u (mois).

On a donc 2 variables temporelles, mais elles n’ont pas le même statut :
• v représente l’hétérogénéité,
• u est la variable de durée.



Table des matières
R 5 Conclusions



Notions démographiques et notation
Durée de vie restante

• Soit Tu (v ) la durée de vie restante d’un individu dont la
pathologie survient à l’âge v et dont l’ancienneté est u, i.e.

P[Tu (v ) > ξ] = P[T (v ) > u + ξ|T (v ) > u] = ξ pu (v ).

• Donc, un individu dont la pathologie survient à l’âge v et
d’ancienneté u décèdera à l’ancienneté u + Tu (v ).
• La fdc de Tu (v ) est

ξ qu (v ) = 1 − ξ pu (v ) = P[Tu (v ) < ξ] = P[T (v ) ≤ u + ξ|T (v ) > u].



Probabilité de survie / décès dans le mois

• La probabilité de décès dans le mois lorsque la pathologie survient
à l’âge v et dont l’ancienneté est u est déﬁnie par

qu (v ) = P[Tu (v ) ≤ 1] = P[T (v ) ≤ u + 1|T (v ) > u].

• La probabilité de survie dans le mois lorsque la pathologie survient
à l’âge v et dont l’ancienneté est u est

pu (v ) = P[Tu (v ) > 1] = P[T (v ) > u + 1|T (v ) > u].

• On a donc pour un entier k,

k pu (v ) = P[Tu (v ) > k] = pu (v ) × pu+1 (v ) × . . . × pu+k−1 (v ).



Nombre espéré de survivants

• Soit Lu,v le nombre d’individus vivant lorsque la pathologie est
survenue à l’âge v et dont l’ancienneté est u en commençant par
0 (v ) individus touché par la pathologie. Le nombre espéré
d’individus atteignant l’ancienneté u à partir de 0 (v ) individus est

E[Lu,v ] = u,v = 0 (v ) × u p0 (v ).

• La fonction (u, v ) → u,v est assumée être continue et
diﬀérenciable.
• Du,v = Lu,v − Lu+1,v est le nombre de décès à l’ancienneté u et
lorsque la pathologie est survenue à l’âge v , et

E[Du,v ] = du,v = u,v − u+1,v = u,v (1 − pu (v )) = u,v qu (v ).



Exposition au risque

• L’exposition au risque mesure le temps durant lequel les individus
sont exposés au risque (de décès) après survenance de la
pathologie. Il s’agit de la durée totale vécue par ces individus après
la survenance de la maladie.
• La durée espérée vécue par les individus entre l’ancienneté u et
u + 1 est donnée par
1 1
ERu,v = Lu+ξ,v dξ et E[ERu,v ] = u+ξ,v dξ.
ξ=0 ξ=0

• le taux de mortalité à l’ancienneté u lorsque la pathologie survient
à l’âge v est
du,v
mu (v ) = .
E[ERu,v ]



Forces de mortalité

• La force de mortalité à l’ancienneté u + τ lorsque la pathologie
survient à l’âge v , notée ϕu+τ (v ) est déﬁnie par

P [τ < Tu (v ) ≤ τ + ∆τ |Tu (v ) > τ ]
ϕu+τ (v ) = lim +
∆τ →0 ∆τ
1 ∂
= τ qu (v ).
τ pu (v ) ∂τ

• Une expansion de Taylor au premier ordre donne

∆τ qu (v ) = ϕu (v )∆τ + o(∆τ ) ⇒ ∆τ qu (v ) ≈ ϕu (v )∆τ
∆τ pu (v ) = 1 − ϕu (v )∆τ + o(∆τ ) ⇒ ∆τ pu (v ) ≈ 1 − ϕu (v )∆τ

Pour ∆τ suﬃsamment petit.



Quelques formules utiles...

• On remarque que ∂τ ln τ pu (v ) = −ϕu+τ (v ). On obtient, avec la
∂

condition 0 pu (v ) = 1,
τ
τ pu (v ) = exp − ϕu+ξ (v ) dξ .
ξ=0

• La fonction de densité de Tu (v ) est ∂τ τ qu (v ) = τ pu (v )ϕu+τ (v )
∂

et en résolvant cette équation diﬀérentielle avec 0 qu (v ) = 0, on
obtient
τ
τ qu (v ) = exp − ξ pu (v ) ϕu+ξ (v ) dξ .
ξ=0



Espérance de vie

• La durée de vie restante moyenne d’un individu dont la pathologie
est apparue à l’âge v et d’ancienneté u est notée eu (v ).
• Concrètement on s’attend à ce qu’un individu d’ancienneté u et
dont la pathologie survient à l’âge v décède à l’ancienneté
u + eu (v ).
• On exprime eu (v ) par

eu (v ) = E[Tu (v )] = ξ dξ qu (v ) = ξ pu (v ) dξ
ξ≥0 ξ≥0
1
= u+ξ,v dξ.
u,v ξ≥0



Table des matières
R 5 Conclusions



Hypothèse de mortalité constante par morceaux
Hypothèse

• Dorénavant on fait l’hypothèse de constance par morceaux des
forces de mortalité, i.e.

ϕu+ξ (v + ζ) = ϕu (v ) pour 0 ≤ ξ < 1 et 0 ≤ ζ < 1 et u, v entiers

• Sous cette hypothèse,

ϕu (v ) = − ln pu (v )
1 1
E[ERu,v ] = u+ξ,v dξ = u,v ξ pu (v ) dξ
ξ=0 ξ=0
1 − u,v qu (v )
= u,v (pu (v ))ξ dξ =
ξ=0 ln(1 − qu (v ))
1 1
mu (v ) = u+ξ,v ϕu+ξ (v ) dξ = ϕu (v ).
E[ERu,v ] ξ=0



Modélisation

• A chacune des observations, on associe une indicatrice δi indiquant
si l’individu est décédé ou non,

1 si l’individu i est décédé,
δi =
0 sinon,

pour i = 1, . . . , Lu,v .
• On déﬁnie τi , le temps durant lequel l’individu a été observé (c’est
l’exposition au risque).
• On suppose avoir à disposition pour chacun des Lu,v individus les
observations (δi ,τi ).



Contribution de l’individu i à la vraisemblance

• La contribution du ième individu à la vraisemblance s’écrit,
• si l’individu survie à la (u + 1)ème ancienneté (δi = 0, τi = 1) alors :

pu (v ) = exp(−ϕu (v ));

• si l’individu décède avant la (u + 1)ème ancienneté (δi = 1, τi < 1)
alors :
τi pu (v ) ϕu+τi (v ) = exp(−τi ϕu (v ))ϕu (v ).
• La contribution de l’individu i à la vraisemblance vaut donc

exp(−τi ϕu (v ))(ϕu (v ))δi .



Ecriture de la vraisemblance

• On déﬁnit
Lu,v Lu,v
τi = ERu,v et δi = Du,v .
i=1 i=1
• Sous ces hypothèses, la vraisemblance devient

Lu,v
L(ϕu (v )) = exp(−τi ϕu (v ))(ϕu (v ))δi
i=1
= exp(−ERu,v ϕu (v ))(ϕu (v ))Du,v ,

• et la log-vraisemblance associée est

log L(ϕu (v )) = −ERu,v ϕu (v ) + Du,v log ϕu (v ).



Lien avec la loi de Poisson
• En Maximisant la log-vraisemblance log L(ϕu (v )) on obtient
l’estimateur du maximum de vraisemblance de ϕu (v ), à savoir
ϕu (v ) = Du,v /ERu,v
qui coïncide avec le taux de mortalité mu (v ).
• La vraisemblance L(ϕu (v )) est proportionnelle à la vraisemblance
de Poisson basée sur Du,v ∼ Poisson(ERu,v ϕu (v )).
• Il est équivalent de travailler avec la vraie vraisemblance ou à
partir d’une vraisemblance de Poisson.
• Donc sous l’hypothèse de la mortalité constante par morceaux
entre des valeurs non-entières u and v , on considère
Du,v ∼ Poisson(ERu,v ϕu (v )), (1)
pour pouvoir utiliser le cadre de travail des modèles linéaires
généralisés (GLMs).


Table des matières
R 5 Conclusions



Présentation des données

Analyse les variations de la mortalité en fonction de l’âge de survenance
de la pathologie v et de l’ancienneté u (mois). On observe :
• la plage d’âge de survenance : v ∈ [70, 90] ans pour la survenance,
• la durée de dépendance (l’ancienneté) : u ∈ [0, 119] mois,
• sur la période : 01/01/1998 à 31/12/2010.
Les données on été agrégées selon l’âge de survenance et l’ancienneté.
Les pathologies sont composées entre autres de démences, maladies
neurologiques et de cancers en phase terminale. Les données sont
composées de 2/3 de femmes et 1/3 d’hommes.



Présentation des données (suite)

(a) Nombre de décès, (b) Exposition au risque, (c) Forces de mortalité,
Du,v ERu,v ϕu (v )

Figure: Statistiques observées


Présentation des données (suite)
Notation

Par la suite, on réécrit les données en un vecteur colonne
• Une matrice A de dimension m × n est réécrite en un vecteur
colonne mn × 1 en empilant les colonnes de la matrice A l’une sur
l’autre :

vec(A) = (a1,1 , . . . , am,1 , a1,2 , . . . , am,2 , . . . , a1,n , . . . , am,n )T .

• On dispose de n quintuplets d’observations
{(ui , vi , ERi , Di , ϕi )}n , ou n = 2520.
i=1
Pour simpliﬁer, le point (ui , vi ) est noté xi .



Table des matières
R 5 Conclusions



Prémisses sur les modèles de lissage
Irrégularités dans la progression des taux observées

• Ces estimations brutes, sur lesquelles se basent les tables de
mortalité, peuvent être considérées comme un échantillon
provenant d’une population plus importante et sont, par
conséquent, soumises à des ﬂuctuations aléatoires.
• Toutefois, l’actuaire souhaite la plupart du temps lisser ces
quantités aﬁn de mettre en avant les caractéristiques de la
mortalité du groupe qu’il pense être régulières.
• Ces irrégularités dans la progression des forces de mortalité
pourraient être réduites en augmentant le nombre Lu,v de
personnes observées.
• Une méthode plus pratique est de graduer les données pour
éliminer partiellement ces erreurs aléatoires.



Approche paramétrique VS non-paramétrique

Plusieurs approches de graduation peuvent être adoptée.
• Approches paramétriques, impliquant l’utilisation de loi de
mortalité
• Approches non-paramétriques
La relation entre les forces de mortalité, l’ancienneté et l’âge à la
survenance peut être modélisée par

ϕi = ψ(xi ) + i , i = 1, . . . , n,

où ψ est une fonction de régression inconnue et i un terme d’erreur
représentant les erreurs aléatoires dans les observations ou variations
qui ne sont pas incluses dans les xi = (ui , vi ).
Le but de toute régression est de fournir une analyse raisonnable de la
fonction de réponse inconnue ψ.



Approche paramétrique VS non-paramétrique (suite)

• Les approches paramétriques supposent que la fonction de réponse
ψ à une forme pré-spécifiée (par exemple, loi de Thiele, loi de
Perks, modèles de classe Gompertz-Makeham, etc...). La relation
est alors pleinement décrite par un nombre fini de paramètres.
• Un modèle paramétrique pré-sélectionné peut être trop restrictif
pour modéliser les caractéristiques de la mortalité.
• La modélisation non-paramétrique offre un outil flexible dans
l’analyse de la relation. Comme les méthodes paramétriques, elles
sont susceptibles de donner des estimations biaisées, mais de telles
sorte qu’il est possible d’équilibrer une augmentation du biais avec
une diminution de la variation d’échantillonnage.



Approche paramétrique VS non-paramétrique (suite)

La question de quelle approche devrait être adoptée dans l’analyse de
données était l’une des raisons d’un discussion houleuse entre Pearson
et Fisher dans les années 1920.
• Fisher soulignant que l’approche non-paramétrique est
généralement peu efficace alors que Pearson était plus préoccupé
par la question de spécification.
• Les deux points de vue sont intéressants en eux-mêmes :
• Pearson a fait remarquer que le prix que nous devons payer pour
une modélisation purement paramétrique est la possibilité d’une
erreur de spécification lourde entraînant un biais de modèle élevé.
• Fisher était préoccupé par la considération de modèles sans
paramètres qui peuvent résulter dans des estimations plus variables
surtout pour des échantillons de taille réduite.



Natura non agit per saltum : L’idée basique du lissage

• Chaque force de mortalité est lié étroitement à ses voisines.
• Les observations ϕj dans le voisinage de ϕi contiennent de
l’information à propos de la valeur de ψ à xi = (ui , vi ).
• Les forces de la nature opèrent graduellement et leurs eﬀets
deviennent visibles de façon continue et non par des sauts
brusques.
• Cela implique que les observations ϕj , dans un rayon d’un point xi ,
peuvent être utilisées pour augmenter l’information que nous avons
à xi et une estimation améliorée de ϕi peut être obtenue en lissant
les estimations individuelles ϕj .



Natura non agit per saltum : L’idée basique du lissage (suite)

• Cette procédure d’approximation de la fonction de réponse ψ est
communément appelée lissage.
• Ainsi la mortalité n’est pas résumé en a petit nombre de
paramètres mais décrite par les n forces de mortalité.
• Dans la littérature actuarielle, ce procédé est connu sous le terme
de graduation. Les petites collines et vallées des données brutes
sont graduées jusqu’à devenir lisses, comme lorsque l’on construit
une route sur un terrain accidenté.



Développement historique

• Les méthodes de lissage sont des extensions directes des modèles
paramétriques, si naturelles qu’elles se sont développées à des
périodes et dans des pays différents à la fin du 18ème siècle. La
plupart sont apparues dans des études actuarielles. Les taux de
mortalité et de maladies étaient lissés selon une fonction de l’âge.
• Premières références : Johann Lambert en 1765, John Finlaison en
1823, Wesley Woolhouse en 1866, De Forest en 1873, Thomas
Sprague en 1887, John Spencer en 1904, Robert Henderson en
1916 and Edmund Whittaker en 1923.
• Cependant les régressions locales ont reçu que peu d’attention
jusqu’à la fin des années 1970. Voir Seal (1982), Haberman (1996)
et Loader (1999) pour une revue historique.



Développement historique (suite)

• Les méthodes de régression locale sont originaires des méthodes à
noyaux introduites par Rosenblatt (1956) et Parzen (1962).
• La méthode à noyaux est un cas spécial de la régression locale où
la famille paramétrique est une fonction constante.
• Applications actuarielles des méthodes à noyaux : Copas et
Haberman (1983) et Gavin et collab. (1993).
• Les régressions locales ont connu un regain d’intérêt après les
développements de Stone (1977) et Stone (1982) et la procédure
loess de Cleveland (1979).
• Tibshirani et Hastie (1987) ont introduit la procédure de
vraisemblance locale, et ont étendu le domaine des méthodes de
lissage à d’autres distributions que gaussienne. Extensions : Loader
(1996), Fan et collab. (1998) et Loader (1999).



Table des matières
R 5 Conclusions



Les modèles linéaires généralisés

• Durant les trente dernières années, l’utilisation des GLMs (Nelder
et Wedderburn (1972)) a reçu beaucoup d’attention depuis les
applications de McCullagh et Nelder (1989).
• Les GLMs sont idéalement adaptés à l’analyse de données
non-normales que l’on rencontre typiquement lorsque l’on
s’intéresse à des sujets relatifs à l’assurance.
• La modélisation diﬀère des modèles linéaires gaussiens par deux
importants aspects :
• La distribution de la variable dépendante est choisie dans la famille
exponentielle et n’est donc pas spéciﬁquement Normale mais peut
être explicitement non-Normale.
• Une transformation de l’espérance de la variable dépendante est
linéairement liée aux variables explicatives.



Caractéristiques

Les modèles linéaires généralisés possèdent 3 caractéristiques :
• Un élément aléatoire, qui établit que les observations sont des
variables aléatoires indépendantes Yi , i = 1, . . . , n avec une densité
appartenant à la famille exponentielle linéaire.
• Un élément systématique qui attribut à chaque observation un
prédicteur linéaire ηi .
• Un troisième élément qui connecte les deux premiers éléments : µi
l’espérance de Yi est lié au prédicteur linéaire ηi par une fonction
de lien.



La famille exponentielle linéaire

• La technique des GLMs s’applique à toutes distributions
appartenant à la famille exponentielle, i.e. lorsque la variable
dépendante Yi à une loi de probabilité de la forme

yi θi − b(θi )
f (yi |θi , φ) = exp + c(yi , φ) ,
a(φ)

pour des fonctions a(), b() and c() spéciﬁques. Les fonctions a
and c sont telles que a(φ) = φ and c = c(yi , φ).
θi est le paramètre canonique (ou paramètre naturel) et φ est le
paramètre de dispersion.



La famille exponentielle linéaire (suite)
Exemple d’une loi de Poisson :.

Distribution de yi θi a(φ) b(θi ) c(yi , φ) E[Yi ] V[µi ] = V[Yi ]
a(φ)

Poisson(µi ) ln(µi ) 1 exp(θi ) − log yi ! µi µi

Table: Loi de Poisson appartenant à la famille exponentielle.

L’espérance et la variance sont calculées comme la première et seconde
dérivées de b(θi ) :

∂ ∂b ∂µi
E[Yi ] = b(θi ) = = µi
∂θ ∂µi ∂θi
2
∂2 ∂2b ∂µi ∂b ∂ 2 µi
V[Yi ] = a(φ) b(θi ) = a(φ) + = a(φ)µi .
∂θi2 ∂µ2
i ∂θi ∂µi ∂θi2



Qu’est-ce que veut dire linéaire dans GLMs
• "Linéaire" signifie que les variables explicatives sont combinées
linéairement pour modéliser l’espérance.
• Si x1 , x2 , . . . , xp sont des variables explicatives alors des
combinaisons linéaires de la forme β0 + β1 x1 + . . . + βp xp servent
comme des prédicteurs linéaires de l’espérance de la variable
dépendante.
• La linéarité dans les GLMs se réfère seulement à la linéarité dans
les coefficients βj , non dans les variables explicatives.
• Par exemple,

β0 + β1 x1 + β2 x1 and β0 + β1 x1 + β2 x2 + β3 x1 x3
2

sont "linéaires" au sens définie par les GLMs, mais
β0 + β1 x1 + exp(β2 x2 )
ne l’est pas.


Fonction de lien

• µi = E [Yi |xi ], i = 1, 2, . . . , n, est liée au prédicteur linéaire ηi par
une fonction de lien g() monotone et diﬀérenciable

g(µi ) = ηi ⇔ µi = g −1 (ηi )

• La fonction de lien est dite canonique lorsque θi = ηi , où θi est le
paramètre canonique.
• la fonction de lien canonique assure donc que g(µi ) = θi et
g −1 = b () (puisque µi = b (θi )).

Lien canonique
Poisson ηi = log(µi )

Table: Lien canonique pour la loi de Poisson



Table des matières
R 5 Conclusions



Des GLMs à la vraisemblance locale
• L’approche GLM fait l’hypothèse que θi a une forme paramétrique
spéciﬁque, e.g.

θi = β0 + β1 ui + β2 vi + β3 ui2 + β4 ui vi + β5 vi2
≡ x T β,

où x = (1, ui , vi , ui2 , ui vi , vi2 )T et β = (β0 , . . . , β5 )T .
• L’approche de la vraisemblance locale ne fait plus l’hypothèse que
θi a une forme paramétrique rigide.
• On suppose que θi est une fonction lisse non-spéciﬁée ψ(xi ) qui a
(p + 1) dérivées continues au point xi .
• L’idée est : ajuster un modèle polynomial à l’intérieur d’une fenêtre
d’observation.
⇒ Penser au développement de Taylor.



Expansion de Taylor

• Pour xj dans le voisinage de xi , on va approximer ψ(xj ) via une
expansion de Taylor par un polynôme de degré p, e.g. une
approximation quadratique :

ψ(xj ) = ψ(uj , vj )
∂ψ(ui , vi ) ∂ψ(ui , vi )
≈ ψ(ui , vi ) + (uj − ui ) + (vj − vi )
∂ui ∂vi
1 ∂ 2 ψ(ui , vi ) ∂ψ(ui , vi )
+ (uj − ui )2 + (uj − ui )(vj − vi )
2 2
∂ui ∂vi ∂ui
1 ∂ 2 ψ(ui , vi )
+ (vj − vi )2 ≡ x T β,
2 ∂vi2
T
où x = 1, uj − ui , vj − vi , (uj − ui )2 , (uj − ui )(vj − vi ), (vj − vi )2
2
ψ(ui ,vi ) ∂ψ(ui ,vi ) 1 ∂ 2 ψ(ui ,vi )
et β = ψ(ui , vi ), ∂ψ(uii,vi ) , ∂ψ(uii,vi ) , 1 ∂
∂u ∂v 2 ∂ui2
, ∂vi ∂ui 2 ∂v 2 .
i



Ecriture de la vraisemblance

• La log vraisemblance d’un GLM s’écrit :
n n n
yi θi − b(θi )
l(β; y, φ) = ln f (yi |θi , φ) = + c(yi , φ).
i=1 i=1
a(φ) i=1

• La fonction de log vraisemblance locale à xi s’écrit :
n n n
yj θj − b(θj )
l(β; y, wj (xi ), φ) = wj ln f (yj |θj , φ) = wj + wj c(yj , φ).
j=1 j=1
a(φ) j=1

• Maximiser la vraisemblance locale par rapport à β donne le vecteur
des estimateurs β.
• Dans le cas d’une approximation quadratique β = (β0 , . . . , β5 ), et
l’estimateur de ψ(xi ) est donné par : ψ(xi ) = β0 .
• Ainsi le rôle des GLMs est celui d’un modèle en arrière-plan qui est
ajusté localement.


La fonction de poids

Fonction de poids W (a)
La localisation s’eﬀectue via la fonction de
poids : Uniforme 1
2
I(|a| ≤ 1)
Triangulaire (1 − |u|)I(|a| ≤ 1)
W (ρ(xi , xj )/h) if ρ(xi , xj )/h ≤ 1,
wj = Epanechnikov 3
(1 − a2 )I(|a| ≤ 1)
0 otherwise. 4

Quartic (Biweight) 15
16
(1 − a2 )2 I(|a| ≤ 1)
W (.) est une fonction de poids non né- Triweight 35
(1 − a2 )3 I(|a| ≤ 1)
32
gative qui dépend de la distance ρ(xi , xj ),
Tricube (1 − u 3 )3 I(|a| ≤ 1)
e.g. la distance Euclidienne :
Gaussienne √1
2π
exp( 1 a2 )
2
ρ(xi , xj ) = (uj − ui )2 + (vj − vi )2 .
avec a = ρ(xi , xj )/h



La fonction de poids (suite)

(a) Epanechnikov (b) Triangulaire (c) Triweight

Figure: Système de pondération pour des fonctions de poids avec h = 7



Table des matières
R 5 Conclusions



Illustration de l’idée générale
Comment estimer ψ ? Par un ajustement local...



Comparaison de l’ajustement avec diﬀérents voisinages

(a) h = 3 (29 obs.) (b) h = 5 (81 obs.) (c) h = 10 (317 obs.)

Figure: Comparaison de l’ajustement avec diﬀérents voisinages


Le but

• Trouver les paramètres de lissage :
• la fenêtre d’observation : h
• le degré d’approximation : p
• la fonction de poids : W (.)
• Obtenir une surface aussi lisse que possible sans altérer la forme de
la dépendance de la réponse sur les variables explicatives.
• On veut ψ avec un biais faible et une variance faible.



Table des matières
R 5 Conclusions



Equations de vraisemblance
Parallèle entre GLM et vraisemblance locale

GLMs Vraisemblance locale
Les paramètres β sont estimés par maximum de vraisemblance.
• La log vraisemblance pour les obser- • La fonction de log vraisemblance lo-
vations yi , i = 1, . . . , n, s’écrit : cale à xi s’écrit :
n n n n
yi θi − b(θi ) yj θj − b(θj )
l(βj ; yi ) = + c(yi , φ). l(βv ; y, wj (xi )) = wj + wj c(yj , φ).
a(φ) a(φ)
i=1 i=1 j=1 j=1

On résout les équations normales :

n n
∂ ∂
l(β0 , . . . , βp ; yi ) = 0, j = 0, . . . , p. wj l(β0 , . . . , βp ; yj ) = 0, v = 1 . . . , p.
∂βj ∂βv
i=1 j=1



Parallèle entre GLM et vraisemblance locale (suite)

• La dérivée de l par rapport à βj est : • De même,
∂l ∂l ∂θi ∂µi ∂ηi ∂l ∂l ∂θj ∂µj ∂ηj
= , = ,
∂βj ∂θi ∂µi ∂ηi ∂βj ∂βv ∂θj ∂µj ∂ηj ∂βv
où où
∂l yi − b (θi ) yi − µi ∂l y j − µj
= = , = ,
∂θi a(φ) a(φ) ∂θj a(φ)
∂µi V[Yi ] ∂µj V[Yj ]
= b (θi ) = , = b (θj ) = ,
∂θi a(φ) ∂θj a(φ)
∂ηi ∂ηi ∂ηj ∂ηj
= 1, = ui , = 1, = uj − ui ,
∂β0 ∂β1 ∂β0 ∂β1
= vi , = ui2 , = vj − vi , = (uj − ui )2 ,
∂β2 ∂β3 ∂β2 ∂β3
= ui vj , = vi2 . = (uj − ui )(vj − vi ), = (vj − vi )2 .
∂β4 ∂β5 ∂β4 ∂β5




On obtient les équations de vraisemblance suivantes :

n n n n
∂l (yi − µi ) ∂µi ∂l (yj − µj ) ∂µj
= =0 = wj =0
∂β0 V[Yi ] ∂ηi ∂β0 V[Yj ] ∂ηj
i=1 i=1 j=1 j=1

.
. .
.
. .
n n n n
∂l (yi − µi ) ∂µi 2 ∂l (yj − µj ) ∂µj
= vi = 0. = wj (vj − vi )2 = 0.
∂β5 V[Yi ] ∂ηi ∂β5 V[Yj ] ∂ηj
i=1 i=1 j=1 j=1




En notation matricielle :
X V (y − µ) = 0, où
T
X T W V (y − µ) = 0, où

1 2
u1 v1 u1 u1 v1 v12
1 u1 − ui v1 − vi ... (v1 − vi )2
   
1 u2 v2 u22
u2 v2 2
v2  1 u2 − ui v2 − vi ... (v2 − vi )2 
X = .
. . . . . . , X = . . . . . ,
. .
. .
. .
. .
. .
.
.
. .
. .
. .
. .
.

1 un vn un2
un vn vn2
1 un − ui vn − vi ... (vn − vi )2

et V est une matrice diagonale avec et W est une matrice diagonale avec wj
1 ∂µi
V[Yi ] ∂ηi
comme ième éléments sur sa comme jème éléments sur sa diagonale.
diagonale.
La fonction de lien η = g(µ) détermine ∂µi /∂ηi = ∂g −1 (ηi )/∂ηi .
Ces équations ne possèdent en général pas de solutions explicites et doivent
être résolues numériquement. On utilise une modiﬁcation de l’algorithme
de Newton-Raphson qui porte le nom de méthode de scoring de Fisher.



Table des matières
R 5 Conclusions



Résolution des équations de vraisemblance

Dans le cadre d’un GLM,
• chaque étape de l’algorithme constitue un ajustement de type
moindres carrées pondérés,
• c’est une généralisation des MCO qui prend en compte la
non-constance de la variance de Yi .
• les observations recueillies en des points où la variabilité est plus
faible sont aﬀectées d’un poids plus important dans la
détermination des paramètres.
• à chaque itération les poids sont remis à jours.
• on emploie le terme de moindres carrés itérativement re-pondérés
ou IRWLS.
Dans le cadre de la vraisemblance locale, on emploiera une version
localisée de l’IRWLS.




• L’algorithme de Newton-Raphson utilise la matrice d’information
de Fisher.
• Cette matrice contient l’information concernant la courbure de la
fonction de log vraisemblance au point d’estimation.
• Plus grande est la courbure, plus l’information apportée au sujet
des paramètres du modèles est importante.
• (En eﬀet les écarts-types des estimateurs sont les racines carrées
des éléments diagonaux de l’inverse de la matrice d’information de
Fisher. Plus la courbure de la fonction de vraisemblance est
importante, plus les écarts-types sont petits.)
• Pour un GLM, la dérivée partielle seconde est :

∂2l ∂2l
= xij xik .
∂βj βk ∂ηi2



• En utilisant la règle de dérivation en chaine, on obtient :

∂2l ∂ ∂l ∂θi ∂ ∂2l ∂l ∂ 2 θi
2 = ∂η
∂ηi ∂θi ∂ηi
=
∂ηi ∂θi ∂ηi
+
∂θi ∂ηi2
i
2
∂2l ∂θi ∂l ∂ 2 θi
= +
∂θi2 ∂ηi ∂θi ∂ηi2
• Comme ∂l/∂θi = (yi − µi )/a(φ), sa dérivée est ∂ 2 l/∂θi2 =
−1/a(φ)∂µi /∂θi . De plus ∂µi /∂θi = b (θi ), on obtient
∂2l 1 ∂θi 2
∂µi 2
∂ 2 θi
= −b (θi ) + (yi − µi )
∂ηi2 a(φ) ∂µi ∂ηi ∂ηi2
1 1 ∂µi 2
∂ 2 θi
= − + (yi − µi ) .
a(φ) b (θi ) ∂ηi ∂ηi2
• SI θ ≡ η, alors ∂ 2 θi /∂ηi2 = 0.


• Dans la méthode de scoring de Fisher, l’actuelle matrice hessienne
dans l’itération de Newton-Raphson est remplacé par sa valeur
espérée, qui est la négative de la matrice d’information de Fisher
I. Dans ce cas là aussi le second terme disparait. On obtient
n
∂2l 1 1 ∂µi 2
Ijk = E − = xij xik
∂βj βk i=1
φ b (θi ) ∂ηi
n
ωii xij xik 1
= = (X T ΩX)jk
i=1
φ φ
2
où Ω est un matrice diagonale avec ωii = b 1 i ) ∂µii
(θ ∂η qui dépend
de µi . Car ηi = g(µi ), on a ∂ηi /∂µi = g (µi ).
• Dans le cadre de la vraisemblance locale, on obtient
1
Ivk = (X T W ΩX)vk
φ

Intro vrais loc-print

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Mais de Arthur Charpentier

Mais de Arthur Charpentier (20)

Intro vrais loc-print