1. État de l’Art sur la loi de Poisson binomiale
et application en assurance vie
Yacine HOSNI et Yongshen CHEN
Université Pierre et Marie CURIE
Travail d’Étude de Recherche réalisé sous la direction de
Catherine MATIAS (CNRS-LPMA)
Avec la collaboration de Vincent LEPEZ et Razvan IONESCU
(SCOR)
20 mai 2015
Résumé
La loi de Poisson binomiale est la loi d’une somme de variables aléa-
toires de Bernoulli indépendantes et de paramètres différents. Cette loi
trouve son application naturelle dans des domaines aussi variés que
l’économie, l’ingénierie et l’actuariat. Le calcul exact de cette loi ne
requiert aucune notion avancée de théorie des probabilités et est im-
médiat. Cependant, on a besoin de méthodes plus performantes pour
effectuer des calculs dans des cas pratiques. Dans ce mémoire, on rap-
pelle les principales caractéristiques et problématiques liées à la loi de
Poisson binomiale. On introduit ensuite des algorithmes exacts et des
méthodes d’approximation pour cette loi. Enfin on s’intéresse aux com-
portements de ces méthodes en assurance vie. On étudie également le
comportement d’une somme pondérée de variables aléatoires de Ber-
noulli indépendantes et de paramètre différents. On modifie un package
R pour traiter cette dernière problématique.
1
2. Remerciements
Nous tenons à remercier chaleureusement Catherine Matias pour sa dipo-
nibilité, son calme et sa patience. Nous remercions également pour leurs ac-
cueil Vincent Lepez et Razvan Ionescu nos deux interlocuteur chez la SCOR.
Le chapitre "Calcul exacts" est, grosso modo un condensé de la première
partie de l’article de Yili Hong [6], que nous remercions également à cette
occasion.
4. 1 Introduction et motivations
La somme de n variables de Bernoulli indépendantes et identiquement
distribuées, qu’on note Xi ∼ B(p) pour i = 1, 2, . . . , n suit une loi Binomiale
qu’on note Sn ∼ B(n, p).
Si maintenant on considère Sn = X1 + · · · + Xn, avec Xi ∼ B(pi) pour
i = 1, 2, . . . , n avec les pi non identiques. On obtient alors une loi de Poisson
binomiale.
L’étude d’une telle loi s’est faite par nécessité. En effet, de nombreuses
problématiques mènent à la loi de Poisson binomiale. Par exemple, en écono-
métrie on souhaiterait prédire le nombre d’entreprise qui feront faillite, pour
des raison évidentes, chaque entreprise a une probabilité de faillite propre.
On se retrouve alors avec une somme de variables de Bernoulli différemment
distribuées.
En assurance vie, pour un portefeuille d’assurés donné, cette loi modélise
le nombre total de décès . En effet chaque individu possède une probabilité
de décès différente. Ce dernier exemple sera étudié plus en détail dans ce
document.
L’étude de cette loi et de ses propriétés débute pour la première fois en
1956 avec Hoeffding [5]. Puis en 1960, Lucien Le Cam [7] expose un théorème
qui majore l’erreur de l’approximation par une loi de Poisson.
2 Calculs exacts
Dans la suite Sn = n
i=1 Xi où les Xi ∼ B(pi) avec pi ∈]0, 1[ et les pi
non identiques.
2.1 Formules explicites
Pour expliciter les formules liées à cette loi, on définit judicieusement
des ensembles qui nous permettront de simplifier et optimiser l’écriture des
formules qui découleront par la suite. Il est évident que pour le calcul de
la fonction de masse de cette loi, on a besoin de passer en revue toutes les
combinaisons possibles d’événements qui fournissent le résultat mesuré.
Pour x = 0, 1, . . . , n, on définit l’ensemble des sous ensembles de {1, . . . , n}
de taille x,
Fx = {A : A ⊆ {1, . . . , n}, |A| = x} (1)
Pour calculer la fonction de masse,P(Sn = k) on procède comme indiqué
plus haut : On somme sur tous les sous ensemble de taille k :
P(Sn = k) =
A∈Fk j∈A
pj
j∈Ac
(1 − pj) (2)
On remarque que dans le cas où les pk sont égaux on retrouve la fonction de
masse de la loi binomiale.
2
5. De même la fonction de répartition est donnée par :
P(Sn ≤ k) = Fn(k) =
k
m=0 A∈Fm j∈A
pj
j∈Ac
(1 − pj) (3)
Ces formules bien que facile à trouver, ont un défaut qui rendent les
calculs impraticables. En effet la taille de Fk explose très rapidement. Par
exemple pour n = 10, |F10| = 30
10 = 30045015, et pour n = 100, |F20| =
100
20 = 5.3598337e+20.
2.2 Algorithmes exacts
Il existe dans la littérature de nombreux algorithmes plus ou moins per-
formants pour le calcul exact de la loi sans passer en revue toutes les com-
binaisons possibles.
2.2.1 Formules récursives, (RF)
Parmi ces algorithmes il existe des méthodes dites récursives. On en ex-
pose deux ici.
RF1. (Barlow et Heidtmann[1]) La première méthode est plutôt intui-
tive ; on pose pour k = 0, 1, . . . , n et j = 0, 1 . . . , n :
ξk,j = P(Sj = k) (4)
avec les conditions initiales : ξ−1,n = ξn+1,n = 0, j = 0, 1, . . . , n−1 et ξ0,0 = 1
On a alors la formule :
ξk,j = (1 − pj)ξk,j−1 + pjξk−1,j−1 (5)
RF2. (Chen, Dempster et Liu [2]) La deuxième méthode est quant à elle
liée aux identités de Newton.
ξ0,n =
n
j=1
(1−pj), et ξk,n =
1
k
k
l=1
(−1)l−1
tlξk−l,n, k = 1, . . . , n (6)
avec tl = n
j=1[
pj
1−pj
]l.
3
6. 2.2.2 Transformée de Fourier discrète de la fonction caractéris-
tique
On rappelle brièvement la transformée de Fourier discrète ainsi que sa
fonction réciproque.
Soit {y0, y1, ..., yn} une séquence de n + 1 nombres complexes. La trans-
formée de Fourier discrète de la séquence {y0, y1, ..., yn} est {z0, z1, ..., zn}
avec :
zk =
n
l=0
yl exp(−iωkl) (7)
avec k = 0, 1, . . . , n et ω = 2π
n+1 .
La transformée de Fourier discrète inverse pour la séquence {z0, z1, . . . , zn}
est donnée par :
yl =
1
n + 1
n
k=0
zk exp(iωlk), l = 0, 1, . . . , n. (8)
Le but de ce qui suit est d’appliquer les notions rappelées plus haut à
la fonction caractéristiques de la loi de Poisson binomiale. Toujours dans le
cadre où Sn = n
i=1 Xi où les Xi ∼ B(pi) avec les pi non identiques, on
calcule la fonction caractéristique de Sn :
φ(t) = E[exp(itSn)] =
n
k=0
ξk exp(itk) = E[exp(it
n
k=1
Xk)]
=
n
k=1
E[exp(itXk)] =
n
k=1
[1−pk +pk exp(it)]
(9)
Avec ξk = P(Sn = k).
On remplace maintenant t par ωl dans (8) avec l = 0, 1, . . . , n et ω = 2π
n+1,
on obtient alors :
1
n + 1
n
k=0
ξk exp(iωlk) =
1
n + 1
n
k=1
[1 − pk + pk exp(iωl)] =
1
n + 1
Ql (10)
avec Ql = n
k=1[1 − pk + pk exp(iωl)]
On remarque tout particulièrement que le terme de gauche dans l’équa-
tion (10) est la transformée de Fourier discrète inverse de ξk telle que définie
en (8). On obtient alors, en appliquant la transformée de Fourier discrète des
deux cotés :
ξk =
1
n + 1
n
l=0
exp(−iωlk)Ql (11)
La formule obtenue dans l’expression (11) sera appelé par la suite la DFT-
CF méthode (Discrete Fourier Transform of the characteristic function).
4
7. La méthode RF1 est un algorithme qui demande beaucoup de mémoire
vive et les calculs deviennent vite irréalisables avec cette méthode. Ainsi
quand n = 15000 le calcul de la loi nécessite pas moins de 4 GB de ram.
La méthode RF2, quant à elle présente des problèmes de stabilités nu-
mérique et le calcul est quasiment impossible dans la majorité des cas.
Enfin la méthode DFT-CF est la méthode la plus optimale et est celle
qui fournira nos résultats de référence tout au long de ce document.
Cela dit bien qu’optimale cette méthode reste limitée par sa performance,
en effet on verra par la suite que le temps de compilation augmente considéra-
blement. De surcroît, ces méthodes ne fonctionnent que que si on dispose de
toutes les caractéristiques de l’échantillon. En pratique, cette condition n’est
pas toujours réalisée. Rentre alors en jeux des méthodes d’approximation qui
prennent en entrée des variables qui résume une ou plusieurs propriétés de
l’échantillon. Il s’agira en particulier ici de l’espérance, de la variance et du
coefficient d’asymétrie des pi.
3 Méthodes d’approximation
3.1 Approximation par une loi de Poisson (PA)
Une première méthode consiste à approcher la loi de Poisson binomiale
par une loi de Poisson de paramètre λ = n
i=1 pi. Lucien Le Cam présente
en 1960 [7] un théorème sur la qualité de cette approximation en évaluant la
distance infinie entre la fonction de répartition de la loi de Poisson binomiale
et la fonction de répartition d’une loi de Poisson de paramètre λ = n
i=1 pi.
Théorème. Soit Y une variable aléatoire suivant une loi de Poisson de
paramètre λ = n
i=1 pi et Sn comme définit plus haut. On a alors :
sup
k
|P(S ≤ k) − P(Y ≤ k)| ≤ 2
n
i=1
p2
i (12)
Dans un article connexe de J.L.Hodges, Jr et Lucien Le Cam [4], on trouve
une variante du théorème avec une borne amélioré.
Théorème bis.
sup
k
|P(S ≤ k) − P(Y ≤ k)| ≤ 3 3
√
α (13)
avec α = max(p1, . . . , pn).
On remarque alors que la qualité de cette approximation est indépen-
dante de la taille de l’échantillon. les paramètres pi ont seuls un impact
sur l’inégalité. Par conséquence, l’approximation par une loi de Poisson est
précise si tant est que les pi soient petits.
5
8. 3.2 Approximation par une loi Normale (NA)
Cette approximation repose sur l’application du théorème central limite
généralisé au variables aléatoires indépendante mais non identiquement dis-
tribuées 1. On a alors l’approximation suivante :
P(Sn ≤ k) ≈ φ(
k + 0.5 − µ
σ
) (14)
avec µ = n
i=1 pi et σ = n
i=1 pi(1 − pi).
remarque : L’écart 0.5 qui apparaît dans la formule est la correction
appliqué après le passage du discret au continue.
La qualité de cette approximation dépend de la taille de l’échantillon.
3.3 Approximation par une loi normale raffinée (RNA)
Pour que l’approximation par une loi Normale soit performante, il faut
que la taille de l’échantillon soit importante et que la distribution de Sn
soit symétrique. Or, cette condition n’est pas réalisé en pratique. L’idée de
l’approximation par une loi normale raffinée (Refined Normal approximation)
est de corriger ce décalage omniprésent en prenant en compte le coefficient
d’asymétrie de la loi.
On a alors l’approximation suivante :
P(Sn ≤ k) ≈ G(
k + 0.5 − µ
σ
) (15)
Où G(x) = φ(x) + γ(1−x2)f(x)
6 , γ = E[(Sn−µ)3]
E[(Sn−µ)2]3/2 : Coefficient d’asymétrie de
Sn , f la densité d’une loi normale et φ sa fonction de répartition.
Il existe plusieurs écrits qui traitent de la qualité de cette approximation.
En particulier, Paul Deheuvels, Madan, L. Puri et Stefan S. Ralescu [3]
proposent le théorème suivant :
Théorème.
Il existe une constante c < ∞ telle que
sup
k
|P(S ≤ k) − G(
k + 0.5 − µ
σ
)| ≤ cσ−2
(16)
1. On fait référence ici au théoèreme de Lindeberg-Feller
6
9. 4 Somme pondérée
On s’intéresse maintenant à la somme pondérée de variables aléatoires
de Bernoulli indépendantes de paramètres différents. Dans tout la suite, on
fera référence à cette somme en la notant Wn = n
i=1 HiXi. Où Xi ∼ B(pi)
et Hi constante multiplicatif qu’on suppose ici entière.
L’étude de cette somme est en réalité un premier pas vers l’application
des résultats ci-dessus en assurance vie. En effet, un enjeux en assurance vie
est de prédire le nombre de décès pour un portefeuille donnés et également
la charge de sinistre qui correspond alors à Wn avec Hi égale à la somme
assurée par le i-ème individu.
Notre but ici est d’adapter les résultats vu plus haut à l’étude de cette
somme. En particulier la méthode DFT-CF pour le calcul exacte, et les
différentes méthodes d’approximations.
4.1 Méthode DFT-CF
On rappelle que cette méthode utilise la transformée de Fourier inverse
dont les propriétés ont été rappelées plus haut.
On note Wn = n
i=1 HiXi où Xi ∼ B(pi) , m = n
i=1 Hi
et ξk = P(Wn = k). On calcule alors la fonction caractéristique de Wn.
φ(t) = E[exp(itWn)] =
m
k=0
ξk exp(itk) = E[exp(it
n
k=1
HkXk)]
=
n
k=1
E[exp(itHkXk)] =
n
k=1
[1−pk+pk exp(itHk)]
(17)
On remplace maintenant t par ωl dans (17) avec l = 0, 1, . . . , m
et ω = 2π
m+1, on obtient alors :
1
m + 1
m
k=0
ξk exp(iωlk) =
1
m + 1
n
k=1
[1 − pk + pk exp(iωlHk)] =
1
m + 1
Ql
(18)
avec Ql = n
k=1[1 − pk + pk exp(iωlHk)]
On remarque alors que le terme de gauche dans l’équation (18) est la
transformée de Fourier discrète inverse de ξk. On obtient alors, en appliquant
la transformée de Fourier discrète des deux cotés :
ξk =
1
m + 1
m
l=0
exp(−iωlk)Ql (19)
On reviendra plus tard sur la performance de cette méthode.
7
10. 4.2 Méthodes d’approximation
Les méthodes d’approximation permettent d’approcher la loi exacte sans
pour autant disposer de toutes les caractéristiques de l’échantillon. Ainsi les
méthodes exposées précédemment restent, mutatis mutandis, correctes pour
la somme pondérée.
4.2.1 Approximation par une loi de Poisson
On rappelle que dans le cas de l’approximation par une loi de Poisson, on
ne renseigne que l’espérance théorique. Ainsi dans le cas d’une somme pon-
dérée Wn on effectuera l’approximation par une loi de Poisson de paramètre
λ = n
i=1 Hipi.
Le théorème de Lucien Le Cam [4] ne s’applique cependant plus dans ce
cas de figure. Il est aisé de constater que les constantes multiplicatifs Hi ont
une influence sur la qualité de l’approximation.
4.2.2 Approximation par une loi normale et RNA
L’approximation par une loi normale requiert de connaître l’espérance et
la variance de l’échantillon. Pour la RNA on a besoin du coefficient d’asy-
métrie en plus. Ainsi pour une somme pondérée, ces approximations sont
similaires aux approximations vu dans le cas d’une somme non pondérée.
On ne changera que les paramètres espérance, variance et coefficient d’asy-
métrie par ce qui suit.
L’espérance :
µ =
n
i=1
Hipi (20)
La variance :
σ2
=
n
i=1
H2
i pi(1 − pi) (21)
Le coefficient d’asymétrie :
γ =
E[(Wn − µ)3]
E[(Wn − µ)2]3/2
=
n
i=1 H3
i pi(1 − pi)(1 − 2pi)
σ3
(22)
On verra plus tard que le comportement des approximations dans le cas
des sommes pondérées est similaire pour les approximation sur les sommes
non pondérée, bien que les théorème sur la qualité des approximations ne
s’appliquent plus pour les sommes pondérées.
8
11. 5 Application en assurance vie
Comme dit en introduction, la loi de Poisson binomiale trouve son appli-
cation dans plusieurs domaines dont l’assurance vie, on s’intéresse en parti-
culier à ce dernier champ. Pour être concis, on considère qu’en assurance vie
on dispose d’un portefeuille d’assurés qui se compose de la façon suivante :
Individu Age Probabilité de Décès Somme assurée Décès
Xi 67 pi Hi 1 si le décès est constaté, 0 sinon.
Le but pour l’assureur est donc de prédire le nombre de décès et la charge
de sinistre. L’occasion pour nous d’appliquer et commenter l’ensemble des
résultats précédents.
Tous les calculs ont été effectué à l’aide du logiciel R 64-bit[8] sur une
machine équipé d’Intel Xeon CPU (X5660, 2.80GHz) avec une carte mémoire
de 64 GB.
5.1 Packages ’poibin’ et ’poibinact’
Il existe sur le site du Cran un package R ’poibin’ 2 qui implémente deux
algorithme de calcul exacte (RF1 et DFT-CF) et deux méthode d’approxi-
mation (RNA et approximation normal) pour la loi de Poisson binomiale.
Cela dit, ce package ne traite pas du cas des sommes pondérées. On
modifie alors, pour le besoin de l’étude, le package ’poibin’ pour pourvoir
calculer la loi Wn. On nomme ce package dérivé du premier ’poibinact’.
5.2 Études de différents portefeuilles
Dans cette section, un schéma similaire se déroulera sur trois porte-
feuilles. Dans un premier temps on calcule la loi exacte par la méthode
DFT-CF, puis on effectue les approximations de cette loi pour en juger les
performance.
Dans ce document et dans le cadre de notre sujet, on considère que les
probabilités de décès pi retranscrivent parfaitement la réalité. Ainsi, aucune
critique quant à un certain décalage entre le nombre total de décès observé
et théorique ne sera faite.
2. http ://cran.r-project.org/web/packages/poibin/poibin.pdf
9
12. Étude de la somme Sn = n
i=1 Xi.
5.2.1 Premier portefeuille
Le premier portefeuille comprend 25 734 individus, ils ont une moyenne
d’âge de 74 ans, une probabilité de décès moyenne de 0.02, médiane de 0.015
et n
i=1 pi = 725. On représente ci dessous l’histogramme des pi.
Figure 1 – Histogramme des pi pour le premier portefeuille
On utilise la méthode DFT-CF pour le calcul exacte. Le temps d’exécu-
tion pour ce portefeuille est de seulement 25 secondes. Cela dit, on verra que
la durée d’exécution augmente de façon exponentielle.
Maintenant qu’on dispose de la loi exacte de Sn, on compare la perfor-
mance des trois approximations dont on dispose.
Approximation par une loi de Poisson :
On rappelle qu’on rapproche la loi de Sn par une loi de Poisson de para-
mètre λ = n
i=1 pi.
Pour quantifier la performance de cette approximation, on considère deux
indicateurs. Le premier est la norme L1 de la différence entre la fonction de
répartition théorique et la fonction de répartition de la loi de Poisson.
Ça correspond donc à :
n
k=1
|P(Sn ≤ k) − P(Y ≤ k)| (23)
Où Y ∼ P(λ).
10
13. Le second indicateur est la norme infinie L∞.
sup
k
|P(Sn ≤ k) − P(Y ≤ k)| (24)
On représente le comportement de cette approximation en représentant
la différence entre la fonction de répartition théorique et celle de l’approxi-
mation.
Figure 2 – Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 1
Ainsi nos indicateurs valent ici :
Norme Valeur
L1 0.7101
L∞ 0.0082
On répète la même procédure pour l’approximation par une loi Normale
et RNA. On détaillera donc plus autant les étapes.
11
14. Figure 3 – Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 1
Figure 4 – Graphique représentant la qualité de l’approximation RNA pour
le portefeuille 1
12
15. Resumé
Norme Méthode Valeur
L1
PA 0.7101
NA 0.1416
RNA 0.0018
L∞
PA 0.0082
NA 0.0022
RNA 2.6e−05
Figure 5 – Tableau résumant la performance des approximations pour le
portefeuille 1
On en déduit alors que pour ce portefeuille la méthode RNA est la
meilleure approximation. L’approximation normale est plus performante que
l’approximation par une loi de Poisson.
5.2.2 Deuxième portefeuille
Le second portefeuille comprend 394 369 individus, ils ont une moyenne
d’âge de 36 ans, une probabilité de décès moyenne de 0.0008, médiane de
0.0005 et n
i=1 pi = 305. Donc largement inférieure à celle du premier porte-
feuille. On représente ci dessous l’histogramme des pi, les graphes représen-
tant le comportement des approximations ainsi que le tableau récapitulatif.
N.B : Le temps d’exécution pour le méthode de DFT-CF est d’une heure
25 minutes.
Figure 6 – Histogramme des pi pour le deuxième portefeuille
13
16. On constate que les probabilités de décès sont petites et très concentrées
dans ce portefeuille.
Figure 7 – Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 2
Figure 8 – Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 2
14
17. Figure 9 – Graphique représentant la qualité de l’approximation RNA pour
le portefeuille 2
Resumé
Norme Méthode Valeur
L1
PA 0.0120
NA 0.1609
RNA 0.0033
L∞
PA 0.0002
NA 0.0038
RNA 7.02e−05
Figure 10 – Tableau résumant la performance des approximations pour le
portefeuille 2
Pour ce portefeuille on remarque une certaine ressemblance avec les fi-
gures du premier portefeuille. L’approximation par la méthode RNA reste la
plus performante, cela dit dans ce cas l’approximation par une loi de Pois-
son est meilleure que celle par une loi normale classique. Ceci s’explique par
le fait qu’ici les probabilités de décès pi sont petites, or la qualité de l’ap-
proximation par une loi de Poisson est d’autant plus correcte si les pi sont
petits
5.2.3 Troisième portefeuille
Le troisième portefeuille comprend 1 458 381 individus, ils ont une moyenne
d’âge de 37 ans, une probabilité de décès moyenne de 0.001, médiane de
0.0004 et n
i=1 pi = 1418. Ce portefeuille est de taille importante, ce qui
15
18. affecte la performance des algorithmes. Ainsi il faut pas moins de 21 heures
pour le calcul de la loi exacte par la méthode DFT-CF. Les méthodes d’ap-
proximations ont alors ici un tout autre intérêt, puisqu’elles ne nécessitent
aucune durée d’exécution.
On représente comme précédemment l’histogramme des pi et les gra-
phiques des approximations.
Figure 11 – Histogramme des pi pour le troisième portefeuille
Figure 12 – Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 3
16
19. On constate que les probabilités de décès sont très petite mais plus épar-
pillées que dans le deuxième portefeuille.
Figure 13 – Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 3
Figure 14 – Graphique représentant la qualité de l’approximation RNA
pour le portefeuille 3
17
20. Resumé
Norme Méthode Valeur
L1
PA 0.0388
NA 0.1605
RNA 0.0015
L∞
PA 0.0003
NA 0.0018
RNA 1.48e−05
Figure 15 – Tableau résumant la performance des approximations pour le
portefeuille 3
La méthode RNA est encore une fois la plus performante des trois mé-
thodes, ce qui nous laisse penser qu’elle surpasse les deux autres méthodes
dans tous les cas. L’approximation par une loi de Poisson reste meilleure que
l’approximation normale.
On remarque que dans les trois portefeuilles les graphiques représentant
la qualité des approximations ont sensiblement la même forme. Que se passe-
t-il si on remplace l’abscisse de ces graphiques par les quantiles de la loi ?
On constate une parfaite concordance entres les trois portefeuilles. (voir
figures 26,27,28,29,30,31,32,33,34)
Cette similitude laisse suggérer un caractère prédictible sur le compor-
tement des approximations. On peut alors penser à effectuer une correction
systématique en fonction du positionnement de l’approximation.
5.2.4 Étude de la charge de sinistre
Dans cette section, on utilise le package ’poibinact’ pour étudier la charge
de sinistre pour le premier portefeuille. Pour des raisons pratiques, on dé-
coupe le portefeuille en cellule de crise (i.e. Tranche d’âge). En effet, le temps
de compilation pour la loi exacte de Wn est extrêmement élevé.
On procède comme suit.
Les individus du premier portefeuille sont âgés de 65 à 102 ans. On re-
groupe alors les individus âgés de 65 à 69 ans, de 70 à 74 ans, de 75 à 79
ans, de 80 à 84 ans et finalement de 85 à 102 ans.
On ne présentera pas les résultats pour tous. On choisit plutôt deux
cellules dont les probabilités de décès ont des caractéristiques opposées. Ainsi
on prend les plus jeunes 65-69 ans et les plus âgés 85-102 ans.
65-69 ans :
Le portefeuille pour cette tranche d’âge contient 7489 individus. Ils ont
une probabilité de décès moyenne de 0.009 et n
i=1 pi = 66. L’espérance de
Wn vaut n
i=1 Hipi = 257 815.
18
21. On effectue le calcul exacte de la loi par la méthode DFT-CF. La durée
d’exécution est de 7 heures.
On présente la qualité des approximations avec les mêmes indicateurs vu
dans les sections précédentes.
Figure 16 – Qualité de l’approximation de Wn par une loi de poisson pour
les 65-69 ans
Figure 17 – Qualité de l’approximation de Wn par une loi de normale pour
les 65-69 ans
19
22. Figure 18 – Qualité de l’approximation de Wn par la méthode RNA pour
les 65-69 ans
Resumé
Norme Méthode Valeur
L1
PA 40973
NA 3433
RNA 370
L∞
PA 0.5
NA 0.03
RNA 0.0031
Figure 19 – Tableau résumant la performance des approximations pour
Wn ; 65-69 ans
On constate que l’approximation par une loi de Poisson n’est pas très
viable. En effet, avec une norme infinie de 0.5 on ne peut pas faire confiance
à cette approximation.
L’approximation par une loi normale est meilleure sans pour autant très
précise. De nouveau la méthode RNA a la meilleure performance.
Regardons maintenant si ces conclusions restent valable pour les 85-102
ans.
85-102 ans : Le portefeuille contient 2021 individus. ils ont une proba-
bilité de décès moyenne de 0.1 et n
i=1 pi = 204. L’espérance de Wn vaut
n
i=1 Hipi = 252 818.
20
23. Figure 20 – Qualité de l’approximation de Wn par une loi de poisson pour
les 85-102 ans
Figure 21 – Qualité de l’approximation de Wn par une loi de normale pour
les 85-102 ans
21
24. Figure 22 – Qualité de l’approximation de Wn par la méthode RNA pour
les 85-102 ans
Resumé
Norme Méthode Valeur
L1
PA 34300
NA 6561
RNA 1545
L∞
PA 0.55
NA 0.067
RNA 0.022
Figure 23 – Tableau résumant la performance des approximations pour
Wn ; 85-102 ans
Comme dans le cas précèdent l’approximation par une loi de Poisson est
la moins performante. L’approximation normale et RNA sont un peu moins
performantes, peut-être à cause de la taille modeste du portefeuille.
Enfin on constate pour les deux cas des valeurs élevé pour la norme L1.
Globalement les approximations ne sont pas aussi performantes que dans le
cas des sommes non pondérée.
On remarque comme dans le cas des sommes non pondérée une simili-
tude entre les graphes (de façon moins précise). Une superposition sur les
quantiles montrent la même concordance. Cette propriété a plus d’Intérêt
ici car les approximations se trompent plus souvent et de façon plus ample.
Une correction post-approximation serait donc très utile.
22
25. 5.3 Qualité de l’approximation en fonction de l’espérance
5.3.1 Introduction
On étudie dans cette partie la qualité de ces trois approximations NA,
RNA et PA. Autrement dit, on étudie les comportement de ces dernières en
fonction de l’espérance,surtout pour les espérances petites. D’après les par-
ties précédentes, en général, l’approximation RNA est la plus performante.
Cependant, pour les espérances petites, ce n’est pas toujours le cas, car le
Théorème Central Limite a partir duquel on a l’approximation NA et RNA
n’est plus efficace.
Dans cette partie, pour mieux étudier les comportements de ces trois
approximations pour différents portefeuilles, on crée un algorithme en R qui
trace les courbes d’erreurs |DFT-NA|, |DFT-RNA| et |DFT-PA|, et renvoie
un tableau qui contient les valeurs d’erreurs de ces trois approximations.
5.3.2 Étude en R-studio
Création de l’application fct_qualite qui :
i) a pour arguments PP un tableau (une suite) de probabilités, pre la precision
et nb le nombre de replicats
ii) renvoie un tableau note erreur de taille 4*pre tel que :
Pour tout k = 1,2,...,pre, erreur[1,k] = la moyenne d’erreurs |DFT(ech)-NA(ech)|
de sous-échantillons ech tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre.
Pour tout k = 1,2,...,pre, erreur[2,k] = la moyenne d’erreurs |DFT(ech)-RNA(ech)|
de sous-échantillons ech tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre.
Pour tout k = 1,2,...,pre, erreur[3,k] = la moyenne d’erreurs |DFT(ech)-PA(ech)|
de sous-échantillons ech tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre.
Pour tout k = 1,2,...,pre, erreur[4,k] = le nombre de sous-echantillons ech
tels que (k-1)*sum(PP)/pre <= sum(ech) < k*sum(PP)/pre.
iii) trace les points de erreur[1,], erreur[2,] et erreur[3,].
L’idée est, a l’aide de cette fonction et en augmentant la precision, d’obtenir
des courbes approchées d’erreurs en fonction d’espérance.
23
26. Graphiques et remarques : On applique la fonction pour différents por-
tefeuilles.
On crée une fonction fct_qualite_approchee qui trace des courbes d’er-
reurs en fonction de l’espérance.
On pose T=3000,pre=400 et nb=2000(ou plus grand):
PP = sample(DC1$qx,3000)
fct_qualite_approchee(PP,2000,400)
et obtient la figure ci-dessous :
Figure 24 – Qualité des approximation en fonction de l’espérance, 5
Pour le portefeuille PTF_RENTIER,on pose:
PP_1<- sample(PTF$qx,3000)
fct_qualite_approchee(PP_1,1000,400)
et obtient la figure ci-dessous :
24
27. Figure 25 – Qualité des approximation en fonction de l’espérance, 6
Cette idée ne sert qu’a avoir des courbes approchées d’erreurs en fonction
de l’espérance. Mais il semble qu’elle n’est pas bien performante surtout pour
l’approximation PA.
25
28. 6 Conclusion
On a vu que le calcul exact de la loi de Poisson binomiale par l’algorithme
DFT-CF est chose aisée. Cela dit, une limite à l’utilisation de cette méthode
est le temps de compilation qui augmente de façon exponentielle et l’exigence
de disposer de toutes les caractéristiques de l’échantillon.
On dispose de méthodes d’approximation qui ne requièrent que la connais-
sance d’indicateurs qualitatifs de l’échantillon.
Notre application sur des portefeuilles d’assurance vie révèle que la mé-
thode RNA est la plus performante dans tous les cas. L’approximation nor-
male et l’approximation par une loi de Poisson se talonnent.
On a également vu qu’on pouvait étendre ces méthodes aux sommes
pondérées, mais avec une performance modérée.
Enfin, on a constaté dans cette étude un caractère prédictible sur le com-
portement des approximations. Cette remarque une fois confirmée, consti-
tuerait alors un champ d’amélioration pour ces méthodes.
26
29. Références
[1] R.E. Barlow and K.D. Heidtmann. Computing k-out-of-n system relia-
bility. Reliability, IEEE Transactions on, R-33(4) :322–323, Oct 1984.
[2] Xiang-Hui Chen, Arthur P Dempster, and Jun S Liu. Weighted finite
population sampling to maximize entropy. Biometrika, 81(3) :457–469,
1994.
[3] Paul Deheuvels, Madan L Puri, and Stefan S Ralescu. Asymptotic expan-
sions for sums of nonidentically distributed bernoulli random variables.
Journal of Multivariate Analysis, 28(2) :282–303, 1989.
[4] Joseph L Hodges and Lucien Le Cam. The poisson approximation to the
poisson binomial distribution. The Annals of Mathematical Statistics,
pages 737–740, 1960.
[5] Wassily Hoeffding. On the distribution of the number of successes in
independent trials. The Annals of Mathematical Statistics, pages 713–
721, 1956.
[6] Yili Hong. On computing the distribution function for the poisson bino-
mial distribution. Computational Statistics & Data Analysis, 59 :41–51,
2013.
[7] Lucien Le Cam et al. An approximation theorem for the poisson binomial
distribution. Pacific J. Math, 10(4) :1181–1197, 1960.
[8] R Core Team. R : A Language and Environment for Statistical Compu-
ting. R Foundation for Statistical Computing, Vienna, Austria, 2013.
27
30. Table des figures
1 Histogramme des pi pour le premier portefeuille . . . . . . . . 10
2 Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 1 . . . . . . . . . . . . . . . 11
3 Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 1 . . . . . . . . . . . . . . . . 12
4 Graphique représentant la qualité de l’approximation RNA
pour le portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . 12
5 Tableau résumant la performance des approximations pour le
portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6 Histogramme des pi pour le deuxième portefeuille . . . . . . . 13
7 Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 2 . . . . . . . . . . . . . . . 14
8 Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 2 . . . . . . . . . . . . . . . . 14
9 Graphique représentant la qualité de l’approximation RNA
pour le portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . 15
10 Tableau résumant la performance des approximations pour le
portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
11 Histogramme des pi pour le troisième portefeuille . . . . . . . 16
12 Graphique représentant la qualité de l’approximation par une
loi de Poisson pour le portefeuille 3 . . . . . . . . . . . . . . . 16
13 Graphique représentant la qualité de l’approximation par une
loi normale pour le portefeuille 3 . . . . . . . . . . . . . . . . 17
14 Graphique représentant la qualité de l’approximation RNA
pour le portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . 17
15 Tableau résumant la performance des approximations pour le
portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
16 Qualité de l’approximation de Wn par une loi de poisson pour
les 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
17 Qualité de l’approximation de Wn par une loi de normale pour
les 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
18 Qualité de l’approximation de Wn par la méthode RNA pour
les 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
19 Tableau résumant la performance des approximations pour
Wn ; 65-69 ans . . . . . . . . . . . . . . . . . . . . . . . . . . 20
20 Qualité de l’approximation de Wn par une loi de poisson pour
les 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
21 Qualité de l’approximation de Wn par une loi de normale pour
les 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
22 Qualité de l’approximation de Wn par la méthode RNA pour
les 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
28
31. 23 Tableau résumant la performance des approximations pour
Wn ; 85-102 ans . . . . . . . . . . . . . . . . . . . . . . . . . . 22
24 Qualité des approximation en fonction de l’espérance, 5 . . . 24
25 Qualité des approximation en fonction de l’espérance, 6 . . . 25
26 Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 1 . . . . . . . . . . . . . . . 30
27 Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 2 . . . . . . . . . . . . . . . 30
28 Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 3 . . . . . . . . . . . . . . . 30
29 Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . 31
30 Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . 31
31 Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . 31
32 Qualité de l’approximation RNA en fonction des quantiles
pour le portefeuille 1 . . . . . . . . . . . . . . . . . . . . . . . 32
33 Qualité de l’approximation RNA en fonction des quantiles
pour le portefeuille 2 . . . . . . . . . . . . . . . . . . . . . . . 32
34 Qualité de l’approximation RNA en fonction des quantiles
pour le portefeuille 3 . . . . . . . . . . . . . . . . . . . . . . . 32
29
32. Figure 26 – Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 1
Figure 27 – Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 2
Figure 28 – Qualité de l’approximation par une loi de Poisson en fonction
des quantiles pour le portefeuille 3
30
33. Figure 29 – Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 1
Figure 30 – Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 2
Figure 31 – Qualité de l’approximation normale en fonction des quantiles
pour le portefeuille 3
31
34. Figure 32 – Qualité de l’approximation RNA en fonction des quantiles pour
le portefeuille 1
Figure 33 – Qualité de l’approximation RNA en fonction des quantiles pour
le portefeuille 2
Figure 34 – Qualité de l’approximation RNA en fonction des quantiles pour
le portefeuille 3
32