1. Section 4.4 : Estimation de la fréquence fondamentale 71
3 5
CMNDF log10(CMNDF)
MHNDF log10(MHNDF)
4
2.5
3
2
2
1.5 1
0
1
−1
0.5
−2
0 −3
0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200
Délai en échantillons Périodes en échantillons
(a) Distances sur une échelle linéaire (b) Distances sur une échelle logarithmique
Figure 4.12 — Comparaison entre la distance CMNDF et la nouvelle distance MHNDF sur
un signal de parole réel
4.4.2 Description des modifications proposées
Définition de la distance
Pour lever l’ambiguïté du choix de la période fondamentale qui existait lors de l’utilisa-
tion de la distance dCMNDF (plus précisément le choix entre T0 et les sous-harmoniques mT0 ),
la distance d1 , pour un délai τ donné, ne sera plus uniquement comparée à sa moyenne sur
des délais plus courts mais sera aussi pondérée par le minimum de la distance d1 au voisi-
nage de τ , périodes qui correspondent aux harmoniques de τ . Ceci permet d’augmenter le
l
contraste entre la fonction évaluée en T0 et en lT0 et ainsi d’éviter des divisions par l de f0 .
Formellement, cette nouvelle distance notée dMHNDF (n, τ )5 est définie par
d1 (t, τ )
dMHNDF (t, τ ) = 1−α . (4.11)
1 τ α
τ k=1 d1 (t, k) minl minu∈[β τ ; 1 τ ] d1 (t, u)
l β l
Le facteur α est un facteur de pondération qui permet de satisfaire un compromis entre la
comparaison par rapport à la moyenne et la comparaison par rapport aux harmoniques : la
distance CMNDF est obtenue avec α = 1. Nous avons choisi une valeur de 0.7 pour α : une
valeur de α trop faible fournit uniquement une mesure de discrimination entre harmoniques.
En pratique, le signal de parole n’est pas strictement périodique et les minima ne sont donc
pas forcément situés en des multiples de la période fondamentale : le facteur β dont la valeur
est proche de 1 (en pratique β = 0.95) permet d’en tenir compte. Comme illustré sur la
Figure 4.12 obtenue sur un signal de parole échantillonné à 8kHz, cette nouvelle distance
pénalise les périodes multiples de la période fondamentale. En pratique, pour des signaux
de parole dont la durée de stationnarité n’est pas très élevée (de l’ordre de 20ms), il y a
rarement ambiguïté entre la période fondamentale T0 et des multiples lT0 d’ordre l ≥ 4. La
minimisation introduite dans le calcul de la distance MHNDF n’est donc réalisée que pour
des ordres l égaux à 2 ou 3.
5
Mean and Harmonic Normalized Difference Function
2. 72 CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF
Contrainte de continuité
La méthode du YIN se veut indépendante du domaine d’application et n’introduit donc
pas de contrainte de continuité sur la courbe de fréquence fondamentale spécifique aux si-
gnaux de parole. Afin d’améliorer les performances de l’estimation de la fréquence fonda-
mentale, des contraintes de continuité sur la fréquence fondamentale sont ajoutées par le
biais d’un algorithme de programmation dynamique. Nous supposerons que, pour la parole,
la variation relative de la fréquence fondamentale définie par
f1 − f2
c(f1 , f2 ) =
0.5(f1 + f2 )
ne peut dépasser 15% toutes les 20ms. Cette hypothèse correspond à un doublement ou une
division par 2 (plus exactement 1.155 ≈ 2) toutes les 100ms. Pour de plus amples détails, les
études [XS00, OE73] décrivent précisément les mesures utilisées pour quantifier les varia-
tions de fréquence fondamentale et donne les résultats sur différentes langues et locuteurs. En
définitive, des variations relatives inférieures à 15% ne sont pas pénalisées, tandis qu’un coût
Cr (c(f1 , f2 )) non nul (défini sur la Figure 4.13) est attribué pour des variations supérieures
à 15% :
0 si c(f1 , f2 ) < 0.15
Cr (c(f1 , f2 )) = 10(c(f1 , f2 ) − 0.15) si c(f1 , f2 ) ∈ [0.15, 0.25] .
1 si c(f1 , f2 ) > 0.25
Ainsi, on définit un coût de continuité Ccontinuite entre deux trames n − 1 et n distantes de
20ms :
fs fs
Ccontinuite (T0 (n), T0 (n − 1)) = Cr ◦ c , .
T0 (n − 1) T0 (n)
La période fondamentale T0 doit aussi correspondre autant que possible à des valeurs peu
élevées de la distance MHNDF ; ce qui conduit à l’utilisation d’un coût cible Ccible :
Ccible (tn , T0 ) = max log10 dMHNDF (tn , T0 ) , −2 .
L’utilisation de la distance MHNDF sur l’échelle logarithmique permet de donner davantage
de poids aux trames quasi périodiques tandis que la saturation à −2 permet de ne pas accorder
une confiance totale à une composante sinusoïdale de très faible amplitude située sur une
zone de silence et qui peut tout simplement correspondre à un artefact.
L’estimation de la fréquence fondamentale est ainsi réalisée en minimisant à l’aide d’un
algorithme de Viterbi le coût global suivant :
N N
C= kn Ccible (tn , T0 ) + γ Ccontinuite (T0 (n), T0 (n − 1)) ,
n=0 n=1
où γ est un facteur de pondération entre le coût cible et le coût de continuité. Il faut noter
la présence d’un facteur de pondération kn appliqué sur le coût cible. Des expériences ont
révélé que prendre ∀n : kn = 1 pouvait introduire des erreurs d’estimation. En effet, le coût
cible étant normalisé par rapport à l’amplitude du signal de parole, la même importance au
3. Section 4.4 : Estimation de la fréquence fondamentale 73
1
Cout de concatenation 0.8
0.6
0.4
0.2
0
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
Variation relative de f0
Figure 4.13 — Fonction de coût en fonction de la variation relative de la fréquence fonda-
mentale
niveau du coût global sera accordée à une trame de parole et à une composante sinusoïdale
de très faible amplitude présente sur une zone de silence qui peut tout simplement être le
résultat d’un artefact. Le facteur kn permet donc de privilégier les trames d’énergie élevée
par rapport aux trames environnantes. Formellement, il est défini par :
“ ”
Einst (tn )
10.0 log10 /3.0
kn = λ Emean (tn )
(4.12)
où Einst (tn ) correspond à l’énergie de la trame calculée en prenant une fenêtre de 25ms
et Emean (tn ) à l’énergie moyenne du signal autour de cette trame calculée en utilisant une
fenêtre de largeur 500ms. Une trame deux fois plus énergétique (gain de 3 dB) est donc λ
fois plus importante au niveau du coût cible.
4.4.3 Résultats
Calcul des périodes fondamentales de référence
Les tests sont effectués sur la base Arctic (plus précisément sur la voix masculine de
la base cmu_us_bdl_artic) qui fournit les signaux de parole et les signaux DEGG. Pour un
signal de parole donné, les instants de fermeture tc (n) peuvent être extraits à partir du si-
gnal DEGG par la méthode décrite dans la section 2.3. A chaque instant de fermeture tc (n)
g
peuvent être définies une période à gauche par T0 (n) = tc (n) − tc (n − 1) et une période à
d
droite par T0 (n) = tc (n + 1) − tc (n). Cependant, comme illustré sur la Figure 4.14, certaines
zones du signal de parole peuvent présenter des instants de fermeture espacés irrégulière-
ment, cette situation arrive le plus souvent sur des voix d’homme ou pour une qualité de voix
g d
creaky. Dans ce cas, les périodes fondamentales T0 et T0 ne sont plus reliées à la période
4. 74 CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF
6000
5000
4000
3000
2000
1000
0
−1000
−2000
1.5 1.52 1.54 1.56 1.58 1.6 1.62
4
x 10
(a) Signal DEGG
3000
2000
1000
0
−1000
−2000
−3000
−4000
1.5 1.52 1.54 1.56 1.58 1.6 1.62
4
x 10
(b) Signal de parole
Figure 4.14 — Segment de parole où les instants de fermeture sont irrégulièrement espacés
fondamentale perçue. Pour obtenir une période fondamentale qui a un sens sur ces zones
irrégulières et qui ne soit pas éloignée de la période fondamentale réelle pour des signaux
quasi-périodiques, nous allons définir une période fondamentale moyenne de référence par
r tc (n + 2) − tc (n − 2)
T0 (n) = . (4.13)
4
De manière formelle, les zones irrégulièrement voisées incluent tous les instants de fermeture
g d r
dont une des trois périodes fondamentales T0 , T0 et T0 est trop différente des deux autres. Le
critère exact correspond à un seuil à 20% sur la variation relative de fréquence fondamentale.
Il faut toutefois noter que des intervalles peuvent être considérés comme irrégulièrement
voisés à la suite d’une mauvaise détection d’un instant de fermeture sur le signal DEGG.
Ce cas est illustré sur la Figure 4.15 où les deux instants de fermeture précédant et suivant
l’instant de fermeture non détecté seront ainsi considérés à tort comme étant irrégulièrement
espacés.
Validation de l’hypothèse de continuité
A partir des périodes fondamentales de référence, il est possible de vérifier l’hypothèse
de continuité réalisée sur la fréquence fondamentale. Sur les 400 premières phrases de la
base cmu_us_bdl_arctic, l’hypothèse stipulant que le pitch ne peut doubler ou être divisé par
deux en moins de 100ms n’est mis en défaut que dans 0.03% des cas, i.e. :
card{t ∈ F tel que f0 (t) > 2f0 (t + 100ms) ou f0 (t) < 0.5f0 (t + 100ms)}
= 0.03%
card F
5. Section 4.4 : Estimation de la fréquence fondamentale 75
5000
4000
Instant de fermeture
non détecté
3000
2000
1000
0
−1000
−2000
−3000
5000 5050 5100 5150 5200 5250 5300 5350 5400
(a) Signal DEGG
6000
4000
2000
0
−2000
−4000
−6000
5000 5050 5100 5150 5200 5250 5300 5350 5400
(b) Signal de parole
Figure 4.15 — Segment de parole présentant un instant de fermeture non détecté par la
méthode proposée
où f0 est la fréquence fondamentale de référence et F est l’ensemble des instants considé-
rés. Pour ces quelques cas où l’hypothèse est contredite, le facteur de multiplication ou de
division du pitch de référence est cependant proche de 2, d’où une faible pénalisation par le
coût de continuité de la courbe de fréquence fondamentale réelle. Autrement dit, la fonction
de coût de continuité ne pénalise quasiment jamais les courbes de fréquence fondamentale
réelles, mais a pour objet de pénaliser des valeurs erratiques de f0 .
Performances de l’estimation
La méthode proposée a été comparée à la méthode du YIN (l’implémentation est celle
des auteurs du YIN). Nous avons repris la même mesure de qualité que celle exposée dans
ˆ
la méthode du YIN [dCK02] à savoir le taux d’erreur grossière : une estimée f0 est consi-
ˆ
dérée comme une erreur grossière si la déviation relative de f0 par rapport à la fréquence
fondamentale de référence f0 est d’au moins 20%. Deux types de tests ont été réalisés sui-
vant que les instants de fermeture sur les zones irrégulières ont été inclus ou non dans les
résultats. Le Tableau 4.1 montre que l’utilisation d’une mesure plus discriminante couplée à
des contraintes de continuité permet de réduire significativement le taux d’erreur grossière.
Notre méthode conduit globalement à une division par deux du taux d’erreur grossière. Ce
taux est même divisé par trois si l’on considère uniquement les portions de signal où les GCI
sont régulièrement espacés.
La méthode proposée ne commet des erreurs d’octave que très rarement. Ces erreurs
d’octave peuvent encore subsister sur des segments de parole dont le voisement est plutôt
6. 76 CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF
Algorithme TEG-1 TEG-2
YIN 3.19 1.78
Méthode proposée 1.52 0.59
Tableau 4.1 — Taux d’erreur grossière (TEG) de l’algorithme proposé et de la méthode du
YIN pour les deux configurations : en incluant tous les GCI dans les résultats (TEG-1) et en
excluant les GCI irrégulièrement espacés (TEG-2).
irrégulier et qui sont entourés de segments non voisés (Figure 4.16). Sur de tels segments,
il n’existe pas de zone fiable permettant, grâce à la contrainte de continuité, d’améliorer
l’estimation sur le segment voisé.
1.85 1.9 1.95 2 2.05
Temps en secondes
Figure 4.16 — Exemple de signal de parole où la fréquence fondamentale f0 estimée par
la méthode proposée correspond à une division par 2 de la fréquence fondamentale réelle.
Signal extrait de la phrase arctic_a0024.
4.5 Localisation des instants de fermeture
La détection des instants de fermeture est nécessaire non seulement dans le cadre présent
d’inversion du signal de parole afin d’obtenir l’onde de débit glottique mais aussi dans le
cadre de la synthèse de la parole basée sur des concaténations d’unités acoustiques effectuées
par la méthode TD-PSOLA6 [ML95]. Cette méthode nécessite un marquage pitch-synchrone
du signal de parole. De plus, les marques apposées doivent se situer au voisinage de l’ins-
tant de fermeture de glotte. En effet, ce faisant, l’opération d’addition-recouvrement (OLA)
garantit une reproduction fidèle du signal de parole au voisinage de l’instant de fermeture de
glotte, zone particulièrement énergétique et donc très importante sur le plan de la perception.
La méthode PSOLA étant très utilisée, le problème d’estimation des GCI a suscité un certain
intérêt. Différentes méthodes d’estimation ont ainsi été mises au point, toutes reposant sur
le fait que l’instant de fermeture correspond en général à l’instant d’excitation principal du
cycle glottique :
6
Time Domain Pitch Synchronous OverLap Add