SlideShare uma empresa Scribd logo
1 de 6
Baixar para ler offline
Section 4.4 : Estimation de la fréquence fondamentale                                                                                                                                71


        3                                                                                      5
                                                                         CMNDF                                                                               log10(CMNDF)
                                                                         MHNDF                                                                               log10(MHNDF)

                                                                                               4
       2.5

                                                                                               3


        2
                                                                                               2



       1.5                                                                                     1



                                                                                               0
        1

                                                                                              −1

       0.5
                                                                                              −2



        0                                                                                     −3
             0     20   40   60   80       100        120   140   160   180      200               0   20   40   60    80       100       120    140   160       180        200
                                   Délai en échantillons                                                              Périodes en échantillons



       (a) Distances sur une échelle linéaire                                              (b) Distances sur une échelle logarithmique


                 Figure 4.12 — Comparaison entre la distance CMNDF et la nouvelle distance MHNDF sur
                                                un signal de parole réel


4.4.2 Description des modifications proposées
Définition de la distance

    Pour lever l’ambiguïté du choix de la période fondamentale qui existait lors de l’utilisa-
tion de la distance dCMNDF (plus précisément le choix entre T0 et les sous-harmoniques mT0 ),
la distance d1 , pour un délai τ donné, ne sera plus uniquement comparée à sa moyenne sur
des délais plus courts mais sera aussi pondérée par le minimum de la distance d1 au voisi-
nage de τ , périodes qui correspondent aux harmoniques de τ . Ceci permet d’augmenter le
          l
contraste entre la fonction évaluée en T0 et en lT0 et ainsi d’éviter des divisions par l de f0 .
Formellement, cette nouvelle distance notée dMHNDF (n, τ )5 est définie par

                                                                                            d1 (t, τ )
                 dMHNDF (t, τ ) =                                                                                                                1−α           .                  (4.11)
                                                 1          τ                          α
                                                 τ          k=1   d1 (t, k)                minl minu∈[β τ ; 1 τ ] d1 (t, u)
                                                                                                                 l β l



Le facteur α est un facteur de pondération qui permet de satisfaire un compromis entre la
comparaison par rapport à la moyenne et la comparaison par rapport aux harmoniques : la
distance CMNDF est obtenue avec α = 1. Nous avons choisi une valeur de 0.7 pour α : une
valeur de α trop faible fournit uniquement une mesure de discrimination entre harmoniques.
En pratique, le signal de parole n’est pas strictement périodique et les minima ne sont donc
pas forcément situés en des multiples de la période fondamentale : le facteur β dont la valeur
est proche de 1 (en pratique β = 0.95) permet d’en tenir compte. Comme illustré sur la
Figure 4.12 obtenue sur un signal de parole échantillonné à 8kHz, cette nouvelle distance
pénalise les périodes multiples de la période fondamentale. En pratique, pour des signaux
de parole dont la durée de stationnarité n’est pas très élevée (de l’ordre de 20ms), il y a
rarement ambiguïté entre la période fondamentale T0 et des multiples lT0 d’ordre l ≥ 4. La
minimisation introduite dans le calcul de la distance MHNDF n’est donc réalisée que pour
des ordres l égaux à 2 ou 3.
   5
       Mean and Harmonic Normalized Difference Function
72                                     CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF


Contrainte de continuité

    La méthode du YIN se veut indépendante du domaine d’application et n’introduit donc
pas de contrainte de continuité sur la courbe de fréquence fondamentale spécifique aux si-
gnaux de parole. Afin d’améliorer les performances de l’estimation de la fréquence fonda-
mentale, des contraintes de continuité sur la fréquence fondamentale sont ajoutées par le
biais d’un algorithme de programmation dynamique. Nous supposerons que, pour la parole,
la variation relative de la fréquence fondamentale définie par
                                                         f1 − f2
                                      c(f1 , f2 ) =
                                                       0.5(f1 + f2 )

ne peut dépasser 15% toutes les 20ms. Cette hypothèse correspond à un doublement ou une
division par 2 (plus exactement 1.155 ≈ 2) toutes les 100ms. Pour de plus amples détails, les
études [XS00, OE73] décrivent précisément les mesures utilisées pour quantifier les varia-
tions de fréquence fondamentale et donne les résultats sur différentes langues et locuteurs. En
définitive, des variations relatives inférieures à 15% ne sont pas pénalisées, tandis qu’un coût
Cr (c(f1 , f2 )) non nul (défini sur la Figure 4.13) est attribué pour des variations supérieures
à 15% :
                               
                                0                      si c(f1 , f2 ) < 0.15
            Cr (c(f1 , f2 )) =   10(c(f1 , f2 ) − 0.15) si c(f1 , f2 ) ∈ [0.15, 0.25] .
                               
                                 1                      si c(f1 , f2 ) > 0.25

Ainsi, on définit un coût de continuité Ccontinuite entre deux trames n − 1 et n distantes de
20ms :
                                                            fs      fs
              Ccontinuite (T0 (n), T0 (n − 1)) = Cr ◦ c           ,         .
                                                        T0 (n − 1) T0 (n)

    La période fondamentale T0 doit aussi correspondre autant que possible à des valeurs peu
élevées de la distance MHNDF ; ce qui conduit à l’utilisation d’un coût cible Ccible :

                   Ccible (tn , T0 ) = max log10 dMHNDF (tn , T0 ) , −2                 .

L’utilisation de la distance MHNDF sur l’échelle logarithmique permet de donner davantage
de poids aux trames quasi périodiques tandis que la saturation à −2 permet de ne pas accorder
une confiance totale à une composante sinusoïdale de très faible amplitude située sur une
zone de silence et qui peut tout simplement correspondre à un artefact.
   L’estimation de la fréquence fondamentale est ainsi réalisée en minimisant à l’aide d’un
algorithme de Viterbi le coût global suivant :
                     N                               N
              C=          kn Ccible (tn , T0 ) + γ         Ccontinuite (T0 (n), T0 (n − 1))   ,
                    n=0                              n=1

où γ est un facteur de pondération entre le coût cible et le coût de continuité. Il faut noter
la présence d’un facteur de pondération kn appliqué sur le coût cible. Des expériences ont
révélé que prendre ∀n : kn = 1 pouvait introduire des erreurs d’estimation. En effet, le coût
cible étant normalisé par rapport à l’amplitude du signal de parole, la même importance au
Section 4.4 : Estimation de la fréquence fondamentale                                                                        73



                                       1




              Cout de concatenation   0.8




                                      0.6




                                      0.4




                                      0.2




                                       0


                                            0   0.05   0.1   0.15          0.2          0.25           0.3   0.35   0.4
                                                                 Variation relative de f0




       Figure 4.13 — Fonction de coût en fonction de la variation relative de la fréquence fonda-
                                              mentale


niveau du coût global sera accordée à une trame de parole et à une composante sinusoïdale
de très faible amplitude présente sur une zone de silence qui peut tout simplement être le
résultat d’un artefact. Le facteur kn permet donc de privilégier les trames d’énergie élevée
par rapport aux trames environnantes. Formellement, il est défini par :
                                                                             “                 ”
                                                                                 Einst (tn )
                                                                10.0 log10                      /3.0
                                                       kn = λ                    Emean (tn )
                                                                                                                          (4.12)

où Einst (tn ) correspond à l’énergie de la trame calculée en prenant une fenêtre de 25ms
et Emean (tn ) à l’énergie moyenne du signal autour de cette trame calculée en utilisant une
fenêtre de largeur 500ms. Une trame deux fois plus énergétique (gain de 3 dB) est donc λ
fois plus importante au niveau du coût cible.


4.4.3 Résultats
Calcul des périodes fondamentales de référence

    Les tests sont effectués sur la base Arctic (plus précisément sur la voix masculine de
la base cmu_us_bdl_artic) qui fournit les signaux de parole et les signaux DEGG. Pour un
signal de parole donné, les instants de fermeture tc (n) peuvent être extraits à partir du si-
gnal DEGG par la méthode décrite dans la section 2.3. A chaque instant de fermeture tc (n)
                                                    g
peuvent être définies une période à gauche par T0 (n) = tc (n) − tc (n − 1) et une période à
            d
droite par T0 (n) = tc (n + 1) − tc (n). Cependant, comme illustré sur la Figure 4.14, certaines
zones du signal de parole peuvent présenter des instants de fermeture espacés irrégulière-
ment, cette situation arrive le plus souvent sur des voix d’homme ou pour une qualité de voix
                                                      g      d
creaky. Dans ce cas, les périodes fondamentales T0 et T0 ne sont plus reliées à la période
74                                      CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF


               6000



               5000



               4000



               3000



               2000



               1000



                  0



              −1000



              −2000
                  1.5       1.52        1.54         1.56      1.58      1.6      1.62
                                                                                            4
                                                                                         x 10




                                              (a) Signal DEGG
               3000




               2000




               1000




                  0




              −1000




              −2000




              −3000




              −4000
                  1.5       1.52        1.54         1.56      1.58      1.6      1.62
                                                                                            4
                                                                                         x 10




                                         (b) Signal de parole

        Figure 4.14 — Segment de parole où les instants de fermeture sont irrégulièrement espacés


fondamentale perçue. Pour obtenir une période fondamentale qui a un sens sur ces zones
irrégulières et qui ne soit pas éloignée de la période fondamentale réelle pour des signaux
quasi-périodiques, nous allons définir une période fondamentale moyenne de référence par

                                    r          tc (n + 2) − tc (n − 2)
                                   T0 (n) =                              .                          (4.13)
                                                          4
De manière formelle, les zones irrégulièrement voisées incluent tous les instants de fermeture
                                             g    d     r
dont une des trois périodes fondamentales T0 , T0 et T0 est trop différente des deux autres. Le
critère exact correspond à un seuil à 20% sur la variation relative de fréquence fondamentale.
Il faut toutefois noter que des intervalles peuvent être considérés comme irrégulièrement
voisés à la suite d’une mauvaise détection d’un instant de fermeture sur le signal DEGG.
Ce cas est illustré sur la Figure 4.15 où les deux instants de fermeture précédant et suivant
l’instant de fermeture non détecté seront ainsi considérés à tort comme étant irrégulièrement
espacés.


Validation de l’hypothèse de continuité

   A partir des périodes fondamentales de référence, il est possible de vérifier l’hypothèse
de continuité réalisée sur la fréquence fondamentale. Sur les 400 premières phrases de la
base cmu_us_bdl_arctic, l’hypothèse stipulant que le pitch ne peut doubler ou être divisé par
deux en moins de 100ms n’est mis en défaut que dans 0.03% des cas, i.e. :

     card{t ∈ F tel que f0 (t) > 2f0 (t + 100ms) ou f0 (t) < 0.5f0 (t + 100ms)}
                                                                                = 0.03%
                                        card F
Section 4.4 : Estimation de la fréquence fondamentale                                          75


               5000



               4000
                                           Instant de fermeture
                                           non détecté
               3000



               2000



               1000



                  0



              −1000



              −2000



              −3000
                  5000   5050   5100     5150    5200     5250    5300   5350    5400




                                        (a) Signal DEGG
               6000




               4000




               2000




                  0




              −2000




              −4000




              −6000
                  5000   5050   5100     5150    5200     5250    5300   5350    5400




                                       (b) Signal de parole


       Figure 4.15 — Segment de parole présentant un instant de fermeture non détecté par la
                                       méthode proposée


où f0 est la fréquence fondamentale de référence et F est l’ensemble des instants considé-
rés. Pour ces quelques cas où l’hypothèse est contredite, le facteur de multiplication ou de
division du pitch de référence est cependant proche de 2, d’où une faible pénalisation par le
coût de continuité de la courbe de fréquence fondamentale réelle. Autrement dit, la fonction
de coût de continuité ne pénalise quasiment jamais les courbes de fréquence fondamentale
réelles, mais a pour objet de pénaliser des valeurs erratiques de f0 .


Performances de l’estimation

    La méthode proposée a été comparée à la méthode du YIN (l’implémentation est celle
des auteurs du YIN). Nous avons repris la même mesure de qualité que celle exposée dans
                                                                                 ˆ
la méthode du YIN [dCK02] à savoir le taux d’erreur grossière : une estimée f0 est consi-
                                                                ˆ
dérée comme une erreur grossière si la déviation relative de f0 par rapport à la fréquence
fondamentale de référence f0 est d’au moins 20%. Deux types de tests ont été réalisés sui-
vant que les instants de fermeture sur les zones irrégulières ont été inclus ou non dans les
résultats. Le Tableau 4.1 montre que l’utilisation d’une mesure plus discriminante couplée à
des contraintes de continuité permet de réduire significativement le taux d’erreur grossière.
Notre méthode conduit globalement à une division par deux du taux d’erreur grossière. Ce
taux est même divisé par trois si l’on considère uniquement les portions de signal où les GCI
sont régulièrement espacés.
   La méthode proposée ne commet des erreurs d’octave que très rarement. Ces erreurs
d’octave peuvent encore subsister sur des segments de parole dont le voisement est plutôt
76                                          CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF


                                   Algorithme                  TEG-1       TEG-2
                                   YIN                          3.19        1.78
                                   Méthode proposée             1.52        0.59


            Tableau 4.1 — Taux d’erreur grossière (TEG) de l’algorithme proposé et de la méthode du
            YIN pour les deux configurations : en incluant tous les GCI dans les résultats (TEG-1) et en
                               excluant les GCI irrégulièrement espacés (TEG-2).


irrégulier et qui sont entourés de segments non voisés (Figure 4.16). Sur de tels segments,
il n’existe pas de zone fiable permettant, grâce à la contrainte de continuité, d’améliorer
l’estimation sur le segment voisé.




                                         1.85     1.9        1.95      2     2.05
                                                   Temps en secondes




            Figure 4.16 — Exemple de signal de parole où la fréquence fondamentale f0 estimée par
            la méthode proposée correspond à une division par 2 de la fréquence fondamentale réelle.
                                    Signal extrait de la phrase arctic_a0024.




4.5 Localisation des instants de fermeture
    La détection des instants de fermeture est nécessaire non seulement dans le cadre présent
d’inversion du signal de parole afin d’obtenir l’onde de débit glottique mais aussi dans le
cadre de la synthèse de la parole basée sur des concaténations d’unités acoustiques effectuées
par la méthode TD-PSOLA6 [ML95]. Cette méthode nécessite un marquage pitch-synchrone
du signal de parole. De plus, les marques apposées doivent se situer au voisinage de l’ins-
tant de fermeture de glotte. En effet, ce faisant, l’opération d’addition-recouvrement (OLA)
garantit une reproduction fidèle du signal de parole au voisinage de l’instant de fermeture de
glotte, zone particulièrement énergétique et donc très importante sur le plan de la perception.
La méthode PSOLA étant très utilisée, le problème d’estimation des GCI a suscité un certain
intérêt. Différentes méthodes d’estimation ont ainsi été mises au point, toutes reposant sur
le fait que l’instant de fermeture correspond en général à l’instant d’excitation principal du
cycle glottique :
     6
         Time Domain Pitch Synchronous OverLap Add

Mais conteúdo relacionado

Mais procurados

chap2 outil_mathematiques
chap2 outil_mathematiqueschap2 outil_mathematiques
chap2 outil_mathematiquesBAKKOURY Jamila
 
Calcul de VaR par Monte-Carlo sur GPU
Calcul de VaR par Monte-Carlo sur GPUCalcul de VaR par Monte-Carlo sur GPU
Calcul de VaR par Monte-Carlo sur GPUParaita Wohler
 
Introduction à la transformée en z et convolution discrète (GEII MA32)
Introduction à la transformée en z et convolution discrète (GEII MA32)Introduction à la transformée en z et convolution discrète (GEII MA32)
Introduction à la transformée en z et convolution discrète (GEII MA32)Frédéric Morain-Nicolier
 
CM3 - Transformée de Fourier
CM3 - Transformée de FourierCM3 - Transformée de Fourier
CM3 - Transformée de FourierPierre Maréchal
 
47811458 exercices-systemes-echantillonnes
47811458 exercices-systemes-echantillonnes47811458 exercices-systemes-echantillonnes
47811458 exercices-systemes-echantillonnesTRIKI BILEL
 

Mais procurados (8)

GEII - Ma3 - Suites et séries
GEII - Ma3 - Suites et sériesGEII - Ma3 - Suites et séries
GEII - Ma3 - Suites et séries
 
chap2 outil_mathematiques
chap2 outil_mathematiqueschap2 outil_mathematiques
chap2 outil_mathematiques
 
Calcul de VaR par Monte-Carlo sur GPU
Calcul de VaR par Monte-Carlo sur GPUCalcul de VaR par Monte-Carlo sur GPU
Calcul de VaR par Monte-Carlo sur GPU
 
Introduction à la transformée en z et convolution discrète (GEII MA32)
Introduction à la transformée en z et convolution discrète (GEII MA32)Introduction à la transformée en z et convolution discrète (GEII MA32)
Introduction à la transformée en z et convolution discrète (GEII MA32)
 
4e ds2-2012-2013
4e ds2-2012-20134e ds2-2012-2013
4e ds2-2012-2013
 
CM3 - Transformée de Fourier
CM3 - Transformée de FourierCM3 - Transformée de Fourier
CM3 - Transformée de Fourier
 
02 signal
02 signal02 signal
02 signal
 
47811458 exercices-systemes-echantillonnes
47811458 exercices-systemes-echantillonnes47811458 exercices-systemes-echantillonnes
47811458 exercices-systemes-echantillonnes
 

Destaque

Sentimientos
SentimientosSentimientos
Sentimientosgloria
 
Presentacion contenidos
Presentacion contenidosPresentacion contenidos
Presentacion contenidosDolors Capdet
 
InternetActu.net Bilan 2011
InternetActu.net Bilan 2011InternetActu.net Bilan 2011
InternetActu.net Bilan 2011Fing
 
Expédition ReFaire - Julien Holtzer, Pobot
Expédition ReFaire - Julien Holtzer, PobotExpédition ReFaire - Julien Holtzer, Pobot
Expédition ReFaire - Julien Holtzer, PobotFing
 
Multidimensions Certificates
Multidimensions CertificatesMultidimensions Certificates
Multidimensions CertificatesAskWesley
 
Conference intelligence
Conference intelligenceConference intelligence
Conference intelligenceFing
 
Réseaux sociaux pour les chercheurs
Réseaux sociaux pour les chercheursRéseaux sociaux pour les chercheurs
Réseaux sociaux pour les chercheursDavid BENOIST
 
Jennt sanchez, realidad aumentada
Jennt sanchez, realidad aumentadaJennt sanchez, realidad aumentada
Jennt sanchez, realidad aumentadajenny sanchez
 
Bibliothèque publique & Communauté
Bibliothèque publique & CommunautéBibliothèque publique & Communauté
Bibliothèque publique & CommunautéAntonin Benoît DIOUF
 
Projet Espace OSM Francophone (ProjetEOF) au launch parisien du projet TheMis...
Projet Espace OSM Francophone (ProjetEOF) au launch parisien du projet TheMis...Projet Espace OSM Francophone (ProjetEOF) au launch parisien du projet TheMis...
Projet Espace OSM Francophone (ProjetEOF) au launch parisien du projet TheMis...chavent nicolas
 
La investigación como parte del proceso educativo
La investigación como parte del proceso educativoLa investigación como parte del proceso educativo
La investigación como parte del proceso educativovictor pilco
 
Calculmental2 Slyvie
Calculmental2 SlyvieCalculmental2 Slyvie
Calculmental2 Slyvieguest72e03a
 

Destaque (20)

Sentimientos
SentimientosSentimientos
Sentimientos
 
Presentacion contenidos
Presentacion contenidosPresentacion contenidos
Presentacion contenidos
 
La Basilique de la nativite Palestine UNESCO
La Basilique de la nativite Palestine UNESCOLa Basilique de la nativite Palestine UNESCO
La Basilique de la nativite Palestine UNESCO
 
InternetActu.net Bilan 2011
InternetActu.net Bilan 2011InternetActu.net Bilan 2011
InternetActu.net Bilan 2011
 
Rien
RienRien
Rien
 
Expédition ReFaire - Julien Holtzer, Pobot
Expédition ReFaire - Julien Holtzer, PobotExpédition ReFaire - Julien Holtzer, Pobot
Expédition ReFaire - Julien Holtzer, Pobot
 
Presentación curso pedagogía
Presentación curso pedagogíaPresentación curso pedagogía
Presentación curso pedagogía
 
Multidimensions Certificates
Multidimensions CertificatesMultidimensions Certificates
Multidimensions Certificates
 
Conference intelligence
Conference intelligenceConference intelligence
Conference intelligence
 
Réseaux sociaux pour les chercheurs
Réseaux sociaux pour les chercheursRéseaux sociaux pour les chercheurs
Réseaux sociaux pour les chercheurs
 
Jennt sanchez, realidad aumentada
Jennt sanchez, realidad aumentadaJennt sanchez, realidad aumentada
Jennt sanchez, realidad aumentada
 
Social Media Pour IntellimiquE
Social Media Pour IntellimiquESocial Media Pour IntellimiquE
Social Media Pour IntellimiquE
 
Tesina
TesinaTesina
Tesina
 
No te cases!
No te cases!No te cases!
No te cases!
 
Bibliothèque publique & Communauté
Bibliothèque publique & CommunautéBibliothèque publique & Communauté
Bibliothèque publique & Communauté
 
Finaldefesta
FinaldefestaFinaldefesta
Finaldefesta
 
Power Tesina
Power TesinaPower Tesina
Power Tesina
 
Projet Espace OSM Francophone (ProjetEOF) au launch parisien du projet TheMis...
Projet Espace OSM Francophone (ProjetEOF) au launch parisien du projet TheMis...Projet Espace OSM Francophone (ProjetEOF) au launch parisien du projet TheMis...
Projet Espace OSM Francophone (ProjetEOF) au launch parisien du projet TheMis...
 
La investigación como parte del proceso educativo
La investigación como parte del proceso educativoLa investigación como parte del proceso educativo
La investigación como parte del proceso educativo
 
Calculmental2 Slyvie
Calculmental2 SlyvieCalculmental2 Slyvie
Calculmental2 Slyvie
 

Semelhante a Doc

Projet De ThéOrie Des Circuits
Projet De ThéOrie Des CircuitsProjet De ThéOrie Des Circuits
Projet De ThéOrie Des CircuitsPierreMASURE
 
Projet d'Analyse Numérique
Projet d'Analyse NumériqueProjet d'Analyse Numérique
Projet d'Analyse NumériqueYassineElaroui2
 
cours9_Filtrage numérique.pdf
cours9_Filtrage numérique.pdfcours9_Filtrage numérique.pdf
cours9_Filtrage numérique.pdfdavidZorom
 
Comment retrouver la forme récursive
Comment retrouver la forme récursiveComment retrouver la forme récursive
Comment retrouver la forme récursiveMariem ZAOUALI
 

Semelhante a Doc (8)

Slides 2040-3
Slides 2040-3Slides 2040-3
Slides 2040-3
 
005.pdf texte
005.pdf texte005.pdf texte
005.pdf texte
 
Projet De ThéOrie Des Circuits
Projet De ThéOrie Des CircuitsProjet De ThéOrie Des Circuits
Projet De ThéOrie Des Circuits
 
Projet d'Analyse Numérique
Projet d'Analyse NumériqueProjet d'Analyse Numérique
Projet d'Analyse Numérique
 
cours9_Filtrage numérique.pdf
cours9_Filtrage numérique.pdfcours9_Filtrage numérique.pdf
cours9_Filtrage numérique.pdf
 
Gele2511 ch3
Gele2511 ch3Gele2511 ch3
Gele2511 ch3
 
corr_exos.pdf
corr_exos.pdfcorr_exos.pdf
corr_exos.pdf
 
Comment retrouver la forme récursive
Comment retrouver la forme récursiveComment retrouver la forme récursive
Comment retrouver la forme récursive
 

Doc

  • 1. Section 4.4 : Estimation de la fréquence fondamentale 71 3 5 CMNDF log10(CMNDF) MHNDF log10(MHNDF) 4 2.5 3 2 2 1.5 1 0 1 −1 0.5 −2 0 −3 0 20 40 60 80 100 120 140 160 180 200 0 20 40 60 80 100 120 140 160 180 200 Délai en échantillons Périodes en échantillons (a) Distances sur une échelle linéaire (b) Distances sur une échelle logarithmique Figure 4.12 — Comparaison entre la distance CMNDF et la nouvelle distance MHNDF sur un signal de parole réel 4.4.2 Description des modifications proposées Définition de la distance Pour lever l’ambiguïté du choix de la période fondamentale qui existait lors de l’utilisa- tion de la distance dCMNDF (plus précisément le choix entre T0 et les sous-harmoniques mT0 ), la distance d1 , pour un délai τ donné, ne sera plus uniquement comparée à sa moyenne sur des délais plus courts mais sera aussi pondérée par le minimum de la distance d1 au voisi- nage de τ , périodes qui correspondent aux harmoniques de τ . Ceci permet d’augmenter le l contraste entre la fonction évaluée en T0 et en lT0 et ainsi d’éviter des divisions par l de f0 . Formellement, cette nouvelle distance notée dMHNDF (n, τ )5 est définie par d1 (t, τ ) dMHNDF (t, τ ) = 1−α . (4.11) 1 τ α τ k=1 d1 (t, k) minl minu∈[β τ ; 1 τ ] d1 (t, u) l β l Le facteur α est un facteur de pondération qui permet de satisfaire un compromis entre la comparaison par rapport à la moyenne et la comparaison par rapport aux harmoniques : la distance CMNDF est obtenue avec α = 1. Nous avons choisi une valeur de 0.7 pour α : une valeur de α trop faible fournit uniquement une mesure de discrimination entre harmoniques. En pratique, le signal de parole n’est pas strictement périodique et les minima ne sont donc pas forcément situés en des multiples de la période fondamentale : le facteur β dont la valeur est proche de 1 (en pratique β = 0.95) permet d’en tenir compte. Comme illustré sur la Figure 4.12 obtenue sur un signal de parole échantillonné à 8kHz, cette nouvelle distance pénalise les périodes multiples de la période fondamentale. En pratique, pour des signaux de parole dont la durée de stationnarité n’est pas très élevée (de l’ordre de 20ms), il y a rarement ambiguïté entre la période fondamentale T0 et des multiples lT0 d’ordre l ≥ 4. La minimisation introduite dans le calcul de la distance MHNDF n’est donc réalisée que pour des ordres l égaux à 2 ou 3. 5 Mean and Harmonic Normalized Difference Function
  • 2. 72 CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF Contrainte de continuité La méthode du YIN se veut indépendante du domaine d’application et n’introduit donc pas de contrainte de continuité sur la courbe de fréquence fondamentale spécifique aux si- gnaux de parole. Afin d’améliorer les performances de l’estimation de la fréquence fonda- mentale, des contraintes de continuité sur la fréquence fondamentale sont ajoutées par le biais d’un algorithme de programmation dynamique. Nous supposerons que, pour la parole, la variation relative de la fréquence fondamentale définie par f1 − f2 c(f1 , f2 ) = 0.5(f1 + f2 ) ne peut dépasser 15% toutes les 20ms. Cette hypothèse correspond à un doublement ou une division par 2 (plus exactement 1.155 ≈ 2) toutes les 100ms. Pour de plus amples détails, les études [XS00, OE73] décrivent précisément les mesures utilisées pour quantifier les varia- tions de fréquence fondamentale et donne les résultats sur différentes langues et locuteurs. En définitive, des variations relatives inférieures à 15% ne sont pas pénalisées, tandis qu’un coût Cr (c(f1 , f2 )) non nul (défini sur la Figure 4.13) est attribué pour des variations supérieures à 15% :   0 si c(f1 , f2 ) < 0.15 Cr (c(f1 , f2 )) = 10(c(f1 , f2 ) − 0.15) si c(f1 , f2 ) ∈ [0.15, 0.25] .  1 si c(f1 , f2 ) > 0.25 Ainsi, on définit un coût de continuité Ccontinuite entre deux trames n − 1 et n distantes de 20ms : fs fs Ccontinuite (T0 (n), T0 (n − 1)) = Cr ◦ c , . T0 (n − 1) T0 (n) La période fondamentale T0 doit aussi correspondre autant que possible à des valeurs peu élevées de la distance MHNDF ; ce qui conduit à l’utilisation d’un coût cible Ccible : Ccible (tn , T0 ) = max log10 dMHNDF (tn , T0 ) , −2 . L’utilisation de la distance MHNDF sur l’échelle logarithmique permet de donner davantage de poids aux trames quasi périodiques tandis que la saturation à −2 permet de ne pas accorder une confiance totale à une composante sinusoïdale de très faible amplitude située sur une zone de silence et qui peut tout simplement correspondre à un artefact. L’estimation de la fréquence fondamentale est ainsi réalisée en minimisant à l’aide d’un algorithme de Viterbi le coût global suivant : N N C= kn Ccible (tn , T0 ) + γ Ccontinuite (T0 (n), T0 (n − 1)) , n=0 n=1 où γ est un facteur de pondération entre le coût cible et le coût de continuité. Il faut noter la présence d’un facteur de pondération kn appliqué sur le coût cible. Des expériences ont révélé que prendre ∀n : kn = 1 pouvait introduire des erreurs d’estimation. En effet, le coût cible étant normalisé par rapport à l’amplitude du signal de parole, la même importance au
  • 3. Section 4.4 : Estimation de la fréquence fondamentale 73 1 Cout de concatenation 0.8 0.6 0.4 0.2 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Variation relative de f0 Figure 4.13 — Fonction de coût en fonction de la variation relative de la fréquence fonda- mentale niveau du coût global sera accordée à une trame de parole et à une composante sinusoïdale de très faible amplitude présente sur une zone de silence qui peut tout simplement être le résultat d’un artefact. Le facteur kn permet donc de privilégier les trames d’énergie élevée par rapport aux trames environnantes. Formellement, il est défini par : “ ” Einst (tn ) 10.0 log10 /3.0 kn = λ Emean (tn ) (4.12) où Einst (tn ) correspond à l’énergie de la trame calculée en prenant une fenêtre de 25ms et Emean (tn ) à l’énergie moyenne du signal autour de cette trame calculée en utilisant une fenêtre de largeur 500ms. Une trame deux fois plus énergétique (gain de 3 dB) est donc λ fois plus importante au niveau du coût cible. 4.4.3 Résultats Calcul des périodes fondamentales de référence Les tests sont effectués sur la base Arctic (plus précisément sur la voix masculine de la base cmu_us_bdl_artic) qui fournit les signaux de parole et les signaux DEGG. Pour un signal de parole donné, les instants de fermeture tc (n) peuvent être extraits à partir du si- gnal DEGG par la méthode décrite dans la section 2.3. A chaque instant de fermeture tc (n) g peuvent être définies une période à gauche par T0 (n) = tc (n) − tc (n − 1) et une période à d droite par T0 (n) = tc (n + 1) − tc (n). Cependant, comme illustré sur la Figure 4.14, certaines zones du signal de parole peuvent présenter des instants de fermeture espacés irrégulière- ment, cette situation arrive le plus souvent sur des voix d’homme ou pour une qualité de voix g d creaky. Dans ce cas, les périodes fondamentales T0 et T0 ne sont plus reliées à la période
  • 4. 74 CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF 6000 5000 4000 3000 2000 1000 0 −1000 −2000 1.5 1.52 1.54 1.56 1.58 1.6 1.62 4 x 10 (a) Signal DEGG 3000 2000 1000 0 −1000 −2000 −3000 −4000 1.5 1.52 1.54 1.56 1.58 1.6 1.62 4 x 10 (b) Signal de parole Figure 4.14 — Segment de parole où les instants de fermeture sont irrégulièrement espacés fondamentale perçue. Pour obtenir une période fondamentale qui a un sens sur ces zones irrégulières et qui ne soit pas éloignée de la période fondamentale réelle pour des signaux quasi-périodiques, nous allons définir une période fondamentale moyenne de référence par r tc (n + 2) − tc (n − 2) T0 (n) = . (4.13) 4 De manière formelle, les zones irrégulièrement voisées incluent tous les instants de fermeture g d r dont une des trois périodes fondamentales T0 , T0 et T0 est trop différente des deux autres. Le critère exact correspond à un seuil à 20% sur la variation relative de fréquence fondamentale. Il faut toutefois noter que des intervalles peuvent être considérés comme irrégulièrement voisés à la suite d’une mauvaise détection d’un instant de fermeture sur le signal DEGG. Ce cas est illustré sur la Figure 4.15 où les deux instants de fermeture précédant et suivant l’instant de fermeture non détecté seront ainsi considérés à tort comme étant irrégulièrement espacés. Validation de l’hypothèse de continuité A partir des périodes fondamentales de référence, il est possible de vérifier l’hypothèse de continuité réalisée sur la fréquence fondamentale. Sur les 400 premières phrases de la base cmu_us_bdl_arctic, l’hypothèse stipulant que le pitch ne peut doubler ou être divisé par deux en moins de 100ms n’est mis en défaut que dans 0.03% des cas, i.e. : card{t ∈ F tel que f0 (t) > 2f0 (t + 100ms) ou f0 (t) < 0.5f0 (t + 100ms)} = 0.03% card F
  • 5. Section 4.4 : Estimation de la fréquence fondamentale 75 5000 4000 Instant de fermeture non détecté 3000 2000 1000 0 −1000 −2000 −3000 5000 5050 5100 5150 5200 5250 5300 5350 5400 (a) Signal DEGG 6000 4000 2000 0 −2000 −4000 −6000 5000 5050 5100 5150 5200 5250 5300 5350 5400 (b) Signal de parole Figure 4.15 — Segment de parole présentant un instant de fermeture non détecté par la méthode proposée où f0 est la fréquence fondamentale de référence et F est l’ensemble des instants considé- rés. Pour ces quelques cas où l’hypothèse est contredite, le facteur de multiplication ou de division du pitch de référence est cependant proche de 2, d’où une faible pénalisation par le coût de continuité de la courbe de fréquence fondamentale réelle. Autrement dit, la fonction de coût de continuité ne pénalise quasiment jamais les courbes de fréquence fondamentale réelles, mais a pour objet de pénaliser des valeurs erratiques de f0 . Performances de l’estimation La méthode proposée a été comparée à la méthode du YIN (l’implémentation est celle des auteurs du YIN). Nous avons repris la même mesure de qualité que celle exposée dans ˆ la méthode du YIN [dCK02] à savoir le taux d’erreur grossière : une estimée f0 est consi- ˆ dérée comme une erreur grossière si la déviation relative de f0 par rapport à la fréquence fondamentale de référence f0 est d’au moins 20%. Deux types de tests ont été réalisés sui- vant que les instants de fermeture sur les zones irrégulières ont été inclus ou non dans les résultats. Le Tableau 4.1 montre que l’utilisation d’une mesure plus discriminante couplée à des contraintes de continuité permet de réduire significativement le taux d’erreur grossière. Notre méthode conduit globalement à une division par deux du taux d’erreur grossière. Ce taux est même divisé par trois si l’on considère uniquement les portions de signal où les GCI sont régulièrement espacés. La méthode proposée ne commet des erreurs d’octave que très rarement. Ces erreurs d’octave peuvent encore subsister sur des segments de parole dont le voisement est plutôt
  • 6. 76 CHAPITRE 4 : A NALYSE SELON UN MODÈLE ARX-LF Algorithme TEG-1 TEG-2 YIN 3.19 1.78 Méthode proposée 1.52 0.59 Tableau 4.1 — Taux d’erreur grossière (TEG) de l’algorithme proposé et de la méthode du YIN pour les deux configurations : en incluant tous les GCI dans les résultats (TEG-1) et en excluant les GCI irrégulièrement espacés (TEG-2). irrégulier et qui sont entourés de segments non voisés (Figure 4.16). Sur de tels segments, il n’existe pas de zone fiable permettant, grâce à la contrainte de continuité, d’améliorer l’estimation sur le segment voisé. 1.85 1.9 1.95 2 2.05 Temps en secondes Figure 4.16 — Exemple de signal de parole où la fréquence fondamentale f0 estimée par la méthode proposée correspond à une division par 2 de la fréquence fondamentale réelle. Signal extrait de la phrase arctic_a0024. 4.5 Localisation des instants de fermeture La détection des instants de fermeture est nécessaire non seulement dans le cadre présent d’inversion du signal de parole afin d’obtenir l’onde de débit glottique mais aussi dans le cadre de la synthèse de la parole basée sur des concaténations d’unités acoustiques effectuées par la méthode TD-PSOLA6 [ML95]. Cette méthode nécessite un marquage pitch-synchrone du signal de parole. De plus, les marques apposées doivent se situer au voisinage de l’ins- tant de fermeture de glotte. En effet, ce faisant, l’opération d’addition-recouvrement (OLA) garantit une reproduction fidèle du signal de parole au voisinage de l’instant de fermeture de glotte, zone particulièrement énergétique et donc très importante sur le plan de la perception. La méthode PSOLA étant très utilisée, le problème d’estimation des GCI a suscité un certain intérêt. Différentes méthodes d’estimation ont ainsi été mises au point, toutes reposant sur le fait que l’instant de fermeture correspond en général à l’instant d’excitation principal du cycle glottique : 6 Time Domain Pitch Synchronous OverLap Add