3. 3
Ce document a pour objet de recenser les différents critères et méthodes permettant d’évaluer
qualitativement un contenu audio. Cette recherche s’inscrit dans le cadre du projet HD3D-IIO et
s’articule autour des « codecs » couramment utilisés dans le cadre de la post-production et de la
diffusion audiovisuelles. Il s’agit ici de détailler les caractéristiques des encodeurs/décodeurs qui ont
une influence sur la qualité de contenus audio. Nous présenterons ensuite les méthodes permettant
d’évaluer qualitativement un contenu audio Evaluer un format de compression suppose une
comparaison du signal dégradé avec un signal de référence. Nous décrirons donc les procédés
permettant d’aboutir à un signal de référence puis les techniques de réduction de débit d’un signal
audionumerique. Une étude de l’existant sous forme de liste comprenant les « codecs » les plus
utilisés sera apportée, ainsi que le détail de grands formats standards de compression. Enfin nous
décrirons les différentes méthodes permettant d’évaluer qualitativement un signal audio.
1. La numérisation d’un signal audio
La numérisation d’un signal est une opération qui consiste à convertir un signal « analogique » en un
signal dit « numérique ». Un signal analogique est un signal continu, c’est-à-dire qu’il a en tout temps
une valeur. Au contraire, un signal numérique est discontinu : il est constitué d’une suite de valeurs
numériques discrètes.
Un signal audio analogique est un signal électrique. Les valeurs de tension du courant électrique
(mesurées en volt) rende compte de l’amplitude du signal audio.
Un signal audio numérique traduit en chiffres les valeurs d’amplitude du signal analogique. La
discrétisation du signal analogique est obtenue grâce à ce que l’on nomme « l’échantillonnage »,
effectuée par un convertisseur analogique/numérique (en anglais ADC pour Analog/Digital Converter)
1.1. La fréquence d’échantillonnage
Échantillonner un signal audio analogique revient à prélever ses valeurs de tension électrique un
certain nombre de fois par seconde. La fréquence de ces prélèvements est appelée fréquence
d’échantillonnage .La fréquence d’échantillonnage est fixée avant l’opération de numérisation et ne
varie pas pendant la numérisation.
Les fréquences d’échantillonnage couramment utilisées en audio sont 44100Hz et 48000Hz. Elles
sont souvent imposées par des contraintes technologiques. Par exemple, la norme du disque compact
audio (CD audio) impose une fréquence d’échantillonnage de 44100Hz.
4. 4
L’échantillonnage est effectué par découpage temporel du signal audio analogique. Ce découpage
temporel permet de reconstruire en données chiffrées la forme d’onde du signal numérisé. La
numérisation ne repose que sur des séries de 0 et de 1 : il s’agit d’un codage binaire.
Figure 1 : Echantillonnage et numérisation d’un signal audio
1.2. La quantification
5. 5
Alors que l’échantillonnage opère un découpage temporel, l’opération de quantification crée une
échelle de valeurs discrètes permettant d’attribuer à chaque échantillon une valeur d’amplitude. La
quantification s’exprime en « bit » (un acronyme de binary digit). Les valeurs couramment utilisées en
audio sont 16bit et 24bit.
L’amplitude de chaque échantillon doit impérativement prendre l’une des valeurs définies par l’échelle
de quantification. Si la valeur d’amplitude de l’échantillon se situe entre deux paliers de l’échelle de
quantification, elle est approximée au palier le plus proche. Cette approximation induit une erreur que
l’on nomme « erreur de quantification ».
Par suite, plus le nombre de bits est élevé, plus le nombre de paliers est important et l’erreur de
quantification faible. Autrement dit, les petites variations d’amplitude du signal échantillonné sont
d’autant mieux approximées que la résolution de la quantification est élevée.
La fidélité de la forme d’onde numérisée à la forme d’onde du signal analogique dépend donc de la
résolution (exprimée en bit) et de la fréquence d’échantillonnage (exprimée en kHz).
De même que pour la fréquence d’échantillonnage, le choix de la résolution de la quantification est
soumis à des contraintes techniques. Pour le disque compact audio (CD audio), la quantification
requise est 16bit. Toute autre valeur ne sera pas acceptée.
Avant quantification Après quantification
Figure 2 : Signal échantillonné avant et après quantification
6. 6
1.3. Fréquence d’échantillonnage et repliement spectral
La fréquence d'échantillonnage (Fe) détermine le nombre d’échantillons prélevés par seconde. Elle
est importante car elle peut être la cause d’importantes distorsions du signal numérisé. Les
chercheurs Shannon et Nyquist ont observé les valeurs limites de Fe à partir desquelles le signal
audio analogique n’est plus reproduit de manière acceptable. De ces travaux est né le fameux
théorème de Shannon/Nyquist qui suit : « La fréquence d’échantillonnage (Fe) doit être au moins
égale au double de la fréquence maximale du signal à échantillonné. »
Dans le cas du CD par exemple, la fréquence d’échantillonnage est de 44100Hz. Cela signifie que la
fréquence la plus aiguë pouvant être enregistré sans distorsion est de 44100/2 soit 22050Hz.
Toute fréquence supérieure à 22050Hz produit des artefacts indésirables : le phénomène qui se
produit se nomme alors « repliement spectral » (en anglais aliasing).
Signal A Signal B
AVANT
conversion
APRÈS
conversion
7. 7
Figure 3 : Phénomène de repliement spectral pour des fréquences supérieures à Fe/2. Les traits continus représentent la forme
d’onde des signaux analogiques (signaux A et B) ; les points montrent les valeurs du signal analogique qui sont
échantillonnées. La forme d’onde numérisée du signal B est très différente de la forme d’onde analogique.
Pour éviter le phénomène de repliement, les convertisseurs analogique/numérique filtrent le signal en
entrée pour éliminer les fréquences supérieures à Fe/2.
Ainsi, si la fréquence d’échantillonnage est de 44100Hz, le filtre appliqué en entrée va supprimer toute
fréquence du signal supérieure à 22050Hz. Si Fe est paramétrée à 48000Hz, la nouvelle fréquence de
coupure du filtre est 24000Hz. (à vérifier)
Remarque : Les fréquences d'échantillonnage utilisées en audionumérique sont toutes situées au-
dessus du double de la fréquence maximale perçue par l'oreille humaine. Ces fréquences
d'échantillonnage assurent donc un codage du signal audio adapté à la bande passante de l’oreille.
On peut néanmoins s'interroger sur l'intérêt de coder des fréquences non perceptibles par l'oreille
humaine dans le cas, par exemple, d’une fréquence d’échantillonnage égale à 48kHz ou 96kHz. Des
travaux s'intéressent à l'influence de ces fréquences ultrasonores sur certains aspects de notre
perception sonore. (référence à citer).
La technique de l’échantillonnage présente donc une limitation importante à connaître pour réaliser
des transferts audio dans de bonnes conditions.
2. La compression du signal audio numérisé
Un signal audio numérisé est stocké sur des disques durs, des disques compacts, des DVD… La
nature de l’information qu’ils contiennent rend ces fichiers relativement volumineux. L’intérêt de la
compression de données audio est de réduire la taille des fichiers audio. La possibilité de réduire le
débit de ces données est généralement appliquée pour des systèmes ayant un débit faible (ex :
Internet) ou une capacité de stockage limitée (ex : baladeur mp3).
Les techniques de réduction de débit sont déjà très largement employées dans les domaines du
cinéma et de la radio, via le câble, le satellite ou la TNT.
2.1. Les algorithmes de compression
Un algorithme est l’énoncé d’une suite d’opérations permettant de donner la réponse à un problème.
Dans le cas de la compression, l’algorithme a pour fonction de réduire la taille d’un fichier selon un
certain nombre de contraintes que le programmeur spécifie. Par exemple, une des contraintes peut
être de conserver toutes les fréquences inférieures à 20kHz afin de limiter les pertes de qualité sonore
dans la zone audible du spectre.
Lors de l’étape de compression et de décompression d’un flux audio ou vidéo, on utilisera des
algorithmes spécifiques rassemblés sous le terme commun de « CoDec ». Un codec est constitué de
deux éléments :
8. 8
• le COdeur contient un algorithme destiné à coder l’information. Dans le cas de la
compression ce sera pour effectuer une réduction du poids des données ;
• le DECodeur contient un algorithme destiné à décoder l’information. Dans le cas de la
compression ce sera pour reconstruire un signal audionumérique.
2.2. Le taux de compression
Compresser revient à réduire le débit du flux audio et/ou vidéo. Les algorithmes sont adaptés en
fonction des applications (diffusion internet, télévision, cinéma) pour répondre aux besoins de chacun
des médias. La réduction de débit (ou compression) s’exprime généralement sous la forme d’un
taux dit « taux de compression ». Le taux de compression peut s’énoncer comme suit :
- soit comme le rapport entre le volume initial des données et le volume après réduction. Si le
volume de données est deux fois plus faible après réduction (passant de 10Mo à 5Mo par
exemple), on écrira qu’il s’agit d’un taux de 2:1 ;
- soit en pourcentage du volume après réduction par rapport au volume initial. Si le volume de
données est deux fois plus faible après réduction, on écrira qu’il s’agit d’un taux de 50%.
Il existe par ailleurs deux types de compressions : la compression « destructive » et la compression
« non destructive ».
2.3. Compressions destructive (avec perte) et non destructive (sans perte)
La compression « destructive » supprime définitivement certaines informations pour réduire le débit du
flux audio ou vidéo. Cette opération n’est pas réversible : il n’est pas possible de « reconstruire » le
signal original une fois les données compressées.
Ce type d’algorithme repère les données pouvant être détruites sans affecter (selon certaines
tolérances) la perception que l’on a du son ou de l’image. Parmi les techniques de compression avec
perte, une grande majorité des méthodes exploite les résultats issus des recherches en
psychoacoustique1
.
La compression « non destructive » permet de préserver les données originales lors de l’étape de
compression. Il est ainsi possible de reconstruire les données d’origines dans leur intégralité à l’issue
de la décompression. Cependant ce traitement a pour inconvénient de présenter des taux de
compression faibles. C’est pourquoi de nombreuses applications utilisent des méthodes de
compression avec pertes qui présentent des taux de compression nettement supérieurs.
Les techniques de compression sans perte, non spécifiques au domaine de l’audio, sont utilisées en
complément des techniques avec perte ;c’est le cas du MP3 par exemple.
2.3.1. Méthode appliquée lors d’une compression avec perte
Voici la méthode de compression avec perte couramment utilisée :
• décomposition temporelle du signal non compressé (PCM) en unités de temps élémentaires (les
« frames ») ;
1
Pour avoir un complément d’information sur les caractéristiques de l’oreille humaine et les effets de
masquage, consulter les annexes 1 et 2.
9. 9
• calcul d’une transformée pour passer du domaine temporel au domaine fréquentiel, en général
par MDCT (Modified Discrete Cosine Transform) ;
• série d'analyses permettant de réduire le volume de données à encoder en tenant compte des
caractéristiques de l'oreille : les sons susceptibles d'être masqués ne sont pas encodés ;
• quantification spectrale : il s’agit de l'étape de réduction de données ;
• compression de données par codage de Huffman, correspondant à une méthode non destructive
d'élimination des redondances, pour optimiser la taille des données encodées. On obtient alors
une « frame » de données spectrales compressées.
Cette méthode est ainsi utilisée dans les algorithmes de compression MPEG-1 Layer 3, Advanced
Audio Coding (AAC), Vorbis, Dolby Digital ou ATRAC.
2.3.2. Principales techniques de compression sans perte
2.3.2.1. Codage à longueur variable
Plus connu sous le nom de RLC (Run Length Coding) ou RLE (Run Length Encoding), ce codage
détecte la redondance entre des éléments successifs.
Exemple :
La série de chiffres…
7 1 1 1 1 3 8 8 8 2 2 6
…sera réécrite comme suit :
7 ; 4 x 1 ; 3 ; 3 x 8 ; 2 x 2 ; 6
2.3.2.2. Codage de Huffman (codage entropique)
Le codage de Huffman (inventé en 1952) est une méthode de compression statistique de données.
Cet algorithme est souvent utilisé en complément d’autres méthodes de compression (comme le
MPEG 1 Layer 3 par exemple).
L’algorithme de Huffman comprend plusieurs étapes :
• Calcul statistique de la fréquence d’apparition de chacun des éléments ;
• Classement dans l’ordre décroissant de probabilité d’occurrence ;
• Regroupement des deux éléments ayant la probabilité la plus faible pour constituer un
nouvel élément dont la nouvelle probabilité est la somme des deux probabilités des deux
éléments regroupés ;
• Réitération de l’opération. Résultats présentés sous la forme d’une arborescence des
éléments suivant l’augmentation de la probabilité d’occurrence (figure 4).
11. 11
3. Liste des codecs de compression
Voici une liste des algorithmes de compression audionumériques les plus répandus. Des sources pour
une étude plus approfondie sont également fournies.2
3.1. Codecs utilisant une compression sans perte
ALAC (Apple Lossless)
www.apple.com/itunes
FLAC (Free Lossless Audio Codec)
www.flac.sourceforge.net
LA (LosslessAudio)
www.lossless-audio.com
LPAC (Lossless Predictive Audio Codec)
www.nue.tu-berlin.de/wer/liebchen/lpac.html
MPEG-4 ALS (Audio Lossless Coding)
www.nue.tu-berlin.de/forschung/projekte/lossless/mp4als.html
MPEG-4 SLS (Scalable Lossless Coding)
www.chiariglione.org/mpeg/technologies/mp04-sls
RAL (Real Audio Lossless)
www.realnetworks.com/products/codecs/realaudio.html
WMAL (Windows Media Audio Lossless)
www.microsoft.com/windows/windowsmedia/forpros/encoder/default.mspx
www.microsoft.com/windows/windowsmedia/9series/codecs/audio.aspx
MLP (Meridian Lossless Packing)
www.meridian-audio.com/p_mlp_in.htm
Adaptative Transform Acoustic Coding (ATRAC Advanced Lossless)
www.sony.net/Products/ATRAC3/
3.2. Codecs utilisant une compression avec perte
A A C ( A d v a n c e dCoding)
www.iso.org/iso/en/CombinedQueryResult.CombinedQueryResult?queryString=AAC
AAC-LD (AAC Low Delay)
HE-AAC (High Efficiency AAC)
2
Les sources internet ont été consultées le 11/10/2007
13. 13
4. Les formats de compression standard : l’exemple du MPEG-1 Audio
Le groupe MPEG (Moving Pictures Experts Group) est issu de deux instances de normalisation : l’ISO
(International Standards Organisation) et l’IEC (International Electrotechnical Commission).
Les standards MPEG sont généralement utilisés pour la diffusion( internet, télévision) .Les
algorithmes MPEG exploitent essentiellement les caractéristiques de l’audition humaine lors de l’étape
de compression.
4.1 La norme MPEG1
La norme MPEG-1 (1993) est composée de trois couches (ou modes) optionnelles (Layer 1, 2 ou 3).
Chacune de ces couches présente des caractéristiques différentes. De manière générale, chaque
nouvelle couche présente par rapport aux précédentes des taux de compression plus élevés (taux de
compression maximum).
MPEG-1 / Audio Coding Approximate bit rates Compression factor
Layer 1 384 kbit/s 4
Layer 2 192 kbit/s 8
Layer 3 128 kbit/s 12
Figure 5 : Débits moyens des différentes couches MPEG1 et facteurs de compression.
4.2 Techniques employées
4.2.1 Le modèle psychoacoustique
Les modèles psychoacoustiques essaient de décrire la manière dont une personne perçoit les sons.
Ces modèles sont utilisés dans l’algorithme de compression MPEG-1 afin de déterminer avec quelle
résolution les différentes données présentes dans le signal audio doivent être codées. Les données
perçues avec une grande précision par le système auditif humain seront affectées d’un nombre de bits
plus importants que les données moins perceptibles.
Par exemple, la bande de fréquences 1000-3000Hz correspond à la zone de plus grande sensibilité
de l’oreille. Toute modification du son dans cette zone du spectre peut être préjudiciable car l’auditeur
y sera très sensible.
Il existe plusieurs modèles psychoacoustiques comme MUSICAM3
ou l’AT&T 4
. Ils sont appliqués
selon le type de données audio à compresser et le débit en sortie recherché. Par exemple, les
codages d’une voix seule ou d’un orchestre symphonique reposent sur des modèles différents.
4.2.2 Le codage en sous-bandes
Cet algorithme décompose le signal en 32 bandes de fréquences (appelées « sous-bandes ») grâce à
des filtres spécifiques.
3
Musicam est l’ abréviation de Masking pattern adapted Universal Subband Coding And Multiplexing
4
Modèle psychoacoustique développé par la société AT&T
14. 14
L’encodeur fait une analyse fréquentielle par TFTD (Transformée de Fourrier à Temps Discret) de
chaque sous-bande et détermine le niveau de bruit tolérable à l’aide d’un modèle psychoacoustique.
Le nombre minimal de bits nécessaires à chaque sous-bande est ensuite attribué par l’encodeur afin
que les erreurs de quantification ne soient pas perceptibles. Pour cela, il tient compte des effets de
masque. Les informations de quantification de chaque sous-bande sont ensuite transférées avec les
échantillons de la sous-bande codée.
Figure 6 : Division de la bande audiofréquence en 32 sous-bandes
Une dernière étape, le codage entropique, peut être ajoutée à la fin du processus (c’est le cas du
MP3). Ce codage sans perte permet la réduction de données en enlevant les redondances des
différentes données numériques.
Le schéma suivant présente les différentes opérations présentes dans un encodeur perceptuel.
Figure 7 : Principe général d’un encodeur perceptuel
15. 15
Détailler le schéma (flux entrant / flux sortant)
4.3) Caractéristiques des différentes couches
4.3.1) MPEG-1 audio couche 1
Le Mpeg-1 couche 1 est aussi connu sous le nom de « Musicam simplifié ». Son débit peut varier de
32 à 448kbit/s pour des fréquences d’échantillonnage classiques de 32, 44,1 et 48kHz.
4.3.2) MPEG-1 audio couche 2
Le Mpeg-1 couche 2 est aussi connu sous le nom de « Musicam ». Son débit peut varier de 32 à
192kbit/s pour un signal mono et de 64 à 384kbit/s pour un signal stéréo.
Une des principales différences en ce qui concerne la couche 2 réside dans la précision de l’analyse
de chaque sous-bande. En effet, une résolution d’analyse plus élevée de ces sous-bandes permet de
repérer avec plus de précision les différentes données à encoder.
La figure ci-dessous traite de la difficulté d’évaluer les effets de masque. La largeur des sous-bandes
a une influence sur l’appréciation du masquage. Pour un meilleur calcul des phénomènes de
masquage, on augmente la résolution de l’analyse fréquentielle de chaque sous-bande en élevant le
nombre d’échantillons analysés en entrée. Par exemple, on passe de 128 à 256, 512 ou 1024
échantillons.
4.3.3) MPEG-1 audio couche 3
Le Mpeg-1 couche 3, connu sous le nom « MP3 », ajoute une quantification non uniforme ainsi qu’un
codage de Huffman.
Cette couche est la plus complexe des trois et permet des taux de compressions supérieurs aux
autres. Chacune des 32 sous-bandes principales est subdivisée en 18 sous-bandes supplémentaires.
Son débit peut varier de 8 à 320kbit/s avec des fréquences d’échantillonnage pouvant descendre à 24
et 16 kHz.
En résumé, voici un tableau récapitulatif des principales caractéristiques des trois couches audio du
codec MPEG 1.
Complexité
du codeur
Plage de débits Caractéristiques
Couche 1 Basse 32 à 448kbps
Filtrage numérique pour les 32 sous-bandes
Quantification uniforme
Seuil de masquage fréquentiel uniquement
Couche 2 Moyenne 32 à 384kbps
Filtrage numérique pour les 32 sous-bandes
Quantification uniforme
Seuils de masquage fréquentiel et temporel
Couche 23 Élevée 8 à 320kbps
Filtrage numérique + opération mathématique MDCT
Quantification adaptative
Seuils de masquage fréquentiel et temporel
Codage de Huffman
16. 16
5. Les critères d’évaluation
5.1. Caractéristiques des encodeurs / Décodeurs
Plusieurs caractéristiques peuvent selon les applications être déterminantes dans le choix d’un
encodeur/décodeur.
• Le débit :
Il peut-être exprimé en kbps et peut-être un critère déterminant dans le choix d’un codec. Ainsi, en
fonction de l’application et de la bande passante disponible (VOD Internet), le choix du débit proposé
par le « codec » peut être primordiale.
• La qualité « audio »
• La Complexité et le temps de retard :
Les encodeurs/décodeurs selon leurs complexité, ont un temps de traitement plus ou moins rapide.
Ce temps de traitement se mesure en millions d’instructions par seconde (MIPS) ou en millions
d’opérations par seconde (MOPS). Pour atteindre des taux de compression supérieurs, les
algorithmes de compression sont en général plus complexes et nécessitent des temps de calcul plus
élevés.
On présentera dans le tableau suivant une comparaison des différentes couches du format MPEG
ainsi que leur temps de retard respectif :
Couches Débits
Taux de
compression
Retard minimum
théorique*
Couche 1 192 kbps 4:1 19ms
Couche 2 128 kbps 6:1 35ms
Couche 3 64 kbps 12:1 59ms
* En pratique, les temps de retard sont approximativement trois fois plus importants.
La valeur du temps de retard peut être un des critères à prendre en compte notamment pour des
applications audiovisuelles en « temps réel » (comme le direct).
17. 17
5.2 Critères d’évaluation de la « qualité audio »
La plupart des « codecs » audio utilisent des algorithmes de compression avec perte. Le signal est
dégradé en fonction du taux de compression adopté. Les algorithmes de compression sans perte,
eux, sont utilisés pour la compression de données et / ou en complément des techniques de
compression avec perte. Dans ce cas, il n’y a pas de « qualité audio » à déterminer puisque le signal
original peut-être reconstruit dans son intégralité après le processus de décompression.
Afin d’évaluer qualitativement les dégradations éventuelles d’un signal audio après codage, réduction
de débit et / ou décodage, plusieurs méthodes existent. La plupart de ces méthodes utilisent un
signal-test de référence (le signal original avant codage) pour le comparer ensuite au signal à évaluer
(signal après codage et décodage). Le premier type de méthode consiste à effectuer des tests
d’écoute (tests subjectifs) avec un panel d’auditeurs novices ou experts. Ces méthodes sont
généralement considérés comme des références lorsqu’il s’agit d’estimer la qualité audio d’un signal.
Néanmoins, ces tests subjectifs sont long et coûteux car ils impliquent le respect de nombreuses
conditions comme le choix des auditeurs et du matériel de diffusion sonore, le respect des conditions
d’écoute (acoustique de la salle),les séquences, la chronologies des tests …
Afin de faciliter la mise en œuvre d’une évaluation de la « qualité » d’un signal audio, de nombreuses
recherches ont été menées en psychoacoustique afin de modéliser le système auditif humain. Ces
modèles permettent de prendre en compte différentes caractéristiques de l’audition humaine comme
les effets de masquage (décrits en Annexe 1) lors de l’analyse et de l’estimation qualitative du signal
audio. La qualité audio mesurée par ces méthodes est alors appelée « qualité perceptuelle
objective ».
5.2.1 Les critères subjectifs
• La recommandation ITU-R BS 1116
La recommandation UIT-R BS. 11165
définit un cadre et des méthodes pour effectuer des tests dans
de bonnes conditions (matériel utilisé, acoustique de la salle, choix des séquences audio, chronologie
des séquences …) afin d’estimer qualitativement un signal audio.
Le protocole consiste en une série d’extraits sonores courts (5 à 10 secondes) diffusés trois fois de
suite selon deux possibilités : A B A ou A A B (A étant le signal original et B le signal compressé). Une
fois les extraits sonores diffusés, l’auditeur doit identifier la position de B. De plus, l’auditeur doit
également émettre une opinion sur la « qualité » de B. Cette opinion est exprimée selon un jugement
de valeur arbitraire décrit dans le schéma ci-dessous :
5
La recommandation ITU-R BS 1116 se nomme : « Méthodes d'évaluation subjective des
dégradations faibles dans les systèmes audio y compris les systèmes sonores multivoies ».
18. 18
Fig. 9 Echelle de dégradation à cinq notes de l’UIT-R BS 1116
Cette recommandation utilise une méthode dite : « à double aveugle, triple stimulus et référence
dissimulée ». Cette recommandation est essentiellement utilisée pour détecter et quantifier de faibles
dégradations d’un signal par rapport au signal de référence. En effet, lors de tests concernant des
signaux à faible ou à moyen débit, la plupart des notes se retrouvent en bas de l’échelle ce qui rend la
distinction peu aisée. Selon l’UER6
, d’autres méthodes comme MUSHRA7
semblent plus adaptées
aux signaux audio à faible ou moyen débit (notamment ceux utilisés sur internet).
• La recommandation ITU BS.1534-1 (méthode MUSHRA)
Alors que la recommandation précédente (ITU-R BS 1116) utilise une méthode « à double aveugle,
triple stimulus et référence dissimulée », MUSHRA8
utilise une méthode « à double aveugle, stimulus
multiples, avec références et repères dissimulés ». Cette méthode sert à évaluer des dégradations
moyennes et / ou importantes du signal audio. Lors des tests d’écoute, les différents extraits audio
sont généralement assez dégradés par rapport à la référence, il est donc aisé de les distinguer de
cette dernière. Par contre, il est moins facile de pouvoir les évaluer qualitativement entre eux. De ce
fait, cette méthode au contraire de la recommandation ITU-R BS 1116 permet aux utilisateurs de
comparer librement les signaux dégradés de même débit entre eux afin de mieux les évaluer
qualitativement. Par exemple, si un test concerne dix systèmes audio, les évaluateurs peuvent
commuter entre au moins treize signaux (la référence « connue » + les dix signaux dégradés + une
référence dissimulée + au moins un repère « dissimulé »). À noter qu’il est possible dans le test
d’inclure plusieurs repères.
La notation des stimulus (extraits audio) dans la méthode MUSHRA s’effectue par rapport à une
échelle de qualité comprenant cinq niveaux et graduée de 0 à 100. Ces différents niveaux sont :
6
UER est l’abréviation de Union Européenne de Radio-Télévision
7
MUSHRA est l’abréviation de : « Multi Stimulus test with Hidden Reference and Anchors »
19. 19
On présentera ci-après l’interface utilisateur utilisé par l’UER pour ce test.
Figure 10 Interface utilisateur pour les essais MUSHRA utilisé par le groupe
5.2.2 Les critères objectifs
Dans le but de faciliter l’évaluation qualitative d’échantillons audio, de nombreux algorithmes prenant
en compte les caractéristiques de l’audition humaine ont été développés. Le but de ces méthodes est
de pouvoir anticiper un jugement subjectif de la qualité audio avec des méthodes objectives. Le
principe général consiste, d’une part, à calculer à l’aide d’un modèle perceptuel d’audition les
différences entre le signal original et le signal dégradé9
et, d’autre part, à inclure un modèle cognitif
concernant des connaissances sur le jugement humain de la qualité audio. La validité de ces
méthodes s’appuie sur la corrélation entre les données issues de ces tests et les données provenant
des tests subjectifs. Ces méthodes ont d’abord été appliquées aux signaux audio à bande passante
réduite (parole) puis plus tard aux signaux à large bande (musique, ambiances…). En 1996, est
9
On se réfèrera pour une description plus détaillée de ce type de méthode à l’article de John G.
BEERENDS et JAN A. STEMERDINK intitulé "A Perceptual Audio Quality Measure Based on a
Psychoacoustic Sound Representation", publié dans"Journal of Audio Engineering Society", vol. 12,
Décembre 1992, pages 963 à 978.
20. 20
apparu l’algorithme PESQ (Perceptual Evaluation of Speech Quality) normalisé par l’ITU-R permettant
d’évaluer la qualité de la voix transmise par un réseau de télécommunication. Plus tard, en 1998,
l’algorithme PEAQ (Perceptual Evaluation of Audio Quality) a été normalisé par l’ITU-R afin d’évaluer
des signaux audio à large bande.
• L’algorithme PEAQ10
,
L’algorithme PEAQ est une synthèse de six méthodes développées dans les années 90 à savoir :
- L’indice de perturbation DIX (Distortion Index) ; Le rapport bruit à masque (NMR)
- Le rapport bruit à masque (NMR)
- Le système de mesure OASE (Objective Audio Signal Evaluation)
- La mesure perceptuelle de la qualité du son (PAQM)
- Le système PERCEVAL (PERCeptual EVALuation of the quality of audio signal)
- La mesure perceptuelle objective POM (Perceptual Objective Measurement)
- La Toolbox Approach
Cette méthode a pour objectif de fournir « une mesure objective de la qualité du son perçu ». Pour
quantifier la qualité du signal compressé par rapport à celle du signal audio original, l’algorithme
PEAQ utilise aussi bien des caractéristiques physiques11
que des considérations psychoacoustiques.
Un modèle auditif est donc utilisé permettant ainsi de repérer plusieurs phénomènes
psychoacoustiques comme les phénomènes de masquage (décrits en annexe 1) ou comme la
perception de certaines bandes de fréquence en fonction de leur intensité sonore. Différentes
mesures et jugements qualitatifs sont alors déduits après analyse du signal. On présentera ci-dessous
le fonctionnement général de l’algorithme PEAQ afin d’en clarifier le procédé :
21. 21
Figure 12 : fonctionnement général de l’algorithme PEAQ
Au vu de la littérature existante12
sur l’évaluation de l’algorithme PEAQ les données issues de cette
méthode semblent être dans la plupart des cas conformes aux résultats des tests subjectifs.
Cependant, cette corrélation des données issues de PEAQ avec celles des tests subjectifs (l’IUT-R
BS 1387 et ITU-R BS 1116 ) semble moins fiable dans le cas de système audio à faible débit.
5.2.3 Synthèse à propos de la qualité audio
Nous avons présenté plusieurs méthodes permettant de qualifier quantitativement un contenu audio
par rapport à une référence (signal original). Le premier type de méthode regroupe les tests subjectifs
considérés dans ce domaine comme une référence (d’après les recommandations ITU et UER)
lorsqu’il s’agit d’évaluer une certaine qualité audio. Plusieurs recommandations ITU ont donc été
présentées comme la norme ITU-R BS 1116 et ITU BS 1534-1 destinées à évaluer du contenu audio
à différents débits. Toutefois, ces tests sont en pratique très difficilement réalisables à cause des
nombreuses conditions à respecter (panels d’auditeurs, matériel utilisé, acoustique de la salle …).
Ces procédés sont donc destinés à être appliqués dans des locaux spécifiques et semble être en
terme de temps très contraignants. D’autres méthodes objectives ont donc été créées afin de faciliter
la mise en œuvre de ce type de test. Ces méthodes reposent sur l’utilisation de modèles
psychoacoustiques et cognitifs destinés à reproduire la manière dont l’être humain perçoit et juge une
qualité sonore par rapport à une autre.
L’algorithme PEAQ, normalisé par l’ITU, à donc été succinctement exposé et son processus expliqué.
Cependant, ces méthodes objectives restent de bons indicateurs mais semblent, dans certains cas,
être peu convainquant au regard des données issues des tests subjectifs notamment pour les faibles
débits audio. Les tests subjectifs bien que difficile à mettre en œuvre, semblent donc, pour le moment,
être le moyen le plus fiable pour évaluer qualitativement un fichier audio.
12
On se réfère ici aux articles concernant l’évaluation de l’algorithme PEAQ à savoir, l’article de C.
Schmidmer « Perceptual wideband audio quality assessments using PEAQ »
23. 23
Annexe 1: Rappels de quelques caractéristiques de l’audition humaine
Les méthodes de codage audio étant basées sur différentes caractéristiques de la perception auditive
humaine, nous rappellerons ici quelques principes fondamentaux nécessaires à la compréhension des
principaux algorithmes de compression.
Des éléments provenant du livrable « Formats audionumériques » ont été réutilisés afin d’assurer une
certaine cohérence générale et de faciliter la compréhension de ce document.
• Bande passante de l’oreille humaine
La bande passante de l’oreille humaine est de 20Hz-20000Hz. Cela signifie que les fréquences
inférieures à 20Hz (les infrasons) ou supérieures à 20kHz (les ultrasons) ne sont pas entendus
comme des hauteurs tonales déterminées.
• Seuil d’audition et seuil de douleur
Figure 9 : Seuil d’audition et de douleur
Lecture du graphique : par exemple, pour une fréquence de 1000Hz, le seuil d’audition est de 0dB et
le seuil de douleur de 120dB (ce qui correspond à une pression acoustique de 20Pa).
Ces courbes ont été obtenues grâce à des tests psychoacoustiques menés en chambre anéchoïque
auprès de sujets lambda. L’étude a porté sur la détection du seuil d’audition et du seuil de douleur
pour chaque fréquence. Ces tests ont été réalisés en émettant des sons purs (sons sinusoïdaux).
• Sensibilité de l’oreille
La sensibilité de l’oreille varie selon la fréquence émise. Cela signifie qu’à intensité égale, la sensation
auditive de deux fréquences peut être différente. La sensation auditive (sonie ou phone) est donc
fonction de l’intensité acoustique et de la fréquence de l’onde sonore.
Le diagramme de Fletcher (figure 5) dresse des courbes d’isosonie, c’est-à-dire des courbes de
même sensation auditive. Chaque courbe indique quelle doit être l’intensité acoustique de chacune
des fréquences pour que toutes soient perçues avec la même intensité.
Ces courbes ont été réalisées en diffusant un son pur de 1Khz comme son de référence.
24. 24
Figure 10 : Courbes d’isosonies de Fletcher
(source : http://pedagogie.ac-montpellier.fr:8080/disciplines/scphysiques/SP16/images/SP161.40.gif)
Lecture du graphique : pour avoir une sensation perceptive équivalente à 60 phones, une fréquence
de 1000Hz doit être diffusée à 60dB alors qu’une fréquence de 50Hz doit être diffusée à 80dB.
25. 25
Annexe 2 : Effet de masque
On parle de « masquage » dès qu’un signal sonore disparaît de l’image sonore à cause de la
présence d’une autre signal sonore. Autrement dit, sur les deux sources sonores en présence, une
seule est vraiment entendue. Cette disparition peut être partielle ou totale.
Compte tenu de la courbe de réponse non linéaire de l’oreille humaine (Annexe 1), l’effet de masque
n'est pas linéaire en fréquence.
On distingue le phénomène de masquage simultané, présent pour deux sources simultanées, du
masquage temporel, pour lequel les sons masquant et masqués ne sont pas simultanés.
• Le masquage simultané
Des expériences sur des sujets humains ont montré que pour des signaux masquant correspondant à
des fréquences pures, il existait une « zone spectrale » masquée située autour de la fréquence pure.
Figure 11 : L'effet de masquage simultané (source : www.minidisc.org)
Ces expériences n’utilisent pas des signaux complexes mais permettent de mettre en évidence le
mécanisme de masquage qui sert de base aux différentes méthodes de compression audio. En effet,
si une composante spectrale est supposée masquée, cette composante n’est pas codée.
• Le masquage temporel
Parallèlement au phénomène de masquage simultané, il existe un phénomène de masquage
temporel, observé plus particulièrement au niveau des transitoires d’attaques (valable pour des chocs
ou des impulsions par exemple).
Lorsque le son masqué intervient après le son masquant, on parle « d'effet de précédence » ou « effet
de Haas ». Un signal sera masqué s'il intervient dans les 20 millisecondes après un signal transitoire
(moyennant un certain rapport d'intensité).
À l'inverse, un son peut être masqué par un son lui succédant si ce dernier arrive moins de 2 ou 3
millisecondes après.
26. 26
Figure 12 : Phénomènes de masquage temporel
Les études sur l’effet de masquage audio ont permis la décomposition du spectre sonore en bandes
critiques.
• Les bandes critiques
Le postulat est que l'oreille humaine intègre les informations fréquentielles par « tranches » comme le
laisse supposer le phénomène de masquage simultané. Au voisinage de la fréquence du son
masquant, il faut considérablement augmenter le niveau d'un son masqué pour le rendre audible. Le
spectre sonore a donc été découpé en « voisinages » qui sont nommés « bandes critiques ».
On remarquera tout particulièrement la largeur variable de ces bandes.
Figure 13 : Tableau des bandes critiques