SlideShare uma empresa Scribd logo
1 de 26
Baixar para ler offline
1
CRITÈRES D’ÉVALUATION DES FORMATS DE
COMPRESSION AUDIO
Timothée Baschet, Benoît Navarret
2
3
Ce document a pour objet de recenser les différents critères et méthodes permettant d’évaluer
qualitativement un contenu audio. Cette recherche s’inscrit dans le cadre du projet HD3D-IIO et
s’articule autour des « codecs » couramment utilisés dans le cadre de la post-production et de la
diffusion audiovisuelles. Il s’agit ici de détailler les caractéristiques des encodeurs/décodeurs qui ont
une influence sur la qualité de contenus audio. Nous présenterons ensuite les méthodes permettant
d’évaluer qualitativement un contenu audio Evaluer un format de compression suppose une
comparaison du signal dégradé avec un signal de référence. Nous décrirons donc les procédés
permettant d’aboutir à un signal de référence puis les techniques de réduction de débit d’un signal
audionumerique. Une étude de l’existant sous forme de liste comprenant les « codecs » les plus
utilisés sera apportée, ainsi que le détail de grands formats standards de compression. Enfin nous
décrirons les différentes méthodes permettant d’évaluer qualitativement un signal audio.
1. La numérisation d’un signal audio
La numérisation d’un signal est une opération qui consiste à convertir un signal « analogique » en un
signal dit « numérique ». Un signal analogique est un signal continu, c’est-à-dire qu’il a en tout temps
une valeur. Au contraire, un signal numérique est discontinu : il est constitué d’une suite de valeurs
numériques discrètes.
Un signal audio analogique est un signal électrique. Les valeurs de tension du courant électrique
(mesurées en volt) rende compte de l’amplitude du signal audio.
Un signal audio numérique traduit en chiffres les valeurs d’amplitude du signal analogique. La
discrétisation du signal analogique est obtenue grâce à ce que l’on nomme « l’échantillonnage »,
effectuée par un convertisseur analogique/numérique (en anglais ADC pour Analog/Digital Converter)
1.1. La fréquence d’échantillonnage
Échantillonner un signal audio analogique revient à prélever ses valeurs de tension électrique un
certain nombre de fois par seconde. La fréquence de ces prélèvements est appelée fréquence
d’échantillonnage .La fréquence d’échantillonnage est fixée avant l’opération de numérisation et ne
varie pas pendant la numérisation.
Les fréquences d’échantillonnage couramment utilisées en audio sont 44100Hz et 48000Hz. Elles
sont souvent imposées par des contraintes technologiques. Par exemple, la norme du disque compact
audio (CD audio) impose une fréquence d’échantillonnage de 44100Hz.
4
L’échantillonnage est effectué par découpage temporel du signal audio analogique. Ce découpage
temporel permet de reconstruire en données chiffrées la forme d’onde du signal numérisé. La
numérisation ne repose que sur des séries de 0 et de 1 : il s’agit d’un codage binaire.
Figure 1 : Echantillonnage et numérisation d’un signal audio
1.2. La quantification
5
Alors que l’échantillonnage opère un découpage temporel, l’opération de quantification crée une
échelle de valeurs discrètes permettant d’attribuer à chaque échantillon une valeur d’amplitude. La
quantification s’exprime en « bit » (un acronyme de binary digit). Les valeurs couramment utilisées en
audio sont 16bit et 24bit.
L’amplitude de chaque échantillon doit impérativement prendre l’une des valeurs définies par l’échelle
de quantification. Si la valeur d’amplitude de l’échantillon se situe entre deux paliers de l’échelle de
quantification, elle est approximée au palier le plus proche. Cette approximation induit une erreur que
l’on nomme « erreur de quantification ».
Par suite, plus le nombre de bits est élevé, plus le nombre de paliers est important et l’erreur de
quantification faible. Autrement dit, les petites variations d’amplitude du signal échantillonné sont
d’autant mieux approximées que la résolution de la quantification est élevée.
La fidélité de la forme d’onde numérisée à la forme d’onde du signal analogique dépend donc de la
résolution (exprimée en bit) et de la fréquence d’échantillonnage (exprimée en kHz).
De même que pour la fréquence d’échantillonnage, le choix de la résolution de la quantification est
soumis à des contraintes techniques. Pour le disque compact audio (CD audio), la quantification
requise est 16bit. Toute autre valeur ne sera pas acceptée.
Avant quantification Après quantification
Figure 2 : Signal échantillonné avant et après quantification
6
1.3. Fréquence d’échantillonnage et repliement spectral
La fréquence d'échantillonnage (Fe) détermine le nombre d’échantillons prélevés par seconde. Elle
est importante car elle peut être la cause d’importantes distorsions du signal numérisé. Les
chercheurs Shannon et Nyquist ont observé les valeurs limites de Fe à partir desquelles le signal
audio analogique n’est plus reproduit de manière acceptable. De ces travaux est né le fameux
théorème de Shannon/Nyquist qui suit : « La fréquence d’échantillonnage (Fe) doit être au moins
égale au double de la fréquence maximale du signal à échantillonné. »
Dans le cas du CD par exemple, la fréquence d’échantillonnage est de 44100Hz. Cela signifie que la
fréquence la plus aiguë pouvant être enregistré sans distorsion est de 44100/2 soit 22050Hz.
Toute fréquence supérieure à 22050Hz produit des artefacts indésirables : le phénomène qui se
produit se nomme alors « repliement spectral » (en anglais aliasing).
Signal A Signal B
AVANT
conversion
APRÈS
conversion
7
Figure 3 : Phénomène de repliement spectral pour des fréquences supérieures à Fe/2. Les traits continus représentent la forme
d’onde des signaux analogiques (signaux A et B) ; les points montrent les valeurs du signal analogique qui sont
échantillonnées. La forme d’onde numérisée du signal B est très différente de la forme d’onde analogique.
Pour éviter le phénomène de repliement, les convertisseurs analogique/numérique filtrent le signal en
entrée pour éliminer les fréquences supérieures à Fe/2.
Ainsi, si la fréquence d’échantillonnage est de 44100Hz, le filtre appliqué en entrée va supprimer toute
fréquence du signal supérieure à 22050Hz. Si Fe est paramétrée à 48000Hz, la nouvelle fréquence de
coupure du filtre est 24000Hz. (à vérifier)
Remarque : Les fréquences d'échantillonnage utilisées en audionumérique sont toutes situées au-
dessus du double de la fréquence maximale perçue par l'oreille humaine. Ces fréquences
d'échantillonnage assurent donc un codage du signal audio adapté à la bande passante de l’oreille.
On peut néanmoins s'interroger sur l'intérêt de coder des fréquences non perceptibles par l'oreille
humaine dans le cas, par exemple, d’une fréquence d’échantillonnage égale à 48kHz ou 96kHz. Des
travaux s'intéressent à l'influence de ces fréquences ultrasonores sur certains aspects de notre
perception sonore. (référence à citer).
La technique de l’échantillonnage présente donc une limitation importante à connaître pour réaliser
des transferts audio dans de bonnes conditions.
2. La compression du signal audio numérisé
Un signal audio numérisé est stocké sur des disques durs, des disques compacts, des DVD… La
nature de l’information qu’ils contiennent rend ces fichiers relativement volumineux. L’intérêt de la
compression de données audio est de réduire la taille des fichiers audio. La possibilité de réduire le
débit de ces données est généralement appliquée pour des systèmes ayant un débit faible (ex :
Internet) ou une capacité de stockage limitée (ex : baladeur mp3).
Les techniques de réduction de débit sont déjà très largement employées dans les domaines du
cinéma et de la radio, via le câble, le satellite ou la TNT.
2.1. Les algorithmes de compression
Un algorithme est l’énoncé d’une suite d’opérations permettant de donner la réponse à un problème.
Dans le cas de la compression, l’algorithme a pour fonction de réduire la taille d’un fichier selon un
certain nombre de contraintes que le programmeur spécifie. Par exemple, une des contraintes peut
être de conserver toutes les fréquences inférieures à 20kHz afin de limiter les pertes de qualité sonore
dans la zone audible du spectre.
Lors de l’étape de compression et de décompression d’un flux audio ou vidéo, on utilisera des
algorithmes spécifiques rassemblés sous le terme commun de « CoDec ». Un codec est constitué de
deux éléments :
8
• le COdeur contient un algorithme destiné à coder l’information. Dans le cas de la
compression ce sera pour effectuer une réduction du poids des données ;
• le DECodeur contient un algorithme destiné à décoder l’information. Dans le cas de la
compression ce sera pour reconstruire un signal audionumérique.
2.2. Le taux de compression
Compresser revient à réduire le débit du flux audio et/ou vidéo. Les algorithmes sont adaptés en
fonction des applications (diffusion internet, télévision, cinéma) pour répondre aux besoins de chacun
des médias. La réduction de débit (ou compression) s’exprime généralement sous la forme d’un
taux dit « taux de compression ». Le taux de compression peut s’énoncer comme suit :
- soit comme le rapport entre le volume initial des données et le volume après réduction. Si le
volume de données est deux fois plus faible après réduction (passant de 10Mo à 5Mo par
exemple), on écrira qu’il s’agit d’un taux de  2:1 ;
- soit en pourcentage du volume après réduction par rapport au volume initial. Si le volume de
données est deux fois plus faible après réduction, on écrira qu’il s’agit d’un taux de 50%.
Il existe par ailleurs deux types de compressions : la compression « destructive » et la compression
« non destructive ».
2.3. Compressions destructive (avec perte) et non destructive (sans perte)
La compression « destructive » supprime définitivement certaines informations pour réduire le débit du
flux audio ou vidéo. Cette opération n’est pas réversible : il n’est pas possible de « reconstruire » le
signal original une fois les données compressées.
Ce type d’algorithme repère les données pouvant être détruites sans affecter (selon certaines
tolérances) la perception que l’on a du son ou de l’image. Parmi les techniques de compression avec
perte, une grande majorité des méthodes exploite les résultats issus des recherches en
psychoacoustique1
.
La compression « non destructive » permet de préserver les données originales lors de l’étape de
compression. Il est ainsi possible de reconstruire les données d’origines dans leur intégralité à l’issue
de la décompression. Cependant ce traitement a pour inconvénient de présenter des taux de
compression faibles. C’est pourquoi de nombreuses applications utilisent des méthodes de
compression avec pertes qui présentent des taux de compression nettement supérieurs.
Les techniques de compression sans perte, non spécifiques au domaine de l’audio, sont utilisées en
complément des techniques avec perte ;c’est le cas du MP3 par exemple.
2.3.1. Méthode appliquée lors d’une compression avec perte
Voici la méthode de compression avec perte couramment utilisée :
• décomposition temporelle du signal non compressé (PCM) en unités de temps élémentaires (les
« frames ») ;
1
Pour avoir un complément d’information sur les caractéristiques de l’oreille humaine et les effets de
masquage, consulter les annexes 1 et 2.
9
• calcul d’une transformée pour passer du domaine temporel au domaine fréquentiel, en général
par MDCT (Modified Discrete Cosine Transform) ;
• série d'analyses permettant de réduire le volume de données à encoder en tenant compte des
caractéristiques de l'oreille : les sons susceptibles d'être masqués ne sont pas encodés ;
• quantification spectrale : il s’agit de l'étape de réduction de données ;
• compression de données par codage de Huffman, correspondant à une méthode non destructive
d'élimination des redondances, pour optimiser la taille des données encodées. On obtient alors
une « frame » de données spectrales compressées.
Cette méthode est ainsi utilisée dans les algorithmes de compression MPEG-1 Layer 3, Advanced
Audio Coding (AAC), Vorbis, Dolby Digital ou ATRAC.
2.3.2. Principales techniques de compression sans perte
2.3.2.1. Codage à longueur variable
Plus connu sous le nom de RLC (Run Length Coding) ou RLE (Run Length Encoding), ce codage
détecte la redondance entre des éléments successifs.
Exemple :
La série de chiffres…
7 1 1 1 1 3 8 8 8 2 2 6
…sera réécrite comme suit :
7 ; 4 x 1 ; 3 ; 3 x 8 ; 2 x 2 ; 6
2.3.2.2. Codage de Huffman (codage entropique)
Le codage de Huffman (inventé en 1952) est une méthode de compression statistique de données.
Cet algorithme est souvent utilisé en complément d’autres méthodes de compression (comme le
MPEG 1 Layer 3 par exemple).
L’algorithme de Huffman comprend plusieurs étapes :
• Calcul statistique de la fréquence d’apparition de chacun des éléments ;
• Classement dans l’ordre décroissant de probabilité d’occurrence ;
• Regroupement des deux éléments ayant la probabilité la plus faible pour constituer un
nouvel élément dont la nouvelle probabilité est la somme des deux probabilités des deux
éléments regroupés ;
• Réitération de l’opération. Résultats présentés sous la forme d’une arborescence des
éléments suivant l’augmentation de la probabilité d’occurrence (figure 4).
10
Figure 4 : Arborescence d’un codage de Huffman
11
3. Liste des codecs de compression
Voici une liste des algorithmes de compression audionumériques les plus répandus. Des sources pour
une étude plus approfondie sont également fournies.2
3.1. Codecs utilisant une compression sans perte
ALAC (Apple Lossless)
www.apple.com/itunes
FLAC (Free Lossless Audio Codec)
www.flac.sourceforge.net
LA (LosslessAudio)
www.lossless-audio.com
LPAC (Lossless Predictive Audio Codec)
www.nue.tu-berlin.de/wer/liebchen/lpac.html
MPEG-4 ALS (Audio Lossless Coding)
www.nue.tu-berlin.de/forschung/projekte/lossless/mp4als.html
MPEG-4 SLS (Scalable Lossless Coding)
www.chiariglione.org/mpeg/technologies/mp04-sls
RAL (Real Audio Lossless)
www.realnetworks.com/products/codecs/realaudio.html
WMAL (Windows Media Audio Lossless)
www.microsoft.com/windows/windowsmedia/forpros/encoder/default.mspx
www.microsoft.com/windows/windowsmedia/9series/codecs/audio.aspx
MLP (Meridian Lossless Packing)
www.meridian-audio.com/p_mlp_in.htm
Adaptative Transform Acoustic Coding (ATRAC Advanced Lossless)
www.sony.net/Products/ATRAC3/
3.2. Codecs utilisant une compression avec perte
A A C ( A d v a n c e dCoding)
www.iso.org/iso/en/CombinedQueryResult.CombinedQueryResult?queryString=AAC
AAC-LD (AAC Low Delay)
HE-AAC (High Efficiency AAC)
2
Les sources internet ont été consultées le 11/10/2007
12
HE-AAC v2 (High Efficiency AAC v2)
AC3
www.dolby.com/assets/pdf/tech_library/a_52b.pdf
Adaptative Transform Acoustic Coding (ATRAC1, ATRAC2, ATRAC3, ATRAC3Plus)
www.sony.net/Products/ATRAC3
MP1 (MPEG-1 Layer I)
www.chiariglione.org/mpeg/standards/mpeg-1/mpeg-1.htm
MP2 (MPEG-1/2 Layer II)
www.chiariglione.org/mpeg/standards/mpeg-1/mpeg-1.htm
www.chiariglione.org/mpeg/standards/mpeg-2/mpeg-2.htm
MP3 (MPEG-1 Layer III)
www.chiariglione.org/mpeg/standards/mpeg-1/mpeg-1.htm
MPEG-4
www.chiariglione.org/mpeg/standards/mpeg-4/mpeg-4.htm
MPEG-7
www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm
MPEG-21
www.chiariglione.org/mpeg/standards/mpeg-21/mpeg-21.htm
RealAudio
www.realnetworks.com/products/codecs/realaudio.html
VGF
www.twinvq.org/english/index_en.html
WMA (Windows Media Audio)
www.microsoft.com/windows/windowsmedia/forpros/codecs/audio.aspx
AVS (Audio Video Standard)
www.avs.org.cn/en/index.asp
13
4. Les formats de compression standard : l’exemple du MPEG-1 Audio
Le groupe MPEG (Moving Pictures Experts Group) est issu de deux instances de normalisation : l’ISO
(International Standards Organisation) et l’IEC (International Electrotechnical Commission).
Les standards MPEG sont généralement utilisés pour la diffusion( internet, télévision) .Les
algorithmes MPEG exploitent essentiellement les caractéristiques de l’audition humaine lors de l’étape
de compression.
4.1 La norme MPEG1
La norme MPEG-1 (1993) est composée de trois couches (ou modes) optionnelles (Layer 1, 2 ou 3).
Chacune de ces couches présente des caractéristiques différentes. De manière générale, chaque
nouvelle couche présente par rapport aux précédentes des taux de compression plus élevés (taux de
compression maximum).
MPEG-1 / Audio Coding Approximate bit rates Compression factor
Layer 1 384 kbit/s 4
Layer 2 192 kbit/s 8
Layer 3 128 kbit/s 12
Figure 5 : Débits moyens des différentes couches MPEG1 et facteurs de compression.
4.2 Techniques employées
4.2.1 Le modèle psychoacoustique
Les modèles psychoacoustiques essaient de décrire la manière dont une personne perçoit les sons.
Ces modèles sont utilisés dans l’algorithme de compression MPEG-1 afin de déterminer avec quelle
résolution les différentes données présentes dans le signal audio doivent être codées. Les données
perçues avec une grande précision par le système auditif humain seront affectées d’un nombre de bits
plus importants que les données moins perceptibles.
Par exemple, la bande de fréquences 1000-3000Hz correspond à la zone de plus grande sensibilité
de l’oreille. Toute modification du son dans cette zone du spectre peut être préjudiciable car l’auditeur
y sera très sensible.
Il existe plusieurs modèles psychoacoustiques comme MUSICAM3
ou l’AT&T 4
. Ils sont appliqués
selon le type de données audio à compresser et le débit en sortie recherché. Par exemple, les
codages d’une voix seule ou d’un orchestre symphonique reposent sur des modèles différents.
4.2.2 Le codage en sous-bandes
Cet algorithme décompose le signal en 32 bandes de fréquences (appelées « sous-bandes ») grâce à
des filtres spécifiques.
3
Musicam est l’ abréviation de Masking pattern adapted Universal Subband Coding And Multiplexing
4
Modèle psychoacoustique développé par la société AT&T
14
L’encodeur fait une analyse fréquentielle par TFTD (Transformée de Fourrier à Temps Discret) de
chaque sous-bande et détermine le niveau de bruit tolérable à l’aide d’un modèle psychoacoustique.
Le nombre minimal de bits nécessaires à chaque sous-bande est ensuite attribué par l’encodeur afin
que les erreurs de quantification ne soient pas perceptibles. Pour cela, il tient compte des effets de
masque. Les informations de quantification de chaque sous-bande sont ensuite transférées avec les
échantillons de la sous-bande codée.
Figure 6 : Division de la bande audiofréquence en 32 sous-bandes
Une dernière étape, le codage entropique, peut être ajoutée à la fin du processus (c’est le cas du
MP3). Ce codage sans perte permet la réduction de données en enlevant les redondances des
différentes données numériques.
Le schéma suivant présente les différentes opérations présentes dans un encodeur perceptuel.
Figure 7 : Principe général d’un encodeur perceptuel
15
Détailler le schéma (flux entrant / flux sortant)
4.3) Caractéristiques des différentes couches
4.3.1) MPEG-1 audio couche 1
Le Mpeg-1 couche 1 est aussi connu sous le nom de « Musicam simplifié ». Son débit peut varier de
32 à 448kbit/s pour des fréquences d’échantillonnage classiques de 32, 44,1 et 48kHz.
4.3.2) MPEG-1 audio couche 2
Le Mpeg-1 couche 2 est aussi connu sous le nom de « Musicam ». Son débit peut varier de 32 à
192kbit/s pour un signal mono et de 64 à 384kbit/s pour un signal stéréo.
Une des principales différences en ce qui concerne la couche 2 réside dans la précision de l’analyse
de chaque sous-bande. En effet, une résolution d’analyse plus élevée de ces sous-bandes permet de
repérer avec plus de précision les différentes données à encoder.
La figure ci-dessous traite de la difficulté d’évaluer les effets de masque. La largeur des sous-bandes
a une influence sur l’appréciation du masquage. Pour un meilleur calcul des phénomènes de
masquage, on augmente la résolution de l’analyse fréquentielle de chaque sous-bande en élevant le
nombre d’échantillons analysés en entrée. Par exemple, on passe de 128 à 256, 512 ou 1024
échantillons.
4.3.3) MPEG-1 audio couche 3
Le Mpeg-1 couche 3, connu sous le nom « MP3 », ajoute une quantification non uniforme ainsi qu’un
codage de Huffman.
Cette couche est la plus complexe des trois et permet des taux de compressions supérieurs aux
autres. Chacune des 32 sous-bandes principales est subdivisée en 18 sous-bandes supplémentaires.
Son débit peut varier de 8 à 320kbit/s avec des fréquences d’échantillonnage pouvant descendre à 24
et 16 kHz.
En résumé, voici un tableau récapitulatif des principales caractéristiques des trois couches audio du
codec MPEG 1.
Complexité
du codeur
Plage de débits Caractéristiques
Couche 1 Basse 32 à 448kbps
Filtrage numérique pour les 32 sous-bandes
Quantification uniforme
Seuil de masquage fréquentiel uniquement
Couche 2 Moyenne 32 à 384kbps
Filtrage numérique pour les 32 sous-bandes
Quantification uniforme
Seuils de masquage fréquentiel et temporel
Couche 23 Élevée 8 à 320kbps
Filtrage numérique + opération mathématique MDCT
Quantification adaptative
Seuils de masquage fréquentiel et temporel
Codage de Huffman
16
5. Les critères d’évaluation
5.1. Caractéristiques des encodeurs / Décodeurs
Plusieurs caractéristiques peuvent selon les applications être déterminantes dans le choix d’un
encodeur/décodeur.
• Le débit :
Il peut-être exprimé en kbps et peut-être un critère déterminant dans le choix d’un codec. Ainsi, en
fonction de l’application et de la bande passante disponible (VOD Internet), le choix du débit proposé
par le « codec » peut être primordiale.
• La qualité « audio » 
• La Complexité et le temps de retard :
Les encodeurs/décodeurs selon leurs complexité, ont un temps de traitement plus ou moins rapide.
Ce temps de traitement se mesure en millions d’instructions par seconde (MIPS) ou en millions
d’opérations par seconde (MOPS). Pour atteindre des taux de compression supérieurs, les
algorithmes de compression sont en général plus complexes et nécessitent des temps de calcul plus
élevés.
On présentera dans le tableau suivant une comparaison des différentes couches du format MPEG
ainsi que leur temps de retard respectif :
Couches Débits
Taux de
compression
Retard minimum
théorique*
Couche 1 192 kbps 4:1 19ms
Couche 2 128 kbps 6:1 35ms
Couche 3 64 kbps 12:1 59ms
* En pratique, les temps de retard sont approximativement trois fois plus importants.
La valeur du temps de retard peut être un des critères à prendre en compte notamment pour des
applications audiovisuelles en « temps réel » (comme le direct).
17
5.2 Critères d’évaluation de la « qualité audio »
La plupart des « codecs » audio utilisent des algorithmes de compression avec perte. Le signal est
dégradé en fonction du taux de compression adopté. Les algorithmes de compression sans perte,
eux, sont utilisés pour la compression de données et / ou en complément des techniques de
compression avec perte. Dans ce cas, il n’y a pas de « qualité audio » à déterminer puisque le signal
original peut-être reconstruit dans son intégralité après le processus de décompression.
Afin d’évaluer qualitativement les dégradations éventuelles d’un signal audio après codage, réduction
de débit et / ou décodage, plusieurs méthodes existent. La plupart de ces méthodes utilisent un
signal-test de référence (le signal original avant codage) pour le comparer ensuite au signal à évaluer
(signal après codage et décodage). Le premier type de méthode consiste à effectuer des tests
d’écoute (tests subjectifs) avec un panel d’auditeurs novices ou experts. Ces méthodes sont
généralement considérés comme des références lorsqu’il s’agit d’estimer la qualité audio d’un signal.
Néanmoins, ces tests subjectifs sont long et coûteux car ils impliquent le respect de nombreuses
conditions comme le choix des auditeurs et du matériel de diffusion sonore, le respect des conditions
d’écoute (acoustique de la salle),les séquences, la chronologies des tests …
Afin de faciliter la mise en œuvre d’une évaluation de la « qualité » d’un signal audio, de nombreuses
recherches ont été menées en psychoacoustique afin de modéliser le système auditif humain. Ces
modèles permettent de prendre en compte différentes caractéristiques de l’audition humaine comme
les effets de masquage (décrits en Annexe 1) lors de l’analyse et de l’estimation qualitative du signal
audio. La qualité audio mesurée par ces méthodes est alors appelée « qualité perceptuelle
objective ».
5.2.1 Les critères subjectifs
• La recommandation ITU-R BS 1116
La recommandation UIT-R BS. 11165
définit un cadre et des méthodes pour effectuer des tests dans
de bonnes conditions (matériel utilisé, acoustique de la salle, choix des séquences audio, chronologie
des séquences …) afin d’estimer qualitativement un signal audio.
Le protocole consiste en une série d’extraits sonores courts (5 à 10 secondes) diffusés trois fois de
suite selon deux possibilités : A B A ou A A B (A étant le signal original et B le signal compressé). Une
fois les extraits sonores diffusés, l’auditeur doit identifier la position de B. De plus, l’auditeur doit
également émettre une opinion sur la « qualité » de B. Cette opinion est exprimée selon un jugement
de valeur arbitraire décrit dans le schéma ci-dessous :
5
La recommandation ITU-R BS 1116 se nomme : « Méthodes d'évaluation subjective des
dégradations faibles dans les systèmes audio y compris les systèmes sonores multivoies ».
18
Fig. 9 Echelle de dégradation à cinq notes de l’UIT-R BS 1116
Cette recommandation utilise une méthode dite : « à double aveugle, triple stimulus et référence
dissimulée ». Cette recommandation est essentiellement utilisée pour détecter et quantifier de faibles
dégradations d’un signal par rapport au signal de référence. En effet, lors de tests concernant des
signaux à faible ou à moyen débit, la plupart des notes se retrouvent en bas de l’échelle ce qui rend la
distinction peu aisée. Selon l’UER6
, d’autres méthodes comme MUSHRA7
semblent plus adaptées
aux signaux audio à faible ou moyen débit (notamment ceux utilisés sur internet).
• La recommandation ITU BS.1534-1 (méthode MUSHRA)
Alors que la recommandation précédente (ITU-R BS 1116) utilise une méthode « à double aveugle,
triple stimulus et référence dissimulée », MUSHRA8
utilise une méthode « à double aveugle, stimulus
multiples, avec références et repères dissimulés ». Cette méthode sert à évaluer des dégradations
moyennes et / ou importantes du signal audio. Lors des tests d’écoute, les différents extraits audio
sont généralement assez dégradés par rapport à la référence, il est donc aisé de les distinguer de
cette dernière. Par contre, il est moins facile de pouvoir les évaluer qualitativement entre eux. De ce
fait, cette méthode au contraire de la recommandation ITU-R BS 1116 permet aux utilisateurs de
comparer librement les signaux dégradés de même débit entre eux afin de mieux les évaluer
qualitativement. Par exemple, si un test concerne dix systèmes audio, les évaluateurs peuvent
commuter entre au moins treize signaux (la référence « connue » + les dix signaux dégradés + une
référence dissimulée + au moins un repère « dissimulé »). À noter qu’il est possible dans le test
d’inclure plusieurs repères.
La notation des stimulus (extraits audio) dans la méthode MUSHRA s’effectue par rapport à une
échelle de qualité comprenant cinq niveaux et graduée de 0 à 100. Ces différents niveaux sont :
6
UER est l’abréviation de Union Européenne de Radio-Télévision
7
MUSHRA est l’abréviation de : « Multi Stimulus test with Hidden Reference and Anchors »
19
On présentera ci-après l’interface utilisateur utilisé par l’UER pour ce test.
Figure 10 Interface utilisateur pour les essais MUSHRA utilisé par le groupe
5.2.2 Les critères objectifs
Dans le but de faciliter l’évaluation qualitative d’échantillons audio, de nombreux algorithmes prenant
en compte les caractéristiques de l’audition humaine ont été développés. Le but de ces méthodes est
de pouvoir anticiper un jugement subjectif de la qualité audio avec des méthodes objectives. Le
principe général consiste, d’une part, à calculer à l’aide d’un modèle perceptuel d’audition les
différences entre le signal original et le signal dégradé9
et, d’autre part, à inclure un modèle cognitif
concernant des connaissances sur le jugement humain de la qualité audio. La validité de ces
méthodes s’appuie sur la corrélation entre les données issues de ces tests et les données provenant
des tests subjectifs. Ces méthodes ont d’abord été appliquées aux signaux audio à bande passante
réduite (parole) puis plus tard aux signaux à large bande (musique, ambiances…). En 1996, est
9
On se réfèrera pour une description plus détaillée de ce type de méthode à l’article de John G.
BEERENDS et JAN A. STEMERDINK intitulé "A Perceptual Audio Quality Measure Based on a
Psychoacoustic Sound Representation", publié dans"Journal of Audio Engineering Society", vol. 12,
Décembre 1992, pages 963 à 978.
20
apparu l’algorithme PESQ (Perceptual Evaluation of Speech Quality) normalisé par l’ITU-R permettant
d’évaluer la qualité de la voix transmise par un réseau de télécommunication. Plus tard, en 1998,
l’algorithme PEAQ (Perceptual Evaluation of Audio Quality) a été normalisé par l’ITU-R afin d’évaluer
des signaux audio à large bande.
• L’algorithme PEAQ10
,
L’algorithme PEAQ est une synthèse de six méthodes développées dans les années 90 à savoir :
- L’indice de perturbation DIX (Distortion Index) ; Le rapport bruit à masque (NMR)
- Le rapport bruit à masque (NMR)
- Le système de mesure OASE (Objective Audio Signal Evaluation)
- La mesure perceptuelle de la qualité du son (PAQM)
- Le système PERCEVAL (PERCeptual EVALuation of the quality of audio signal)
- La mesure perceptuelle objective POM (Perceptual Objective Measurement)
- La Toolbox Approach
Cette méthode a pour objectif de fournir « une mesure objective de la qualité du son perçu ». Pour
quantifier la qualité du signal compressé par rapport à celle du signal audio original, l’algorithme
PEAQ utilise aussi bien des caractéristiques physiques11
que des considérations psychoacoustiques.
Un modèle auditif est donc utilisé permettant ainsi de repérer plusieurs phénomènes
psychoacoustiques comme les phénomènes de masquage (décrits en annexe 1) ou comme la
perception de certaines bandes de fréquence en fonction de leur intensité sonore. Différentes
mesures et jugements qualitatifs sont alors déduits après analyse du signal. On présentera ci-dessous
le fonctionnement général de l’algorithme PEAQ afin d’en clarifier le procédé :
21
Figure 12 : fonctionnement général de l’algorithme PEAQ
Au vu de la littérature existante12
sur l’évaluation de l’algorithme PEAQ les données issues de cette
méthode semblent être dans la plupart des cas conformes aux résultats des tests subjectifs.
Cependant, cette corrélation des données issues de PEAQ avec celles des tests subjectifs (l’IUT-R
BS 1387 et ITU-R BS 1116 ) semble moins fiable dans le cas de système audio à faible débit.
5.2.3 Synthèse à propos de la qualité audio
Nous avons présenté plusieurs méthodes permettant de qualifier quantitativement un contenu audio
par rapport à une référence (signal original). Le premier type de méthode regroupe les tests subjectifs
considérés dans ce domaine comme une référence (d’après les recommandations ITU et UER)
lorsqu’il s’agit d’évaluer une certaine qualité audio. Plusieurs recommandations ITU ont donc été
présentées comme la norme ITU-R BS 1116 et ITU BS 1534-1 destinées à évaluer du contenu audio
à différents débits. Toutefois, ces tests sont en pratique très difficilement réalisables à cause des
nombreuses conditions à respecter (panels d’auditeurs, matériel utilisé, acoustique de la salle …).
Ces procédés sont donc destinés à être appliqués dans des locaux spécifiques et semble être en
terme de temps très contraignants. D’autres méthodes objectives ont donc été créées afin de faciliter
la mise en œuvre de ce type de test. Ces méthodes reposent sur l’utilisation de modèles
psychoacoustiques et cognitifs destinés à reproduire la manière dont l’être humain perçoit et juge une
qualité sonore par rapport à une autre.
L’algorithme PEAQ, normalisé par l’ITU, à donc été succinctement exposé et son processus expliqué.
Cependant, ces méthodes objectives restent de bons indicateurs mais semblent, dans certains cas,
être peu convainquant au regard des données issues des tests subjectifs notamment pour les faibles
débits audio. Les tests subjectifs bien que difficile à mettre en œuvre, semblent donc, pour le moment,
être le moyen le plus fiable pour évaluer qualitativement un fichier audio.
12
On se réfère ici aux articles concernant l’évaluation de l’algorithme PEAQ à savoir, l’article de C.
Schmidmer « Perceptual wideband audio quality assessments using PEAQ »
22
23
Annexe 1: Rappels de quelques caractéristiques de l’audition humaine
Les méthodes de codage audio étant basées sur différentes caractéristiques de la perception auditive
humaine, nous rappellerons ici quelques principes fondamentaux nécessaires à la compréhension des
principaux algorithmes de compression.
Des éléments provenant du livrable « Formats audionumériques » ont été réutilisés afin d’assurer une
certaine cohérence générale et de faciliter la compréhension de ce document.
• Bande passante de l’oreille humaine
La bande passante de l’oreille humaine est de 20Hz-20000Hz. Cela signifie que les fréquences
inférieures à 20Hz (les infrasons) ou supérieures à 20kHz (les ultrasons) ne sont pas entendus
comme des hauteurs tonales déterminées.
• Seuil d’audition et seuil de douleur
Figure 9 : Seuil d’audition et de douleur
Lecture du graphique : par exemple, pour une fréquence de 1000Hz, le seuil d’audition est de 0dB et
le seuil de douleur de 120dB (ce qui correspond à une pression acoustique de 20Pa).
Ces courbes ont été obtenues grâce à des tests psychoacoustiques menés en chambre anéchoïque
auprès de sujets lambda. L’étude a porté sur la détection du seuil d’audition et du seuil de douleur
pour chaque fréquence. Ces tests ont été réalisés en émettant des sons purs (sons sinusoïdaux).
• Sensibilité de l’oreille
La sensibilité de l’oreille varie selon la fréquence émise. Cela signifie qu’à intensité égale, la sensation
auditive de deux fréquences peut être différente. La sensation auditive (sonie ou phone) est donc
fonction de l’intensité acoustique et de la fréquence de l’onde sonore.
Le diagramme de Fletcher (figure 5) dresse des courbes d’isosonie, c’est-à-dire des courbes de
même sensation auditive. Chaque courbe indique quelle doit être l’intensité acoustique de chacune
des fréquences pour que toutes soient perçues avec la même intensité.
Ces courbes ont été réalisées en diffusant un son pur de 1Khz comme son de référence.
24
Figure 10 : Courbes d’isosonies de Fletcher
(source : http://pedagogie.ac-montpellier.fr:8080/disciplines/scphysiques/SP16/images/SP161.40.gif)
Lecture du graphique : pour avoir une sensation perceptive équivalente à 60 phones, une fréquence
de 1000Hz doit être diffusée à 60dB alors qu’une fréquence de 50Hz doit être diffusée à 80dB.
25
Annexe 2 : Effet de masque
On parle de « masquage » dès qu’un signal sonore disparaît de l’image sonore à cause de la
présence d’une autre signal sonore. Autrement dit, sur les deux sources sonores en présence, une
seule est vraiment entendue. Cette disparition peut être partielle ou totale.
Compte tenu de la courbe de réponse non linéaire de l’oreille humaine (Annexe 1), l’effet de masque
n'est pas linéaire en fréquence.
On distingue le phénomène de masquage simultané, présent pour deux sources simultanées, du
masquage temporel, pour lequel les sons masquant et masqués ne sont pas simultanés.
• Le masquage simultané
Des expériences sur des sujets humains ont montré que pour des signaux masquant correspondant à
des fréquences pures, il existait une « zone spectrale » masquée située autour de la fréquence pure.
Figure 11 : L'effet de masquage simultané (source : www.minidisc.org)
Ces expériences n’utilisent pas des signaux complexes mais permettent de mettre en évidence le
mécanisme de masquage qui sert de base aux différentes méthodes de compression audio. En effet,
si une composante spectrale est supposée masquée, cette composante n’est pas codée.
• Le masquage temporel
Parallèlement au phénomène de masquage simultané, il existe un phénomène de masquage
temporel, observé plus particulièrement au niveau des transitoires d’attaques (valable pour des chocs
ou des impulsions par exemple).
Lorsque le son masqué intervient après le son masquant, on parle « d'effet de précédence » ou « effet
de Haas ». Un signal sera masqué s'il intervient dans les 20 millisecondes après un signal transitoire
(moyennant un certain rapport d'intensité).
À l'inverse, un son peut être masqué par un son lui succédant si ce dernier arrive moins de 2 ou 3
millisecondes après.
26
Figure 12 : Phénomènes de masquage temporel
Les études sur l’effet de masquage audio ont permis la décomposition du spectre sonore en bandes
critiques.
• Les bandes critiques
Le postulat est que l'oreille humaine intègre les informations fréquentielles par « tranches » comme le
laisse supposer le phénomène de masquage simultané. Au voisinage de la fréquence du son
masquant, il faut considérablement augmenter le niveau d'un son masqué pour le rendre audible. Le
spectre sonore a donc été découpé en « voisinages » qui sont nommés « bandes critiques ».
On remarquera tout particulièrement la largeur variable de ces bandes.
Figure 13 : Tableau des bandes critiques

Mais conteúdo relacionado

Mais procurados (11)

Digital Signal Processor ( DSP ) [French]
Digital Signal Processor ( DSP )  [French]Digital Signal Processor ( DSP )  [French]
Digital Signal Processor ( DSP ) [French]
 
Pioneer AV Amplificateurs 2013 - VSX series caractéristiques
Pioneer AV Amplificateurs 2013 - VSX series caractéristiquesPioneer AV Amplificateurs 2013 - VSX series caractéristiques
Pioneer AV Amplificateurs 2013 - VSX series caractéristiques
 
chap3 transmission_numerique-en-bd_b
chap3 transmission_numerique-en-bd_bchap3 transmission_numerique-en-bd_b
chap3 transmission_numerique-en-bd_b
 
Standards De Compression Audio Et VidéO
Standards De Compression Audio Et VidéOStandards De Compression Audio Et VidéO
Standards De Compression Audio Et VidéO
 
INFORAD V4e - Fiche produit
INFORAD V4e - Fiche produitINFORAD V4e - Fiche produit
INFORAD V4e - Fiche produit
 
chap1 generalites_signaux-systemes
chap1 generalites_signaux-systemeschap1 generalites_signaux-systemes
chap1 generalites_signaux-systemes
 
Coursdsp tdi
Coursdsp tdiCoursdsp tdi
Coursdsp tdi
 
Tp 1 transmission de donné inisiallisation à simulink matlab
Tp 1 transmission de donné inisiallisation à simulink matlabTp 1 transmission de donné inisiallisation à simulink matlab
Tp 1 transmission de donné inisiallisation à simulink matlab
 
Formation mesure electroacoustique
Formation mesure electroacoustiqueFormation mesure electroacoustique
Formation mesure electroacoustique
 
Chapitre3 prog dsplf3
Chapitre3 prog dsplf3Chapitre3 prog dsplf3
Chapitre3 prog dsplf3
 
Source fiche produit
Source fiche produitSource fiche produit
Source fiche produit
 

Destaque

Festejos de primavera
Festejos de primaveraFestejos de primavera
Festejos de primavera
pri05de12
 
LA POBREZA
LA POBREZALA POBREZA
LA POBREZA
Euler
 
Les 6 influences de la semaine #6
Les 6 influences de la semaine #6Les 6 influences de la semaine #6
Les 6 influences de la semaine #6
6co
 
High rises all of the world
High rises all of the worldHigh rises all of the world
High rises all of the world
Lena
 
Douae Va A Cal Metge!
Douae Va A Cal Metge!Douae Va A Cal Metge!
Douae Va A Cal Metge!
guest9f8e3b
 
Figures de la bande dessinée numérique
Figures de la bande dessinée numériqueFigures de la bande dessinée numérique
Figures de la bande dessinée numérique
M@rsouin
 

Destaque (20)

Press Book Bucarest Ok Comprimido
Press Book Bucarest Ok ComprimidoPress Book Bucarest Ok Comprimido
Press Book Bucarest Ok Comprimido
 
Festejos de primavera
Festejos de primaveraFestejos de primavera
Festejos de primavera
 
LA POBREZA
LA POBREZALA POBREZA
LA POBREZA
 
Les 6 influences de la semaine #6
Les 6 influences de la semaine #6Les 6 influences de la semaine #6
Les 6 influences de la semaine #6
 
Webinar - Réseaux Sociaux d'Entreprise
Webinar - Réseaux Sociaux d'EntrepriseWebinar - Réseaux Sociaux d'Entreprise
Webinar - Réseaux Sociaux d'Entreprise
 
Dossier de présentation de la concession de pointe d'Armor pour La Compagnie ...
Dossier de présentation de la concession de pointe d'Armor pour La Compagnie ...Dossier de présentation de la concession de pointe d'Armor pour La Compagnie ...
Dossier de présentation de la concession de pointe d'Armor pour La Compagnie ...
 
Le bouton "J'aime" - DOs & DON'Ts
Le bouton "J'aime" - DOs & DON'TsLe bouton "J'aime" - DOs & DON'Ts
Le bouton "J'aime" - DOs & DON'Ts
 
sugerencias
sugerenciassugerencias
sugerencias
 
Pixar's 22 Rules to Storytelling
Pixar's 22 Rules to StorytellingPixar's 22 Rules to Storytelling
Pixar's 22 Rules to Storytelling
 
High rises all of the world
High rises all of the worldHigh rises all of the world
High rises all of the world
 
Mujer
MujerMujer
Mujer
 
Ami Stad
Ami StadAmi Stad
Ami Stad
 
Les questions pièges1
Les questions pièges1Les questions pièges1
Les questions pièges1
 
Atrapados En La Red
Atrapados En La RedAtrapados En La Red
Atrapados En La Red
 
Pigeonnier 15m
Pigeonnier 15mPigeonnier 15m
Pigeonnier 15m
 
Presentación1
Presentación1Presentación1
Presentación1
 
Douae Va A Cal Metge!
Douae Va A Cal Metge!Douae Va A Cal Metge!
Douae Va A Cal Metge!
 
Figures de la bande dessinée numérique
Figures de la bande dessinée numériqueFigures de la bande dessinée numérique
Figures de la bande dessinée numérique
 
La Experiencia de IIE en el marco del rediseño curricular
La Experiencia de IIE en el marco del rediseño curricularLa Experiencia de IIE en el marco del rediseño curricular
La Experiencia de IIE en el marco del rediseño curricular
 
Qu'est ce que le cloud computing
Qu'est ce que le cloud computingQu'est ce que le cloud computing
Qu'est ce que le cloud computing
 

Semelhante a Criteres evalformatscompressioncicmhd3d

Le traitement du signal en Audio. Les procédés de compression audio. Présent...
Le traitement du signal en Audio. Les  procédés de compression audio. Présent...Le traitement du signal en Audio. Les  procédés de compression audio. Présent...
Le traitement du signal en Audio. Les procédés de compression audio. Présent...
Vincent RECIPON
 
Ph.D Defense
Ph.D DefensePh.D Defense
Ph.D Defense
awxzeca
 
Td infos sonores
Td infos sonoresTd infos sonores
Td infos sonores
ericlalique
 
Media et equipement réseau
Media et equipement réseauMedia et equipement réseau
Media et equipement réseau
Mohamed Keita
 
CM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique NumériqueCM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique Numérique
Pierre Maréchal
 

Semelhante a Criteres evalformatscompressioncicmhd3d (20)

Le traitement du signal en Audio. Les procédés de compression audio. Présent...
Le traitement du signal en Audio. Les  procédés de compression audio. Présent...Le traitement du signal en Audio. Les  procédés de compression audio. Présent...
Le traitement du signal en Audio. Les procédés de compression audio. Présent...
 
audionum numerique .pdf
audionum numerique .pdfaudionum numerique .pdf
audionum numerique .pdf
 
Rapport TP SuppTx (Aurele).pdf
Rapport TP SuppTx (Aurele).pdfRapport TP SuppTx (Aurele).pdf
Rapport TP SuppTx (Aurele).pdf
 
Systèmes audio Fin 2 (1).ppsx
Systèmes audio Fin 2 (1).ppsxSystèmes audio Fin 2 (1).ppsx
Systèmes audio Fin 2 (1).ppsx
 
Ph.D Defense
Ph.D DefensePh.D Defense
Ph.D Defense
 
Diabang et fatimetou mennou rapport design & simulation of dssss using ma...
Diabang et fatimetou mennou rapport design & simulation of dssss using ma...Diabang et fatimetou mennou rapport design & simulation of dssss using ma...
Diabang et fatimetou mennou rapport design & simulation of dssss using ma...
 
cours1 (1).pdf
cours1 (1).pdfcours1 (1).pdf
cours1 (1).pdf
 
Td infos sonores
Td infos sonoresTd infos sonores
Td infos sonores
 
La technologie xDSL
La technologie xDSLLa technologie xDSL
La technologie xDSL
 
Lamini&farsane traitement de_signale
Lamini&farsane traitement de_signaleLamini&farsane traitement de_signale
Lamini&farsane traitement de_signale
 
03- couche physique - Médias et transmission - ESTG.pptx
03- couche physique - Médias et transmission - ESTG.pptx03- couche physique - Médias et transmission - ESTG.pptx
03- couche physique - Médias et transmission - ESTG.pptx
 
traitement_signal.pdf
traitement_signal.pdftraitement_signal.pdf
traitement_signal.pdf
 
cours2.pdf
cours2.pdfcours2.pdf
cours2.pdf
 
Media et equipement réseau
Media et equipement réseauMedia et equipement réseau
Media et equipement réseau
 
fdocuments.net_traitement-signal.ppt
fdocuments.net_traitement-signal.pptfdocuments.net_traitement-signal.ppt
fdocuments.net_traitement-signal.ppt
 
Usrp episode 1: smoke gets in your eyes
Usrp episode 1: smoke gets in your eyesUsrp episode 1: smoke gets in your eyes
Usrp episode 1: smoke gets in your eyes
 
Modélisation du signal et photométrie : application à l'astrophotographie
Modélisation du signal et photométrie : application à l'astrophotographieModélisation du signal et photométrie : application à l'astrophotographie
Modélisation du signal et photométrie : application à l'astrophotographie
 
CM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique NumériqueCM2 - Conversion Anlogique Numérique
CM2 - Conversion Anlogique Numérique
 
2014 04-10 nebhen
2014 04-10 nebhen2014 04-10 nebhen
2014 04-10 nebhen
 
Chapitre 2 - Transmission
Chapitre 2  - TransmissionChapitre 2  - Transmission
Chapitre 2 - Transmission
 

Mais de ابو محمدوعبدالرحمن عبد الملك (12)

Odoo new-api-guide-line
Odoo new-api-guide-lineOdoo new-api-guide-line
Odoo new-api-guide-line
 
Macros
MacrosMacros
Macros
 
Lecon5
Lecon5Lecon5
Lecon5
 
La communauté-open erp
La communauté-open erpLa communauté-open erp
La communauté-open erp
 
Kaprykowsky rapport
Kaprykowsky rapportKaprykowsky rapport
Kaprykowsky rapport
 
Installation open erp-sous-windows1
Installation open erp-sous-windows1Installation open erp-sous-windows1
Installation open erp-sous-windows1
 
Installation d openerp
Installation d openerpInstallation d openerp
Installation d openerp
 
Guide technique-open erp
Guide technique-open erpGuide technique-open erp
Guide technique-open erp
 
Gloutons
GloutonsGloutons
Gloutons
 
Gestion de la_production
Gestion de la_productionGestion de la_production
Gestion de la_production
 
Dijkstra kshortest
Dijkstra kshortestDijkstra kshortest
Dijkstra kshortest
 
Cours implementation-crypto
Cours implementation-cryptoCours implementation-crypto
Cours implementation-crypto
 

Último (6)

le probleme de la planification JSP exposee (2) (2).pptx
le probleme de la planification JSP exposee (2) (2).pptxle probleme de la planification JSP exposee (2) (2).pptx
le probleme de la planification JSP exposee (2) (2).pptx
 
pdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdf
pdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdfpdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdf
pdfcoffee.com_4-production-fond-des-puits-completion-pdf-free.pdf
 
mémoire genie civil presenté lors de la soutenance de mémoire
mémoire genie civil presenté lors de la soutenance de mémoiremémoire genie civil presenté lors de la soutenance de mémoire
mémoire genie civil presenté lors de la soutenance de mémoire
 
JTC 2024 Bâtiment et Photovoltaïque.pdf
JTC 2024  Bâtiment et Photovoltaïque.pdfJTC 2024  Bâtiment et Photovoltaïque.pdf
JTC 2024 Bâtiment et Photovoltaïque.pdf
 
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
 
Algo II: les files cours + exercices corrigés
Algo II: les files cours + exercices corrigésAlgo II: les files cours + exercices corrigés
Algo II: les files cours + exercices corrigés
 

Criteres evalformatscompressioncicmhd3d

  • 1. 1 CRITÈRES D’ÉVALUATION DES FORMATS DE COMPRESSION AUDIO Timothée Baschet, Benoît Navarret
  • 2. 2
  • 3. 3 Ce document a pour objet de recenser les différents critères et méthodes permettant d’évaluer qualitativement un contenu audio. Cette recherche s’inscrit dans le cadre du projet HD3D-IIO et s’articule autour des « codecs » couramment utilisés dans le cadre de la post-production et de la diffusion audiovisuelles. Il s’agit ici de détailler les caractéristiques des encodeurs/décodeurs qui ont une influence sur la qualité de contenus audio. Nous présenterons ensuite les méthodes permettant d’évaluer qualitativement un contenu audio Evaluer un format de compression suppose une comparaison du signal dégradé avec un signal de référence. Nous décrirons donc les procédés permettant d’aboutir à un signal de référence puis les techniques de réduction de débit d’un signal audionumerique. Une étude de l’existant sous forme de liste comprenant les « codecs » les plus utilisés sera apportée, ainsi que le détail de grands formats standards de compression. Enfin nous décrirons les différentes méthodes permettant d’évaluer qualitativement un signal audio. 1. La numérisation d’un signal audio La numérisation d’un signal est une opération qui consiste à convertir un signal « analogique » en un signal dit « numérique ». Un signal analogique est un signal continu, c’est-à-dire qu’il a en tout temps une valeur. Au contraire, un signal numérique est discontinu : il est constitué d’une suite de valeurs numériques discrètes. Un signal audio analogique est un signal électrique. Les valeurs de tension du courant électrique (mesurées en volt) rende compte de l’amplitude du signal audio. Un signal audio numérique traduit en chiffres les valeurs d’amplitude du signal analogique. La discrétisation du signal analogique est obtenue grâce à ce que l’on nomme « l’échantillonnage », effectuée par un convertisseur analogique/numérique (en anglais ADC pour Analog/Digital Converter) 1.1. La fréquence d’échantillonnage Échantillonner un signal audio analogique revient à prélever ses valeurs de tension électrique un certain nombre de fois par seconde. La fréquence de ces prélèvements est appelée fréquence d’échantillonnage .La fréquence d’échantillonnage est fixée avant l’opération de numérisation et ne varie pas pendant la numérisation. Les fréquences d’échantillonnage couramment utilisées en audio sont 44100Hz et 48000Hz. Elles sont souvent imposées par des contraintes technologiques. Par exemple, la norme du disque compact audio (CD audio) impose une fréquence d’échantillonnage de 44100Hz.
  • 4. 4 L’échantillonnage est effectué par découpage temporel du signal audio analogique. Ce découpage temporel permet de reconstruire en données chiffrées la forme d’onde du signal numérisé. La numérisation ne repose que sur des séries de 0 et de 1 : il s’agit d’un codage binaire. Figure 1 : Echantillonnage et numérisation d’un signal audio 1.2. La quantification
  • 5. 5 Alors que l’échantillonnage opère un découpage temporel, l’opération de quantification crée une échelle de valeurs discrètes permettant d’attribuer à chaque échantillon une valeur d’amplitude. La quantification s’exprime en « bit » (un acronyme de binary digit). Les valeurs couramment utilisées en audio sont 16bit et 24bit. L’amplitude de chaque échantillon doit impérativement prendre l’une des valeurs définies par l’échelle de quantification. Si la valeur d’amplitude de l’échantillon se situe entre deux paliers de l’échelle de quantification, elle est approximée au palier le plus proche. Cette approximation induit une erreur que l’on nomme « erreur de quantification ». Par suite, plus le nombre de bits est élevé, plus le nombre de paliers est important et l’erreur de quantification faible. Autrement dit, les petites variations d’amplitude du signal échantillonné sont d’autant mieux approximées que la résolution de la quantification est élevée. La fidélité de la forme d’onde numérisée à la forme d’onde du signal analogique dépend donc de la résolution (exprimée en bit) et de la fréquence d’échantillonnage (exprimée en kHz). De même que pour la fréquence d’échantillonnage, le choix de la résolution de la quantification est soumis à des contraintes techniques. Pour le disque compact audio (CD audio), la quantification requise est 16bit. Toute autre valeur ne sera pas acceptée. Avant quantification Après quantification Figure 2 : Signal échantillonné avant et après quantification
  • 6. 6 1.3. Fréquence d’échantillonnage et repliement spectral La fréquence d'échantillonnage (Fe) détermine le nombre d’échantillons prélevés par seconde. Elle est importante car elle peut être la cause d’importantes distorsions du signal numérisé. Les chercheurs Shannon et Nyquist ont observé les valeurs limites de Fe à partir desquelles le signal audio analogique n’est plus reproduit de manière acceptable. De ces travaux est né le fameux théorème de Shannon/Nyquist qui suit : « La fréquence d’échantillonnage (Fe) doit être au moins égale au double de la fréquence maximale du signal à échantillonné. » Dans le cas du CD par exemple, la fréquence d’échantillonnage est de 44100Hz. Cela signifie que la fréquence la plus aiguë pouvant être enregistré sans distorsion est de 44100/2 soit 22050Hz. Toute fréquence supérieure à 22050Hz produit des artefacts indésirables : le phénomène qui se produit se nomme alors « repliement spectral » (en anglais aliasing). Signal A Signal B AVANT conversion APRÈS conversion
  • 7. 7 Figure 3 : Phénomène de repliement spectral pour des fréquences supérieures à Fe/2. Les traits continus représentent la forme d’onde des signaux analogiques (signaux A et B) ; les points montrent les valeurs du signal analogique qui sont échantillonnées. La forme d’onde numérisée du signal B est très différente de la forme d’onde analogique. Pour éviter le phénomène de repliement, les convertisseurs analogique/numérique filtrent le signal en entrée pour éliminer les fréquences supérieures à Fe/2. Ainsi, si la fréquence d’échantillonnage est de 44100Hz, le filtre appliqué en entrée va supprimer toute fréquence du signal supérieure à 22050Hz. Si Fe est paramétrée à 48000Hz, la nouvelle fréquence de coupure du filtre est 24000Hz. (à vérifier) Remarque : Les fréquences d'échantillonnage utilisées en audionumérique sont toutes situées au- dessus du double de la fréquence maximale perçue par l'oreille humaine. Ces fréquences d'échantillonnage assurent donc un codage du signal audio adapté à la bande passante de l’oreille. On peut néanmoins s'interroger sur l'intérêt de coder des fréquences non perceptibles par l'oreille humaine dans le cas, par exemple, d’une fréquence d’échantillonnage égale à 48kHz ou 96kHz. Des travaux s'intéressent à l'influence de ces fréquences ultrasonores sur certains aspects de notre perception sonore. (référence à citer). La technique de l’échantillonnage présente donc une limitation importante à connaître pour réaliser des transferts audio dans de bonnes conditions. 2. La compression du signal audio numérisé Un signal audio numérisé est stocké sur des disques durs, des disques compacts, des DVD… La nature de l’information qu’ils contiennent rend ces fichiers relativement volumineux. L’intérêt de la compression de données audio est de réduire la taille des fichiers audio. La possibilité de réduire le débit de ces données est généralement appliquée pour des systèmes ayant un débit faible (ex : Internet) ou une capacité de stockage limitée (ex : baladeur mp3). Les techniques de réduction de débit sont déjà très largement employées dans les domaines du cinéma et de la radio, via le câble, le satellite ou la TNT. 2.1. Les algorithmes de compression Un algorithme est l’énoncé d’une suite d’opérations permettant de donner la réponse à un problème. Dans le cas de la compression, l’algorithme a pour fonction de réduire la taille d’un fichier selon un certain nombre de contraintes que le programmeur spécifie. Par exemple, une des contraintes peut être de conserver toutes les fréquences inférieures à 20kHz afin de limiter les pertes de qualité sonore dans la zone audible du spectre. Lors de l’étape de compression et de décompression d’un flux audio ou vidéo, on utilisera des algorithmes spécifiques rassemblés sous le terme commun de « CoDec ». Un codec est constitué de deux éléments :
  • 8. 8 • le COdeur contient un algorithme destiné à coder l’information. Dans le cas de la compression ce sera pour effectuer une réduction du poids des données ; • le DECodeur contient un algorithme destiné à décoder l’information. Dans le cas de la compression ce sera pour reconstruire un signal audionumérique. 2.2. Le taux de compression Compresser revient à réduire le débit du flux audio et/ou vidéo. Les algorithmes sont adaptés en fonction des applications (diffusion internet, télévision, cinéma) pour répondre aux besoins de chacun des médias. La réduction de débit (ou compression) s’exprime généralement sous la forme d’un taux dit « taux de compression ». Le taux de compression peut s’énoncer comme suit : - soit comme le rapport entre le volume initial des données et le volume après réduction. Si le volume de données est deux fois plus faible après réduction (passant de 10Mo à 5Mo par exemple), on écrira qu’il s’agit d’un taux de  2:1 ; - soit en pourcentage du volume après réduction par rapport au volume initial. Si le volume de données est deux fois plus faible après réduction, on écrira qu’il s’agit d’un taux de 50%. Il existe par ailleurs deux types de compressions : la compression « destructive » et la compression « non destructive ». 2.3. Compressions destructive (avec perte) et non destructive (sans perte) La compression « destructive » supprime définitivement certaines informations pour réduire le débit du flux audio ou vidéo. Cette opération n’est pas réversible : il n’est pas possible de « reconstruire » le signal original une fois les données compressées. Ce type d’algorithme repère les données pouvant être détruites sans affecter (selon certaines tolérances) la perception que l’on a du son ou de l’image. Parmi les techniques de compression avec perte, une grande majorité des méthodes exploite les résultats issus des recherches en psychoacoustique1 . La compression « non destructive » permet de préserver les données originales lors de l’étape de compression. Il est ainsi possible de reconstruire les données d’origines dans leur intégralité à l’issue de la décompression. Cependant ce traitement a pour inconvénient de présenter des taux de compression faibles. C’est pourquoi de nombreuses applications utilisent des méthodes de compression avec pertes qui présentent des taux de compression nettement supérieurs. Les techniques de compression sans perte, non spécifiques au domaine de l’audio, sont utilisées en complément des techniques avec perte ;c’est le cas du MP3 par exemple. 2.3.1. Méthode appliquée lors d’une compression avec perte Voici la méthode de compression avec perte couramment utilisée : • décomposition temporelle du signal non compressé (PCM) en unités de temps élémentaires (les « frames ») ; 1 Pour avoir un complément d’information sur les caractéristiques de l’oreille humaine et les effets de masquage, consulter les annexes 1 et 2.
  • 9. 9 • calcul d’une transformée pour passer du domaine temporel au domaine fréquentiel, en général par MDCT (Modified Discrete Cosine Transform) ; • série d'analyses permettant de réduire le volume de données à encoder en tenant compte des caractéristiques de l'oreille : les sons susceptibles d'être masqués ne sont pas encodés ; • quantification spectrale : il s’agit de l'étape de réduction de données ; • compression de données par codage de Huffman, correspondant à une méthode non destructive d'élimination des redondances, pour optimiser la taille des données encodées. On obtient alors une « frame » de données spectrales compressées. Cette méthode est ainsi utilisée dans les algorithmes de compression MPEG-1 Layer 3, Advanced Audio Coding (AAC), Vorbis, Dolby Digital ou ATRAC. 2.3.2. Principales techniques de compression sans perte 2.3.2.1. Codage à longueur variable Plus connu sous le nom de RLC (Run Length Coding) ou RLE (Run Length Encoding), ce codage détecte la redondance entre des éléments successifs. Exemple : La série de chiffres… 7 1 1 1 1 3 8 8 8 2 2 6 …sera réécrite comme suit : 7 ; 4 x 1 ; 3 ; 3 x 8 ; 2 x 2 ; 6 2.3.2.2. Codage de Huffman (codage entropique) Le codage de Huffman (inventé en 1952) est une méthode de compression statistique de données. Cet algorithme est souvent utilisé en complément d’autres méthodes de compression (comme le MPEG 1 Layer 3 par exemple). L’algorithme de Huffman comprend plusieurs étapes : • Calcul statistique de la fréquence d’apparition de chacun des éléments ; • Classement dans l’ordre décroissant de probabilité d’occurrence ; • Regroupement des deux éléments ayant la probabilité la plus faible pour constituer un nouvel élément dont la nouvelle probabilité est la somme des deux probabilités des deux éléments regroupés ; • Réitération de l’opération. Résultats présentés sous la forme d’une arborescence des éléments suivant l’augmentation de la probabilité d’occurrence (figure 4).
  • 10. 10 Figure 4 : Arborescence d’un codage de Huffman
  • 11. 11 3. Liste des codecs de compression Voici une liste des algorithmes de compression audionumériques les plus répandus. Des sources pour une étude plus approfondie sont également fournies.2 3.1. Codecs utilisant une compression sans perte ALAC (Apple Lossless) www.apple.com/itunes FLAC (Free Lossless Audio Codec) www.flac.sourceforge.net LA (LosslessAudio) www.lossless-audio.com LPAC (Lossless Predictive Audio Codec) www.nue.tu-berlin.de/wer/liebchen/lpac.html MPEG-4 ALS (Audio Lossless Coding) www.nue.tu-berlin.de/forschung/projekte/lossless/mp4als.html MPEG-4 SLS (Scalable Lossless Coding) www.chiariglione.org/mpeg/technologies/mp04-sls RAL (Real Audio Lossless) www.realnetworks.com/products/codecs/realaudio.html WMAL (Windows Media Audio Lossless) www.microsoft.com/windows/windowsmedia/forpros/encoder/default.mspx www.microsoft.com/windows/windowsmedia/9series/codecs/audio.aspx MLP (Meridian Lossless Packing) www.meridian-audio.com/p_mlp_in.htm Adaptative Transform Acoustic Coding (ATRAC Advanced Lossless) www.sony.net/Products/ATRAC3/ 3.2. Codecs utilisant une compression avec perte A A C ( A d v a n c e dCoding) www.iso.org/iso/en/CombinedQueryResult.CombinedQueryResult?queryString=AAC AAC-LD (AAC Low Delay) HE-AAC (High Efficiency AAC) 2 Les sources internet ont été consultées le 11/10/2007
  • 12. 12 HE-AAC v2 (High Efficiency AAC v2) AC3 www.dolby.com/assets/pdf/tech_library/a_52b.pdf Adaptative Transform Acoustic Coding (ATRAC1, ATRAC2, ATRAC3, ATRAC3Plus) www.sony.net/Products/ATRAC3 MP1 (MPEG-1 Layer I) www.chiariglione.org/mpeg/standards/mpeg-1/mpeg-1.htm MP2 (MPEG-1/2 Layer II) www.chiariglione.org/mpeg/standards/mpeg-1/mpeg-1.htm www.chiariglione.org/mpeg/standards/mpeg-2/mpeg-2.htm MP3 (MPEG-1 Layer III) www.chiariglione.org/mpeg/standards/mpeg-1/mpeg-1.htm MPEG-4 www.chiariglione.org/mpeg/standards/mpeg-4/mpeg-4.htm MPEG-7 www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm MPEG-21 www.chiariglione.org/mpeg/standards/mpeg-21/mpeg-21.htm RealAudio www.realnetworks.com/products/codecs/realaudio.html VGF www.twinvq.org/english/index_en.html WMA (Windows Media Audio) www.microsoft.com/windows/windowsmedia/forpros/codecs/audio.aspx AVS (Audio Video Standard) www.avs.org.cn/en/index.asp
  • 13. 13 4. Les formats de compression standard : l’exemple du MPEG-1 Audio Le groupe MPEG (Moving Pictures Experts Group) est issu de deux instances de normalisation : l’ISO (International Standards Organisation) et l’IEC (International Electrotechnical Commission). Les standards MPEG sont généralement utilisés pour la diffusion( internet, télévision) .Les algorithmes MPEG exploitent essentiellement les caractéristiques de l’audition humaine lors de l’étape de compression. 4.1 La norme MPEG1 La norme MPEG-1 (1993) est composée de trois couches (ou modes) optionnelles (Layer 1, 2 ou 3). Chacune de ces couches présente des caractéristiques différentes. De manière générale, chaque nouvelle couche présente par rapport aux précédentes des taux de compression plus élevés (taux de compression maximum). MPEG-1 / Audio Coding Approximate bit rates Compression factor Layer 1 384 kbit/s 4 Layer 2 192 kbit/s 8 Layer 3 128 kbit/s 12 Figure 5 : Débits moyens des différentes couches MPEG1 et facteurs de compression. 4.2 Techniques employées 4.2.1 Le modèle psychoacoustique Les modèles psychoacoustiques essaient de décrire la manière dont une personne perçoit les sons. Ces modèles sont utilisés dans l’algorithme de compression MPEG-1 afin de déterminer avec quelle résolution les différentes données présentes dans le signal audio doivent être codées. Les données perçues avec une grande précision par le système auditif humain seront affectées d’un nombre de bits plus importants que les données moins perceptibles. Par exemple, la bande de fréquences 1000-3000Hz correspond à la zone de plus grande sensibilité de l’oreille. Toute modification du son dans cette zone du spectre peut être préjudiciable car l’auditeur y sera très sensible. Il existe plusieurs modèles psychoacoustiques comme MUSICAM3 ou l’AT&T 4 . Ils sont appliqués selon le type de données audio à compresser et le débit en sortie recherché. Par exemple, les codages d’une voix seule ou d’un orchestre symphonique reposent sur des modèles différents. 4.2.2 Le codage en sous-bandes Cet algorithme décompose le signal en 32 bandes de fréquences (appelées « sous-bandes ») grâce à des filtres spécifiques. 3 Musicam est l’ abréviation de Masking pattern adapted Universal Subband Coding And Multiplexing 4 Modèle psychoacoustique développé par la société AT&T
  • 14. 14 L’encodeur fait une analyse fréquentielle par TFTD (Transformée de Fourrier à Temps Discret) de chaque sous-bande et détermine le niveau de bruit tolérable à l’aide d’un modèle psychoacoustique. Le nombre minimal de bits nécessaires à chaque sous-bande est ensuite attribué par l’encodeur afin que les erreurs de quantification ne soient pas perceptibles. Pour cela, il tient compte des effets de masque. Les informations de quantification de chaque sous-bande sont ensuite transférées avec les échantillons de la sous-bande codée. Figure 6 : Division de la bande audiofréquence en 32 sous-bandes Une dernière étape, le codage entropique, peut être ajoutée à la fin du processus (c’est le cas du MP3). Ce codage sans perte permet la réduction de données en enlevant les redondances des différentes données numériques. Le schéma suivant présente les différentes opérations présentes dans un encodeur perceptuel. Figure 7 : Principe général d’un encodeur perceptuel
  • 15. 15 Détailler le schéma (flux entrant / flux sortant) 4.3) Caractéristiques des différentes couches 4.3.1) MPEG-1 audio couche 1 Le Mpeg-1 couche 1 est aussi connu sous le nom de « Musicam simplifié ». Son débit peut varier de 32 à 448kbit/s pour des fréquences d’échantillonnage classiques de 32, 44,1 et 48kHz. 4.3.2) MPEG-1 audio couche 2 Le Mpeg-1 couche 2 est aussi connu sous le nom de « Musicam ». Son débit peut varier de 32 à 192kbit/s pour un signal mono et de 64 à 384kbit/s pour un signal stéréo. Une des principales différences en ce qui concerne la couche 2 réside dans la précision de l’analyse de chaque sous-bande. En effet, une résolution d’analyse plus élevée de ces sous-bandes permet de repérer avec plus de précision les différentes données à encoder. La figure ci-dessous traite de la difficulté d’évaluer les effets de masque. La largeur des sous-bandes a une influence sur l’appréciation du masquage. Pour un meilleur calcul des phénomènes de masquage, on augmente la résolution de l’analyse fréquentielle de chaque sous-bande en élevant le nombre d’échantillons analysés en entrée. Par exemple, on passe de 128 à 256, 512 ou 1024 échantillons. 4.3.3) MPEG-1 audio couche 3 Le Mpeg-1 couche 3, connu sous le nom « MP3 », ajoute une quantification non uniforme ainsi qu’un codage de Huffman. Cette couche est la plus complexe des trois et permet des taux de compressions supérieurs aux autres. Chacune des 32 sous-bandes principales est subdivisée en 18 sous-bandes supplémentaires. Son débit peut varier de 8 à 320kbit/s avec des fréquences d’échantillonnage pouvant descendre à 24 et 16 kHz. En résumé, voici un tableau récapitulatif des principales caractéristiques des trois couches audio du codec MPEG 1. Complexité du codeur Plage de débits Caractéristiques Couche 1 Basse 32 à 448kbps Filtrage numérique pour les 32 sous-bandes Quantification uniforme Seuil de masquage fréquentiel uniquement Couche 2 Moyenne 32 à 384kbps Filtrage numérique pour les 32 sous-bandes Quantification uniforme Seuils de masquage fréquentiel et temporel Couche 23 Élevée 8 à 320kbps Filtrage numérique + opération mathématique MDCT Quantification adaptative Seuils de masquage fréquentiel et temporel Codage de Huffman
  • 16. 16 5. Les critères d’évaluation 5.1. Caractéristiques des encodeurs / Décodeurs Plusieurs caractéristiques peuvent selon les applications être déterminantes dans le choix d’un encodeur/décodeur. • Le débit : Il peut-être exprimé en kbps et peut-être un critère déterminant dans le choix d’un codec. Ainsi, en fonction de l’application et de la bande passante disponible (VOD Internet), le choix du débit proposé par le « codec » peut être primordiale. • La qualité « audio »  • La Complexité et le temps de retard : Les encodeurs/décodeurs selon leurs complexité, ont un temps de traitement plus ou moins rapide. Ce temps de traitement se mesure en millions d’instructions par seconde (MIPS) ou en millions d’opérations par seconde (MOPS). Pour atteindre des taux de compression supérieurs, les algorithmes de compression sont en général plus complexes et nécessitent des temps de calcul plus élevés. On présentera dans le tableau suivant une comparaison des différentes couches du format MPEG ainsi que leur temps de retard respectif : Couches Débits Taux de compression Retard minimum théorique* Couche 1 192 kbps 4:1 19ms Couche 2 128 kbps 6:1 35ms Couche 3 64 kbps 12:1 59ms * En pratique, les temps de retard sont approximativement trois fois plus importants. La valeur du temps de retard peut être un des critères à prendre en compte notamment pour des applications audiovisuelles en « temps réel » (comme le direct).
  • 17. 17 5.2 Critères d’évaluation de la « qualité audio » La plupart des « codecs » audio utilisent des algorithmes de compression avec perte. Le signal est dégradé en fonction du taux de compression adopté. Les algorithmes de compression sans perte, eux, sont utilisés pour la compression de données et / ou en complément des techniques de compression avec perte. Dans ce cas, il n’y a pas de « qualité audio » à déterminer puisque le signal original peut-être reconstruit dans son intégralité après le processus de décompression. Afin d’évaluer qualitativement les dégradations éventuelles d’un signal audio après codage, réduction de débit et / ou décodage, plusieurs méthodes existent. La plupart de ces méthodes utilisent un signal-test de référence (le signal original avant codage) pour le comparer ensuite au signal à évaluer (signal après codage et décodage). Le premier type de méthode consiste à effectuer des tests d’écoute (tests subjectifs) avec un panel d’auditeurs novices ou experts. Ces méthodes sont généralement considérés comme des références lorsqu’il s’agit d’estimer la qualité audio d’un signal. Néanmoins, ces tests subjectifs sont long et coûteux car ils impliquent le respect de nombreuses conditions comme le choix des auditeurs et du matériel de diffusion sonore, le respect des conditions d’écoute (acoustique de la salle),les séquences, la chronologies des tests … Afin de faciliter la mise en œuvre d’une évaluation de la « qualité » d’un signal audio, de nombreuses recherches ont été menées en psychoacoustique afin de modéliser le système auditif humain. Ces modèles permettent de prendre en compte différentes caractéristiques de l’audition humaine comme les effets de masquage (décrits en Annexe 1) lors de l’analyse et de l’estimation qualitative du signal audio. La qualité audio mesurée par ces méthodes est alors appelée « qualité perceptuelle objective ». 5.2.1 Les critères subjectifs • La recommandation ITU-R BS 1116 La recommandation UIT-R BS. 11165 définit un cadre et des méthodes pour effectuer des tests dans de bonnes conditions (matériel utilisé, acoustique de la salle, choix des séquences audio, chronologie des séquences …) afin d’estimer qualitativement un signal audio. Le protocole consiste en une série d’extraits sonores courts (5 à 10 secondes) diffusés trois fois de suite selon deux possibilités : A B A ou A A B (A étant le signal original et B le signal compressé). Une fois les extraits sonores diffusés, l’auditeur doit identifier la position de B. De plus, l’auditeur doit également émettre une opinion sur la « qualité » de B. Cette opinion est exprimée selon un jugement de valeur arbitraire décrit dans le schéma ci-dessous : 5 La recommandation ITU-R BS 1116 se nomme : « Méthodes d'évaluation subjective des dégradations faibles dans les systèmes audio y compris les systèmes sonores multivoies ».
  • 18. 18 Fig. 9 Echelle de dégradation à cinq notes de l’UIT-R BS 1116 Cette recommandation utilise une méthode dite : « à double aveugle, triple stimulus et référence dissimulée ». Cette recommandation est essentiellement utilisée pour détecter et quantifier de faibles dégradations d’un signal par rapport au signal de référence. En effet, lors de tests concernant des signaux à faible ou à moyen débit, la plupart des notes se retrouvent en bas de l’échelle ce qui rend la distinction peu aisée. Selon l’UER6 , d’autres méthodes comme MUSHRA7 semblent plus adaptées aux signaux audio à faible ou moyen débit (notamment ceux utilisés sur internet). • La recommandation ITU BS.1534-1 (méthode MUSHRA) Alors que la recommandation précédente (ITU-R BS 1116) utilise une méthode « à double aveugle, triple stimulus et référence dissimulée », MUSHRA8 utilise une méthode « à double aveugle, stimulus multiples, avec références et repères dissimulés ». Cette méthode sert à évaluer des dégradations moyennes et / ou importantes du signal audio. Lors des tests d’écoute, les différents extraits audio sont généralement assez dégradés par rapport à la référence, il est donc aisé de les distinguer de cette dernière. Par contre, il est moins facile de pouvoir les évaluer qualitativement entre eux. De ce fait, cette méthode au contraire de la recommandation ITU-R BS 1116 permet aux utilisateurs de comparer librement les signaux dégradés de même débit entre eux afin de mieux les évaluer qualitativement. Par exemple, si un test concerne dix systèmes audio, les évaluateurs peuvent commuter entre au moins treize signaux (la référence « connue » + les dix signaux dégradés + une référence dissimulée + au moins un repère « dissimulé »). À noter qu’il est possible dans le test d’inclure plusieurs repères. La notation des stimulus (extraits audio) dans la méthode MUSHRA s’effectue par rapport à une échelle de qualité comprenant cinq niveaux et graduée de 0 à 100. Ces différents niveaux sont : 6 UER est l’abréviation de Union Européenne de Radio-Télévision 7 MUSHRA est l’abréviation de : « Multi Stimulus test with Hidden Reference and Anchors »
  • 19. 19 On présentera ci-après l’interface utilisateur utilisé par l’UER pour ce test. Figure 10 Interface utilisateur pour les essais MUSHRA utilisé par le groupe 5.2.2 Les critères objectifs Dans le but de faciliter l’évaluation qualitative d’échantillons audio, de nombreux algorithmes prenant en compte les caractéristiques de l’audition humaine ont été développés. Le but de ces méthodes est de pouvoir anticiper un jugement subjectif de la qualité audio avec des méthodes objectives. Le principe général consiste, d’une part, à calculer à l’aide d’un modèle perceptuel d’audition les différences entre le signal original et le signal dégradé9 et, d’autre part, à inclure un modèle cognitif concernant des connaissances sur le jugement humain de la qualité audio. La validité de ces méthodes s’appuie sur la corrélation entre les données issues de ces tests et les données provenant des tests subjectifs. Ces méthodes ont d’abord été appliquées aux signaux audio à bande passante réduite (parole) puis plus tard aux signaux à large bande (musique, ambiances…). En 1996, est 9 On se réfèrera pour une description plus détaillée de ce type de méthode à l’article de John G. BEERENDS et JAN A. STEMERDINK intitulé "A Perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation", publié dans"Journal of Audio Engineering Society", vol. 12, Décembre 1992, pages 963 à 978.
  • 20. 20 apparu l’algorithme PESQ (Perceptual Evaluation of Speech Quality) normalisé par l’ITU-R permettant d’évaluer la qualité de la voix transmise par un réseau de télécommunication. Plus tard, en 1998, l’algorithme PEAQ (Perceptual Evaluation of Audio Quality) a été normalisé par l’ITU-R afin d’évaluer des signaux audio à large bande. • L’algorithme PEAQ10 , L’algorithme PEAQ est une synthèse de six méthodes développées dans les années 90 à savoir : - L’indice de perturbation DIX (Distortion Index) ; Le rapport bruit à masque (NMR) - Le rapport bruit à masque (NMR) - Le système de mesure OASE (Objective Audio Signal Evaluation) - La mesure perceptuelle de la qualité du son (PAQM) - Le système PERCEVAL (PERCeptual EVALuation of the quality of audio signal) - La mesure perceptuelle objective POM (Perceptual Objective Measurement) - La Toolbox Approach Cette méthode a pour objectif de fournir « une mesure objective de la qualité du son perçu ». Pour quantifier la qualité du signal compressé par rapport à celle du signal audio original, l’algorithme PEAQ utilise aussi bien des caractéristiques physiques11 que des considérations psychoacoustiques. Un modèle auditif est donc utilisé permettant ainsi de repérer plusieurs phénomènes psychoacoustiques comme les phénomènes de masquage (décrits en annexe 1) ou comme la perception de certaines bandes de fréquence en fonction de leur intensité sonore. Différentes mesures et jugements qualitatifs sont alors déduits après analyse du signal. On présentera ci-dessous le fonctionnement général de l’algorithme PEAQ afin d’en clarifier le procédé :
  • 21. 21 Figure 12 : fonctionnement général de l’algorithme PEAQ Au vu de la littérature existante12 sur l’évaluation de l’algorithme PEAQ les données issues de cette méthode semblent être dans la plupart des cas conformes aux résultats des tests subjectifs. Cependant, cette corrélation des données issues de PEAQ avec celles des tests subjectifs (l’IUT-R BS 1387 et ITU-R BS 1116 ) semble moins fiable dans le cas de système audio à faible débit. 5.2.3 Synthèse à propos de la qualité audio Nous avons présenté plusieurs méthodes permettant de qualifier quantitativement un contenu audio par rapport à une référence (signal original). Le premier type de méthode regroupe les tests subjectifs considérés dans ce domaine comme une référence (d’après les recommandations ITU et UER) lorsqu’il s’agit d’évaluer une certaine qualité audio. Plusieurs recommandations ITU ont donc été présentées comme la norme ITU-R BS 1116 et ITU BS 1534-1 destinées à évaluer du contenu audio à différents débits. Toutefois, ces tests sont en pratique très difficilement réalisables à cause des nombreuses conditions à respecter (panels d’auditeurs, matériel utilisé, acoustique de la salle …). Ces procédés sont donc destinés à être appliqués dans des locaux spécifiques et semble être en terme de temps très contraignants. D’autres méthodes objectives ont donc été créées afin de faciliter la mise en œuvre de ce type de test. Ces méthodes reposent sur l’utilisation de modèles psychoacoustiques et cognitifs destinés à reproduire la manière dont l’être humain perçoit et juge une qualité sonore par rapport à une autre. L’algorithme PEAQ, normalisé par l’ITU, à donc été succinctement exposé et son processus expliqué. Cependant, ces méthodes objectives restent de bons indicateurs mais semblent, dans certains cas, être peu convainquant au regard des données issues des tests subjectifs notamment pour les faibles débits audio. Les tests subjectifs bien que difficile à mettre en œuvre, semblent donc, pour le moment, être le moyen le plus fiable pour évaluer qualitativement un fichier audio. 12 On se réfère ici aux articles concernant l’évaluation de l’algorithme PEAQ à savoir, l’article de C. Schmidmer « Perceptual wideband audio quality assessments using PEAQ »
  • 22. 22
  • 23. 23 Annexe 1: Rappels de quelques caractéristiques de l’audition humaine Les méthodes de codage audio étant basées sur différentes caractéristiques de la perception auditive humaine, nous rappellerons ici quelques principes fondamentaux nécessaires à la compréhension des principaux algorithmes de compression. Des éléments provenant du livrable « Formats audionumériques » ont été réutilisés afin d’assurer une certaine cohérence générale et de faciliter la compréhension de ce document. • Bande passante de l’oreille humaine La bande passante de l’oreille humaine est de 20Hz-20000Hz. Cela signifie que les fréquences inférieures à 20Hz (les infrasons) ou supérieures à 20kHz (les ultrasons) ne sont pas entendus comme des hauteurs tonales déterminées. • Seuil d’audition et seuil de douleur Figure 9 : Seuil d’audition et de douleur Lecture du graphique : par exemple, pour une fréquence de 1000Hz, le seuil d’audition est de 0dB et le seuil de douleur de 120dB (ce qui correspond à une pression acoustique de 20Pa). Ces courbes ont été obtenues grâce à des tests psychoacoustiques menés en chambre anéchoïque auprès de sujets lambda. L’étude a porté sur la détection du seuil d’audition et du seuil de douleur pour chaque fréquence. Ces tests ont été réalisés en émettant des sons purs (sons sinusoïdaux). • Sensibilité de l’oreille La sensibilité de l’oreille varie selon la fréquence émise. Cela signifie qu’à intensité égale, la sensation auditive de deux fréquences peut être différente. La sensation auditive (sonie ou phone) est donc fonction de l’intensité acoustique et de la fréquence de l’onde sonore. Le diagramme de Fletcher (figure 5) dresse des courbes d’isosonie, c’est-à-dire des courbes de même sensation auditive. Chaque courbe indique quelle doit être l’intensité acoustique de chacune des fréquences pour que toutes soient perçues avec la même intensité. Ces courbes ont été réalisées en diffusant un son pur de 1Khz comme son de référence.
  • 24. 24 Figure 10 : Courbes d’isosonies de Fletcher (source : http://pedagogie.ac-montpellier.fr:8080/disciplines/scphysiques/SP16/images/SP161.40.gif) Lecture du graphique : pour avoir une sensation perceptive équivalente à 60 phones, une fréquence de 1000Hz doit être diffusée à 60dB alors qu’une fréquence de 50Hz doit être diffusée à 80dB.
  • 25. 25 Annexe 2 : Effet de masque On parle de « masquage » dès qu’un signal sonore disparaît de l’image sonore à cause de la présence d’une autre signal sonore. Autrement dit, sur les deux sources sonores en présence, une seule est vraiment entendue. Cette disparition peut être partielle ou totale. Compte tenu de la courbe de réponse non linéaire de l’oreille humaine (Annexe 1), l’effet de masque n'est pas linéaire en fréquence. On distingue le phénomène de masquage simultané, présent pour deux sources simultanées, du masquage temporel, pour lequel les sons masquant et masqués ne sont pas simultanés. • Le masquage simultané Des expériences sur des sujets humains ont montré que pour des signaux masquant correspondant à des fréquences pures, il existait une « zone spectrale » masquée située autour de la fréquence pure. Figure 11 : L'effet de masquage simultané (source : www.minidisc.org) Ces expériences n’utilisent pas des signaux complexes mais permettent de mettre en évidence le mécanisme de masquage qui sert de base aux différentes méthodes de compression audio. En effet, si une composante spectrale est supposée masquée, cette composante n’est pas codée. • Le masquage temporel Parallèlement au phénomène de masquage simultané, il existe un phénomène de masquage temporel, observé plus particulièrement au niveau des transitoires d’attaques (valable pour des chocs ou des impulsions par exemple). Lorsque le son masqué intervient après le son masquant, on parle « d'effet de précédence » ou « effet de Haas ». Un signal sera masqué s'il intervient dans les 20 millisecondes après un signal transitoire (moyennant un certain rapport d'intensité). À l'inverse, un son peut être masqué par un son lui succédant si ce dernier arrive moins de 2 ou 3 millisecondes après.
  • 26. 26 Figure 12 : Phénomènes de masquage temporel Les études sur l’effet de masquage audio ont permis la décomposition du spectre sonore en bandes critiques. • Les bandes critiques Le postulat est que l'oreille humaine intègre les informations fréquentielles par « tranches » comme le laisse supposer le phénomène de masquage simultané. Au voisinage de la fréquence du son masquant, il faut considérablement augmenter le niveau d'un son masqué pour le rendre audible. Le spectre sonore a donc été découpé en « voisinages » qui sont nommés « bandes critiques ». On remarquera tout particulièrement la largeur variable de ces bandes. Figure 13 : Tableau des bandes critiques