L’évaluation de la qualité en audio spatialisé

L’évaluation de la qualité en audio spatialisé 

Dans le contexte des systèmes de codages audio (compression de débit avec pertes de qualité), la qualité des contenus nécessite d’être évaluée. Ce chapitre présente les principales méthodes utilisées pour évaluer la qualité audio ainsi que les biais induits par l’emploi de ces méthodes. Tout d’abord, la perception de l’espace et les systèmes de restitution sonore spatialisée multicanaux et binauraux sont décrits.

La localisation auditive

La localisation auditive (azimut, élévation, distance) est permise grâce au traitement de différents indices : indices interauraux, indices monauraux, rapport champs direct/champs diffus.

Les indices interauraux

La théorie Duplex proposée par Rayleigh (1907) permet de décrire de manière simple les mécanismes de perception en azimut (plan horizontal) par l’utilisation de deux indices perceptifs interauraux : l’ITD (Interaural Time Difference) et l’ILD (Interaural Level Difference). L’ITD caractérise la différence interaurale de temps d’arrivée d’une onde acoustique provenant d’une source à une position donnée. Le retard occasionné est la conséquence de la différence entre le trajet “source – oreille ipsilatérale” (OA) et le trajet “source – oreille controlatérale” (OB) .

L’ITD porte essentiellement l’information du degré de latéralisation de la source sonore et ce jusqu’à une fréquence d’environ 1500 Hz (cette fréquence limite est dépendante de la distance interaurale). L’ILD caractérise les différences de niveau sonore perçues entre chaque oreille pour une source à une position donnée. Il apparaît comme un indice potentiel de latéralisation, complémentaire de l’ITD. Cet indice permet une perception du degré de latéralisation pour les fréquences où l’ITD n’est plus efficace (pour f ≥ 1500Hz). La théorie Duplex proposée par Lord Rayleigh permet de comprendre les mécanismes de la localisation en azimut mais l’utilisation exclusive de l’ITD et de l’ILD ne permet pas au système auditif une perception de l’élévation.

Les indices monauraux

Les IS (indices spectraux) sont des indices monauraux. Ils prennent en compte les effets des réflexions et diffractions des ondes sonores causés par leurs interactions avec le corps d’un auditeur. La morphologie d’un individu engendre une modification spectrale du signal source. L’auditeur interprète ce filtrage anatomique à chaque situation donnée et le compare avec les filtrages stockés en mémoire. Il peut ensuite en déduire la position de la source par reconnaissance de forme. Les IS permettent ainsi une localisation en élévation et participent à diminuer la confusion avant/arrière.

Les HRTF 

Les HRTF (Head Related Transfer Function) sont les fonctions de transfert qui décrivent la propagation acoustique entre la source sonore et les oreilles de l’auditeur. Ces HRTF rassemblent sous une forme compacte l’ensemble des indices monauraux et binauraux mis à disposition du système auditif pour localiser les sons. Elles constituent le concept fondamental des technologies binaurales. La position d’une source sonore est encodée par la fonction de transfert associée à sa direction, et qui traduit l’ensemble des phénomènes de propagation des ondes acoustiques entre la source et l’entrée des conduits auditifs (Moulin, 2011), à savoir :
– la propagation en champ libre,
– la diffraction par la tête de l’auditeur (Duda et Martens, 1998), (Algazi et al., 2001),
– les réflexions sur les épaules et le haut du torse de l’auditeur (Algazi et al., 2002a), (Algazi et al., 2002b),
– les résonances liées à la forme du pavillon (Batteau, 1967), (Shaw et Teranishi, 1968), (Hebrank et Wright, 1974).

Les HRTF sont entièrement déterminées par la morphologie d’un individu. D’un individu à l’autre, la fréquence et l’amplitude des pics et des creux des HRTF sont décalées et leur nombre varie. Lorsqu’un sujet est soumis aux HRTF d’un autre individu, sa perception de la localisation de sources sonores est fortement perturbée. Il apparaît alors une augmentation des confusions avant/arrière, une perception intracrânienne, des distorsions de la localisation en élévation et enfin une perte de frontalisation (Hofman et al., 1998). Les mesures des HRTF sont effectuées dans une chambre anéchoïque. Elles sont réalisées à l’aide de microphones placés dans chaque conduit auditif d’un auditeur. Des hautparleurs sont placés autour du sujet, pour chacune des positions, un signal est émis et une mesure est effectuée. La multitudes de positions de la source engendre des temps de mesure extrêmement longs (plusieurs heures pour 1000 HRTF par exemple) ce qui représente une véritable épreuve pour le sujet qui doit rester totalement immobile.

Les HRTF contiennent tous les indices de localisation de sources sonores d’un individu et permettent le calcul des ITD ou ILD. Les indices perceptifs interauraux (ITD et ILD) et monauraux (IS) permettent donc la localisation de sources sonores en azimut et en élévation.

La restitution sonore spatialisée

La stéréophonie peut être considérée comme l’un des premiers systèmes de spatialisation. Elle s’est particulièrement développée à partir des années cinquante. Le terme “Stéréo” vient du grec et signifie ferme, solide qui par extension au sens de “volume” donne une image d’espace à trois dimensions (wiktionary, 2014). La restitution peut être faite au casque ou sur deux haut-parleurs. Son principe repose sur des différences de temps et d’intensité entre les deux canaux. Depuis, dans le but d’amplifier l’effet de spatialisation, les technologies multicanales sur haut-parleurs et la technologie binaurale au casque se sont développées.

La largeur de base B entre les haut-parleurs L et R est comprise de préférence entre 2 et 3 mètres selon la recommandation ITU-R BS.1116 (1997) et peut atteindre 5 mètres pour des locaux appropriés. La configuration spatiale des enceintes d’un système 5.1 est d’une importance primordiale car elle conditionne directement la qualité d’écoute et le réalisme des effets sonores. Le point d’écoute dit de référence se nomme le “sweet spot” et se situe au centre du cercle sur lequel sont positionnées les cinq enceintes (ITU-R BS.775-2, 2006). Les enceintes doivent être placées à la hauteur des oreilles de l’auditeur. Le caisson (.1) reproduit le canal Lfe (low-frequency effects) et éventuellement, la partie basse du spectre des cinq autres canaux (bass management). Le canal Lfe permet d’améliorer la restitution des basses fréquences pour des effets spéciaux par exemple. Il est toutefois optionnel (ITU-R BS.775-2, 2006).

La reproduction binaurale 

La reproduction binaurale est un procédé qui permet un rendu spatialisé tridimensionnel au casque reposant sur les principes psychophysiologiques de l’audition. La reproduction sonore, réalisée au niveau des conduits auditifs des auditeurs, provoque l’illusion d’être immergé dans une scène sonore en percevant les sources dans un espace tridimensionnel. En ce sens, cette technique se rapproche au plus près de l’écoute naturelle.

Il existe deux formes d’encodage pour la technologie binaurale basées sur les indices de localisation.
– encodage naturel : les signaux binauraux sont enregistrés par une paire de microphones placée à l’entrée des conduits auditifs d’un individu ou d’un mannequin (tête artificielle) .
– encodage artificiel : les signaux binauraux sont obtenus par synthèse binaurale en convoluant un signal monophonique représentant le signal émis par la source sonore par une paire de filtres modélisant les HRTF associées aux oreilles gauche et droite en relation avec une position de source donnée.

L’encodage artificiel permet d’obtenir des signaux par synthèse binaurale. Il peut remplacer l’encodage naturel rendu complexe par la mesure des HRTF. En effet, la mesure acoustique des HRTF est coûteuse et laborieuse. De plus, leur caractère individuel constitue une réelle contrainte. Pour l’encodage artificiel, les signaux sont créés de manière synthétique dans le but de donner à l’auditeur l’impression d’une écoute naturelle et de générer le champ acoustique correspondant. La synthèse binaurale consiste à créer une source sonore virtuelle en convoluant le signal source par la paire de HRTF associée à la position à simuler. Des filtres binauraux sont utilisés pour modéliser les HRTF. Le modèle le plus commun se compose d’un filtre à phase minimale qui reproduit le module spectral de la HRTF, et d’un retard pur qui représente l’information temporelle contenue dans les HRTF (Kistler et Wightman, 1992; Kulkarni et al., 1995).

Le développement des technologies binaurales est ralenti par le caractère individuel des HRTF. Des études récentes apportent des solutions partielles au travers de diverses méthodes (Pernaud, 2003; Busson, 2006). Par exemple, Guillon (2009) propose dans ses travaux de thèse une méthode d’interpolation particulière permettant de reconstruire des HRTF à partir d’un nombre réduit de mesures sur l’individu. Une autre solution proposée par Guillon consiste à adapter un jeu de HRTF, issu d’une base de données, par le biais d’une comparaison morphologique des auditeurs. Des modèles de calcul de filtres binauraux individualisés à l’auditeur, à la fois en termes d’ITD et d’IS, ont été proposés dans les travaux de Busson (2006). La finalité de ces travaux vise l’intégration d’un moteur de spatialisation binaurale dans des applications grand public dans le contexte étendu des télécommunications d’aujourd’hui.

Les méthodes d’évaluation subjective de la qualité sonore

Pour satisfaire un niveau d’exigence, il est indispensable que les contenus audio soient, avant toute diffusion, évalués en terme de qualité. Dans le milieu industriel, il est nécessaire de se référer à des méthodes d’évaluation normalisées pour donner de la valeur aux résultats obtenus et aux choix qui en découlent. En effet, en suivant une méthodologie recommandée et bien détaillée, les conditions et procédures d’évaluation sont identiques à tout expérimentateur. Les tests sont alors reproductibles et peuvent être comparés et discutés. Des organismes comme l’Union Internationale des Télécommunication (UIT) ou L’Union Européenne de Radio télévision (UER) définissent des normes à suivre notamment pour l’évaluation de qualité. Ces normes sont appliquées à l’évaluation de contenus sonores qui ont subi des dégradations notamment par l’application de codages audio. Une procédure généralisée peut être établie pour définir une méthodologie de test. Lawless et Heymann (1998) ont décrit une procédure d’évaluation en trois temps :

* Extraire : cette première étape regroupe la composition du panel, du corpus de stimuli, les paramètres à évaluer et les échelles
* Mesurer : cette seconde partie correspond à l’évaluation des stimuli
* Analyser et interpréter : cette troisième et dernière phase s’intéresse aux choix de la méthode d’analyse (statistique ou linguistique) et à l’interprétation des résultats.

Dans la recommandation EBU Tech 3286 (1997), il est écrit qu’une méthode d’évaluation subjective de la qualité audio doit répondre à cinq prérequis pour être pertinente :
* la composition du panel d’écoute
* les conditions d’écoute
* les paramètres à évaluer
* l’échelle de notation
* la méthode de récolte et d’analyse des résultats.

Dans le but de définir un standard d’évaluation, il est nécessaire de répondre précisément à ces critères pour faciliter l’élaboration de tests d’écoute subjectifs.

ITU-R BS.1534 (MUSHRA) 

La méthode appelée communément MUSHRA (MUltiple Stimilus with Hidden Reference and Anchors) est définie par la recommandation ITU-R BS.1534 (2003). Il existe des applications qui, encore aujourd’hui, ne peuvent diffuser en haute qualité comme par exemple la diffusion par Internet. Cette méthode est dédiée à l’évaluation subjective des systèmes de codage de niveaux de qualités intermédiaires. Il a été montré que cette méthode conduit à des résultats fiables et convergeant sur peu d’auditeurs experts (Soulodre et Lavoie, 1999; EBU, 2000b,a). La recommandation est applicable sur tout dispositif de reproduction, système monophonique, stéréophonique ou multivoie au casque ou sur hautparleurs.

Le panel d’auditeurs
Bien que la méthode ne soit appliquée qu’à des niveaux de qualité intermédiaire, la norme recommande de faire appel à des sujets expérimentés. Ces personnes ont l’habitude de ce type de test, d’écouter le son de manière critique et possèdent des capacités auditives normales au sens de la norme ISO.389 (1985). La méthode préconise une vingtaine de participants pour valider les résultats.

L’échelle
L’échelle de notation est une échelle continue de qualité allant de 0 à 100 avec 5 intervalles nommés mauvais [0-20], médiocre [20-40], assez bon [40-60], bon [60-80] et excellent [80-100]. Cette échelle provient de la recommandation ITU-R BT.500-11 (2002) utilisée pour l’évaluation de la qualité d’image.

Les stimuli
Les extraits sélectionnés pour un test doivent être “critiques” pour permettre de différencier les systèmes testés. Les extraits choisis ne doivent pas excéder vingt secondes pour limiter la longueur d’un test d’écoute, la fatigue engendrée pour les auditeurs et pour diminuer l’effet de mémoire à court terme. Lors d’une session, il est recommandé de proposer au maximum quinze versions différentes d’un extrait avec au minimum cinq extraits différents. Parmi ces quinze items, il faut compter le signal original (la référence explicite), la référence cachée et au moins un signal d’ancrage. Cet ancrage ou repère caché est le résultat du filtrage passe bas du signal non dégradé (la référence) coupé à 3.5kHz. D’autres ancrages peuvent être utilisés comme par exemple la limitation de la largeur de bande à 7 ou 10kHz, l’image stéréo réduite, du bruit supplémentaire, des pertes de paquets, des pertes de signal, etc… Par exemple, si un test contient 5 codages audio à évaluer, un minimum de 8 signaux différents seront présentés lors de la phase de notation incluant le signal de référence, les 5 signaux dégradés par les codages, 1 signal de référence cachée et 1 signal d’ancrage caché.

Comme énoncé précédemment, les versions ou objets évalués, doivent avoir subi des dégradations moyennes ou fortes (Soulodre et Lavoie, 1999). Les dégradations sont marquées et la détection des altérations n’est pas difficile. En revanche, la recommandation ITU-R BS.1116 (1997), détaillée dans la section I.2.2, est dédiée à l’évaluation de la qualité audio pour des dégradations faibles c’est-à-dire pour des systèmes haute qualité. Il est spécifié que la qualité des versions évaluées avec la méthode MUSHRA doit figurer dans la moitié inférieure de l’échelle proposée par la norme ITU-R BS.1116 (1997).

Les attributs évalués
Quel que soit le format de restitution évalué (mono, stéréo, multicanal), il est préconisé d’évaluer, pour chaque test, la qualité audio de base qui est par définition “la caractéristique unique et globale pour évaluer toutes les différences décelées entre la référence et l’objet du test”. La recommandation propose d’autres caractéristiques à évaluer pour les systèmes autre que monophoniques. Pour les systèmes stéréophoniques, il s’agit de la qualité d’image stéréophonique : “cette caractéristique est associée à la différence entre la référence et l’objet en terme d’emplacement des images sonores, d’impression de profondeur et de présence de l’événement audio”. Pour les systèmes multicanaux, les attributs et leurs définitions sont :
– la qualité frontale de l’image : cette caractéristique est associée à la localisation des sources sonores frontales. Elle comprend la qualité d’image stéréophonique et les pertes de définition.
– la qualité d’impression ambiophonique : cette caractéristique est associée à une impression d’espace, à l’ambiance ou à des effets d’ambiophonie directionnels particuliers.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
I L’évaluation de la qualité en audio spatialisé
I.1 La localisation auditive
I.1.1 Les indices interauraux
I.1.2 Les indices monauraux
I.1.3 Les HRTF
I.2 La restitution sonore spatialisée
I.2.1 Le système 5.1
I.2.2 La reproduction binaurale
I.3 Les méthodes d’évaluation subjective de la qualité sonore
I.3.1 ITU-R BS.1534 (MUSHRA)
I.3.2 ITU-R BS.1116
I.3.3 EBU Tech 3286
I.3.4 ITU-R BS.1284
I.4 Les biais des standards d’évaluation
I.4.1 La qualité audio de base
I.4.2 Les ancrages
I.4.3 La référence
I.4.4 L’échelle de notation
II Les attributs de qualité
II.1 Les méthodes d’élicitation
II.2 Les catégorisations d’attributs existantes
II.3 Choix d’une liste d’attributs
II.4 Les testeurs
II.5 Test A : L’analyse multidimensionnelle
II.5.1 Description du protocole de test
II.5.2 Résultats de l’analyse multidimensionnelle
II.6 Test B : La catégorisation libre
II.6.1 Procédure de test
II.6.2 Analyse par cluster
II.6.3 Résultats du dendrogramme
II.7 Discussion
II.8 Conclusion
III La présentation des attributs de qualité dans un test d’écoute
III.1 Protocole expérimental
III.1.1 Conditions d’écoute
III.1.2 Sujets
III.1.3 Séquences sonores
III.1.4 Déroulement du test
III.2 Résultats
III.2.1 Comparaison des deux modes de présentation des attributs
III.2.2 Analyse de l’évaluation selon les attributs
III.2.3 Le choix des ancrages
III.2.4 Corrélation et régression linéaire
III.3 Conclusion
IV L’application d’une méthode d’évaluation multicritère à la restitution binaurale
IV.1 Protocole expérimental
IV.1.1 Sujets et conditions d’écoute
IV.1.2 Séquences sonores
IV.1.3 Déroulement du test
IV.2 Résultats
IV.2.1 L’évaluation de la qualité globale
IV.2.2 L’évaluation des trois attributs
IV.2.3 Corrélation et régression linéaire
IV.3 Conclusion
V La conception et le choix de l’ancrage spatial
V.1 Propositions d’ancrages spatiaux
V.2 Protocole expérimental
V.2.1 Conditions d’écoute et sujets
V.2.2 Stimuli
V.2.3 Déroulement du test
V.3 Résultats
V.4 Conclusion
Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *