Introduction à l’écoute spatialisée
De par sa grande complexité et ses multiples domaines d’étude (physiologie, neurologie, psycho-acoustique, physique ondulatoire, etc.), seuls les principes généraux de la perception spatiale liée au système auditif humain sont présentés ici, en guise d’introduction ou de rappel. Le lecteur curieux est invité à se documenter sur les ouvrages de références [10], [15] et [68], ou encore les manuscrits de thèse [20] et [70].
Espace sonore
La perception sonore de l’espace, bien que souvent négligée au profit de la perception visuelle, n’en est pas moins fondamentale puisqu’elle est l’unique indicateur environnemental qui ne souffre d’aucune restriction spatiale. À titre comparatif, le système visuel (vision fovéale + périphérique) ne délivre d’informations que sur une faible portion de l’espace, alors que le système auditif est effectif pour toutes les directions, avec une précision angulaire (Just Noticeable Difference) de l’ordre de quelques degrés. De plus, le système auditif effectue une analyse permanente et souvent inconsciente de l’environnement, tandis que le système visuel est de plus en plus requis pour effectuer des tâches quotidiennes, nécessitant une attention particulière. La capture d’écran présentée en figure 1.1 est un exemple issu du monde des jeux vidéos. Cette vision subjective du célèbre jeu de tir à la première personne (FPS) Counter Strike présente un certain nombre d’objets, comme les mains du joueur, des caisses, une terrasse, des murs, etc. Bref, aucun danger n’est visuellement apparent. Si le joueur ne dispose pas d’un système de rendu sonore, il n’aura aucune information relative à son environnement autre que celles fournies par la vision, ce qui est restrictif. Si, au contraire, le joueur dispose d’un rendu stéréo classique, il aura accès à d’autres données non visibles. Cependant, privé d’une perception sonore en rendu spatialisé, le joueur devra balayer visuellement l’ensemble de la scène à la moindre alerte auditive, pour identifier la position de la source sonore (tirs, bruits de pas, explosion, etc.). Ce temps perdu peut lui être dommageable. Aussi, pour que le joueur puisse pleinement et rapidement appréhender tout danger non visible à l’écran, un rendu spatial de la scène sonore serait souhaitable. Les mêmes principes s’appliquent au quotidien, à savoir que le système auditif fournit l’ensemble des informations nécessaires à une perception spatiale de l’environnent, dynamique et analytique. La spatialisation sonore est une branche de l’Acoustique dont on peut définir l’objectif général comme étant « la (re)création d’un espace sonore subjectif au niveau de l’auditeur » [20]. D’un point de vue physiologique, l’étude de la spatialisation sonore part d’une hypothèse fondatrice, à savoir que l’oreille interne et l’oreille moyenne n’interviennent pas dans la création des indices de localisation tridimensionnels.
Théorie du Duplex
Des indices dits de localisation sont inhérents à l’analyse discriminatoire de l’espace sonore, effectuée par notre système cognitif. Dans ce sens, deux contributions principales ont été mises en évidence par Lord Rayleigh en 1907, formant ainsi la théorie du Duplex [74]. Cette dernière fut ainsi nommée car elle met en lumière l’analyse des indices acoustiques interauraux, c’est-à-dire issus des signaux perçus conjointement par les deux oreilles. Sur le schéma de la figure 1.3, l’onde sonore incidente est supposée provenir de l’infini. De ce fait, les isovaleurs de pression acoustique sont orthogonales au sens de propagation. Ainsi, de par l’orientation de l’onde dans le plan horizontal, l’oreille gauche percevra l’information plus tôt et plus fort que l’oreille droite. Ces écarts de temps et d’intensité sont caractérisés respectivement par l’ITD et l’ILD :
– Interaural Time Difference, ITD : La différence interaurale de temps est la différence de temps d’arrivée d’une onde sonore entre les deux oreilles. Cet indice de localisation joue un rôle fondamental pour la localisation dans le plan horizontal, notamment en basse fréquence ;
– Interaural Level/Intensity Difference, ILD ou IID : La différence interaurale de niveau est la différence d’intensité de l’onde sonore entre les deux oreilles. Cet indice de localisation joue de même un rôle fondamental pour la localisation azimutale, notamment en moyenne et haute fréquence. En revanche, cette théorie est incomplète pour les sources sonores qui seraient, par exemple, dans le plan médian. En effet, l’ITD et l’ILD sont grossièrement identiques pour une source sonore devant, dessus ou encore derrière un auditeur. Pourtant, l’être humain est capable de discriminer ces directions, avec une précision exemplaire. Le fait est que la théorie du Duplex ne tient pas compte des dissymétries de la tête et du pavillon.
Head-Related Transfer Function
Avec l’approximation de tête sphérique [85], l’ILD et l’ITD de la théorie du Duplex n’apportent pas d’informations discriminatoires dans le plan median, ni dans des cônes communément appelés « cônes de confusion » (fig. 1.4). Il manque donc un indice de localisation pour compléter cette théorie. Ce dernier indice est principalement lié à la morphologie de l’auditeur, notamment la géométrie du pavillon et du conduit auditif de l’oreille externe (fig. 1.2) qui modifient singulièrement l’onde sonore incidente. En effet, des ondes réfléchies peuvent être engendrées selon l’incidence, ainsi que des déformations spectrales liées à des modes de résonance (fig. 1.5). Le timbre du signal émis par la source sonore est alors modifié et ce, en fonction de sa position dans l’espace. Il en résulte des filtres spatio-fréquentiels relativement complexes, encore appelés Direction-Dependent Filters (fig. 1.6). Ces trois indices (ITD, ILD et DDF) sont inclus dans un modèle plus général de filtres fréquentiels communément appelés Head-Related Transfert Functions (HRTF). Par Transformée de Fourier, ces filtres s’expriment aussi bien en domaine fréquentiel qu’en domaine temporel, sous forme de HeadRelated Impulse Responses (HRIR), et peuvent être définis comme suit :
HRTF : R3 × R+ → C
(r, θ, φ) × f → HRT F
HRIR : R3 × R+ → R
(r, θ, φ) × t → HRIR
Exemples de systèmes de spatialisation sonore
Il existe de nombreux systèmes de spatialisation sonore, chacun exploitant de savants mélanges au sein des dimensions perceptives et physiques. Dans cette section, trois de ces techniques sont détaillées, à savoir le panning d’amplitude et sa généralisation au Vector Base Amplitude Panning (VBAP), l’approche Ambisonics et son extension en High Order Ambisonics et pour terminer la synthèse binaurale. Ce choix est principalement motivé par le fait qu’elles ont toutes trois été intégrées dans le spatialisateur PifPaf3D .
Panning d’Amplitude, de la stéréo au VBAP
Le panning d’amplitude est apparu avec les premiers supports utilisant plus d’un canal de diffusion et fait partie des plus anciennes techniques de spatialisation sonore [83]. Le principe théorique est relativement simple, à savoir la création d’une image sonore virtuelle dite « Fantôme », en jouant sur la différence d’intensité de sources sonores réelles ( haut-parleurs). Tout l’art de l’ingénieur du son consiste en l’obtention d’une image sonore robuste et réaliste, répartissant judicieusement l’ensemble des objets virtuels sur des segments reliant les sources réelles. La restitution stéréophonique, encore très largement dominante aujourd’hui, est fondée sur ce principe. En disposant l’auditeur et deux haut-parleurs (gauche et droit) sur les sommets d’un triangle équilatéral, ce système permet une restitution spatialisée sur une dimension d’espace. Il est important de noter qu’une contrainte forte affecte l’ensemble des systèmes de spatialisation sonore sur enceintes, à savoir le positionnement des sources sonores par rapport à l’auditeur (notion de Sweet Spot).
Enfin, de récents travaux ont donné naissance aux techniques de Vector Base Amplitude Panning (VBAP), autorisant une répartition quelconque des haut-parleurs sur une sphère entourant l’auditeur [73]. Cette approche est une extension de la stéréo vers un système à multiples sources sonores réelles, ce qui permet de définir un support quelconque pour les sources fantômes (triangle, quadrangle, etc.). Une loi d’interpolation est alors appliquée aux canaux pour déterminer leurs gains, en utilisant notamment les cordonnées barycentriques de la source virtuelle dans la base formée par les sources réelles (fig. 1.10). Un maillage quelconque de haut parleurs peut être envisagé, ce qui permet de s’affranchir des contraintes liées aux systèmes fixes précédents. Cette méthode a été implémentée dans le spatialisateur PifPaf3D, en marge des travaux de thèse, et testée sur un maillage de 16 haut parleurs répartis dans une pièce de type bureau. Le script réalisé permet notamment de générer le maillage triangulaire selon la position absolue des haut-parleurs, et de naviguer en temps réel dans ses éléments pour créer les sources fantômes. Les résultats de cette étude feront éventuellement l’objet d’une publication ultérieure. Face au développement de ces nouveaux systèmes de restitution, toujours plus complexes et précis, la notion d’objet sonore ponctuel devient dès lors incontournable pour que les techniques de spatialisation soient humainement réalisables. En effet, le mixage stéréo ne nécessite qu’un potentiomètre pour répartir l’intensité sonore de la source virtuelle entre les deux canaux de diffusion. Dans le cas d’un maillage triangulaire dense, il est nécessaire de manipuler des objets sur des surfaces, ce qui complique singulièrement l’interface homme-machine. C’est pourquoi l’ensemble de la chaîne de traitement audio, de la captation à la restitution en passant par le mixage, subit aujourd’hui de grands bouleversements.
|
Table des matières
Introduction
1 Synthèse binaurale et HRTF
1.1 Introduction à l’écoute spatialisée
1.1.1 Espace sonore
1.1.2 Théorie du Duplex
1.1.3 Head-Related Transfer Function
1.2 Exemples de systèmes de spatialisation sonore
1.2.1 Panning d’Amplitude, de la stéréo au VBAP
1.2.2 High Order Ambisonics, captation et restitution
1.2.3 Technologies binaurales, enregistrement et synthèse
1.3 Head-Related Transfer Function, what else ?
1.3.1 Modèle de HRTF, la sphère rigide
1.3.2 Mesures de HRTF, Acoustics Research Institute
1.3.3 Interpolation linéaire
1.3.4 Interpolation par harmoniques sphériques
1.4 Décomposition par Modèle Morphologique
1.4.1 Principe et résultats
1.4.2 Interpolation optimisée
1.4.3 Variations de position
1.4.4 Déraffinement spatial d’une base de données
1.4.5 Vers une méthode d’individualisation
2 Moteur binaural PifPaf3D
2.1 Introduction et configuration
2.2 Transport et contrôle
2.3 Traitement Binaural
2.4 Acoustique de salle et Ambisonics
2.5 Compensation du casque et égalisation
2.6 SpherAudio Headphones
3 Formulations intégrales rapides pour l’acoustique
3.1 Représentation et équations intégrales
3.1.1 Diffraction dans l’espace libre
3.1.2 Diffraction en présence d’un obstacle
3.1.3 Équations intégrales
3.1.4 Formulations discrètes
3.2 Introduction aux méthodes multipolaires rapides
3.3 Nouvelle méthode rapide – SCSD
3.3.1 Vers un problème mono-dimensionnel
3.3.2 Résolution du problème
3.3.3 Formalisme final pour l’équation de Helmholtz
3.3.4 Extension vers Laplace (et plus si affinités…)
3.4 Comparaisons et performances
3.4.1 Méthodologie
3.4.2 Résultats
4 Moteur intégral MyBEM
4.1 Présentation
4.2 Validations
4.3 Applications au calcul de HRTF
Conclusion
Télécharger le rapport complet