Analyse de scène sonore multi-capteurs

Ce rapport expose les travaux réalisés durant ma thèse CIFRE effectuée au sein d’Orange Labs en partenariat avec le Laboratoire d’Acoustique de l’Université du Maine. J’ai intégré l’équipe de recherche TPS – Traitement de la Parole et du Son -, dont les principaux axes de recherche sont le codage de la parole, l’amélioration de la qualité de service (débruitage, annulation d’écho…) et le son immersif, à travers des travaux portant sur les formats audio 3D ambisonique et binaural. Ma thèse a eu pour objet l’analyse et la manipulation temps-réel de contenus audio 3D,  à partir d’une captation microphonique réelle de type ambisonique. Plus précisément, l’approche développée a consisté en une décomposition de la scène captée en sources, appelées aussi objets sonores, via une étape de localisation et de séparation des principales sources d’intérêt au cours du temps. L’analyse et le traitement de contenus audio 3D, notamment au format ambisonique, trouvent une utilité à travers différents champs d’applications que nous détaillons brièvement dans cette introduction.

Utilisation du son 3D dans un contexte multimédia Ces dernières années ont vu l’avènement des contenus audiovisuels en trois dimensions, qui améliorent l’immersivité du spectacle et placent le spectateur au cœur de l’action. La vidéo 3D est maintenant solidement implantée, avec notamment un grand nombre de productions cinématographiques récentes filmées ou réalisées en 3D. L’immersion sonore est également en plein essor, à travers la musique ou le cinéma, même si celle-ci est pour l’instant souvent restreinte à une représentation en deux dimensions (horizontale) de la scène sonore. Les formats multicanal 2D 5.1 ou 7.1. sont parmi les plus répandus et sont utilisés depuis longtemps dans le cadre d’un usage professionnel (salles de cinéma ou salles de spectacle). Ceux-ci font maintenant leur apparition chez les particuliers avec la démocratisation des installations de type home-cinéma : les disques DVD ou Blu-ray supportent ces types de formats audio spatialisés, et certaines chaînes de télévision proposent maintenant des films ou émissions au format 5.1.

Par rapport aux formats 2D, l’audio 3D intègre l’élévation comme dimension supplémentaire et promet ainsi d’améliorer l’immersion sonore des auditeurs. Au cinéma, le son 3D est en passe de se généraliser grâce notamment à la technologie ATMOS de Dolby proposant une solution intégrée pour la génération et le rendu de contenus audio 3D. Par ailleurs, des produits intégrant de l’audio 3D pour le grand public ont déjà vu le jour, comme par exemple le site web Nouvoson [1] de Radio France qui propose l’écoute au casque de contenus spatialisés grâce à la technologie binaurale. La réalité virtuelle est également un domaine où le son 3D est amené à prendre une place importante. Les casques de réalité virtuelle sont maintenant légion : aux côtés du précurseur Oculus Rift, on peut citer le tout dernier HTC Vive ou encore le PlayStation VR de Sony. Ces casques sont par essence basés sur une représentation 3D de contenus immersifs, même si celle-ci se résume encore bien souvent à l’aspect visuel, l’audio restant le parent pauvre en termes de contenus générés. En cela, l’acteur Youtube et son lecteur de vidéos 360◦ semble être le plus avancé en ce qui concerne l’immersion sonore, avec l’intégration native du format audio 3D ambisonique.

Format ambisonique et environnement acoustique

Les travaux effectués durant la thèse ont eu pour objet l’analyse de contenus sonores au format ambisonique. Ce premier chapitre pose les bases théoriques de ce formalisme. Les équations de l’acoustique linéaire sont dérivées jusqu’au développement en harmoniques sphériques du champ acoustique, qui est à la base de l’ambisonie. Les limitations théoriques de cette représentation sont ensuite  évoquées, ainsi que les limites physiques propres aux systèmes de prise de son ambisonique. Le système de captation utilisé durant cette thèse est également caractérisé. Enfin, pour prendre en compte des considérations pratiques, la dernière partie traite de l’influence de l’environnement acoustique (effet de salle) sur la captation.

Le format ambisonique

Michael Gerzon introduit dans les années 70 l’approche ambisonique pour la prise de son spatialisée [4] [5]. Celle-ci est basée sur la décomposition du champ acoustique sur une base de fonctions harmoniques sphériques comme vu précédemment . Concrètement il s’agit de synthétiser des directivités microphoniques correspondant aux premières harmoniques sphériques, par une combinaison linéaire de capteurs quasi- coïncidents. Initialement limité à une représentation d’ordre 1 (utilisation des fonctions harmoniques sphériques jusqu’à l’ordre 1), le formalisme ambisonique a par la suite été étendu aux  ordres supérieurs notamment par les travaux de Jérôme Daniel [6]. Cette représentation avec un nombre de composantes plus important est couramment nommée HOA pour Higher Order Ambisonics.

Intérêt du format ambisonique

La représentation ambisonique présente plusieurs avantages. Le premier est de contenir directement l’information directionnelle du champ acoustique capté au point de mesure. En outre, on relie les coefficients d’encodage à l’ordre 1 d’une onde plane arrivant avec une incidence donnée aux coordonnées de celle-ci exprimée sous la forme (~x,~y,~z) . Le second intérêt est l’homogénéité de la captation spatiale, qui ne privilégie aucune direction de l’espace et autorise aisément des manipulations simples du contenu sonore, comme par exemple des rotations ou des focalisations. Enfin, le format ambisonique est indépendant du système de restitution et permet de restituer la scène sonore dans un grand nombre de configurations, allant de l’écoute au casque à la diffusion sur un ensemble de haut-parleurs, et ce en conservant une représentation spatiale cohérente. Un décodage sur un ensemble de haut-parleurs, de préférence régulièrement disposés, permet de restituer un champ sonore physiquement très proche du champ réel capté, dans une zone s’étalant autour du centre de la sphère d’écoute. Cette zone d’écoute optimale est appelée sweet spot et sa taille va dépendre de l’ordre ambisonique utilisé .

Limitations théoriques de l’encodage microphonique 

Les contraintes physiques du système de captation (taille de l’antenne, nombre de capteurs) impliquent des limites à la fois spatiales (directivité) et fréquentielles (bande passante) à la synthèse des composantes ambisoniques. Tout d’abord, l’utilisation d’un nombre fini de capsules réparties sur une sphère revient à effectuer un échantillonnage spatial du champ sonore, de la même façon que le signal temporel est discrétisé lors de la conversion analogique/numérique. Cela implique un phénomène de repliement spatial en hautes fréquences, lorsque la longueur d’onde λ devient inférieure à deux fois la distance caractéristique inter-capsule d. À ce moment là, l’encodage ambisonique n’est plus valide. Lors de la conception d’une antenne, il est donc judicieux de maintenir d le plus faible possible, soit en réduisant le diamètre de l’antenne, soit en augmentant le nombre de capsules, afin de profiter de l’encodage spatial en hautes fréquences. Les équations liées à l’échantillonnage spatial du champ sonore et l’erreur introduite par celui-ci sont détaillées dans la thèse de S. Moreau [20]. À l’autre extrémité du spectre, le fait d’avoir λ ≫ d rend problématique l’encodage des basses fréquences. Hormis la composante omnidirectionnelle, les canaux ambisoniques sont des gradients de pression, ne pouvant être calculés précisément qu’en présence d’une différence de marche entre les capsules. Lorsque cette différence n’est plus significative, l’erreur d’estimation du gradient dégrade le rapport signal-sur-bruit. De plus, les capsules microphoniques tendent à devenir omnidirectionnelles en basses fréquences, la différence entre les pressions mesurées tend à devenir nulle. Un encodage correct en basses fréquences nécessiterait donc un augmentation du rayon de l’antenne ainsi qu’un nombre important de capsules pour améliorer le rapport signal-à-bruit.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1. Format ambisonique et environnement acoustique
1.1. Représentation du champ acoustique
1.1.1. Equation des ondes
1.1.2. Représentation de Fourier
1.1.3. Equation de Helmoltz
1.1.4. Solutions en coordonnées sphériques
1.1.4.1. Solution générale
1.1.4.2. Solution approchée – troncature à l’ordre m
1.2. Le format ambisonique
1.2.1. Intérêt du format ambisonique
1.2.2. Ambisonie à l’ordre 1 – le format B
1.2.3. Ambisonie aux ordres supérieurs – le format HOA
1.2.4. Système de prise de son HOA
1.2.4.1. Limitations théoriques de l’encodage microphonique
1.2.4.2. Description du microphone utilisé
1.2.4.3. Caractérisation du système de captation ambisonique
1.2.5. Restitution des contenus ambisoniques
1.2.5.1. Diffusion sur haut-parleurs
1.2.5.2. Diffusion binaurale
1.3. Environnement acoustique
1.3.1. Modélisation d’une réponse de salle
1.3.2. Indices de caractérisation de l’effet de salle
1.3.3. Intensité acoustique
1.4. Conclusion
2. Etat de l’art sur l’analyse de scène multi-capteurs
2.1. Séparation aveugle de sources – méthodes parcimonieuses
2.2. Séparation aveugle de sources – méthodes statistiques
2.2.1. Notions de statistiques
2.2.1.1. Densité de probabilité
2.2.1.2. Entropie et information mutuelle
2.2.1.3. Vraisemblance
2.2.1.4. Covariance
2.2.1.5. Cumulants
2.2.1.6. Analyse en composantes principales
2.2.2. Méthodes basées sur les statistiques d’ordre 2
2.2.3. Méthodes basées sur les statistiques d’ordres supérieurs
2.2.3.1. ACI par méthodes tensorielles
2.2.3.2. ACI par minimisation de l’entropie
2.2.3.3. AVI – analyse en vecteurs indépendants
2.3. Analyse de scène basée sur l’ambisonie
2.4. Formation de voies pour la séparation de sources
2.4.1. Focalisation ambisonique
2.4.2. Optimisation de la focalisation
2.4.3. Formation de voies pour la séparation de sources
2.4.4. Synthèse
2.5. Conclusion
3. Analyse de scène – expérimentations sur des contenus synthétiques
3.1. Algorithme d’analyse de scène
3.1.1. Génération des contenus ambisoniques
3.1.2. Analyse-synthèse
3.1.3. Séparation aveugle de sources
3.1.4. Résolution des ambiguïtés de signe et d’amplitude
3.1.5. Estimation des directions d’arrivée
3.1.6. Résolution de l’ambiguïté de permutation
3.2. Critères d’évaluation objectifs
3.2.1. Critères basés sur les directions d’arrivée
3.2.2. Critères basés sur les signaux
3.2.2.1. Toolbox BSSEval
3.2.2.2. Outils d’évaluation mis en place
3.3. Analyse d’un mélange instantané
3.3.1. Localisation des sources
3.3.2. Séparation des sources
3.4. Mélange réverbérant
3.4.1. Localisation des sources
3.4.2. Séparation des sources
3.5. Blanchiment temporel des données par ERBM
3.5.1. Blanchiment des données
3.5.2. Identification signal direct/signal réfléchi
3.5.3. Limitations pour des signaux périodiques
3.6. Conclusion
Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *