Notion de réponse de salle
Un mélange réverbérant est un enregistrement dans les conditions les plus banales : un ou plusieurs microphones sont placés dans une salle qui contient plusieurs sources sonores. Les sources peuvent être musicales, ou des locuteurs par exemple, comme dans une salle de conférences où la superposition des voix nuit à l’intelligibilité des signaux (cocktail party effect [Che53]).
Entre une source ponctuelle et un récepteur, les ondes sonores émises se réfléchissent contre les parois de la salle, si bien qu’on enregistre la somme des contributions correspondant aux différents chemins suivis par toutes les sources. Ce processus est linéaire et invariant par translation temporelle, et il se formalise donc par la convolution des signaux sources par un ensemble de filtres. Ces filtres propres à la salle et dépendant des positions des sources et des capteurs sont appelés réponses impulsionnelles de salle [Kut00] ou Room Impulse Responses (RIR). L’opération inverse, la déconvolution, consiste à récupérer le signal émis à partir d’un enregistrement réverbéré.
Motivations applicatives
Dans le cas d’un signal mono-source, la déconvolution est appelée déréverbération. Dans le cas d’un signal multi-sources, il s’agit plutôt d’un problème de séparation de sources. Ces deux problèmes ont de nombreuses applications.
Déréverbération
Les méthodes de déréverbération se divisent en trois catégories : déconvolution du signal temporel, filtrage spatial, filtrage du spectre de puissance. Une comparaison partielle des différentes approches est disponible dans [EM07], et dans [ZFC11] pour les méthodes de filtrage du spectre de puissance. Nous ne détaillerons pas les méthodes de filtrage spatial, puisqu’elles n’utilisent pas d’information sur les filtres. Les méthodes de déconvolution du signal temporel consistent à appliquer un filtre inverse au signal réverbéré. On distingue alors systématiquement la partie précoce de la réponse de salle de la queue réverbérante, qui ne sont pas estimées de la même manière. La méthode [GM03] estime les filtres, puis les sources par inversion directe dans le plan temps fréquence tout en corrigeant les erreurs de convolution avec évaluation du niveau de bruit. Une approche plus élaborée utilise un modèle de bruit non-stationnaire [YNM09]. La méthode de delayed normalized linear prediction [NYK+10] estime la partie précoce de la réponse de salle par prédiction linéaire, et la queue réverbérante est supprimée suivant un modèle de bruit. Dans ce cas, la réponse de salle n’est pas connue, et on utilise plutôt des méthodes d’estimation du temps de réverbération, de la variance spectrale [HGCS08]. Les méthodes de filtrage de spectre de puissance passent par l’estimation de la variance de la queue réverbérante, qui doit être guidée par un modèle statistique de la réponse de salle. Une première approche modélise la réponse comme un bruit blanc muni d’une enveloppe exponentielle décroissante [LBD01] [KDNM09]. Un modèle moins contraint prend en compte le fait que le temps de réverbération dépend de la fréquence [EH11]. Une méthode hybride combine l’estimation de la variance de la queue réverbérée dans le domaine temporel avec un filtrage du spectre de puissance [KDNM09]. Les applications de la déreverbération peuvent être directes ou indirectes. Le premier objectif est de restituer un signal sans la partie reverbérée. Par exemple, en téléphonie mobile, les appareils sont utilisés en environnement bruité et réverbéré, et on souhaite restituer un signal intelligible. Lorsque la réponse est connue, on peut faire une inversion directe, en revanche la connaissance d’une réponse de salle ne permet pas la déréverbération d’un enregistrement effectué dans la même salle pour d’autres positions du capteur ou du récepteur [Mou85]. Des méthodes de déconvolution aveugle propres aux signaux de parole ont été développées, basés sur la parcimonie [LCKL07b], ou l’harmonicité [NKM07]. La connaissance de la réponse de salle peut également permettre l’amélioration de traitement de mélanges réverbérants, comme par exemple la reconnaissance de la parole. Les algorithmes d’apprentissage sont entrainés dans des conditions idéales, non réverbérées, alors qu’en pratique dans des systèmes embarqués (kits mains libres, visioconférence…), la distance source-capteur augmente, et on est amené à traiter un mélange réverbérant. Les méthodes sont robustes à la présence de quelques réflexions, c’est surtout la queue réverbérante qui pose problème [GA02] : typiquement, le support des premières réflexions a une durée de 30 ms, ce qui correspond à la taille d’une fenêtre d’analyse pour les algorithmes de reconnaissance [KDNM09]. Il a été établi qu’un apprentissage de l’algorithme en milieu réverbérant ne règle pas le problème [KM97]. Certaines approches utilisent l’information de la réponse de salle au moment de l’extraction des descripteurs [KHU10], d’autres se concentrent sur la suppression de la queue réverbérante, modélisée comme un bruit non-stationnaire [LBD01] [KDNM09]. Le modèle des réponses de salles peut être pris en compte directement par l’algorithme de reconnaissance vocale, lors de l’extraction des descripteurs [KHU10][SMK10].
Restitution spatialisée par des haut-parleurs
Les méthodes de spatialisation permettent la restitution d’une scène acoustique dans une pièce à partir d’un grand nombre d’enceintes. L’objectif est de rendre la perception du son la plus naturelle possible, au point que l’auditeur ne soupçonne pas la présence d’un système de haut-parleurs. La stéréo permet de créer cette illusion de manière très limitée, pour un seul point dans la salle appelé sweet spot. C’est un cas particulier des méthodes holophoniques [PCRP11], on peut multiplier le nombre d’enceintes, mais les sweet spots sont limités aux emplacements des microphones. De façon différente, la Wave Field Synthesis (WFS) [BdVV93] est basée sur le principe de Huygens : La pression sonore générée à l’intérieur d’un volume par des sources extérieures peut être calculée si la pression et la vitesse particulaire acoustique à la surface du volume sont connues.
Autrement dit, si on restitue les conditions acoustiques observées sur une surface de la salle, la propagation reproduit à l’identique la diffusion de la scène sonore enregistrée à l’intérieur du volume correspondant. Des systèmes composés d’un grand nombre d’enceintes disposées dans des conditions parfaitement maîtrisées sont aujourd’hui en activité [BSP01]. Leur mise en place nécessite le calcul précis des phénomènes de compensation des ondes diffusées par les enceintes, et donc une bonne connaissance des conditions d’émission et de réverbération [BdVV93]. Pour compenser l’effet de la salle, la calibration du système passe par l’enregistrement d’un grand nombre de réponses de salles. Le nombre de positions pour lesquelles le système est optimisé dépend du nombre de couple de positions pour lesquels la réponse de salle est connue [HdVB02]. Pour des raisons pratiques, les méthodes existantes se restreignent à un ensemble mesurable en un temps raisonnable. Par exemple le système WFS présenté dans [Cor06] est constitué de 48 haut-parleurs, 6 panneaux multi-actuateurs, et l’acquisition des réponses de salles est répétée pour 96 positions.
Restitution binaurale par des écouteurs
Une Binaural Room Impulse Response (BRIR) [Møl92] est la combination du rôle de la salle avec la réponse de l’appareil auditif (le pavillon auriculaire, la tête, le torse) appelée Head Related Transfer Function (HRTF). Chaque réflexion de l’onde sonore correspond à une position différente dans la salle, et donc à une HRTF différente : une BRIR est la somme de plusieurs HRTF retardées et mises à l’échelle. Cette fonction de transfert contient l’ensemble des informations utilisées par le cerveau pour la perception d’une scène sonore et on utilise des bases de BRIR pour la restitution spatialisée par des écouteurs [WK89]. Les BRIRs sont également employées pour l’étude expérimentale des prothèses auditives [KEA+09]. Une étude perceptive place la sensibilité de notre localisation autour de 2◦ pour des bruits roses, et de 5◦ pour des sons musicaux [LMW08] : pour restituer le mouvement des sources musicales, une grille de 5◦ × 5◦ de mesures de BRIR est nécessaire. De plus les BRIR varient d’une personne à l’autre, on ne peut pas se passer d’enregistrements individuels [MSH96], et les caractéristiques du système de restitution doivent être parfaitement contrôlées [LHW07].
|
Table des matières
1 Introduction
Introduction
1.1 Notion de réponse de salle
1.2 Motivations applicatives
1.2.1 Déréverbération
1.2.2 Restitution spatialisée par des haut-parleurs
1.2.3 Restitution binaurale par des écouteurs
1.2.4 Séparation de sources
1.3 Description du processus de mélange
1.4 Problématique
1.5 Estimation des réponses pour différents niveaux de connaissance
1.5.1 Fonction de coût pour l’estimation des filtres lorsque les sources sont connues
1.5.2 Optimisation combinatoire pour le problème de permutation
1.5.3 Estimation des filtres quand les sources sont inconnues
1.6 Contributions
1.7 Plan de la thèse
1.8 Publications associées aux contributions de cette thèse
1.8.1 Articles dans des revues avec comité de lecture
1.8.2 Communications avec actes
1.8.3 Communications sans actes
1.8.4 Rapports techniques
2 Estimation des filtres en environnement contrôlé
2.1 Mesure successive de réponses impulsionnelles
2.1.1 Choix des signaux sources
2.1.1.1 Puissance des signaux
2.1.1.2 Impulsions de Dirac
2.1.1.3 Suites pseudo-aléatoires
2.1.1.4 Sine sweeps
2.1.2 Déconvolution directe dans le domaine fréquentiel
2.1.3 Estimation successive
2.2 Mesure simultanée des réponses impulsionnelles
2.2.1 Maximum Length Sequences simultanées
2.2.2 Méthode des sine sweeps entrelacés
2.3 Évaluation des filtres estimés
2.3.1 Mesure de proximité entre deux filtres
2.3.2 Variabilité des réponses de salle
2.3.3 Bornes sur l’estimation des filtres
2.4 Récapitulatif
3 Problème de permutation en analyse en composantes indépendantes
3.1 Du mélange instantané aux mélanges convolutifs
3.1.1 Mesures d’indépendance des signaux sonores
3.1.2 Rôle de la taille de la fenêtre
3.2 Ambiguïtés d’échelle et de permutation
3.3 Méthode des filtres parcimonieux
3.3.1 Premières garanties théoriques
3.3.2 Algorithme de descente
3.3.2.1 Description
3.3.2.2 Choix du critère ℓp
3.3.2.3 Complexité
3.3.2.4 Résultats
3.4 Récapitulatif
4 Optimisation proximale pour la régularisation de systèmes sous-déterminés
4.1 Optimisation convexe pour la séparation de sources
4.1.1 Hypothèse de parcimonie des sources dans le plan temps-fréquence
4.1.2 Algorithme DUET
4.1.3 Analyse en composantes parcimonieuses
4.2 Algorithmes proximaux pour l’optimisation convexe
4.2.1 Opérateurs proximaux
4.2.2 Caractérisation du minimum
4.2.3 Description des algorithmes
4.3 Optimisation alternée des problèmes biconvexes
4.3.1 Définition et algorithmes
4.3.2 Exemple d’application en traitement d’image
5 Conclusion
Télécharger le rapport complet