Télécharger le fichier pdf d’un mémoire de fin d’études
Restitution binaurale par des écouteurs
Une Binaural Room Impulse Response (BRIR) [Møl92] est la combination du rôle de la salle avec la réponse de l’appareil auditif (le pavillon auriculaire, la tête, le torse) appelée Head Related Transfer Function (HRTF). Chaque réflexion de l’onde sonore correspond à une position différente dans la salle, et donc à une HRTF différente : une BRIR est la somme de plusieurs HRTF retardées et mises à l’échelle. Cette fonction de transfert contient l’ensemble des informations utilisées par le cerveau pour la perception d’une scène sonore et on utilise des bases de BRIR pour la restitution spatialisée par des écouteurs [WK89]. Les BRIRs sont également employées pour l’étude expérimentale des prothèses auditives [KEA+09].
Une étude perceptive place la sensibilité de notre localisation autour de 2◦ pour des bruits roses, et de 5◦ pour des sons musicaux [LMW08] : pour restituer le mouvement des sources musicales, une grille de 5◦ × 5◦ de mesures de BRIR est nécessaire. De plus les BRIR varient d’une personne à l’autre, on ne peut pas se passer d’enregistrements individuels [MSH96], et les caractéristiques du système de restitution doivent être parfaitement contrôlées [LHW07].
Séparation de sources
La séparation de sources consiste à extraire les différentes sources sonores présentes dans l’enregistrement d’un mélange sonore, par exemple plusieurs locuteurs, ou plusieurs instru-ments de musique. Les applications sont nombreuses : c’est une étape nécessaire pour amélio-rer le confort des appareils auditifs, les performances reconnaissance vocale en environnement bruité, la commande vocale, ou encore dans le cadre du post-traitement d’enregistrements mu-sicaux. Par exemple la restitution spatialisée par WFS d’une scène sonore multi-sources sou-lève un problème de séparation de sources lorsque les sources ne sont pas disponibles séparées [AJ02]. Dans ce cas, les artefacts introduits par les algorithmes de séparation sont partiellement compensés lors de la restitution.
Il existe un large panel de méthodes présentées en audio. On se focalise sur les méthodes de séparation des enregistrement multi-canaux, en mettant l’accent sur les différentes utilisations de l’information des filtres. Le problème est fondamentalement mal posé : la notion même de source est ambigüe dans la plupart des enregistrements, et les approches s’orientent de plus en plus vers des méthodes informées. Dans un premier temps la plupart des améliorations ont porté sur les modèles spectraux associés aux sources, il est donc naturel de se pencher sur la modélisation des filtres pour compléter la modélisation.
Un première approche, dans le cas sur-déterminé (M ≥ N ), consiste à rechercher un filtre inverse pour isoler chaque source à partir du mélange multicanal. Les méthodes de filtrage spatial ou beamforming approximent le filtre inverse [Van02], sous l’hypothèse que les filtres sont anéchoïques, c’est-à-dire en assimilant chaque filtre à son champ direct. L’Analyse en Composantes Indépendantes (ACI) [KAM07] [SAMM07] estime le filtre inverse en chaque point temps-fréquence en supposant que les contributions de chaque source sont statistiquement indépendantes. L’expérience montre que cette dernière hypothèse est valide dans la plupart des situtations [PVD09]. Lorsque le mélange est convolutif, l’ACI se heurte au problème de permutation (cf. Chapitre 3).
La Sparse Component Analysis (SCA) suppose de plus que les sources sont parcimonieuses dans le plan temps-fréquence, en modélisant les sources par des distributions à queues lourdes. Les méthodes masquage temps-fréquence exploitent la diversité parcimonieuse des sources pour effectuer un clustering dans le plan temps fréquence [YR04], à nouveau en approximant le filtre par leur champ direct. Ces méthodes fonctionnent dans les mélanges sous-déterminés convolutifs, cependant les filtres ne vérifient pas strictement cette approximation et la sépara-tion introduit alors des artefacts [VAT+12]. La régression parcimonieuse a également été utili-sée dans le cas convolutif [WKSM07], en approximant les filtres par leur réponse fréquentielle sur une fenêtre courte.
Des modèles de signaux peuvent remplacer les hypothèses de parcimonie des sources, comme les Spectral Gaussian Mixture Models [BBG06], et fonctionnenent même dans le cas mono-canal [Row00]. La factorisation en matrices positives ou Non-negative Matrix Factori-sation (NMF) [SB03] permet de factoriser le spectrogramme de puissance de chaque source en produit de deux matrices W, H à coefficients positifs : on associe par exemple un modèle de signal à W [VCG08] et une contrainte de parcimonie à H [FBD09], si bien qu’on peut interpréter W comme un dictionnaire d’atomes spectraux, et H comme une carte d’activation temporelle. La Flexible Audio Source Separation Toolbox (FASST) [OVB12] généralise une grande famille de modèles de signaux, et permet de s’adapter aux signaux considérés.
D’une manière générale le mélange convolutif est traité en approximant les filtres par leur réponse fréquentielle sur une fenêtre courte, voire par leur champ direct. Il a été démontré que la modélisation du filtre dans le domaine temporel donne de meilleurs résultats pour la SCA [KVG10], cependant ce résultat nécessite la connaissance du filtre à ce stade.
Une campagne de séparation de sources [ANV+12] permet de comparer les différentes approches existantes.
Estimation des réponses pour différents niveaux de connais-sance
Nous résumons dans le Tableau 1.1 les méthodes d’estimation des filtres en fonction de la connaissance des sources et du type de mélange considéré. Dans un premier temps on suppose qu’on connait exactement les sources, apparemment trop courtes (Contribution 1), puis on suppose qu’on connait la matrice de filtres à une famille de permutations près (Contribution 2), et enfin on étudie le problème de l’estimation aveugle à partir du mélange, lorsqu’on ne connait pas les sources (Contribution 3).
Fonction de coût pour l’estimation des filtres lorsque les sources sont connues
L’estimation des filtres lorsque les sources sont connues est un problème inverse linéaire : estimer A lorsque X et S sont connus sachant X = A ⋆ S . Les sources et les filtres jouent un rôle symétrique, et ce problème est similaire à celui de l’estimation des sources lorsque la matrice de mélange est connue : estimer S lorsque X et A sont connus sachant X = A ⋆ S.
Si le filtre est court, et les sources longues, le système X = A⋆S comporte plus d’équations que d’inconnues, et l’inversion ne pose pas de problème. On parle de problème inverse mal posé lorsque le système est sous-déterminé (filtre long et sources courtes), et il y a alors plusieurs solutions possibles. Nous introduisons une fonction de coût P sur l’ensemble des solutions qui permet de reformuler par exemple le problème en un problème d’optimisation sous contraintes minA P(A) (1.4) s.c X = A ⋆ S.
Il existe dans la littérature plusieurs fonctions de coût pour les sources sonores, souvent liées aux hypothèses de parcimonie et d’indépendance présentées dans les Chapitres 3 et 4. Ce-pendant, cette question a été beaucoup moins étudiée en ce qui concerne les filtres. Un modèle parcimonieux de réponses de salles à été utilisé pour la déréverbération d’un mélange à une source et deux canaux [LCKL07a] et pour la séparation de sources [SAG10], mais seulement dans le cas où les sources sont actives une par une.
Problème 1 : Quelles fonctions de coût sont adaptées à l’estimation des filtres associés à des réponses de salles par inversion régularisée d’un système sous-déterminé ?
Optimisation combinatoire pour le problème de permutation
L’ACI convolutive [MD03] permet une séparation de sources efficace lorsque le nombre de capteurs est supérieur ou égal au nombre de sources. La séparation se fait dans un premier temps indépendamment sur plusieurs bandes de fréquence, on estime alors les sources et les filtres à une permutation près. Dans une seconde étape, il faut rassembler les fragments prove-nant d’une même source. La correction de cette indétermination passe par la recherche d’une permutation dans chaque bande de fréquence parmi l’ensemble des permutations SN d’un en-semble à N éléments. Les méthodes exploitant la nature de la matrice de filtres se basent sur l’information de localisation des sources [SMAM04], essentiellement contenue dans le champ direct. Notre approche va plus loin, puisqu’elle utilise les premiers échos des filtres.
Mesure successive de réponses impulsionnelles
Le protocole de mesure de réponses impulsionnelles se fait en trois étapes : l’émission d’un son (le signal excitatoire), l’enregistrement de sa version réverbérée, puis la déconvolution de l’enregistrement. Dans le cas de la mesure de plusieurs réponses de salles, nous distinguerons l’estimation successive, c’est-à-dire lorsque les sources sont activées une par une, de l’estima-tion simultanée dans un mélange réverbérant.
Choix des signaux sources
Le choix des signaux sources permet idéalement de remplir trois objectifs [SEA02] :
— des sources parfaitement reproductibles,
— un rapport signal-à-bruit de l’enregistrement maximal,
— des non-linéarités d’émission minimales.
Puissance des signaux
En présence d’un bruit de fond dans une salle, un signal plus puissant donne un meilleur rapport signal-à-bruit. Les entrées numériques étant limitées en amplitude, on souhaite utiliser un signal le plus puissant possible pour une amplitude donnée, pour préserver le système de restitution et limiter les non-linéarités. C’est pourquoi on considère des signaux normalisés en amplitude, s ∞ = 1 pour mesurer la puissance.
La mesure typique de puissance en audio d’une source s de longueur T normalisée est la moyenne des carrés ou Root Mean Square (RMS)
Impulsions de Dirac
La mesure la plus directe s’obtient en émettant un signal de Dirac. Cependant, on trouve difficilement des Diracs parfaitement reproductibles. Théoriquement, la réponse de salle est exactement l’enregistrement obtenu en réponse à un signal de Dirac. En pratique, le signal émis (tir au pistolet, clave, explosion de ballon de baudruche, clic) est une approximation d’un signal de Dirac : il a une couleur et la réponse en est affectée. Pour compenser ces erreurs de mesure, on applique un traitement à la réponse de salle obtenue, en tenant compte de la vraie nature du signal émis. Des modèles spécifiques ont été développés, par exemple pour les ballons de baudruche [ABH+10] ou des tirs au pistolet [Bra86]. Les difficultés rencontrées suggèrent d’utiliser des signaux connus, émis dans des hauts-parleurs, pour limiter les approximations.
De plus, l’émission de l’impulsion doit être suivie d’un silence, le temps que le système revienne à un état d’équilibre. Le rapport signal-à-bruit de l’enregistrement en est considéra-blement affecté, et on préfère utiliser des sources les plus puissantes possibles.
Suites pseudo-aléatoires
Les suites pseudos-aléatoires ont ainsi remplacé les impulsions pour la mesure des réponses de salles, en partie pour des raisons de puissance de signal [SEA02]. La première approche, proposée par Schroeder en 1979 [Sch79], était destinée à la mesure des réponses par un si-gnal inaudible, mais puissant, pendant la représentation d’un opéra. Pour maximiser le rapport signal-à-bruit on utilise un signal de puissance maximale. Il est donc naturel de choisir des signaux aléatoires de type Bernoulli.
Les Maximum Length Sequence (MLS) sont des suites pseudo-aléatoires de longueur D = 2d − 1, d ∈ N aux propriétés algébriques fortes qui permettent une déconvolution exacte des enregistrements : leur fonction d’autocorrélation est proche d’un Dirac, ce qui permet de construire explicitement un inverse au sens de la convolutio. La construction des suites MLS passe par les polynômes irréductibles sur les corps finis. L’idée est de construire une orbite de l’espace vectoriel Fn2 sous l’action de la translation. On obtient ainsi une suite périodique qui n’est similaire à aucune de ses translations. Soit P (X) = Xn + λn−1Xn −1 + . . . + λ0 un polynôme irréductible de F2[X], tel que X génère F2[X]/ P . Il n’existe à ce jour aucune méthode déterministe pour la construction d’un tel polynôme, mais des méthodes itératives existent [Sta73]. Une suite MLS est définie par une initialisation s(0), . . . , s(n − 1) ∈ F2 et la relation de récurrence
Estimation successive
L’approche naïve consiste à estimer à tour de rôle les réponses de salles pour chacune des N sources. Plusieurs capteurs peuvent enregistrer simultanément les sources qui sont activées une à une. C’est la méthode la plus précise, et la plus utilisée. On multiplie le temps d’acquisition par le nombre de sources.
Le mesure par des Diracs successifs entrecoupés de silence de durée K − 1 est la plus rapide et nécessite un enregistrement d’une durée totale de Tdirac = N (K − 1), K étant la durée du filtre. Dans le cas de sine sweeps successifs, on doit prendre en compte la durée D d’un sine sweep, et le temps d’attente nécessaire entre deux signaux pour que le système revienne à l’équilibre. La durée totale d’enregistrement est de Tsweeps = N (D + K − 1). On obtient le même temps TMLS = N (D + K − 1), pour les suites MLS, avec une contrainte en plus sur la longueur des signaux, de type D = 2d − 1, d ∈ N.
Mesure simultanée des réponses impulsionnelles
Pour accélérer la mesure de plusieurs réponses impulsionnelles d’une même salle, on peut les estimer à partir de l’enregistrement simultané de plusieurs sources.
Maximum Length Sequences simultanées
On a vu que la fonction d’autocorrélation d’une suite MLS est très proche d’un Dirac. Une des conséquences de ce résultat est que le signal est orthogonal à toutes ses translations. Ainsi une méthode d’estimation simultanée a été proposée [GZPdD04]. En émettant N suites de longueur D = 2d − 1, d ∈ N, translatées d’un facteur K, on obtient des enregistrements qu’on peut inverser. La généralisation de l’inversion des suites MLS comme un cas particulier du time multiplexing suggère que la méthode fonctionne avec tous les types de suites pseudo-aléatoires. On utilise le fait que la fonction d’autocorrélation est proche d’un Dirac, on obtient à un terme négligeable près 1 ≤ i ≤ M, 1 ≤ j ≤ N, i = j, xi ⊗ sj (t) ≃ aij (t), T ≤ t ≤ T + K − 1. (2.12)
Cette propriété est vérifiée par toutes les suites pseudo-aléatoires. On obtient alors en négligeant les effets de bord TMLSsim = N K.
Méthode des sine sweeps entrelacés
Une méthode plus adaptée à la gestion des non-linéarités [MBL07] consiste à superposer des sine sweeps tout en s’assurant que leurs contributions réverbérées restent disjointes dans le plan temps-fréquence lors de l’enregistrement. Si on suppose que la réponse des enceintes et des microphones est linéaire, il suffit de laisser un écart de longueur K −1 entre le lancement de chaque sine sweep. Un spectogramme de l’enregistrement obtenu dans le cas de deux sources est disponible dans la Figure 2.1. Un silence additionnel de longueur K − 1 est nécessaire pour estimer la dernière réponse. Ainsi la durée totale de l’enregistrement passe de N (D + K − 1) à TMLSsim = cN (K − 1) + D. La méthode simultanée avec des sine sweeps permet, comme dans le cas monosource, de gommer les non-linéarités : on applique un masque dans le plan temps-fréquence pour supprimer les harmoniques correspondant aux non-linéarités, et ne garder que la partie linéaire de la réponse.
|
Table des matières
1 Introduction
Introduction
1.1 Notionde réponse de salle
1.2 Motivations applicatives
1.2.1 Déréverbération
1.2.2 Restitution spatialisée par des haut-parleurs
1.2.3 Restitution binaurale par des écouteurs
1.2.4 Séparationde sources
1.3 Description du processus de mélange
1.4 Problématique
1.5 Estimation des réponses pour différents niveaux de connaissance
1.5.1 Fonction de coût pour l’estimation des filtres lorsque les sources sont connues
1.5.2 Optimisation combinatoire pour le problème de permutation
1.5.3 Estimation des filtres quand les sources sont inconnues
1.6 Contributions
1.7 Plande la thèse
1.8 Publications associées aux contributions de cette thèse
1.8.1 Articles dans des revues avec comité de lecture
1.8.2 Communications avec actes
1.8.3 Communications sans actes
1.8.4 Rapports techniques
I État de l’art
2 Estimation des filtres en environnement contrôlé
2.1 Mesure successive de réponses impulsionnelles
2.1.1 Choix des sign aux source
2.1.1.1 Puissance des signaux
2.1.1.2 Impulsions de Dirac
2.1.1.3 Suites pseudo-aléatoires
2.1.1.4 Sine sweeps
2.1.2 Déconvolution directe dans le domaine fréquentiel
2.1.3 Estimationsuccessive
2.2 Mesure simultanée des réponses impulsionnelles
2.2.1 Maximum Length Sequences simultanées
2.2.2 Méthode des sine sweeps entrelacés
2.3 Évaluationdesfiltres estimés
2.3.1 Mesure de proximité entre deux filtres
2.3.2 Variabilité des réponses de salle
2.3.3 Bornes sur l’estimation des filtres
2.4 Récapitulatif
3 Problème de permutation en analyse en composantes indépendantes
3.1 Du mélange instantané aux mélanges convolutifs
3.1.1 Mesures d’indépendance des signaux sonores
3.1.2 Rôle de la taille de la fenêtre
3.2 Ambiguïtés d’échelle et de permutation
3.3 Méthode des filtres parcimonieux
3.3.1 Premières garanties théoriques
3.3.2 Algorithme de descente
3.3.2.1 Description
3.3.2.2 Choix du critère ℓp
3.3.2.3 Complexité
3.3.2.4 Résultats
3.4 Récapitulatif
4 Optimisation proximale pour la régularisation de systèmes sous-déterminés
4.1 Optimisation convexe pour la séparation de sources
4.1.1 Hypothèse de parcimonie des sources dans le plan temps-fréquence
4.1.2 AlgorithmeDUET
4.1.3 Analyse en composantes parcimonieuses
4.2 Algorithmes proximaux pour l’optimisation convexe
4.2.1 Opérateurs proximaux
4.2.2 Caractérisation du minimum
4.2.3 Description des algorithmes
4.3 Optimisation alternée des problèmes biconvexes
4.3.1 Définitionet algorithmes
4.3.2 Exemple d’application en traitement d’image
II Contributions
5 Estimation simultanée des filtres
5.1 Estimation des filtres en régime sous-déterminé
5.2 Étude statistique d’une famille de filtres
5.2.1 Synthèse d’une base de données de réponses de salles
5.2.2 Distributions retenues
5.2.3 Estimation au sens du maximum de vraisemblance
5.2.4 Résultats
5.3 Mise enplace de l’algorithme
5.3.1 Choixdes pénalités
5.3.2 Calcul des opérateurs proximaux
5.3.3 Calcul du gradient et de sa constante de Lipschitz
5.4 Expérience préliminaire sur des mélanges synthétiques
5.5 Protocole expérimental
5.5.1 Conditions de l’expérience
5.5.1.1 Acquisition de la vérité terrain
5.5.1.2 Longueur K desfiltres
5.5.1.3 Caractérisation du bruit de fond
5.5.1.4 Discussion sur les mesures de qualité d’une réponse impulsionnelle
5.5.2 Paramètres de l’algorithme
5.5.2.1 Signauxsources
5.5.2.2 Paramètres des pénalités considérés
5.5.2.3 Paramètres deFISTA
5.6 Résultats expérimentaux
5.6.1 Comparaison entre les différents types de sources
5.6.2 Influence du silence dans les signaux sources
5.6.3 Performances de la méthode proposée pour T = 0.45 Tcrit
5.6.3.1 Rôle de la pénalité
5.6.3.2 Analyse qualitative des réponses estimées
5.6.4 Robustesse à un temps de réverbération erroné
5.6.5 Influence de la durée d’enregistrement T
5.6.6 Choix du paramètre de régularisation λ
5.7 Récapitulatif
6 Caractère bien posé du problème de permutation en analyse en composantes indépendantes
6.1 Résultat principal
6.1.1 Hypothèse de parcimonie des filtres
6.1.2 Théorème pour L premier
6.2 Preuve duThéorème 6.1
6.2.1 Mesure de la taille de la famille de permutations
6.2.2 Conséquence du principe d’incertitude
6.2.3 Arguments combinatoires
6.2.3.1 Lemme sur les matrices bistochastiques
6.2.3.2 Optimalité de la borne obtenue
6.2.3.3 Application au problème de permutation
6.2.4 Preuve duThéorème 6.1
6.2.5 Extensions du Théorème 6.1 pour L nonpremier?
6.3 Discussion
6.3.1 Extensions possibles pour des supports disjoints
6.3.2 Unpessimisme excessif?
6.4 Expériences numériques
6.4.1 Choix du critère ℓp
6.4.2 Simulations de Monte-Carlo
6.4.3 Rôle du critère ℓp
6.4.4 Rôle de la longueur du filtre L
6.4.5 Rôle du nombre de canaux M
6.4.6 Rôle du nombre de sources N
6.4.7 Temps de calcul
6.5 Récapitulatif
7 Un écueil en déconvolution aveugle
7.1 Régularisationavec des a priori
7.2 L’écueil duminimumglobal
7.3 Minima locaux
7.3.1 Analyse locale de (P1) dans le cas ℓ1
7.3.2 Formalisation du problème en optimisation convexe
7.3.3 Représentation temps-fréquence à coefficients réels : codage par MDCT
7.3.4 Étude expérimentale
7.4 Récapitulatif
8 Conclusion et perspectives
A Calcul du gradient de L
B Preuves du Chapitre 6
B.1 Peignes deDirac
B.2 Preuve de laProposition1
B.3 Preuve de laProposition2
B.4 Preuve de laProposition3
Bibliographie
Télécharger le rapport complet