Débruitage de la parole par antenne acoustique

Si depuis près de quarante ans la communauté scientifique travaille à l’utilisation des antennes acoustiques couplées aux méthodes de formation de voies pour l’enrichissement de la parole, cela n’a pas été toujours suivi dans la pratique. Ce n’est que depuis une vingtaine d’années que naît l’engouement pour les systèmes multimicrophones et ceux-ci commencent à apparaître dans les systèmes de visioconférences, les kits mains libres, les interfaces hommes/machines, les implants cochléaires… Depuis environ deux ans, une nouvelle génération de téléphones portables équipés d’au moins deux microphones tel que le LG SH400 ou Nokia 6720 relancent les activités de recherche des équipementiers du secteur des télécommunications qui voient poindre le besoin de tels systèmes notamment pour la conception des environnements dit « intelligents ».

Longtemps jugées trop coûteuses et encombrantes, les techniques de formation de voies étaient aussi victime d’une incapacité technologique. En effet, il a fallu attendre l’arrivée de processeurs de traitement du signal performants et la maîtrise de la miniaturisation des microphones (notamment sur silicium) et des circuits pour que le coût de calcul et l’encombrement de l’antenne acoustique ne soient plus des facteurs limitants au déploiement de ces méthodes, notamment dans les systèmes embarqués. Aujourd’hui, les verrous technologiques sont levés au prix de contraintes d’utilisations plus diverses et plus adverses. L’utilisateur souhaite par exemple pouvoir téléphoner dans les lieux publics ou au milieu d’une foule sans que son correspondant ne soit gêné par le bruit ambiant. Ces conditions de bruit sont encore plus pénalisantes dès lors que l’on souhaite effectuer la prise de son en mains libres. Cette volonté dynamise les travaux de recherche sur la prise de son par antenne acoustique et, parallèlement, nous voyons apparaître de nouvelles méthodes en réponse à ces nouveaux cas d’utilisation.

Débruitage de la parole par antenne acoustique

Le domaine du traitement d’antenne, y compris acoustique, est un sujet très vaste (cf. frise chronologique en fin de chapitre). Il est donc difficile, voir même prétentieux, de prétendre le maîtriser dans son ensemble et surtout réussir à le présenter complètement, en particulier dans un mémoire de thèse. Par conséquent, notre objectif ici n’est pas de redéfinir une fois de plus les grands principes qui lui sont associés, ni même de faire l’inventaire des techniques les plus connues pour le traitement d’antenne acoustique avec leurs avantages et leurs inconvénients. De nombreuses références très pertinentes existent déjà sur ce sujet. Pour une description complète de l’ensemble des méthodes de formation de voies depuis leur création, nous renvoyons le lecteur aux références [96, 104, 108, 178, 182]. Pour une lecture plus spécifique dédiée aux antennes acoustiques, c’est-à-dire tenant compte du caractère large bande du signal de parole, nous pourrons nous reporter aux références [23, 46, 55, 68] et [126] où une synthèse comparative des différentes méthodes est donnée. Il ressort de ces lectures une absence de solution « universelle » ; aujourd’hui, il n’existe pas de méthode capable d’offrir une réduction de bruit satisfaisante avec la garantie d’un signal de bonne qualité quelles que soient les conditions d’utilisations. Ces conditions diffèrent par le type de bruit caractérisant l’environnement du système (voiture, foule, métro, salon, etc.).

Remarque 1 : Notons qu’il est possible d’étendre les techniques développées pour les signaux à bande étroite aux antennes acoustiques en opérant par bande de fréquence, d’où l’intérêt des premières lectures référencées.

De l’antenne au postfiltre

La conception d’une antenne acoustique est une chose délicate qui requiert en réalité la conception de trois éléments inter-dépendants .

Chacun de ces éléments couvre à lui seul un domaine de recherche. En effet, pour obtenir un système de prise de son performant et autonome les trois blocs suivants sont nécessaires :

1. Localisation et poursuite de sources : ce premier bloc conditionne les performances du système, en particulier pour les systèmes que nous appellerons autonomes où la position des sources est inconnue. Nous les opposerons aux systèmes fixes conçus pour fonctionner dans des environnements connus à l’avance et supposés invariants. Par exemple, le mur de télé-présence utilisé pour la visioconférence fait parti de ces systèmes. La conception est faite sur-mesure dans le sens où la position des locuteurs est fixée ainsi que les conditions acoustiques (sources de bruit présentes et leurs positions, temps de réverbération, etc.). Dans ce cas, ce bloc est inutile et est remplacé par une simple opération de pointage invariante dans le temps. Les méthodes de localisation de sources peuvent être classées en trois grandes familles suivant le procédé d’estimation : celles utilisant les temps d’arrivée (Time Difference of Arrival (TDOA)), celles basées sur la recherche du maximum de puissance reçue par une antenne effectuant un balayage de l’espace d’observation (Steered Response Power (SRP)), et les méthodes dites haute résolution qui s’appuient sur la matrice de corrélation des signaux reçus pour déterminer certaines caractéristiques du signal comme par exemple sa direction d’arrivée. Pour de plus amples détails, nous pourrons nous reporter aux références [36, 44, 87]. Les techniques de poursuite de sources sont quant à elles principalement fondées sur le filtrage de Kalman [97].

2. Traitement : ce bloc réalise le filtrage des signaux après pointage dans le but de réduire le bruit, supprimer les interférents et améliorer la qualité du signal vocal extrait du mélange. Il réalise le filtrage spatio-temporel (formation de voies) à partir de l’information fournie par le bloc de localisation et poursuite de sources. Les systèmes adaptatifs sont ceux pour lesquels ce bloc de traitement utilise les techniques de filtrage adaptatif qui ont l’avantage de s’adapter aux variations de l’environnement au cours du temps. Ils s’appuient donc sur l’évolution des statistiques des signaux captés, par opposition aux systèmes fixes où l’algorithme de filtrage est indépendant des données (cf. le chapitre Introduction).

3. Postfiltrage : ce bloc en fin de chaîne est dédié à la suppression des bruits non localisés que l’antenne est incapable de supprimer seule. Plus spécifiquement, il permet de supprimer le bruit diffus que l’on associe à la réverbération et les bruits incohérents. En plus de raffiner le débruitage, il peut également être conçu de sorte à améliorer la qualité du signal en limitant la distorsion introduite par le bloc de traitement. Par exemple, nous pourrions imaginer l’utilisation de l’algorithme HRNR [143] pour la régénération des harmoniques perdues par le filtrage de Wiener. Une première utilisation d’un postfiltre en sortie d’antenne est décrite par Zelinski dans [199] où il utilise un filtrage de Wiener accompagné d’un post-traitement sur la fonction d’intercorrélation afin de diminuer les erreurs d’estimation. Une analyse des décroissances de la fonction d’autocorrélation permet quant à elle de distinguer le signal utile du bruit. Le lien entre les performances de l’antenne et ce type de postfiltre est analysé par Marro et al. dans [123, 124] où l’incapacité de ce postfiltre à améliorer les performances là où l’antenne est elle-même inefficace (basses fréquences) y est démontrée. Dans [94], Bitzer et al. proposent l’association du GSC et d’un postfiltre adaptatif. Le GSC utilisé est quelque peu spécifique puisqu’il est conçu comme une antenne superdirective avec des filtres fixes pour l’annulation de bruit. La méthode ainsi obtenue améliore la réduction de bruit, diminue l’annulation du signal utile et réduit le bruit musical. Dans [129, 130], McCowan et Bourlard améliorent le postfiltre proposé par Zelinski en tenant compte de la corrélation existant entre les micros, le rendant ainsi plus en adéquation avec la réalité. L’expression plus générale obtenue permet d’adapter la méthode aux divers types de champ de bruit dont la fonction de cohérence peut être modélisée. Ce modèle plus précis améliore par ailleurs les performances en basses fréquences. Cependant, ce postfiltre sera lui-même amélioré par Lefkimmiatis et Maragos [111] qui vont tenir compte de la réduction de bruit apportée par le formateur de voies, contrairement aux travaux de McCowan qui surestime le dénominateur du postfiltre. De plus leur méthode gagne encore en généralité puisqu’elle traite la conception de postfiltre linéaire ou non. Avec les travaux de Cohen, Berdugo et Gannot [37, 39, 67], le postfiltre est agrémenté d’un modèle probabiliste pour la détection de l’absence de parole. A l’aide d’une fonction de vraisemblance globale de présence de parole, ils traitent la réduction des bruits transitoires et non-stationnaires. Dans le même sens mais en utilisant la fonction de cohérence pour construire la probabilité d’absence du signal, on trouve la méthode hybride de Li et Akagi [99, 100] qui combine les méthodes d’estimation multicanal et monocanal. Enfin, une généralisation des postfiltres de Zelinski, Marro, McCowan et Lefkimmiatis a été récemment proposée par Wolff et Burck dans [192] où ils établissent les liens entre ces différents postfiltres et exposent la manière d’en construire de nouveaux adaptés aux critères choisis. La déclinaison adaptative de ce postfiltre généralisé est également donnée avec les résultats qui prouvent sa supériorité sur les autres méthodes. Ces travaux, qui s’inscrivent dans une démarche de conception de postfiltre adaptatif adéquat avec les antennes adaptatives linéairement contraintes, sont repris dans [193] pour mettre en avant l’influence de la matrice de blocage qui doit être de préférence adaptative afin d’améliorer la qualité du signal de parole fourni par l’antenne. Cette observation a son importance, car elle correspond à une justification supplémentaire de l’implémentation du GSC choisie dans ce mémoire.

Les contributions décrites dans ce mémoire concernent plus spécifiquement le bloc de traitement et visent les techniques adaptatives pour leur capacité d’adaptation aux variations de l’environnement. Bien que nos travaux émanent en partie d’un constat vis-à-vis des faiblesses des méthodes de localisation et de poursuite de source, nous tentons de résoudre le problème qui en découle au niveau du bloc de traitement. Dans une certaine mesure, les méthodes proposées peuvent néanmoins être vues comme une opération de postfiltrage, mais ce n’est pas sous cette forme que nous les présenterons dans la suite du document.

Spécificités de l’antenne acoustique

Une manière simple d’aborder les antennes acoustiques en faisant abstraction des fondements théoriques à leurs origines est de considérer leur conception comme celle d’un filtre à Réponse Impulsionnelle Finie (RIF). En établissant ce parallèle, nous pouvons définir les grandeurs significatives associées aux antennes acoustiques et mettre en évidence les aspects qui ont motivé les travaux décrits dans la suite de ce mémoire. L’analogie entre le filtrage temporel à l’aide d’un RIF et le filtrage spatial à l’aide d’une antenne sous-entend une certaine dualité entre les grandeurs caractéristiques. En effet, nous allons montrer qu’il y a équivalence entre l’ordre d’un filtre RIF et le nombre de microphones utilisés. De même que nous allons définir une fréquence d’échantillonnage spatiale, et distinguer différents types d’antennes.

Type d’antenne, géométrie et sélectivité

Au même titre qu’un filtre temporel est complètement défini par son gain et sa phase, une antenne sera complètement définie par sa fonction de transfert, notée H(f, θ, φ), qui est la réponse harmonique de l’antenne à l’onde provenant de la direction (θ, φ) dans le système de coordonnées sphériques et de fréquence f. Typiquement .

Aliasing spatial

Nous venons de voir que le nombre et la disposition des microphones créent une géométrie particulière qui influence le diagramme de directivité de l’antenne. Cependant, ceux-ci ne sont pas, en général, placés au hasard dans l’espace. En effet, même si il existe des études sur une distribution aléatoire des microphones pour l’analyse et la synthèse de champ sonore [74], le plus souvent, le placement permettant de réaliser une géométrie d’antenne donnée est fait sous la contrainte du respect du théorème d’échantillonnage spatial. En effet, le réseau de microphones réalise un échantillonnage spatial de fronts d’ondes qui se propagent selon des directions différentes et selon leurs propres longueurs d’ondes. Ainsi, de la même manière que le théorème d’échantillonnage dans le domaine temporel, ou théorème de NyquistShannon, assure une acquisition des données discrètes sans perte d’information due au repliement spectral, la distance inter-microphone est liée à une fréquence spatiale dépendante de la longueur d’onde et correspond donc à une période spatiale contrainte par une période d’échantillonnage spatiale. Il existe différentes manières pour le démontrer [126], [123] et [55], ici, nous proposons un autre raisonnement qui rejoint celui décrit dans [109].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Débruitage de la parole par antenne acoustique
1.1 De l’antenne au postfiltre
1.1.1 Spécificités de l’antenne acoustique
1.1.2 Influence des perturbations et des incertitudes
1.2 Techniques pour l’amélioration de la robustesse
1.2.1 Formation de voies adaptative robuste
1.3 Performances du Generalized Sidelobe Canceller (GSC)
1.4 Synthèse du chapitre
2 Vers la définition d’une cellule élémentaire
2.1 Constat d’une analogie
2.2 Annulation de bruit adaptative robuste à la diaphonie
2.3 Modèle de mélange, conditions de stabilité et positions des sources
2.3.1 Modélisation des canaux acoustiques
2.3.2 Simplification du modèle de mélange
2.3.3 Notions de stabilité
2.3.4 Influence de l’hypothèse de causalité sur la position des sources et les performances
2.4 Minimisation de l’Erreur Quadratique Moyenne (EQM) ou décorrélation ?
2.4.1 Minimisation de l’erreur quadratique moyenne
2.4.2 Illustration sur un cas simple
2.5 Synthèse du chapitre
3 Solution architecturale : le DCTRANC
3.1 Présentation du DCTRANC
3.1.1 Description générale
3.1.2 Découplage simple – Filtre adaptatif w1
3.1.3 Version hybride – Filtre adaptatif w2
3.1.4 Gestion du bruit du gradient – Contrainte algorithmique
3.2 Approches dédiées à l’amélioration de la gestion des pas
3.2.1 Règles algorithmiques pour la gestion des pas
3.2.2 Bilan des méthodes existantes
3.2.3 Méthodes proposées
3.3 Etude des solutions optimales
3.3.1 Solutions analytiques théoriques
3.3.2 Réflexion sur le DCTRANC
3.4 Implémentation fréquentielle et performances en environnement réel
3.4.1 Influence de la sous-modélisation
3.4.2 Prise de son binaurale
3.5 Synthèse du chapitre
4 Solution algorithmique optimisée : le LCCTRANC
4.1 Algorithme optimal de Zinser, Mirchandani et Evans
4.1.1 Analyse de l’erreur quadratique moyenne
4.1.2 Filtres optimaux
4.1.3 Algorithme des moindres carrés transverses
4.1.4 Evaluation de la complexité
4.2 Réduction de la complexité de l’algorithme optimal
4.2.1 Concept à la base de nos simplifications algorithmiques
4.2.2 Obtention du nouvel algorithme
4.2.3 Evaluation de la complexité du LCCTRANC
4.3 Comparaison des performances
4.3.1 Mélange de signaux synthétiques
4.3.2 Mélange de signaux réels
4.3.3 Gestion des instabilités – Réduction de l’ordre
4.4 Implémentation fréquentielle et performances en environnement réel
4.4.1 Influence de la sous-modélisation
4.4.2 Prise de son binaurale
4.5 Synthèse du chapitre
5 Analyse de la convergence et de la stabilité de la structure récursive
5.1 Données et points bloquants du problème
5.1.1 Description du problème
5.1.2 Absence de solution analytique facilement exploitable
5.2 Recherche de l’état d’équilibre
5.2.1 Analyse de l’erreur résiduelle sur les signaux estimés
5.2.2 Conservation de l’énergie de l’erreur résiduelle
5.2.3 Analyse des Rapports Signaux à Artefacts (RSA)
5.2.4 Analyse de l’équilibre à partir du principe d’égalité
5.3 Résultats expérimentaux avec des signaux synthétiques
5.3.1 Convergence initiale et asymptotique
5.3.2 RSA sur chaque voie
5.4 Résultats expérimentaux avec des signaux de parole
5.4.1 Conservation de l’énergie de l’erreur résiduelle – Principe d’égalité
5.4.2 RSA sur chaque voie – Relation d’équilibre
5.5 Etude des résultats expérimentaux dans le cas dissymétrique
5.5.1 Cas des sources de même puissance
5.5.2 Cas des sources de puissance différente
5.6 Synthèse du chapitre
Conclusion