Estimation court terme de spectres et de temps de retard
Sur la base de considérations acoustiques et au prix de certaines hypothèses (propagation en champ libre d’ondes planes, approximation quasi-statique de la propagation), comment l’ITD est relié aux paramètres spatiaux que nous allons chercher, plus tard, à estimer. Néanmoins, nous n’avons pas encore présenté comment l’ITD peut être à son tour estimé sur la base des signaux reçus par le capteur binaural. Comme précisé précédemment, cette problématique est très étroitement liée au problème d’analyse et d’estimation spectrale de signaux aléatoires, qui seront donc abordés dans une première section de ce chapitre. Puis, un état de l’art des méthodes d’estimation d’ITD, s’appuyant pour la plupart sur les résultats d’estimation spectrale introduits précédemment, sera ensuite proposé. Notre objectif est d’effectuer un survol suffisamment large des techniques ayant trait à ce problème, qui puisse constituer une base de discussion, voire de remise en question, de certains choix effectués —parfois trop systématiquement—dans la thématique de l’audition en robotique.
Estimation spectrale
Dans cette section, on fait appel à des notions et termes techniques relatifs aux signaux aléatoires : ergodisme, stationnarité au sens large, Gaussianité, autocorrélation, corrélation croisée, Densité Spectrale de Puissance (DSP) , convergences presque sûre et en probabilité, etc. Ceux-ci sont pour la plupart définis en annexe chapitre 7. On considère deux signaux aléatoires x, y à temps continu, à valeurs réelles, individuellement et conjointement Stationnaires au Sens Large (SSL) et ergodiques vis-à-vis de leurs autocorrélation et corrélation croisée. On peut distinguer deux catégories d’estimateurs de DSP et DSP croisée des signaux x et y. Ceux qui ne font appel à aucune hypothèse sur les signaux autre que les hypothèses de stationnarité et d’ergodisme sont qualifiés d’estimateurs non paramétriques. Les autres entrent dans la catégorie des estimateurs paramétriques. Quelle que soit la catégorie à laquelle elle appartient, une méthode repose toujours—d’un point de vue théorique ou pratique—sur des estimateurs de corrélation et corrélation croisée des signaux. On commence donc par présenter ces estimateurs.
On aurait également pu prendre comme estimateur de DSP la transformée de Fourier de R˚xy, mais on préfère en général utiliser l’estimateur biaisé de la corrélation croisée. En effet, cela garantit la positivité de la DSP estimée lorsque x = y, et sa mise en œuvre pratique est moins coûteuse en temps de calcul. Comme indiqué dans la suite, cet estimateur n’est pas consistant du fait que prendre un temps d’observation infiniment long ne suffit pas à réduire sa variance à zéro. Cette tare provient de la contribution des instants τ proches de ±T (pour lesquels la variance de Rˆxy(τ ) est grande) dans l’intégration temporelle de Rˆxy(τ )exp(−2iπfτ ). Plusieurs méthodes seront évoquées afin de réduire la contribution de ces instants et rendre l’estimateur consistant, et on étudiera la moyenne et variance des estimateurs proposés ainsi que leurs propriétés asymptotiques. Le calcul des statistiques d’ordre 2 de ces estimateurs nécessite la connaissance de moments croisés d’ordre 4 des signaux, qui pour deux signaux centrés gaussiens dans leur ensemble, peuvent s’exprimer en fonction de moments d’ordre 2. d’après [Papoulis, 1984] p445, l’hypothèse de signaux centrés gaussiens dans leur ensemble n’induit pas de perte de généralité pour les propriétés asymptotiques des estimateurs. On se focalisera donc sur de tels signaux. Par la suite, considérant deux signaux aléatoires SSL u, v et une fenêtre w réelle symétrique à support fini, on notera par convention BuvTw , 1 pour signifier que les variations de la DSP croisée de u, v, notée Suv, sont faibles sur tout intervalle fréquentiel de largeur de l’ordre de celle du lobe principal de W = F{w} (i.e. Sxy est suffisamment «lisse» de sorte que W s’apparente à une impulsion de Dirac au regard de Sxy). On désigne par Bw la largeur du lobe principal de W.
Discussions
Globalement, on peut conclure que pour garantir la consistance de l’estimateur, il est conseillé de préférer une méthode de lissage à un simple périodogramme. Du fait que l’estimation de temps de retard repose généralement sur une estimation préliminaire de spectres des signaux perçus en les récepteurs R1, R2, la consistance de l’estimateur des spectres conditionne la consistance de l’estimateur de temps de retard [Knapp et Carter, 1976]. Assez curieusement, le périodogramme est néanmoins—de loin—la méthode d’estimation spectrale est la plus employée en robotique, probablement du fait de sa plus grande simplicité en terme d’implémentation. Concernant les méthodes de lissage, la méthode de Blackman-Tuckey et les méthodes de périodogramme moyenné sont relativement similaires en terme de biais et variance.
En robotique, les signaux sont observés sur des fenêtres temporelles de courte durée (typiquement quelques dizaines de millisecondes) pour les raisons suivantes : le signal émis par la source est généralement non stationnaire, et du fait de la mobilité du capteur et/ou de l’émetteur, les «paramètres spatiaux» à estimer peuvent varier significativement avec le temps. En se restreignant à une analyse des flux audio sur des courtes durées, on peut peut faire l’hypothèse que les signaux perçus sont des versions tronquées de signaux individuellement et conjointement stationnaires, et que les paramètres spatiaux ne varient pas au cours des durées d’observation, ce qui simplifie grandement le problème d’estimation. Du fait que les durées d’observation sont courtes, on peut se questionner sur l’utilité pratique des propriétés asymptotiques des estimateurs : les statistiques asymptotiques sont rarement atteignables en réalité. Cependant, nous pensons que même pour des fenêtres court terme, il est préférable d’utiliser un estimateur légèrement biaisé mais stable (spectre estimé suffisamment «lisse»), plutôt qu’un estimateur de faible biais mais forte variance (spectre estimé très «bruité»).
La borne inférieure de Ziv-Zakai associée au problème d’estimation de temps de retard, proposée dans [Chazan et al., 1975] puis utilisée dans [Weiss et Weinstein, 1983], permet de borner de manière beaucoup plus fine la variance ou l’erreur quadratique moyenne d’un estimateur de temps de retard pour des valeurs modérées de RSB/produit temps-largeur de bande . En fait, les auteurs de [Weiss et Weinstein, 1983] distinguent deux ordres de grandeurs du produit temps-largeur de bande : les valeurs modérées pour lesquelles l’indépendance des coefficients de Fourier des signaux est vérifiée, et les valeurs «élevées», pour lesquelles l’EMV est «proche» de la borne inférieure de Cramér-Rao. La borne inférieure de Ziv-Zakai permet de borner précisément l’EQM pour des valeurs de produit temps-largeur de bande allant du modérément élevé au très élevé. En particulier, elle permet de déterminer à partir de quelles valeurs de RSB/produit temps-largeur de bande la borne inférieure de Cramér-Rao devient réellement atteignable. Avant de formuler explicitement cette borne, il convient de définir la notion de test d’hypothèse et de risque associé.
Les méthodes d’estimation de temps de retard présentées—corrélation croisée généralisée et méthodes de régression linéaire sur la phase—reposent sur un modèle de propagation en champ libre, et supposent par conséquent un déphasage linéaire en fréquence entre les microphones. D’autres méthodes tiennent explicitement compte des réverbérations. Il en est ainsi de la méthode de décomposition adaptative en valeurs propres [Benesty, 2000]. Comme on peut s’en douter, la performance des méthodes basées sur un modèle champ libre décroît très fortement en présence de réverbération. D’après [Champagne et al., 1996] et [Gustafsson et al., 2003], le phénomène de réverbération se manifeste au niveau des statistiques de l’estimateur du temps de retard par l’apparition d’estimées aberrantes , dont le taux d’apparition est d’autant plus grand que le temps de réverbération de la pièce est grand. Les méthodes basées sur une décomposition adaptative en valeurs propres, elles, s’affranchissent du modèle de propagation en champ libre et reposent sur l’estimation—sans apprentissage ni modèle a priori—des réponses impulsionnelles liées à la salle (Room Related Impulse Response (RRIR)) des deux microphones. On peut cependant noter plusieurs difficultés inhérentes à ces méthodes. Premièrement, ce sont des méthodes itératives (e.g. méthode du gradient) qui reposent sur une initialisation des estimés des RRIR et nécessitent de fixer des paramètres de réglage. Ces quantités conditionnent fortement la convergence vers les «vraies» RRIR (minima locaux du critère à optimiser, etc.). En second lieu, ce sont des méthodes bien plus coûteuses en temps de calcul. De plus, du fait qu’on cherche à estimer des RRIR plutôt qu’une réponse impulsionnelle «relative» entre les microphones, le temps d’autocorrélation des réponses à estimer est beaucoup plus long. Ceci implique d’estimer les autocorrélations des signaux sur des durées encores plus longues (§2.1.2). La question est donc : est-ce possible en robotique, en présence de mouvement et de variations rapides de RRIR ? De plus, les RRIR des deux microphones ne doivent pas avoir de zéros communs, ce qui est difficile à vérifier dans la réalité. Enfin, il faut se fixer a priori le temps d’autocorrélation (en gros la longueur) des RRIR, que l’on ne connaît pas en pratique (qui dépend du RT60 etc.). À l’heure actuelle, nous préférons exploiter des méthodes supposant une propagation en champ libre, qui peuvent générer des outliers du fait des réverbérations. L’objectif est donc de les éliminer dans la stratégie de filtrage stochastique. Nous n’excluons toutefois pas qu’une étude plus approfondie des méthodes de décomposition adaptative en valeurs propres nous amène à revisiter notre position .
|
Table des matières
1 Introduction
1.1 Présentation du contexte
1.1.1 L’audition en robotique
1.1.2 Le paradigme binaural
1.1.3 L’audition active
1.1.4 Filtrage stochastique en audition
1.2 Modélisation du problème et mise en équation
1.2.1 Notations
1.2.2 Modélisation du problème
1.2.3 Équation d’état à temps continu
1.2.4 Équation d’observation
A Quelques rappels d’acoustique théorique
B Indices acoustiques utilisables pour la localisation
1.2.5 Cas d’étude
1.3 Organisation de la thèse
2 Estimation court terme de spectres et de temps de retard
2.1 Estimation spectrale
2.1.1 Estimation de la fonction d’autocorrélation d’un signal
A Théorèmes préliminaires
B Estimateurs de l’autocorrélation et statistiques
2.1.2 Estimation non paramétrique de la densité spectrale de puissance
A Le périodogramme
B Lissage par moyenne empirique de périodogrammes court terme
B-1 Définition générale de l’estimateur
B-2 Théorèmes préliminaires
B-3 Statistiques de l’estimateur
B-4 Interprétation des résultats
B-5 Statistiques de l’estimateur en terme d’amplitude et de phase
C Lissage par modulation de l’autocorrélation
C-1 Définition de l’estimateur
C-2 Théorème préliminaire
C-3 Statistiques de l’estimateur
C-4 interprétation des résultats
D Discussions
2.1.3 Estimation paramétrique
A Modèle Auto Régressif
B Modèle à Moyenne Ajustée
C Modèle Auto Régressif à Moyenne Ajustée
2.2 Estimation de temps de retard
2.2.1 Modélisation «instantanée» des signaux perçus
2.2.2 Méthode de la corrélation croisée
2.2.3 Méthode de la corrélation croisée généralisée
A Le processeur Roth
B Le processeur SCoT
C Le processeur PhaT
D Le processeur HT
E Estimation des spectres et du module au carré de la cohérence
2.2.4 Estimation de temps de retard basée sur une régression linéaire du déphasage
2.2.5 Bornes théoriques associées au problème d’ETR
A Tests d’hypothèses binaires, rapport de vraisemblances, risque d’erreur
B Risque minimal d’erreur pour le problème d’estimation du temps de retard
C Borne inférieure de Ziv-Zakai
D Borne inférieure de Ziv-Zakai pour les signaux faible bande
2.3 Discussion
3 Estimation court terme d’azimut, détection d’activité
3.1 Diffusion de l’onde incidente par une tête, estimation d’azimut
3.1.1 Localisation binaurale par estimation conjointe d’ILD et d’ITD et prétabulation d’ITF
3.1.2 Localisation binaurale par identification de signatures dans le plan ILD-IPD
3.1.3 Méthode par maximum de vraisemblance
A Hypothèse d’une source aléatoire gaussienne
A-1 Construction du vecteur de données et définition du modèle d’observation
A-2 Estimation des paramètres spatiaux et spectraux du problème
B Source déterministe inconnue
B-1 Définition du modèle d’observation
B-2 Estimation des paramètres spatiaux et spectraux du problème
C Discussions
D Résultats de simulation et interprétation
D-1 Propagation en champ libre
D-2 Diffusion sur une tête sphérique rigide
3.2 Détection instantanée d’activité de la source
3.2.1 Test de Rapport de Vraisemblances basé sur la linéarité de la phase
3.2.2 Test du Rapport de Vraisemblance Généralisé basé sur des vraisemblances monaurales
3.2.3 Détection basée sur la théorie de l’information
A Une brève introduction à l’identification statistique
B Application à la détection d’activité de source large-bande
4 Conclusion