Estimation court terme de spectres et de temps de retard
Sur la base de considรฉrations acoustiques et au prix de certaines hypothรจses (propagation en champ libre dโondes planes, approximation quasi-statique de la propagation), comment lโITD est reliรฉ aux paramรจtres spatiaux que nous allons chercher, plus tard, ร estimer. Nรฉanmoins, nous nโavons pas encore prรฉsentรฉ comment lโITD peut รชtre ร son tour estimรฉ sur la base des signaux reรงus par le capteur binaural. Comme prรฉcisรฉ prรฉcรฉdemment, cette problรฉmatique est trรจs รฉtroitement liรฉe au problรจme dโanalyse et dโestimation spectrale de signaux alรฉatoires, qui seront donc abordรฉs dans une premiรจre section de ce chapitre. Puis, un รฉtat de lโart des mรฉthodes dโestimation dโITD, sโappuyant pour la plupart sur les rรฉsultats dโestimation spectrale introduits prรฉcรฉdemment, sera ensuite proposรฉ. Notre objectif est dโeffectuer un survol suffisamment large des techniques ayant trait ร ce problรจme, qui puisse constituer une base de discussion, voire de remise en question, de certains choix effectuรฉs โparfois trop systรฉmatiquementโdans la thรฉmatique de lโaudition en robotique.
Estimation spectrale
Dans cette section, on fait appel ร des notions et termes techniques relatifs aux signaux alรฉatoires : ergodisme, stationnaritรฉ au sens large, Gaussianitรฉ, autocorrรฉlation, corrรฉlation croisรฉe, Densitรฉ Spectrale de Puissance (DSP) , convergences presque sรปre et en probabilitรฉ, etc. Ceux-ci sont pour la plupart dรฉfinis en annexe chapitre 7. On considรจre deux signaux alรฉatoires x, y ร temps continu, ร valeurs rรฉelles, individuellement et conjointement Stationnaires au Sens Large (SSL)ย et ergodiques vis-ร -vis de leurs autocorrรฉlation et corrรฉlation croisรฉe. On peut distinguer deux catรฉgories dโestimateurs de DSP et DSP croisรฉe des signaux x et y. Ceux qui ne font appel ร aucune hypothรจse sur les signaux autre que les hypothรจses de stationnaritรฉ et dโergodisme sont qualifiรฉs dโestimateurs non paramรฉtriques. Les autres entrent dans la catรฉgorie des estimateurs paramรฉtriques. Quelle que soit la catรฉgorie ร laquelle elle appartient, une mรฉthode repose toujoursโdโun point de vue thรฉorique ou pratiqueโsur des estimateurs de corrรฉlation et corrรฉlation croisรฉe des signaux. On commence donc par prรฉsenter ces estimateurs.
On aurait รฉgalement pu prendre comme estimateur de DSP la transformรฉe de Fourier de Rหxy, mais on prรฉfรจre en gรฉnรฉral utiliser lโestimateur biaisรฉ de la corrรฉlation croisรฉe. En effet, cela garantit la positivitรฉ de la DSP estimรฉe lorsque x = y, et sa mise en ลuvre pratique est moins coรปteuse en temps de calcul. Comme indiquรฉ dans la suite, cet estimateur nโest pas consistant du fait que prendre un temps dโobservation infiniment long ne suffit pas ร rรฉduire sa variance ร zรฉro. Cette tare provient de la contribution des instants ฯ proches de ยฑT (pour lesquels la variance de Rหxy(ฯ ) est grande) dans lโintรฉgration temporelle de Rหxy(ฯ )exp(โ2iฯfฯ ). Plusieurs mรฉthodes seront รฉvoquรฉes afin de rรฉduire la contribution de ces instants et rendre lโestimateur consistant, et on รฉtudiera la moyenne et variance des estimateurs proposรฉs ainsi que leurs propriรฉtรฉs asymptotiques. Le calcul des statistiques dโordre 2 de ces estimateurs nรฉcessite la connaissance de moments croisรฉs dโordre 4 des signaux, qui pour deux signaux centrรฉs gaussiens dans leur ensemble, peuvent sโexprimer en fonction de moments dโordre 2. dโaprรจs [Papoulis, 1984] p445, lโhypothรจse de signaux centrรฉs gaussiens dans leur ensemble nโinduit pas de perte de gรฉnรฉralitรฉ pour les propriรฉtรฉs asymptotiques des estimateurs. On se focalisera donc sur de tels signaux. Par la suite, considรฉrant deux signaux alรฉatoires SSL u, v et une fenรชtre w rรฉelle symรฉtrique ร support fini, on notera par convention BuvTw , 1 pour signifier que les variations de la DSP croisรฉe de u, v, notรฉe Suv, sont faibles sur tout intervalle frรฉquentiel de largeur de lโordre de celle du lobe principal de W = F{w} (i.e. Sxy est suffisamment ยซlisseยป de sorte que W sโapparente ร une impulsion de Dirac au regard de Sxy). On dรฉsigne par Bw la largeur du lobe principal de W.
Discussions
Globalement, on peut conclure que pour garantir la consistance de lโestimateur, il est conseillรฉ de prรฉfรฉrer une mรฉthode de lissage ร un simple pรฉriodogramme. Du fait que lโestimation de temps de retard repose gรฉnรฉralement sur une estimation prรฉliminaire de spectres des signaux perรงus en les rรฉcepteurs R1, R2, la consistance de lโestimateur des spectres conditionne la consistance de lโestimateur de temps de retard [Knapp et Carter, 1976]. Assez curieusement, le pรฉriodogramme est nรฉanmoinsโde loinโla mรฉthode dโestimation spectrale est la plus employรฉe en robotique, probablement du fait de sa plus grande simplicitรฉ en terme dโimplรฉmentation. Concernant les mรฉthodes de lissage, la mรฉthode de Blackman-Tuckey et les mรฉthodes de pรฉriodogramme moyennรฉ sont relativement similaires en terme de biais et variance.
En robotique, les signaux sont observรฉs sur des fenรชtres temporelles de courte durรฉe (typiquement quelques dizaines de millisecondes) pour les raisons suivantes : le signal รฉmis par la source est gรฉnรฉralement non stationnaire, et du fait de la mobilitรฉ du capteur et/ou de lโรฉmetteur, les ยซparamรจtres spatiauxยป ร estimer peuvent varier significativement avec le temps. En se restreignant ร une analyse des flux audio sur des courtes durรฉes, on peut peut faire lโhypothรจse que les signaux perรงus sont des versions tronquรฉes de signaux individuellement et conjointement stationnaires, et que les paramรจtres spatiaux ne varient pas au cours des durรฉes dโobservation, ce qui simplifie grandement le problรจme dโestimation. Du fait que les durรฉes dโobservation sont courtes, on peut se questionner sur lโutilitรฉ pratique des propriรฉtรฉs asymptotiques des estimateurs : les statistiques asymptotiques sont rarement atteignables en rรฉalitรฉ. Cependant, nous pensons que mรชme pour des fenรชtres court terme, il est prรฉfรฉrable dโutiliser un estimateur lรฉgรจrement biaisรฉ mais stable (spectre estimรฉ suffisamment ยซlisseยป), plutรดt quโun estimateur de faible biais mais forte variance (spectre estimรฉ trรจs ยซbruitรฉยป).
La borne infรฉrieure de Ziv-Zakaiย associรฉe au problรจme dโestimation de temps de retard, proposรฉe dans [Chazan et al., 1975] puis utilisรฉe dans [Weiss et Weinstein, 1983], permet de borner de maniรจre beaucoup plus fine la variance ou lโerreur quadratique moyenne dโun estimateur de temps de retard pour des valeurs modรฉrรฉes de RSB/produit temps-largeur de bande . En fait, les auteurs de [Weiss et Weinstein, 1983] distinguent deux ordres de grandeurs du produit temps-largeur de bande : les valeurs modรฉrรฉes pour lesquelles lโindรฉpendance des coefficients de Fourier des signaux est vรฉrifiรฉe, et les valeurs ยซรฉlevรฉesยป, pour lesquelles lโEMV est ยซprocheยป de la borne infรฉrieure de Cramรฉr-Rao. La borne infรฉrieure de Ziv-Zakai permet de borner prรฉcisรฉment lโEQM pour des valeurs de produit temps-largeur de bande allant du modรฉrรฉment รฉlevรฉ au trรจs รฉlevรฉ. En particulier, elle permet de dรฉterminer ร partir de quelles valeurs de RSB/produit temps-largeur de bande la borne infรฉrieure de Cramรฉr-Rao devient rรฉellement atteignable. Avant de formuler explicitement cette borne, il convient de dรฉfinir la notion de test dโhypothรจse et de risque associรฉ.
Les mรฉthodes dโestimation de temps de retard prรฉsentรฉesโcorrรฉlation croisรฉe gรฉnรฉralisรฉe et mรฉthodes de rรฉgression linรฉaire sur la phaseโreposent sur un modรจle de propagation en champ libre, et supposent par consรฉquent un dรฉphasage linรฉaire en frรฉquence entre les microphones. Dโautres mรฉthodes tiennent explicitement compte des rรฉverbรฉrations. Il en est ainsi de la mรฉthode de dรฉcomposition adaptative en valeurs propres [Benesty, 2000]. Comme on peut sโen douter, la performance des mรฉthodes basรฉes sur un modรจle champ libre dรฉcroรฎt trรจs fortement en prรฉsence de rรฉverbรฉration. Dโaprรจs [Champagne et al., 1996] et [Gustafsson et al., 2003], le phรฉnomรจne de rรฉverbรฉration se manifeste au niveau des statistiques de lโestimateur du temps de retard par lโapparition dโestimรฉes aberrantes , dont le taux dโapparition est dโautant plus grand que le temps de rรฉverbรฉration de la piรจce est grand. Les mรฉthodes basรฉes sur une dรฉcomposition adaptative en valeurs propres, elles, sโaffranchissent du modรจle de propagation en champ libre et reposent sur lโestimationโsans apprentissage ni modรจle a prioriโdes rรฉponses impulsionnelles liรฉes ร la salle (Room Related Impulse Response (RRIR)) des deux microphones. On peut cependant noter plusieurs difficultรฉs inhรฉrentes ร ces mรฉthodes. Premiรจrement, ce sont des mรฉthodes itรฉratives (e.g. mรฉthode du gradient) qui reposent sur une initialisation des estimรฉs des RRIR et nรฉcessitent de fixer des paramรจtres de rรฉglage. Ces quantitรฉs conditionnent fortement la convergence vers les ยซvraiesยป RRIR (minima locaux du critรจre ร optimiser, etc.). En second lieu, ce sont des mรฉthodes bien plus coรปteuses en temps de calcul. De plus, du fait quโon cherche ร estimer des RRIR plutรดt quโune rรฉponse impulsionnelle ยซrelativeยป entre les microphones, le temps dโautocorrรฉlation des rรฉponses ร estimer est beaucoup plus long. Ceci implique dโestimer les autocorrรฉlations des signaux sur des durรฉes encores plus longues (ยง2.1.2). La question est donc : est-ce possible en robotique, en prรฉsence de mouvement et de variations rapides de RRIR ? De plus, les RRIR des deux microphones ne doivent pas avoir de zรฉros communs, ce qui est difficile ร vรฉrifier dans la rรฉalitรฉ. Enfin, il faut se fixer a priori le temps dโautocorrรฉlation (en gros la longueur) des RRIR, que lโon ne connaรฎt pas en pratique (qui dรฉpend du RT60 etc.). ร lโheure actuelle, nous prรฉfรฉrons exploiter des mรฉthodes supposant une propagation en champ libre, qui peuvent gรฉnรฉrer des outliers du fait des rรฉverbรฉrations. Lโobjectif est donc de les รฉliminer dans la stratรฉgie de filtrage stochastique. Nous nโexcluons toutefois pas quโune รฉtude plus approfondie des mรฉthodes de dรฉcomposition adaptative en valeurs propres nous amรจne ร revisiter notre position .
|
Table des matiรจres
1 Introduction
1.1 Prรฉsentation du contexte
1.1.1 Lโaudition en robotique
1.1.2 Le paradigme binaural
1.1.3 Lโaudition active
1.1.4 Filtrage stochastique en audition
1.2 Modรฉlisation du problรจme et mise en รฉquation
1.2.1 Notations
1.2.2 Modรฉlisation du problรจme
1.2.3 รquation dโรฉtat ร temps continu
1.2.4 รquation dโobservation
A Quelques rappels dโacoustique thรฉorique
B Indices acoustiques utilisables pour la localisation
1.2.5 Cas dโรฉtude
1.3 Organisation de la thรจse
2 Estimation court terme de spectres et de temps de retard
2.1 Estimation spectrale
2.1.1 Estimation de la fonction dโautocorrรฉlation dโun signal
A Thรฉorรจmes prรฉliminaires
B Estimateurs de lโautocorrรฉlation et statistiques
2.1.2 Estimation non paramรฉtrique de la densitรฉ spectrale de puissance
A Le pรฉriodogramme
B Lissage par moyenne empirique de pรฉriodogrammes court terme
B-1 Dรฉfinition gรฉnรฉrale de lโestimateur
B-2 Thรฉorรจmes prรฉliminaires
B-3 Statistiques de lโestimateur
B-4 Interprรฉtation des rรฉsultats
B-5 Statistiques de lโestimateur en terme dโamplitude et de phase
C Lissage par modulation de lโautocorrรฉlation
C-1 Dรฉfinition de lโestimateur
C-2 Thรฉorรจme prรฉliminaire
C-3 Statistiques de lโestimateur
C-4 interprรฉtation des rรฉsultats
D Discussions
2.1.3 Estimation paramรฉtrique
A Modรจle Auto Rรฉgressif
B Modรจle ร Moyenne Ajustรฉe
C Modรจle Auto Rรฉgressif ร Moyenne Ajustรฉe
2.2 Estimation de temps de retard
2.2.1 Modรฉlisation ยซinstantanรฉeยป des signaux perรงus
2.2.2 Mรฉthode de la corrรฉlation croisรฉe
2.2.3 Mรฉthode de la corrรฉlation croisรฉe gรฉnรฉralisรฉe
A Le processeur Roth
B Le processeur SCoT
C Le processeur PhaT
D Le processeur HT
E Estimation des spectres et du module au carrรฉ de la cohรฉrence
2.2.4 Estimation de temps de retard basรฉe sur une rรฉgression linรฉaire du dรฉphasage
2.2.5 Bornes thรฉoriques associรฉes au problรจme dโETR
A Tests dโhypothรจses binaires, rapport de vraisemblances, risque dโerreur
B Risque minimal dโerreur pour le problรจme dโestimation du temps de retard
C Borne infรฉrieure de Ziv-Zakai
D Borne infรฉrieure de Ziv-Zakai pour les signaux faible bande
2.3 Discussion
3 Estimation court terme dโazimut, dรฉtection dโactivitรฉ
3.1 Diffusion de lโonde incidente par une tรชte, estimation dโazimut
3.1.1 Localisation binaurale par estimation conjointe dโILD et dโITD et prรฉtabulation dโITF
3.1.2 Localisation binaurale par identification de signatures dans le plan ILD-IPD
3.1.3 Mรฉthode par maximum de vraisemblance
A Hypothรจse dโune source alรฉatoire gaussienne
A-1 Construction du vecteur de donnรฉes et dรฉfinition du modรจle dโobservation
A-2 Estimation des paramรจtres spatiaux et spectraux du problรจme
B Source dรฉterministe inconnue
B-1 Dรฉfinition du modรจle dโobservation
B-2 Estimation des paramรจtres spatiaux et spectraux du problรจme
C Discussions
D Rรฉsultats de simulation et interprรฉtation
D-1 Propagation en champ libre
D-2 Diffusion sur une tรชte sphรฉrique rigide
3.2 Dรฉtection instantanรฉe dโactivitรฉ de la source
3.2.1 Test de Rapport de Vraisemblances basรฉ sur la linรฉaritรฉ de la phase
3.2.2 Test du Rapport de Vraisemblance Gรฉnรฉralisรฉ basรฉ sur des vraisemblances monaurales
3.2.3 Dรฉtection basรฉe sur la thรฉorie de lโinformation
A Une brรจve introduction ร lโidentification statistique
B Application ร la dรฉtection dโactivitรฉ de source large-bande
4 Conclusion