Applications de la séparation de sources audio
La séparation de sources peut être utilisée comme pré-traitement pour des tâches de classification ou de reconnaissance automatique. Dans l’exemple précédent, la séparation de la voix n’est pas l’objectif final, elle est utilisée dans le but d’aider à la reconnaissance automatique de la parole. Dans cette thèse nous nous intéressons plus particulièrement au traitement des signaux musicaux. Dans ce contexte, la séparation de sources peut être utile pour l’extraction automatique d’information dans la musique. Dans un travail antérieur à cette thèse, nous utilisions par exemple une technique de séparation en composantes harmoniques, percussives et vocales dans le but de détecter la voix chantée dans un morceau de musique [Leglaive et al., 2015c]. Cette approche consistait à extraire des descripteurs audio à court-terme à partir des signaux séparés, et à les fournir en entrée d’un réseau de neurones récurrent effectuant la classification suivant la présence ou l’absence de voix chantée. Des techniques de séparation de sources ont également été utilisées dans d’autres applications comme la reconnaissance automatique d’instruments [Heittola et al., 2009] et l’estimation de mélodie [Durrieu et al., 2011; Tachibana et al., 2010; Rigaud et Radenen, 2016]. Le problème de séparation est plus critique quand les sources isolées ont pour vocation à être écoutées par des humains, car l’aspect perceptif lié au son est alors mis en jeu pour juger de la qualité. Nous serons très sensibles à des interférences entre sources, présentes dans les signaux séparés, ou bien à des sons non naturels appelés artéfacts et introduits par les techniques de traitement du signal sonore employées. Des méthodes de séparation de sources peuvent par exemple être utilisées pour réduire les interférences dans les signaux captés par des microphones de proximité pour l’enregistrement d’un morceau de musique [Carabias-Orti et al., 2013; Prätzlich et al., 2015]. Ces interférences limitent en effet les possibilités de mixage des ingénieurs du son. Un autre objectif important de la séparation de sources musicales est de permettre le remixage des morceaux de musique. Au cours de cette thèse nous avons été impliqués dans le projet ANR EDiSon3D (Edition et diffusion sonore spatialisée en 3 dimensions). Ce projet s’inscrit dans le cadre de l’émergence du son dit 3D, ayant comme objectif l’amélioration du rendu de l’espace sonore pour la musique et l’audiovisuel. Les productions (documentaires, fictions, musique, etc.) en binaural ou au format 5.1 du récent label «nouvOson» 1 de Radio France illustrent par exemple ce nouveau courant. Le concept de son 3D est étroitement lié au développement d’un «format objet» pour décrire une scène sonore, indépendamment du système de reproduction. A l’inverse des formats multicanaux actuels (stéréophonique, 5.1, etc.) où le mixage est figé, le format objet permet à chaque source audio d’être accompagnée de «méta-données» encodant par exemple l’information de spatialisation. Ce n’est qu’au moment de la diffusion que les sources sont positionnées dans l’espace, selon la configuration du dispositif de restitution. Dans ce contexte, la séparation de sources est nécessaire pour adapter un contenu audio existant dans un format multicanal standard vers ce nouveau paradigme objet, à des fins de remixage.
Le son et l’espace acoustique
a) Le son Le terme de «son» désigne à la fois une cause (e.g. un son de guitare), une onde acoustique aux propriétés physiques mesurables (e.g. un son harmonique de fréquence fondamentale 110 Hz) et une expérience perceptive (e.g. un son riche et clair). On s’intéressera dans cette thèse principalement à la deuxième définition ; une source sonore sera traitée comme un signal résultant de la mesure d’une onde acoustique par un capteur, en l’occurence un microphone. Nous serons amenés pour traiter le problème de séparation de sources à développer des modèles de signaux, c’est-à-dire à les caractériser par l’intermédiaire d’une représentation mathématique. On cherchera à exploiter au travers de ces modèles les spécificités propres aux signaux musicaux, qui pourront être mises en évidence grâce à une représentation à deux dimensions, suivant le temps et la fréquence. Supposer la connaissance de la cause du son peut également être utile. Il paraît naturel par exemple d’élaborer un modèle différent pour une batterie et un piano devant être séparés. On peut également s’inspirer du procédé de production sonore de la source, c’est le cas par exemple du modèle source/filtre [Durrieu et al., 2010, 2011]. Prendre en compte un aspect perceptif peut également s’avérer utile. Dans une application de remixage par exemple, il est éventuellement moins gênant d’avoir des interférences entre les sources après séparation plutôt que des artéfacts.
b) L’espace acoustique Il ne peut y avoir de son sans un milieu permettant la propagation des ondes acoustiques. On s’intéresse dans cette thèse au cas de sources sonores enregistrées dans un milieu réverbérant, c’est-à-dire un espace muni de parois sur lesquelles le son émis par une source se réfléchit. Prenons l’exemple d’un instrument de musique émettant une onde dans une salle quelconque, le signal capté par le microphone ne caractérise pas uniquement le son de l’instrument, il correspond à l’image de la source sonore vue au travers du milieu d’enregistrement. Il est clair qu’un même morceau de musique sera perçu de façon tout à fait différente s’il a été enregistré dans une chambre, un studio d’enregistrement ou une cathédrale. En plus de la modélisation de la source sonore, il nous faudra donc également caractériser la façon dont le son se propage jusqu’au microphone. La problématique que nous souhaitons traiter dans cette thèse correspond précisément à ce point. Nous allons chercher à développer de nouveaux modèles de mélange prenant en compte le caractère réverbérant du milieu d’enregistrement.
Modèles probabilistes de source non stationnaire dans le domaine temps-fréquence
Un autre courant plus récent en séparation de sources consiste à modéliser les coefficients TF des sources par l’intermédiaire d’une distribution de probabilité non stationnaire [Vincent et al., 2010, 2014]. Les coefficients TF ne sont donc plus supposés i.i.d, ils peuvent par exemple être représentés comme des variables aléatoires gaussiennes centrées dont la variance varie en temps et en fréquence. Un morceau de musique est généralement composé d’évènements sonores qui se répètent au cours du temps, tels que des sons pourvus d’une hauteur (des notes) ou des sons percussifs. Ces redondances peuvent être mises en évidence par l’intermédiaire d’une représentation TF des signaux. En séparation de sources audio il est particulièrement pertinent de les prendre en compte, précisément du fait du caractère sous-déterminé du problème. En effet cela permet de réduire le nombre de paramètres impliqués dans la modélisation des sources. Une approche courante consiste à supposer que le spectre (d’amplitude ou de puissance) à court-terme des sources suit un modèle compositionnel [Virtanen et al., 2015]. Sous des hypothèses de gaussianité et de stationnarité locale (nous reviendrons plus tard sur ce point) [Liutkus et al., 2011], il s’agit de modéliser la densité spectrale de puissance (DSP) à court-terme des signaux sources comme étant composée d’atomes fréquentiels qui se répètent au cours du temps. Pour ce faire les techniques de factorisation en matrices non-négatives (NMF d’après l’anglais non-negative matrix factorization) sont souvent employées. La contrainte de positivité de ces factorisations permet généralement d’obtenir une décomposition facilement interprétable [Virtanen et al., 2015], offrant alors la possibilité de guider le processus de séparation par de l’information extérieure [Vincent et al., 2014] (une partition de musique [Ganseman et al., 2010; Hennequin et al., 2011], un signal de référence [Smaragdis et Mysore, 2009], un modèle de production physique du son [Durrieu et al., 2011], des annotations fournies par l’utilisateur [Ozerov et al., 2011], etc.). Dans la littérature récente, un grand nombre de distributions de probabilité ont été proposées pour modéliser les coefficients TF des signaux audio tout en s’appuyant sur une décomposition NMF [Févotte et al., 2009; Virtanen et al., 2008; Liutkus et al., 2015; ¸Sim¸sekli et al., 2015; Yoshii et al., 2016; Magron et al., 2017]. Nous allons détailler certains de ces modèles dans cette section. On peut a priori penser que la distribution de probabilité doit être choisie afin de respecter les statistiques réelles du signal. Cependant comme tous les coefficients TF sont représentés comme des variables aléatoires suivant des distributions différentes, il nous est impossible d’accéder à plusieurs réalisations de ces dernières pour pouvoir par exemple tracer un histogramme et vérifier la conformité du modèle. Néanmoins l’exactitude du modèle par rapport aux statistiques réelles du signal n’est pas le seul point à prendre en compte. Reprenons l’exemple de l’ICA, même si l’hypothèse d’indépendance des sources paraît a priori forte (surtout pour des sources musicales), cette méthode n’en reste pas moins très intéressante d’un point de vue performance de séparation. Comme mentionné dans [Cardoso, 1998a], «une approche bien conçue peut en fait être étonnamment robuste, même à des erreurs grossières de modélisation de la distribution des sources» . Le terme de robustesse évoqué ici est particulièrement intéressant. C’est en effet le critère qui est recherché par les modèles de source qui se basent sur des distributions à queue lourde, comme les distributions alpha-stable ou t de Student par exemple. Il faut bien sûr préciser vis à vis de quoi le modèle doit être robuste. Il peut s’agir de robustesse par rapport à un bruit impulsif dans le plan TF [Magron et al., 2017]. L’estimation des paramètres d’un modèle gaussien est en effet particulièrement sensible aux valeurs aberrantes ; celles-ci vont fortement faire dévier la moyenne et la variance estimées au sens du maximum de vraisemblance par exemple. Au contraire les modèles basés sur des distributions à queue lourde vont être beaucoup plus robustes à ces valeurs extrêmes. Il peut également s’agir de robustesse vis à vis de l’initialisation d’algorithmes itératifs tels que ceux employés dans le cadre de la NMF [Yoshii et al., 2016]. Finalement, utiliser une distribution à queue lourde peut permettre de prendre en compte une forte incertitude vis à vis du modèle gaussien sous-jacent.
Modèle gaussien structuré en variance
A notre connaissance, un modèle génératif gaussien TF exploitant une décomposition nonnégative de la puissance à court-terme des sources a été pour la première fois proposé dans [Benaroya et al., 2003], dans le cadre d’une application de séparation de sources monocanale. Le lien entre ce modèle et la NMF a ensuite été explicitement établi dans [Févotte et al., 2009], où notamment il a été prouvé l’équivalence entre une estimation des paramètres au sens du maximum de vraisemblance et une NMF basée sur la divergence d’Itakura-Saito. Ce modèle génératif gaussien a ensuite été exploité pour la séparation de sources multicanale dans [Ozerov et Févotte, 2010].
Paramétrisation autorégressive à moyenne ajustée
Nous avons vu dans la sous-section précédente que les propriétés statistiques de la réverbération tardive sont totalement résumées par l’ACVF définie à l’équation (3.16). Cette fonction dépend uniquement du temps de réverbération, du volume et de l’aire totale des parois de la salle. Si dans le cadre des processus gaussiens la connaissance de la fonction d’autocovariance est totalement suffisante pour définir la distribution d’un vecteur d’observations, il peut être utile en pratique de résumer cette information par l’intermédiaire d’un modèle paramétrique impliquant un faible de nombre de paramètres. Cela peut par exemple nous éviter d’inverser une matrice de covariance de grande dimension.
|
Table des matières
I Introduction et état de l’art
1 Introduction
1.1 Contexte général
1.2 Formulation du problème
1.3 Structure du manuscrit et contributions
1.4 Publications associées à cette thèse
2 État de l’art
2.1 Séparation de sources aveugle
2.2 Modèles probabilistes de source non stationnaire dans le domaine temps-fréquence
2.3 Factorisation en matrices non-négatives
2.4 Modèles pour les mélanges fortement réverbérants
2.5 Estimation et inférence statistique
2.6 Évaluation de la qualité de séparation
2.7 Bases de données
II Modélisation du mélange dans le domaine fréquentiel
3 Modèles de réponse en fréquence de salle
3.1 Introduction
3.2 Réponses impulsionnelle et fréquentielle de salle
3.3 Modèle de contributions précoces
3.4 Modèle de réverbération tardive
3.5 Conclusion
4 Séparation de sources avec a priori sur la réponse en fréquence des filtres de mélange
4.1 Modèles et estimation des filtres au sens du maximum de vraisemblance
4.2 A priori sur les filtres de mélange
4.3 Estimation des filtres au sens du maximum a posteriori
4.4 Résultats expérimentaux
4.5 Conclusion
III Modélisation du mélange dans le domaine temporel
5 Filtres de mélange déterministes
5.1 Représentation temporelle du mélange
5.2 Représentation temps-fréquence des sources
5.3 Modèle de source gaussien
5.4 Modèle de source t de Student
5.5 Conclusion
6 Modèle t de Student pour les filtres de mélange
6.1 Modèle
6.2 Inférence variationnelle
6.3 Résultats expérimentaux
6.4 Conclusion
IV Conclusion et perspectives
V Annexes
Télécharger le rapport complet