Télécharger le fichier pdf d’un mémoire de fin d’études
Pourquoi sépare-t-on ?
La SSA a de nombreux objectifs. Premierement, la decomposition des enregistrements en sources originales ouvre la possibilite de creer de nouveaux enregistrements, par exemple en modiant les positions des sources ou leurs intensites. Deuxiemement, cela peut faciliter l’analyse des enregistrements. Dans le cadre de l’indexation audio par exemple, on cherche a extraire a partir des enregistrements certaines metadonnees telles que des mots, des phrases, des partitions musicales, etc. Souvent, ces metadonnees semblent plus faciles a extraire a partir des sources separees qu’a partir des enregistrements.
Selon l’article [Vincent-03], deux groupes d’applications de la SSA peuvent ^etre distingues :
1. applications visant a modier le contenu audio (pour la creation de nouveaux enregistrements),
2. applications visant a extraire des informations semantiques (pour l’extraction de metadonnees).
Quelques exemples d’applications pour chacun de ces groupes sont presentes ci-dessous :
1. Applications visant a modier le contenu audio :
{ La restauration d’enregistrements anciens [Cappe-93].
{ Le remixage d’enregistrements [Vincent-04], c’est-a-dire la modication des eets de mixage, des positions des sources dans des enregistrements stereo, etc.
{ L’elimination de la voix dans des chansons pour des application de karaoke.
2. Applications visant a extraire des informations semantiques :
{ La reconnaissance automatique de la parole.
{ La reconnaissance / verication du locuteur.
{ La transcription automatique de musique polyphonique, c’est-a-dire la recherche de la partition musicale jouee pour une source particuliere du melange.
Comme il est deja remarque dans l’introduction, l’application traitee dans cette these, c’est-
a-dire la separation voix / musique, peut ^etre tres utile puisque a partir de la voix bien separee,
il est plus facile d’extraire beaucoup de metadonnees importantes pour caracteriser les chansons.
Cela peut ^etre, par exemple, la parole chantee, la melodie chantee, l’identite du chanteur etc.
Ces metadonnees peuvent ^etre ensuite utilisees pour de nombreuses t^aches d’indexation audio.
Les applications suivantes peuvent ^etre ainsi envisagees :
1. Applications visant a extraire des informations semantiques :
{ La reconnaissance de la parole chantee.
{ La transcription de la melodie chantee.
{ Estimation de la frequence fondamentale (pitch) de la voix chantee. La transcription de la melodie chantee peut ^etre egalement eectuee a partir d’une estimation du pitch.
{ La reconnaissance de l’identite du chanteur.
2. Application visant a modier le contenu audio :
{ Le remixage, par exemple l’amplication ou l’attenuation de la voix chantee.
Dans ce travail, nous avons choisi de mesurer l’apport des techniques de separation voix / musique proposees pour l’estimation du pitch de la voix chantee. Cela permettra d’evaluer les methodes proposees et la separation de sources en general dans le cadre d’une t^ache d’extraction de metadonnees pour l’indexation audio.
Classification des problèmes de la SSA par niveau de difficulté
Une classication assez classique des problemes de la SSA par niveau de diculte en fonction de leur dimensionnement (K;L) est presentee dans cette section. Cette classication permet de comprendre en quoi la separation de sources avec un seul capteur est qualitativement dierente de la separation de sources avec plusieurs capteurs et dans un certain sens plus dur. Dans ce cas, les rapports entre les gains de mixage pour deux canaux (gauche et droit), c’est-adire rk = a1;k=a2;k, k = 1; 2, determinent les directions de provenance des sources. En supposant qu’on arrive a estimer ces rapports rk, c’est-a-dire les directions (nous ne decrivons pas la methode d’estimation des rk ici), l’estimation des sources devient simple et directe. Par exemple, en utilisant le rapport r1, on peut egaliser l’energie de la contribution de la source s1 dans deux canaux. Ensuite, en soustrayant le canal gauche du canal droit, on arrive a eliminer la source s1 et on obtient une estimation de la source s2. Cette separation est possible gr^ace a la diversite spatiale, c’est-a-dire le fait que les sources arrivent de directions dierentes. Maintenant, considerons un enregistrement stereo, mais avec plus de deux sources (K > 2), disons trois, et egalement avec un modele de melange lineaire instantane. Dans ce cas, on arrive toujours a estimer les directions (les rapports rk), mais l’astuce basee sur l’egalisation et la soustraction ne marche plus. En eet, en eliminant une des trois sources dans le melange, on n’arrive pas vraiment a estimer les deux autres. Cependant, il y a des techniques un peu plus elaborees qui permettent quand m^eme de s’en sortir.
Dans le cas des enregistrements mono, la diversite spatiale n’est plus exploitable. Avec un seul capteur l’information sur les directions de provenance des sources est completement perdue.
Ainsi, il faut avoir d’autres connaissances pour pouvoir separer les sources.
Passons maintenant a la presentation plus formelle de la classication des problemes de la SSA par niveau de diculte en fonction de leur dimensionnement (K;L) dans le cas du modele de melange lineaire instantane (1.3). Ce modele particulier est choisi pour simplier la presentation.
Cas determine (K = L) ou surdetermine (K < L). Dans ce cas, la connaissance de la matrice de melange A permet de reconstruire parfaitement les sources en appliquant sa pseudo inverse A+ , AT (AAT )?1 aux melanges [Jutten-03]. Il sut donc d’estimer la matrice de melange.
Pour cela, l’Analyse en Composantes Independantes (ACI) est souvent utilisee [Cardoso-98] en supposant que les sources sont mutuellement independantes.
Cas sous determine avec plusieurs capteurs (K > L et L > 1). Dans ce cas, l’estimation de la matrice de melange A seule ne permet plus d’avoir de bonnes estimations des sources [Gribonval-03]. Intuitivement, cela est assez facile a comprendre. En eet, puisque K > L, le but est de retrouver plus d’echantillons (K N, ou N est la duree de chaque source) a partir de moins d’echantillons (L N), sachant seulement que ces echantillons sont relies par une transformee lineaire A. Une hypothese supplementaire concernant la parcimonie des sources dans une representation (une base ou une representation redondante) permet de contourner la diculte [Boll-01, Gribonval-03a]. La parcimonie dans une representation signie qu’il y a tres peu de coecients ayant des valeurs signicativement grandes.
Cas sous determine avec un seul capteur (K > L et L = 1). L’estimation de la matrice de melange A n’apporte aucune information utile pour la separation dans ce cas. Autrement dit, il n’est plus possible d’utiliser la diversite spatiale des sources, c’est-a-dire de les distinguer gr^ace aux dierentes directions de leurs provenances. L’hypothese de la parcimonie seule n’est plus susante pour separer les sources et il faut utiliser d’autres connaissances pour y arriver.
Souvent, ces connaissances sont representees sous la forme de modeles a priori des sources. Ces modeles decrivent assez nement les caracteristiques des dierentes sources a separer (par ex. la voix, la musique, la parole, etc.). Ainsi, la separation devient possible gr^ace a la diversite des caracteristiques particulieres des sources. Ce sont ces methodes basees sur des modeles a priori des sources que nous allons etudier dans cette these.
Conclusion
Dans ce chapitre, le probleme de la SSA a ete formule de maniere assez generale d’abord au niveau acoustique et ensuite pour des signaux numeriques. Desormais, nous ne considererons que la formulation pour des signaux numeriques.
Plusieurs applications potentielles de la SSA sont presentees et classees en deux groupes (applications visant a modier le contenu audio et applications visant a extraire des informations semantiques). Dans cette these, nous allons evaluer l’apport des techniques de separation voix / musique proposees pour une application visant a extraire des informations semantiques, notamment pour l’estimation du pitch de la voix chantee. Cette application est tres utile pour certaines t^aches d’indexation audio.
Une classication assez classique des t^aches de la SSA par trois niveaux de diculte (cas (sur) determine, sous determine avec plusieurs capteurs et sous determine avec un seul capteur) est presentee. Cette classication montre que la separation de sources avec un seul capteur est plus dicile que la separation de sources avec plusieurs capteurs, car la diversite spatiale n’est pas exploitable avec un seul capteur et il faut avoir d’autres connaissances pour pouvoir separer. Une grande famille de methodes utilise des modeles a priori des sources comme telles connaissances.
Ces methodes seront presentees dans le chapitre suivant.
Separation de sources avec un seul capteur
Puisque dans le cas d’un seul capteur, la connaissance du modele de melange n’apporte pas d’information utilisable pour la separation (voir Sec. 1.4), on peut chercher a estimer les contributions des sources simg 1;k (n) (1.2) au lieu de chercher a estimer les sources elles m^emes sk(n).
Pour simplier les notations, nous avons remplace dans l’equation (2.1) les contributions de sources simg 1;k (n) (voir (1.2)) par les sources m^emes sk(n). On voit bien que le modele initial du melange A (lineaire instantane (1.3), convolutif (1.4) ou autre) n’apparait pas dans une telle formulation du probleme. Ainsi, les methodes qu’on pourrait utiliser pour resoudre ce probleme ne reposent pas sur la structure de A.
Puisque de toute maniere, dans l’application traitee dans ce travail, c’est-a-dire la separation voix / musique, il n’y a que deux sources (la voix et la musique) nous simplions l’equation (2.1) pour deux sources. Une generalisation a plus de deux sources peut ^etre faite, si cela est necessaire.
Présentation intuitive
Nous commencons par une presentation assez informelle et vulgarisee d’une approche permettant de separer les sources a partir d’un seul microphone. Cette presentation permet de comprendre d’une part la diculte de la t^ache et d’autre part une maniere de la resoudre. L’introduction plus formelle et theorique de cette approche sera faite par la suite (Sec. 2.4).
Hypothèse de travail : faible recouvrement dans le domaine de Fourier
La separation est generalement eectuee dans un domaine temps – frequence plut^ot que dans le domaine temporel, en utilisant par exemple la Transformee de Fourier a Court Terme (TFCT).
Puisque la TFCT est une transformee lineaire, l’equation de melange (2.2) est preservee, c’est-a-dire : X(t; f) = S1(t; f) + S2(t; f) (2.3) ou X(t; f), S1(t; f) et S2(t; f) sont des TFCT des signaux temporels x(n), s1(n) et s2(n) pour la trame numero t = 1; 2; : : : ; T et d’indice de frequence f = 1; 2; : : : ; F (F est l’indice de la frequence de Nyquist). Par la suite, les signaux temporels sont toujours notes par des lettres minuscules et leurs TFCT par les lettres majuscules correspondantes.
Le choix du domaine de la TFCT pour la separation est motive par le fait que les sources audio se recouvrent tres peu dans ce domaine. Cette propriete a ete montree par exemple pour les signaux de parole [Rickard-02]. Ainsi, il parait plus facile d’eectuer la separation dans le domaine de la TFCT plut^ot que dans le domaine temporel. Pour donner un exemple, des signaux de voix chantee, de violon et de leur melange sont representes sur la gure 2.1 (A) et leurs spectrogrammes (modules de la TFCT en echelle logarithmique) sont representes sur la gure 2.1 (B). On voit que dans le domaine de la TFCT, les sources (la voix et le violon) sont faciles a distinguer dans le melange et on peut les separer en supprimant par exemple les harmoniques de la source qu’on veut eliminer.
Dans la litterature, on trouve cette hypothese du non-recouvrement dans le domaine de la TFCT sous le nom de WDO (W-Disjoint Orthogonality) [Rickard-02]. Cette hypothese suppose que les supports des sources sont disjoints dans le domaine de la TFCT, c’est-a-dire S1(t; f)S2(t; f) = 0 (2.4)
En realite cette hypothese n’est jamais veriee exactement, car d’une part chaque source contient souvent une part de bruit qui appara^t partout dans le plan temps – frequence et d’autre part les harmoniques de sources dierentes peuvent se croiser. Cependant, dans beaucoup de cas, les regions les plus energetiques des sources audio se recouvrent tres peu dans le domaine de la TFCT. Par exemple, sur la gure 2.1 (C) nous avons represente les regions les plus energetiques (gardant 99 % de l’energie totale des signaux) des spectrogrammes de la voix et du violon ainsi que leur intersection dans le melange. On voit en eet que ces regions se recouvrent tres peu. Cette derniere hypothese du faible recouvrement dans le domaine de la TFCT est appelee WDO approchee [Rickard-02]. Nous ne chercherons pas a donner ici une denition mathematique rigoureuse de cette hypothese et nous contenterons de l’explication intuitive donnee.
|
Table des matières
Introduction
I Cadre du travail
1 Séparation de sources audio
1.1 Introduction au niveau acoustique
1.2 Formulation pour des signaux numeriques
1.2.1 Modeles de melange
1.2.2 Formulation du probleme de la SSA
1.3 Pourquoi separe-t-on ?
1.4 Classication des problemes de la SSA par niveau de diculte
1.5 Conclusion
2 Séparation de sources avec un seul capteur
2.1 Presentation intuitive
2.1.1 Hypothese de travail : faible recouvrement dans le domaine de Fourier
2.1.2 Masquage temps – frequence
2.1.3 Masquage oracle
2.1.4 Exemple de construction d’un masque
2.1.5 Exemple d’algorithme de separation
2.2 Methodes basees sur des modeles a priori : etat de l’art
2.2.1 Reseaux bayesiens (modeles graphiques orientes)
2.2.2 Methodes basees sur les MMG / MMC
2.2.2.1 Quelques remarques sur les MMG
2.2.2.2 Quelques remarques sur les MMC
2.2.3 Methodes similaires pour le debruitage de la parole avec un seul capteur
2.2.4 Extensions des methodes basees sur les MMG et les MMC
2.2.5 Autres modeles
2.2.6 Modeles utilises dans cette these
2.3 Methodes basees sur des modeles probabilistes a priori : presentation technique generale
2.3.1 Domaine du traitement
2.3.2 Apprentissage de modeles
2.3.3 Estimation de sources
2.4 Methodes de separation basees sur des Modeles de Melange de Gaussiennes (MMG)
2.4.1 Modelisation des spectres par des MMG
2.4.1.1 Apprentissage des MMG spectraux
2.4.1.2 Estimateur minimisant l’EQM spectrale
2.4.1.3 Estimateur dur vs. estimateur doux
2.4.1.4 Estimateur minimisant l’EQM log spectrale
2.4.1.5 Une remarque sur la phase
2.4.2 Modelisation des log spectres par des MMG
2.4.2.1 Apprentissage des MMG log spectraux
2.4.2.2 Distribution approchee du log spectre de melange
2.4.2.3 Estimateur minimisant l’EQM log spectrale
2.5 Conclusion
3 Evaluation et diagnostic
3.1 Evaluation de la qualite de separation
3.2 Mesures de performance de separation
3.2.1 Mesures heritees du debruitage de la parole
3.2.2 Mesures pour la separation de sources
3.2.3 Mesures normalisees
3.3 Estimateurs oracles et limites de performance
3.4 Resume
4 Experimentations preliminaires dans le cadre de la separation voix / musique
4.1 Probleme de separation voix / musique
4.2 Objectifs des experimentations preliminaires
4.3 Mesures de performance
4.4 Description des donnees experimentales pour la separation
4.5 Experimentations et resultats
4.5.1 Choix de la fen^etre d’analyse
4.5.2 Eet de l’heterogeneite entre donnees d’apprentissage et de test et eet du dimensionnement des modeles
4.5.3 Eets du domaine de modelisation et de la mesure de distorsion
4.5.4 Precision des estimateurs durs par rapport aux estimateurs doux
4.6 Conclusion
5 Problematique
5.1 Limites des modeles probabilistes a priori
5.2 L’adaptation comme solution
II Adaptation des modèles : développement d’un formalisme général
6 Formalisme d’adaptation 95
6.1 Cahier des charges pour l’adaptation
6.2 Formalisme d’adaptation base sur le critere MAP
6.2.1 Representation a l’aide des reseaux bayesiens
6.2.2 R^ole des lois a priori
6.2.3 Positionnement par rapport a l’etat de l’art
6.3 Conclusion
7 Algorithme d’adaptation
7.1 Algorithme d’adaptation sous sa forme generale
7.2 Algorithme d’adaptation pour les familles exponentielles
7.3 Statistiques naturelles des MMG et leurs esperances conditionnelles
7.4 Conclusion
8 Extensions du formalisme d’adaptation
8.1 Adaptation contrainte
8.2 Utilisation d’informations auxiliaires
4 Table des matieres
8.3 Conclusion
III Application d’adaptation à la séparation voix / musique
9 Systeme de separation voix / musique
9.1 Systeme de separation
9.2 Description du module d’adaptation
9.3 Segmentation en parties vocales et non vocales
9.4 Adaptation acoustique du modele de musique
9.4.1 Illustration experimentale
9.4.2 Explication du reapprentissage sur les parties non vocales a l’aide du formalisme d’adaptation
9.5 Adaptation des ltres et des gains de DSP
9.5.1 Adaptation d’un ltre
9.5.2 Adaptation des gains de DSP
9.5.3 Adaptation conjointe des ltres et des gains de DSP
9.6 Conclusion
10 Integration de l’adaptation des ltres et des gains lors de l’apprentissage du modele general
10.1 Apprentissage du modele general a ltres adaptes
10.2 Illustration experimentale
10.3 Apprentissage prenant en compte l’adaptation contrainte
10.4 Conclusion
IV Evaluation du systeme de separation voix / musique
11 Segmentation en parties vocales et non vocales
11.1 Description des donnees experimentales pour la segmentation
11.2 Protocole experimental
11.3 Mesure de performance
11.4 Parametres acoustiques
11.5 Simulations
11.5.1 Decision par trame vs. decision par bloc, taille du bloc
11.5.2 Nombre d’etats des modeles
11.6 Conclusion
12 Separation voix / musique
12.1 Protocole experimental
12.2 Simulations
12.2.1 Seuil de decision de la segmentation automatique
12.2.2 Apport des dierentes adaptations
12.2.3 Eet du nombre d’etats des modeles
12.3 Conclusion
13 Apport de la separation pour l’estimation du pitch de la voix
13.1 Estimateur de pitch
13.2 Description des donnees experimentales
13.3 Protocole experimental
13.4 Pitch de reference
13.5 Mesures de performance
13.5.1 Mesures de performance : Option 1
13.5.2 Mesures de performance : Option 2
13.6 Simulations
13.6.1 Experimentations avec les donnees utilisees pour la separation
13.6.2 Experimentations avec les donnees de l’ISMIR 2004
13.7 Conclusion
V Conclusion et perspectives
14 Conclusion
15 Perspectives
Annexes
A Rappels de probabilites et de statistiques
A.1 Densite d’un vecteur aleatoire gaussien reel / complexe
A.2 Familles exponentielles et statistiques naturelles
A.3 Algorithme EM pour l’estimation MAP
A.3.1 Cas particulier des familles exponentielles
B Demonstration de certains resultats
B.1 Familles exponentielles des MMG
6 Table des matieres
B.2 Calcul des esperances conditionnelles des statistiques naturelles des MMG
B.3 Formules de reestimation pour l’adaptation des ltres et des gains de DSP
B.3.1 Adaptation d’un ltre
B.3.2 Adaptation des gains de DSP
B.3.3 Adaptation conjointe des ltres et des gains de DSP
Bibliographie
Télécharger le rapport complet