Dictionnaires temps-fréquence, parcimonie et factorisation en matrice non-négative 

Télécharger le fichier pdf d’un mémoire de fin d’études

Modèle avec du bruit vs modèle sans bruit

La formulation pour les mélanges instantanés (1.2) peut être généralisée pour inclure le bruit additif N 2 RM⇥T qui peut également être considéré comme un terme d’erreur : X = AS + N. (1.6)
Lorsque le niveau de bruit est élevé, cela rend la séparation plus difficile. Afin d’estimer la matrice de mélange et les sources, il faut aborder la séparation et le problème de débruitage en même temps. Dans le cas déterminé, l’identification de la matrice de mélange ne suffit pas.
Ce terme de bruit ou d’erreur peut également être ajouté à la formulation (1.5) : X = A ? S + N. (1.7)
Le modèle ci-dessus est le plus général pour les mélanges linéaires invariants dans le temps.

Prétraitements

Avant le processus de séparation, certains prétraitements peuvent être nécessaires.

Détermination du nombre de sources

Dans le cadre aveugle, pour certaines applications, le nombre de sources peut être inconnu [AGB10]. Dans ce cas, la détermination du nombre de sources est une question importante. Pour les mélanges instantanés sans bruit surdéterminés, le nombre de sources peut être estimé à partir de la matrice de covariance des observations : le nombre de valeur propre non nulle de cette matrice de covariance est égal au nombre de sources. Cependant, dans d’autres cas, la détermination du nombre de sources n’est pas facile. Dans [YR04, AGB10], le nombre de sources est estimé avec le système de mélange. Les auteurs de [LCA04] ont développé un algorithme qui ne nécessite que la limite supérieure du nombre de sources (voir dans la section 3.3.1 pour plus de détails.).

Réduction de dimensions

Une technique de prétraitement commune pour les données multidimensionnelles consiste à réduire sa dimension, c’est-à-dire le nombre d’observations dans l’application de séparation de sources. Cela nous permet d’éliminer la redondance dans les observations, de sorte que le coût de calcul peut être allégé. Ce prétraitement présente de grands avantages, en particulier pour les mélanges instantanés sur-déterminés lorsque le nombre de sources est connu. Pour ce faire, l’analyse en composantes principales (PCA) est souvent utilisée. L’un des avantages de ce prétraitement est la réduction du bruit [HKO04].

Blanchiment

Outre la réduction de dimensions, la PCA peut également être utilisée pour effectuer le blanchiment comme un prétraitement. Ce prétraitement est particulièrement intéressant pour les mélanges instantanés car il réduit le nombre de variables à estimer dans la matrice de mélange [HKO04]. Un tel prétraitement pour les mélanges convolutifs est plus sophistiqué [TM17].

Évaluation des performances

L’évaluation des performances de séparation est une question importante car elle permet d’évaluer un algorithme ou de comparer plusieurs algorithmes entre eux. En pratique, les méthodes d’évaluation diffèrent selon les applications [DPO+12]. Cependant, pour les mélanges synthétiques, pour lesquels les sources d’origine sont disponibles, nous utilisons les méthodes d’évaluation proposées dans [VSB+07].

Approche et présentation du manuscrit

Approche retenue

Dans cette thèse, nous abordons les mélanges instantanés et les mélanges convolutifs séparément.
Dans la première partie, nous étudions spécifiquement deux approches pour les mélanges instantanés : l’analyse en composantes indépendantes et l’analyse en composantes parcimonieuses. Nous montrons que les deux approches peuvent être formulées comme un problème d’optimisation à l’aide des décompositions parcimonieuses dans un dictionnaire temps-fréquence. Sur cette base, nous proposons un nouveau cadre d’optimisation et abordons le problème de séparation de sources avec des techniques d’optimisation.
Dans la deuxième partie, nous nous concentrons sur les mélanges convolutifs.
Nous avons profité des outils développés précédemment pour les mélanges instantanés, ainsi que les décompositions morphologiques et la parcimonie structurée pour obtenir une meilleure performance de séparation. Nous avons également étudié les méthodes de factorisation en matrices non-négatives (NMF) pour les mélanges des signaux de musique et développé de nouveaux algorithmes combinant la NMF et l’hypothèse de parcimonie.

Structure du document

Ce manuscrit est organisé comme suit.
— Le chapitre 2 présente les outils temps-fréquence, la notion de parcimonie et la méthode de factorisation en matrices non négatives (NMF) qui seront essentiels pour les approches présentées dans cette thèse.
La première partie consacrée aux mélanges instantanés est composée des deux chapitres suivants.
— Le chapitre 3 présente les méthodes de l’état de l’art pour les mélanges instantanés qui seront les fondements des méthodes présentées dans la suite.
— Le chapitre 4 présente les liens entre l’analyse en composantes indépendantes et l’analyse en composantes parcimonieuses. Ces deux approches sont unifiées dans un cadre d’optimisation pour la séparation de sources des mélanges instantanés.
Dans la deuxième partie, les mélanges convolutifs sont abordés. Quatre chapitres y sont consacrés.
— Le chapitre 5 présente l’état de l’art pour les mélanges convolutifs.
— Le chapitre 6 présente une étude essentiellement expérimentale pour exploiter la structure en « couches morphologiques » ou « modèle hybride » dans le cadre de la séparation non aveugle.
— Le chapitre 7 revisite le cadre proposé au chapitre 4 et propose de nouveaux algorithmes pour les mélanges convolutifs basés sur l’optimisation.
— Le chapitre 8 combine les méthodes NMF avec l’hypothèse de parcimonie et présente de nouvelles approches pour les mélanges convolutifs avec des signaux musicaux.
Enfin, le chapitre 9 conclut la thèse et apporte des perspectives de recherche.

Transformée de Gabor discrète

Dans cette section, nous introductions les méthodes de décompositions dans les dictionnaires temps-fréquence, l’analyse en composantes parcimonieuses. Nous présentons ensuite deux algorithmes d’optimisation particuliers qui permettrons d’aborder les mélanges aveugles. Enfin nous présentons la factorisation en matrice non-négative.

Analyse temps-fréquence : transformée de Gabor

Compte tenu d’un signal observé sur un intervalle de temps, sa transformée de Fourier classique estime le contenu en fréquence mais « perd » l’information temporelle.
Pour analyser l’évolution du spectre avec le temps, les transformées de Fourier à court terme (STFT-Short Time Fourier Transform) forment une classe importante de décomposition temps-fréquence locale [Mal99].

Parcimonie

La parcimonie signifie que, dans un vecteur ou une matrice, seuls quelques éléments sont non nuls. Popularisée en traitement du signal par [CDS01], la notion de parcimonie est largement utilisée dans le traitement du signal et de l’image [Ela10].
En particulier, il apparaît dans [ZP01] pour le problème de séparation de sources aveugle. Cette hypothèse est exploitée par « l’analyse en composantes parcimonieuses » (SCA – Sparse Components Analysis).

Représentation parcimonieuse

Pour la résolution de problèmes inverses, et donc en particulier pour la séparation de sources, on peut utiliser le point de vu « synthèse » de la parcimonie. Cela consiste à trouver le vecteur de coefficients temps-fréquence le plus parcimonieux permettant de reconstruire (ou approcher) le ou les signaux recherchés.

Mesures d’indépendances

Le critère d’indépendance est basé sur (3.2) qui ne peut être facilement formulé en tant que fonction de critère. Par conséquent, beaucoup de méthodes sont proposées pour « approcher » une telle mesure.
— Non-gaussianité : avec le théorème de la limite centrale, l’intuition nous dit que le mélange des signaux indépendants devrait conduire à une sorte de gaussianisation. Il est alors naturel de considérer que la séparation conduit à des processus qui s’écartent des processus gaussiens. Sachant que les variables aléatoires gaussiennes ont des cumulants d’ordre supérieur qui disparaissent, un grand nombre d’algorithmes ont été proposés basé sur les statistiques d’ordre supérieur [HKO04,BAMCM97,Car99].
— Maximisation de l’information : l’information mutuelle peut être utilisée comme un critère pour la séparation de sources pour les mélanges instantanés [CJ10]. Bell et Sejnowski [BS95] ont montré que maximiser l’entropie des sources estimées (minimiser leurs informations mutuelles) peut être vu comme une mesure d’indépendance.
— Maximum de vraisemblance : le maximum de vraisemblance a également été proposé pour résoudre le problème de séparation de source. Il a été montré qu’il est équivalent à la méthode de maximisation de l’information [Car97,PP+97].
Il est montré dans [LGBS00] que la plupart des algorithmes d’ICA sont liés. Dans ce chapitre, nous nous intéressons aux méthodes dans les deux catégories suivantes :
1. L’ICA basé sur la maximisation de l’information (Infomax)/maximum de vraisemblance,
2. L’ICA basé sur la poursuite des projections (maximisation de la nongaussianité).
Nous montrerons en effet dans le chapitre 4 que ces méthodes peuvent être formulées comme un problème d’optimisation et qu’elles ont un lien fort avec les méthodes basées sur la parcimonie (elles-mêmes présentées dans la section 3.2).

ICA dans le domaine transformé

Comme mentionné précédemment, une hypothèse d’ICA est que au plus une des sources suit une distribution gaussienne. Cependant, pour les signaux audio, la distribution des échantillons temporels peut être vue comme gaussienne [KT05].
Pour contourner cet inconvénient, l’ICA dans le domaine transformé est habituellement considérée [PAB+01].
De (3.36), nous voyons que, en raison de la linéarité, le modèle dans le domaine temporel et celui dans le domaine temps-fréquence partagent la même matrice de mélange A. Une telle approche peut être trouvée dans [HHO97] pour le traitement d’image avec des ondelettes et dans [KS15] pour fMRI (l’imagerie par résonnance magnétique fonctionnelle) où une stratégie d’apprentissage de dictionnaire est utilisée pour choisir le domaine transformé.
Une autre transformation souvent utilisée avant la séparation avec les méthodes ICA est la réduction de la dimension (voir dans la section 1.4.2 pour plus d’explication).
Souvent avec la méthode PCA (Principal component analysis), la transformation vise à simplifier le problème de séparation en transformant les mélanges surdéterminés en mélanges déterminés.
L’algorithme 3 et l’algorithme dans [BSFM07] sont construit sur le même principe : à chaque itération, les sources S sont mises à jour (via leurs coefficients de synthèses) par une étape de type « ISTA », alternativement avec la matrice de mélange A mise à jour par moindre carré avec normalisation des colonnes.
Cet algorithme montre de bonnes performances dans les cas déterminés, en particulier en présence de bruit blanc gaussien. Cependant, ce type de BCD (Block-Coordinate Descent) n’a pas de garantie de convergence, principalement en raison de l’étape de normalisation supplémentaire. Il est également mentionné dans [BSFM07] que cet algorithme ne fonctionne pas dans le cas sous-déterminé.
Nous pensons que cela est dû à l’algorithme empirique dans l’algorithme 3. Dans le chapitre 4, basé sur la formulation avec fonction indicatrice pour la normalisation, nous proposons un algorithme avec preuve de convergence qui fonctionne dans le cas sous-déterminé mélange par un dictionnaire, c’est ce que nous appelons la parcimonie à l’analyse.
En même temps, la parcimonie à la synthèse pour le problème de séparation des sources a également été étudiée. Ainsi, dans cette section, nous présentons les méthodes de séparation pour les mélanges sous-déterminés en deux catégories :
1. Les méthodes basées sur la parcimonie à l’analyse (parcimonie par transformation),
2. Les méthodes basées sur la parcimonie à la synthèse.
L’hypothèse disjointe stricte est relativement forte. Dans [YR04], les auteurs ont illustré que la représentation temps-fréquence des signaux vocaux est presque disjointe. Une hypothèse plus faible est que, à un point temps-fréquence, l’une des sources est bien plus énergétique que toutes les autres.
Cette hypothèse de disjonction au sens large a été ensuite relaxée dans [AGB10, AD05, LAC+06, BZ01]. Dans [AGB10], les auteurs supposent que pour chaque source, il y a au moins une région temps-fréquence où cette source est dominante.
Ils ont soutenu que cette région peut fournir des estimations locales robustes de la direction de source correspondante. Ils ont exploité une mesure de confiance locale basée sur un modèle statistique. Ils ont ensuite proposé un algorithme de regroupement pour fusionner les informations de toutes les régions temps-fréquence en fonction de leur niveau de confiance.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction 
1.1 Contexte général
1.2 Modèles directs
1.2.1 Mélanges instantanés
1.2.2 Mélanges convolutifs
1.3 Modèle avec du bruit vs modèle sans bruit
1.4 Prétraitements
1.4.1 Détermination du nombre de sources
1.4.2 Réduction de dimensions
1.4.3 Blanchiment
1.5 Évaluation des performances
1.6 Approche et présentation du manuscrit
1.6.1 Approche retenue
1.6.2 Structure du document
2 Dictionnaires temps-fréquence, parcimonie et factorisation en matrice non-négative 
2.1 Analyse temps-fréquence : transformée de Gabor
2.1.1 La transformée continue
2.1.2 Transformée de Gabor discrète
2.1.3 Trame
2.2 Coefficients d’analyse vs coefficients de synthèse
2.3 Parcimonie
2.3.1 Représentation parcimonieuse
2.3.2 Interprétation statistique
2.4 Optimisation : descente proximale
2.4.1 ISTA (Iterative Shrinkage/Thresholding Algorithm)
2.4.2 FISTA (Fast Iterative Shrinkage/Thresholding Algorithm)
2.4.3 Algorithme PALM
2.4.4 Algorithme BC-VMFB
2.5 Factorisation en matrice non-négative
I Mélanges instantanés
3 Étatde l’art :mélanges instantanés 
3.1 Mélanges déterminés sans bruit et les méthodes d’ICA
3.1.1 ICA
3.1.2 Prétraitement et contrainte d’orthogonalité
3.1.3 Mesures d’indépendances
3.1.4 ICA basé sur l’Infomax/maximum de vraisemblance
3.1.5 ICA par poursuite de projections
3.1.6 ICA dans le domaine transformé
3.2 Parcimonie et séparation de mélanges surdéterminés : GMCA
3.3 Parcimonie et séparation de mélanges sous-déterminés
3.3.1 Parcimonie à l’analyse
3.3.2 Parcimonie à la synthèse
4 Sparse-ICA pour les mélanges instantanés 
4.1 Séparation de sources et parcimonie à la synthèse
4.1.1 Difficultés
4.1.2 Un algorithme convergent : BSS-PALM
4.2 Une revisite de sparse-ICA
4.2.1 ICA par Infomax/Maximum de vraisemblance
4.2.2 ICA par poursuite de projection
4.2.3 Vers une formulation générale de Sparse-ICA
4.3 Algorithmes pour Sparse ICA
4.3.1 Une modification simple de BSS-PALM
4.3.2 Approche de type ADMM pour Sparse ICA
4.3.3 Une version simplifiée de BSS-LPADMM
4.4 Paramètres pratiques
4.4.1 Nombre de sources
4.4.2 Prétraitement de blanchiment
4.5 Expériences
4.5.1 Choix de l’hyper-paramètre !
4.5.2 Robustesse au nombre de sources
4.5.3 Séparation (sur)-déterminée
4.5.4 Mélanges sous-déterminés
4.5.5 Comparaison des temps de calculs
4.6 Conclusion
II Mélanges convolutifs
5 Étatde l’art : les mélanges convolutifs 
5.1 Approximation « instantanée » en bande étroite
5.1.1 Méthodes de séparation en deux étapes
5.1.2 Méthode en une étape : NMF
5.2 Approximation « convolutive » en bande étroite
5.3 Modèle en bande large
5.3.1 L’opération de mélange convolutif et ses opérateurs adjoints
5.3.2 Séparation de source non aveugle
5.3.3 Estimation du système de mélange
6 Séparation non aveugle des mélanges convolutifs sous-déterminés par seuillage structuré 
6.1 Modèle et formulation
6.2 Windowed-Group-Lasso : un opérateur de seuillage structuré
6.3 Analyse en composantes morphologiques
6.4 Expériences
6.4.1 Configuration expérimentale
6.4.2 Modèle monocouche
6.4.3 Modèle hybride
6.5 Conclusion
7 Séparation de source aveugle pour les mélanges convolutifs avec approximation convolutive en bande étroite 
7.1 Approximation « instantanée » en bande étroite
7.1.1 Modèle en bande étroite
7.1.2 Parcimonie et séparation de source
7.1.3 Formulation du problème
7.1.4 Algorithme
7.2 Approximation « convolutive » en bande étroite
7.2.1 Modèle
7.2.2 Régularisation pour les noyaux de convolution
7.2.3 Formulation et algorithme
7.3 Expériences
7.3.1 Méthodes de permutation
7.3.2 Configuration expérimentale
7.3.3 Choix des paramètres
7.3.4 Mélanges convolutifs sous-determinés sans bruit
7.3.5 Mélanges convolutifs sous-déterminés avec du bruit
7.3.6 Temps de calcul
7.4 Conclusion
8 Séparation aveugle des mélanges convolutifs sous-déterminés : parcimonie et rang faible 
8.1 Modèle et hypothèses
8.2 Méthode proposée
8.2.1 NMF jointe
8.2.2 Méthode de classification
8.2.3 Reconstruction des sources
8.2.4 Initialisation
8.2.5 Discussions
8.3 Expériences
8.3.1 Configuration expérimentale
8.3.2 Résultats de séparation pour un cas particulier
8.3.3 Performance en fonction du temps de réverbération
8.3.4 Performance en fonction de la distance entre microphones
8.3.5 Mélanges avec du bruit
8.3.6 Module vs module au carré
8.3.7 Temps de calcul
8.4 Conclusion
9 Conclusions 
9.1 Contributions
9.2 Perspectives
9.2.1 Séparation basée sur la norme nucléaire
9.2.2 Séparation non aveugle par « dépliage » de seuillage itératif
9.2.3 Alignement de permutation avec l’approximation « convolutive » en bande étroite
9.2.4 Parcimonie, NMF et information de phase
9.3 Publications

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *