Décomposition des signaux musicaux
Les signaux musicaux possèdent de très importantes redondances et peuvent être généralement décrits avec beaucoup moins d’informations que leur forme d’onde : un morceau de musique est en effet généralement composé d’événements musicaux (par exemple des notes de musique, des sons de percussions…) qui se répètent au cours du temps. Notre perception de la musique est majoritairement influencée par ces événements (qui sont définis par une connaissance a priori de la musique que nous avons l’habitude d’écouter) et leur apparition répétée au cours du morceau. La perception est en effet principalement basée sur ce qu’on attend : on arrive à avoir une perception cohérente de la musique et à structurer cette perception grâce à la redondance qui y est présente. Une représentation proche de ce qui est perçu en termes d’événements sonores permet donc de comprendre et d’analyser la musique comme le ferait une personne. Il est donc très intéressant de pouvoir obtenir une telle représentation à partir d’une simple forme d’onde.Les transformées temps/fréquence de type spectrogramme permettent de faire apparaître en partie les redondances perceptives même si celles-ci restent complexes. Ainsi dans la figure 1.1, on voit clairement apparaître une redondance forte entre certaines parties du spectrogramme. De nombreux travaux cherchent à extraire automatiquement une structure qui explique bien le signal étudié tout en ayant réduit considérablement la quantité d’informations pour le décrire. On peut notamment citer deux types de méthodes : les méthodes de décomposition parcimonieuse [Mallat et Zhang, 1993, Chen et al., 1998] qui cherchent à décomposer le signal sur un ensemble de signaux de base bien choisis pour pouvoir décrire le signal étudié, et les méthodes de factorisation, telles que la Factorisation en matrices non-négatives (NMF) [Lee et Seung, 1999], qui cherchent à extraire automatiquement des structures redondantes qui apparaissent dans les données analysées et qui peuvent donc être interprétées comme des méthodes de décomposition parcimonieuse pour lesquelles le dictionnaire est appris automatiquement à partir du signal.
Factorisation et modèles de synthèse
Les méthodes de factorisation issues d’un modèle de décomposition linéaire comme la NMF montrent de sévères limitations dès que les spectrogrammes à décomposer présentent des éléments variables dans le temps : par exemple lorsqu’une même note présente certaines variations spectrales (variations d’enveloppe spectrale, variations de fréquence fondamentale). Pourtant, même dans ce cas, il existe généralement une profonde redondance d’une trame à l’autre de cet élément. La figure 1.2 qui représente le spectrogramme d’une note isolée de violon contenant un important vibrato illustre bien ce problème : le vibrato induit d’importantes différences entre les trames successives (en particuliers pour les partiels de fréquence supérieure à 2000Hz), ainsi un modèle de décomposition linéaire comme la NMF nécessitera de nombreux atomes pour correctement décomposer cet extrait constitué d’un unique objet sonore et aboutira ainsi à une représentation difficile à interpréter. Pourtant une forte redondance apparaît clairement dans ce spectrogramme : les trames dans lesquelles la note est jouée présentent toutes une structure harmonique commune et les amplitudes de ces harmoniques restent quasiment constantes. Un unique paramètre varie au cours du temps : la fréquence fondamentale. Connaître les variations de ce paramètre devrait donc permet de retrouver la redondance.
Changement d’échelle et permutation
Le premier type de transformation qui ne change pas les valeurs du produit WH est le cas ou Q et Q−1 sont toutes deux non-négatives. On peut démontrer facilement que ces matrices sont exactement les matrices de permutation généralisées à coefficients non-négatifs (On peut par exemple en trouver une démonstration dans [Kaczorek, 2002, p.2]) : il s’agit des matrices inversibles qui ont exactement un coefficient non nul (et donc strictement positif) par colonne (et par ligne). Les matrices de permutation généralisées peuvent être décomposées en deux matrices plus simples : Q = DP où D est une matrice diagonale (correspondant à une opération de changement d’échelle) de diagonale strictement positive et P une matrice de permutation. Ainsi ce type de transformation correspond à une permutation et un changement d’échelle des colonnes de la matrice de base W (la transformation inverse étant appliquée aux lignes de la matrice d’activation H). Ce type de transformation n’est donc pas un problème puisqu’il suffit d’imposer une norme aux colonnes de W (ou aux lignes de H) pour avoir l’unicité vis-à-vis de la mise à l’échelle, et d’imposer un ordre sur les colonnes de W (par exemple on peut imposer que ces colonnes soient classées dans l’ordre croissant par rapport à l’ordre lexicographique)pour avoir l’unicité vis-à-vis de la permutation.
Variations d’enveloppes spectrales
Les variations importantes de forme spectrale au sein d’un même événement sonore (note de musique…) ne peuvent pas être modélisées de façon satisfaisante : de nombreux atomes sont nécessaires pour correctement représenter de tels événements et la décomposition perd alors son sens. La NMF ne permet donc pas de prendre en compte l’évolution fréquentielle de chaque note et s’avère inefficace pour des sons présentant de fortes variations spectrales au cours du temps, même si la note présente une caractéristique redondante d’une trame à l’autre (par exemple une fréquence fondamentale fixe). Cette limitation de la NMF est illustrée dans la figure 2.12 dans laquelle un son de guimbarde est décomposé : on constate que lorsque le nombre d’atomes est trop faible (R = 1, 2) la résonance n’est pas modélisée correctement. Un nombre d’atomes important (R = 10) est donc nécessaire pour correctement décomposer le spectrogramme : les atomes représentent alors chacun un bout de la résonance et n’ont alors plus vraiment de sens individuellement. L’utilisation de la NMF pour décomposer ce type de signal semble donc inadaptée.
Variations de fréquence fondamentale
Les légères variations de fréquence fondamentale (par exemple rencontrées lors de vibrato) réduisent fortement la redondance d’une trame à l’autre et ne peuvent donc pas être prises en compte correctement par une méthode de réduction de rang comme la NMF. Cette limitation de la NMF est illustrée dans la figure 2.13 : une note produite par un synthétiseur contenant un important vibrato est décomposée à l’aide d’une NMF pour R = 1, 3 et 10 atomes. Si la variation de fréquence fondamentale du vibrato reste faible, l’effet sur les harmoniques de haute fréquence est très important, et la redondance trame à trame est donc cassée par le vibrato. Pour R = 1 atome, le vibrato n’est pas du tout pris en compte par la NMF : seuls les premiers harmoniques sont correctement représentés. Pour R = 3 atomes, le vibrato commence à être pris en compte, mais la reconstruction dans les hautes fréquences reste mauvaise. Il est donc nécessaire d’avoir un nombre important d’atomes pour pouvoir prendre en compte ce phénomène : avec 10 atomes, le vibrato est très bien modélisé, mais encore une fois les atomes ont perdu leur sens individuel et possèdent une certaine redondance entre eux. La redondance dans ce type de spectrogramme est en faite trop subtile pour être correctement prise en compte par une NMF : seul un petit nombre de paramètres varie (en l’occurrence la fréquence fondamentale), le reste (enveloppe spectrale) est à peu près stationnaire.
Description du signal décomposé
Dans cette section, notre algorithme est utilisé pour décomposer un court extrait de guitare électrique traité par une pédale wah-wah. La pédale wah-wah est un effet très utilisé sur la guitare électrique. Elle consiste en un filtre résonant, dont la fréquence de résonance est contrôlée au moyen d’une pédale. Cette effet est nommé en raison de la ressemblance des sons produits avec l’onomatopée « Wah ». Le son d’une note de guitare électrique traité par une pédale wah-wah dont on modifie la position de la pédale présente de fortes variations spectrales et ne peut donc pas être correctement représenté par un unique atome dans une NMF standard. Comme l’effet produit par une pédale wah-wah est bien modélisé par un filtre AR avec 2 pôles complexes conjugués, nous avons choisi de décomposer l’extrait avec Q = 0 et P = 2. L’extrait décomposé, dont le spectrogramme est représenté dans la figure 3.6(a), est composé de trois notes différentes jouées successivement (la première note est rejouée une seconde fois à la fin de l’extrait). Chaque note peut être vue comme un motif harmonique qui est filtré par un filtre résonant, la fréquence de résonance variant entre 400Hz et 1200Hz : cette résonance apparaît très clairement dans le spectrogramme de puissance. La fréquence d’échantillonnage de l’extrait est fs = 11025Hz.
|
Table des matières
Résumé
Notations
Abréviations
Glossaire
1 Introduction
1.1 Décomposition des signaux musicaux
1.2 Contexte
1.3 Factorisation et modèles de synthèse
1.3.1 Synthèse source/filtre
1.3.2 Synthèse additive
1.3.3 Synthèse par table d’onde
1.4 Structure du document
2 Factorisation en matrices non-négatives
2.1 Présentation générale
2.1.1 Modèle
2.1.2 Fonction de coût
2.1.2.1 Divergences courantes
2.1.2.2 Divergence de Bregman et β-divergence
2.2 Unicité
2.2.1 Changement d’échelle et permutation
2.2.2 Extension/rétrécissement du cône polyédrique des solutions
2.2.3 Problème lié : impossibilité d’une factorisation exacte
2.3 Décomposition de spectrogrammes musicaux
2.3.1 Principe
2.3.2 Choix de l’exposant
2.3.2.1 Cas à deux composantes « indépendantes »
2.3.2.2 Autres cas
2.3.3 NMF et séparation de sources
2.4 Modélisation probabiliste
2.4.1 Modèles génératifs
2.4.1.1 Modèle gaussien
2.4.1.2 Modèle de Poisson
2.4.2 Analyse probabiliste en composantes latentes (PLCA)
2.5 Algorithmes
2.5.1 Algorithmes divers
2.5.1.1 Descente de gradient projeté
2.5.1.2 Méthode de Newton projetée
2.5.1.3 Moindres carrés alternés
2.5.1.4 Méthode non contrainte par reparamétrisation du problème
2.5.2 Mises à jour multiplicatives
2.5.2.1 Approche simple
2.5.2.2 Algorithme Majoration/Minimisation (MM)
2.5.2.3 Algorithme Espérance/Maximisation (EM)
2.5.2.4 Intérêts des algorithmes multiplicatifs
2.6 Variantes de la NMF et ajout de contraintes
2.6.1 Décompositions invariantes par translation
2.6.1.1 Décomposition invariante par translation temporelle : NMFD
2.6.1.2 Décomposition invariante par translation fréquentielle
2.6.2 Contraintes
2.7 Limitations de la NMF, variations temporelles
2.7.1 Variations d’enveloppes spectrales
2.7.2 Variations de fréquence fondamentale
3 Modélisation des variations d’enveloppe spectrale : modèle source/filtre et NMF
3.1 Modèle
3.1.1 Activation temps/fréquence
3.1.2 Paramétrisation source/filtre
3.2 Algorithme
3.2.1 Mise à jour des atomes
3.2.2 Mise à jour des activations globales
3.2.3 Mise à jour des filtres
3.2.4 Description globale et implémentation pratique
3.2.5 Dimension de l’espace des paramètres
3.2.6 Complexité algorithmique
3.2.7 Implémentation et choix de β
3.3 Exemples
3.3.1 Guimbarde
3.3.1.1 Description du signal décomposé
3.3.1.2 Expérience et résultat
3.3.2 Didgeridoo
3.3.2.1 Description du signal décomposé
3.3.2.2 Expérience et résultat
3.3.3 Clavecin
3.3.3.1 Description du signal décomposé
3.3.3.2 Expérience et résultat
3.3.4 Guitare avec pédale wah-wah
3.3.4.1 Description du signal décomposé
3.3.4.2 Expérience et résultat
3.3.5 Convergence de l’algorithme
3.4 Conclusion
4 Modélisation des variations de fréquence fondamentale
4.1 Spectrogramme paramétrique
4.1.1 Modèle
4.1.1.1 Atome harmonique paramétrique
4.1.1.2 Expression de g
4.1.1.3 Fonction de coût et nombre d’atomes
4.1.1.4 Atomes de NMF standard pour modéliser les parties non harmoniques
4.1.2 Algorithme
4.1.2.1 Mise à jour de f0
4.1.2.2 Mise à jour de H
4.1.2.3 Mise à jour de a
4.1.2.4 Mise à jour de W0 et H0
4.1.2.5 Contraintes
4.1.2.6 Détails de l’implémentation
4.1.3 Exemple
4.1.4 Conclusion
4.2 Transformation des atomes
4.2.1 PLCA invariante par translation fréquentielle
4.2.2 Décomposition invariante par homothétie
4.2.3 Algorithme Espérance-Maximisation (EM)
4.2.3.1 Mise à jour de P(z)
4.2.3.2 Mise à jour de PK(f0|z)
4.2.3.3 Mise à jour de PI (λk, t|z)
4.2.3.4 Mises à jour multiplicatives
4.2.3.5 Complexité algorithmique
4.2.4 Exemples
4.2.4.1 Exemple synthétique
4.2.4.2 Enregistrement réel
4.2.5 Conclusion
5 Applications et fusion des modèles
5.1 Séparation de sources informée par la partition
5.1.1 Modèle paramétrique de spectrogramme de mélange
5.1.1.1 Modèle de spectrogramme source
5.1.1.2 Modèle de spectrogramme de mélange
5.1.1.3 Modèle des éléments non harmoniques
5.1.2 Système de séparation
5.1.2.1 Initialisation à l’aide de la partition
5.1.2.2 Algorithme de décomposition
5.1.3 Résultats
5.1.3.1 Description de la base de données
5.1.3.2 Expérience
5.1.3.3 Résultats
5.1.4 Conclusion
5.2 Modification de notes isolées dans un signal polyphonique
5.2.1 Méthode de séparation
5.2.1.1 Méthode
5.2.1.2 Exemple
5.2.2 Modifications
5.3 Fusion des modèles paramétrique et source/filtre
5.3.1 Modèle mixte
5.3.2 Exemple de décomposition
Conclusion
Bibliographie
Table des figures
Liste des tableaux
Remerciements
Télécharger le rapport complet