Transcription et séparation automatique de la mélodie principale dans les signaux de musique polyphoniques

Le traitement automatique des signaux musicaux

A partir d’un signal audio musical, quel type d’information pouvons-nous extraire ? A l’instar des musiciens, peut-on aisément obtenir une partition de musique à la seule écoute du signal ? Quelles sont les difficultés liées à la transcription musicale, et quelles solutions intermédiaires peut-on envisager avant d’accomplir avec succès une telle tâche ?
Le problème de transcription musicale est en fait très complexe, et reste pour l’instant sans réelle solution. On trouve certes des systèmes qui, mis bout à bout, permettraient d’obtenir des résultats s’approchant d’une partition de musique. De nombreuses études ont par exemple cherché à détecter quels instruments sont présents dans un extrait musical ([Essid et al., 2006a,b, Vincent, 2004]). L’estimation du tempo a aussi bénéficié d’une forte popularité ([Scheirer, 1998, Alonso et al., 2007, Peeters, 2007]), fournissant d’une part un constituant essentiel permettant de définir les rythmes, mais aussi un attribut utile pour la classification en genre, par exemple. L’estimation de fréquences fondamentales dans les signaux de musique polyphonique [Klapuri, 2001], voire l’estimation des notes de musique [Ryynänen and Klapuri, 2005, Emiya et al., 2009] sont des sujets aussi difficiles à traiter que leurs objectifs précis sont ambigus à définir, comme nous le verrons aussi pour le cas de la transcription de la mélodie principale. Enfin, pour obtenir une partition lisible
par un musicien, il faut encore quantifier les notes temporellement, avec l’estimation de la mesure [Peeters, 2009, Weil et al., 2009a], et au final obtenir un bon compromis entre simplicité d’écriture (et donc de lecture) des rythmes et complexité de la musique [Cemgil and Kappen, 2003].
La transcription musicale ne se limite cependant pas à l’écriture d’une partition : les différents résultats intermédiaires évoqués ci-dessus permettent en particulier d’annoter le signal audio. Grâce aux différentes composantes ainsi obtenues, la classification en genres, la recherche de musique par similarité, par requête chantée, la recommandation de morceaux de musique ou la génération automatique de listes de lecture sont autant d’applications qui peuvent être traitées avec une hiérarchie d’attributs allant du bas niveau, le signal, son énergie et ainsi de suite, vers des niveaux plus sémantiques comme la mélodie, les accords, les tonalités, en passant par des « demi niveaux » comme le tempo, ou les notes de musique.

Extraction automatique de la mélodie principale

Pour identifier un morceau de musique, il suffit souvent d’une mélodie, d’une séquence d’accords ou de rythmes. Nous nous intéressons plus particulièrement à l’estimation de la mélodie principale. Les applications qui peuvent prendre partie d’un tel attribut sont la recherche par requête chantée (Query-by-Humming, QbH), la détection de reprises ou plus généralement l’indexation de base de données.
La définition donnée par Paiva [2006] synthétise ce qui est attendu de la mélodie principale : La mélodie est la ligne pitchée, individuelle et prédominante dans un ensemble musical.
Cette définition oriente les choix que nous avons faits pour les modèles de signaux proposés, en particulier, les différents éléments qui y apparaissent sont pris en considération de la manière suivante : Ensemble musical : les morceaux traités contiennent une ligne mélodique accompagnée par de la musique polyphonique. L’accompagnement peut être composé d’un ou plusieurs instruments, éventuellement avec des instruments percussifs comme de la batterie.
Pitchée : la mélodie est jouée par un instrument voisé, et l’estimation se fait soit par la séquence des fréquences fondamentales jouées, soit par les notes de musique jouées. Individuelle : la mélodie est monophonique, jouée par un seul instrument à la fois.
Cela dit, pour des raisons évoquées plus loin dans l’exposition du modèle, cette contrainte n’est imposée que très superficiellement.
Ligne : la ligne mélodique doit être relativement « lisse », sans aspérité. L’instrument jouant la mélodie, l’instrument « principal », ne peut en général pas sauter de manière aléatoire d’une fréquence à l’autre, d’une note à l’autre, et doit plutôt présenter des paliers stables d’une note à l’autre.
Prédominante : la notion de prédominance de la mélodie est probablement la plus difficile à cerner. Intuitivement, cela signifie que la mélodie principale est la séquence de sons que nous considérions comme caractéristique de la chanson, pour l’identifier, notamment. Concrètement, nous considérons dans nos travaux que cette prédominance est essentiellement une prédominance énergétique, de sorte que l’énergie de l’instrument principal domine la majorité du temps celles des autres instruments. Il faudra cependant souvent accomplir un compromis entre l’énergie et la régularité de la ligne mélodique, ce qui motive les modèles d’évolution temporelle choisis pour les séquences de fréquences fondamentales et de notes de la mélodie.

Séparation de l’instrument principal et de l’accompagnement

Séparer les différentes contributions d’un enregistrement sonore est un sujet populaire, avec des visées diverses et des approches variées. L’application d’une séparation de sources musicales est d’abord multiple : une telle séparation permet d’obtenir des voix séparées, réutilisables à des fins de re-mixages en studio, par exemple, notamment pour de vieux enregistrements. On peut aussi effectuer une indexation « simplifiée » sur des voix séparées : l’identification d’instruments est par exemple beaucoup plus difficile sur un mélange d’instruments que sur un instrument solo.
Les approches adoptées pour de telles séparations varient suivant le type de signal dont on dispose en entrée. Si un seul canal audio est disponible, alors on parle de séparation monaurale, avec plusieurs canaux, on parle de séparation multi-canale. Le second cas est souvent traité avec des méthodes plus ou moins génériques, fonctionnant pour des signaux non-nécessairement audio, comme la PCA [Pearson, 1901] et l’ICA [Jutten and Herault, 1991, Comon et al., 1994]. Utilisées dans ces circonstances, ces techniques correspondent souvent à effectuer des détections des directions d’arrivée des sons par rapport au champ de capteurs (microphones), et ensuite d’isoler les signaux venant des directions estimées.
Cependant, cette information spatiale n’est pas toujours accessible et d’autres méthodes de décomposition, inspirées des premières, permettent malgré tout d’obtenir des résultats intéressants comme [Plumbley, 2003, Abdallah and Plumbley, 2004].
Avec des modèles de signaux spectraux tel que [Benaroya et al., 2006, Ozerov et al., 2007], les décompositions peuvent être interprétées d’un point de vue plus proche de la production même de ces signaux, avec des résultats en séparation très convaincant, et ce même sur des signaux mono-canaux. Ces travaux sont pour cette raison l’un des points de départ de la présente thèse. Le formalisme que nous avons développé s’est peu à peu approché du formalisme des travaux de Vincent [2004], qui considère lui aussi les deux aspects de transcription et de séparation que nous étudions.
Enfin, plusieurs travaux se sont intéressés au problème de séparation de la voix chantée de l’accompagnement, voire, plus généralement, la séparation de l’instrument principal de l’accompagnement. Ainsi, le système de Ozerov et al. [2007] adapte des modèles spectraux pré-appris afin de mieux correspondre au signal, tout en ayant détecté au préalable les parties du mélange sonore où la voix est absente. Certains travaux [Lagrange et al., 2008, Li and Wang, 2007, Ryynänen et al., 2008] s’appuient sur des techniques d’analyse sinusoidale et des méthodes non supervisées afin de détecter les groupes de sinusoides correspondant à la voix désirée. De plus, les deux derniers travaux [Li and Wang, 2007, Ryynänen et al., 2008] reposent explicitement sur une estimation préalable de la mélodie jouée par l’instrument à séparer.

Applications : Extraction de la mélodie principale

Les systèmes F-I et F-II ont été évalués dans le cadre de campagnes d’évaluation internationale, pour la tâche d’extraction de la mélodie principale.
Les résultats de nos algorithmes pour MIREX 2008 et 2009 montrent que nos systèmes ont de bonnes performances pour la plupart des bases de données utilisées, sauf pour la base de données MIR-1K, pour lequel le mélange à -5dB ne permet plus à nos algorithmes de distinguer la mélodie principale. Par ailleurs, pour la base de données MIR-1K, une classification voix chantée / son instrumental serait plus appropriée à un certain stade de décision, étant donné la nature des morceaux (Karaoke) et le contenu de ceux-ci, où parfois la voix chantée est doublée à l’octave par d’autres sons. Cela peut perturber encore plus un système qui ne détecterait pas les différences de production entre le chant et les autres instruments.
D’une manière générale, on constate que les résultats obtenus par nos algorithmes sont quand même meilleurs sur les sous-ensembles avec voix chantée que sur les sous-ensembles purement instrumentaux (voire synthétique). En effet, pour les morceaux instrumentaux, le modèle de l’accompagnement, équivalent à de la NMF, permet de prendre en compte la majorité du contenu présent dans le mélange, incluant le potentiel instrument principal.
Le système F-III n’a pas été formellement comparé aux deux premiers. Quelques résultats préliminaires tendent à montrer que l’apport de la structure HMM lors de l’estimation des paramètres n’est pas aussi bénéfique que l’on aurait pu l’espérer. En effet, durant l’algorithme GEM correspondant, il faut calculer des probabilités a posteriori qui dépendent de tout le signal. Ces probabilités reflètent donc, en un sens, combien le modèle source/filtre avec structure HMM est proche des données observées. Dans le cadre de l’algorithme GEM pour le (S)GSMM, sans la structure HMM, la probabilité d’un état (k, u) a posteriori à la trame n n’est conditionnée que par l’observation à cette même trame n. Dans une certaine mesure, cette probabilité ne donne une mesure d’adéquation du modèle source/filtre que pour la trame donnée. De ce fait, si le modèle source/filtre choisi n’est pas complètement adapté aux observations, les erreurs de modélisation sont prises en compte plus globalement avec le HMM qu’avec le GSMM, ce qui peut expliquer les résultats moins bons obtenus par le HMM.
Malgré des performances en deça de nos attentes, le système F-III et le modèle d’estimation incluant le HMM dans le GSMM sont des pistes intéressantes à approfondir et à analyser. En effet, une telle approche permet de réduire les approximations faites lors de la phase d’estimation. La dégradation des performances que nous observons vient probablement d’un problème de modélisation, et non seulement d’un problème d’implémentation ou d’algorithme.
Enfin, le système MUS-I a été évalué dans notre article [Weil et al., 2009b] et au cours d’une campagne d’évaluation interne au projet Quaero. Pour les premières évaluations, des signaux synthétiques ont été générés. Sur ces signaux, notre algorithme obtient de bons résultats, avec des valeurs de précision et de rappel entre 60% et 70%.
Pour la deuxième évaluation, des signaux plus réalistes ont été utilisés. Les résultats ainsi obtenus sont moins bons que ce à quoi l’on pouvait s’attendre, ne dépassant pas les 15% de précision et de rappel. Il y a plusieurs raisons possibles à cette baisse de performance. Tout d’abord, il est intéressant de noter que sur cette même base de données, F-I et F-II éprouvent aussi une certaine baisse de performances. Les morceaux traités sont plus longs, et contiennent plus de passage sans chanteur : dans ces passages, nos algorithmes transcrivent des notes correspondant à l’instrument principal en cours, qu’il s’agisse d’un solo de guitare ou d’un ri quelconque. Cela entraîne une baisse inévitable dans les résultats. Un tel problème ne peut être résolu qu’en ajoutant une détection du type d’instrument principal à nos systèmes. Par ailleurs, un potentiel problème de justesse a été identifié : si le chanteur chante trop en dessous des fréquences standard (par exemple A4 = 440Hz), alors les notes estimées risquent de ne pas correspondre aux annotations, bien qu’il est probable que l’erreur ne soit en fait qu’une simple translation de la ligne mélodique d’un demi-ton.
Par ailleurs, sur les extraits chantés, on constate que la variation de hauteur (en Hz) de la ligne mélodique ne varie pas toujours en directe relation avec la ligne des notes, comme lors d’un vibrato. Cela accentue la difficulté du problème, qui pourrait être partiellement traité si d’avantage de connaissance musicale est intégrée dans le système, comme par exemple les notions de tonalité ou d’accord.

Applications : Séparation de l’instrument principal

Le système de séparation SEP-I a donné lieu à deux articles de conférence : Durrieu et al. [2009a] et Durrieu et al. [2009b], ainsi qu’à deux participations à des évaluations : SiSEC 2008 et Quaero 2009.
Dans [Durrieu et al., 2009a], SEP-I a été testé sur des morceaux mono-canaux, avec l’algorithme expliqué précédemment. Les résultats montrent d’abord que, connaissant la mélodie, SEP-I est capable d’approcher une séparation idéale en terme de SDR. Avec estimation automatique de la mélodie, les résultats sont plus mitigés, mais restent comparables (favorablement) aux autres travaux sur l’amélioration ou l’atténuation de la voix principale.
Dans [Durrieu et al., 2009b], nous avons proposé une extension stéréo aux algorithmes mono présents dans [Durrieu et al., 2009a]. Par ailleurs, les mécanismes de filtres lisses et d’estimation de la partie non-voisée de la partie principale sont explicités. En résumé, l’extension à la stéréo revient à estimer les paramètres conjointement sur les deux canaux, tout en supposant que les signaux correspondant sont indépendants statistiquement l’un de l’autre. Le lissage des filtres est imposé structurellement, par la décomposition de ceux-ci sur une famille de fonctions lisses, alors que l’intégration de la partie non-voisée correspond à l’ajout d’un élément « bruit » dans la matrice WF0. Les résultats obtenus montrent un gain certain entre les résultats de l’algorithme mono et ceux de l’algorithme stéréo. Par ailleurs, même si l’ajout du lissage des filtres n’aboutit pas à une amélioration des résultats, l’ajout du non-voisé, lui, permet dans certains cas d’améliorer les résultats, en termes de mesures objectives, mais aussi de manière assez nette à l’écoute des fichiers séparés. Le système SEP-I stéréo a participé à l’évaluation SiSEC 2008, où nos résultats ont atteint un second rang sur la moyenne des résultats. Il est à noter que les algorithmes ayant obtenus les meilleurs résultats sont ceux qui détectaient la mélodie préalablement à la séparation en elle-même.
Enfin, l’évaluation Quaero 2009 consistait à analyser des morceaux longs, avec découpe possible en petits morceaux. Malheureusement, pour des raisons techniques, nous n’avons pas pu évaluer les performances sur l’ensemble de test. Cela étant, sur la base de développement, nous avons obtenus de bons résultats, avec des gain en terme de SDR et SIR important pour la partie voix principale, et un peu moins grand pour la partie accompagnement.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

0.1 Introduction
0.1.1 Le traitement automatique des signaux musicaux
0.1.2 Extraction automatique de la mélodie principale
0.1.3 Séparation de l’instrument principal et de l’accompagnement
0.1.4 Contributions
0.2 Modèles de signaux
0.2.1 Modèle gaussien pour la transformée de Fourier des signaux
0.2.2 Modèle à Mélange de Gaussiennes Amplifiées avec Source/Filtre
0.2.3 Modèle de mélange instantané
0.2.4 Modèle pour l’évolution temporelle
0.3 Estimation des paramètres et des séquences cachées
0.3.1 Description des systèmes proposés
0.3.2 Méthode de gradient multiplicatif pour le (S)IMM
0.3.3 Algorithme GEM pour le (S)GSMM
0.3.4 Décodage de séquences
0.3.4.1 Algorithme de Viterbi
0.3.4.2 Algorithme de recherche par faisceaux
0.4 Applications : Extraction de la mélodie principale
0.5 Applications : Séparation de l’instrument principal
0.6 Conclusions et perspectives
Notations
1 Introduction
1.1 Automatic music signal processing
1.2 Main melody estimation
1.3 De-soloing: leading instrument separation
1.4 Contributions
1.5 Organization
2 State of the art
2.1 What is the « main melody »?
2.1.1 A definition for the main melody
2.1.2 Main melody: counter-examples
2.1.3 Scope of this work
2.2 Main melody estimation
2.2.1 Main melody extraction: historical objectives and applications
2.2.2 Frame-wise fundamental frequency estimation of the main melody
2.2.2.1 Existing approaches
2.2.2.2 Discussion and position of the thesis work
2.2.3 Note-wise approaches
2.3 Source separation, leading instrument separation
2.3.1 Source separation
2.3.2 Audio and music source separation
2.3.2.1 Existing systems
2.3.2.2 Position of the thesis work
3 Signal Model
3.1 Modelling the spectrum of the audio signals
3.2 Gaussian Signals
3.3 Primary model for a « voice plus music » polyphonic signal
3.3.1 Graphical generative model
3.3.2 Frame level generative models
3.3.2.1 Source/filter model for the singing voice
3.3.2.2 Instantaneous mixture for the accompaniment
3.3.2.3 Frame level model for the mixture: summary
3.3.3 Physical state layer: constraining the fundamental frequency evolution of the singing voice
3.3.4 « Musicological » state layer to model note level duration
3.4 From the GSMM to the Instantaneous Mixture Model (IMM): links and differences
3.4.1 IMM: formulation and interpretations
3.4.2 Adaptation of the temporal constraint for the evolution of the sequence Z F0
3.4.3 Constraints in SIMM to approximate the monophonic assumption
3.5 Signal Model Summary
3.5.1 Source/Filter (S)GSMM
3.5.2 Source/Filter (S)IMM
4 Probabilistic Non-negative Matrix Factorisation (NMF)
4.1 Non-negative Matrix Factorisation
4.2 Statistical interpretation of Itakura-Saito-NMF (IS-NMF)
4.3 Properties of the Itakura-Saito (IS) divergence
5 Parameter and sequence estimation
5.1 Transcription and separation as statistical estimation
5.1.1 Estimation by Maximum Likelihood (ML) and Maximum A Posteriori (MAP) principle
5.1.2 Predominant fundamental frequency estimation
5.1.3 Musical (notewise) transcription of the main melody
5.1.4 Leading instrument / accompaniment separation
5.1.5 Systems summary
5.2 IMM and SIMM: Multiplicative gradient algorithm
5.2.1 Maximum A Posteriori (MAP) Criterion for the IMM/SIMM
5.2.2 IMM/SIMM updating rules
5.2.3 Approximations and constraints within the IMM/SIMM
5.3 GSMM/SGSMM: Expectation-Maximisation (EM) algorithm
5.3.1 Maximum Likelihood (ML) Criterion for the (S)GSMM
5.3.2 (S)GSMM updating rules and GEM algorithm
5.3.3 Including constraints: Hidden Markov-GSMM (HM-GSMM) algorithm
5.4 Temporal evolution of the states and sequence estimation
5.4.1 Viterbi algorithm to address the HMM of the physical layer for ZΦ and ZF0
5.4.2 Beam search pruning strategy for the musical note layer E
6 Applications
6.1 F0 estimation and musical transcription of the main melody
6.1.1 Frame-wise F0 estimation of the melody
6.1.1.1 Task definition
6.1.1.2 Proposed methods
6.1.1.3 Performance measures
6.1.1.4 Datasets for evaluation
6.1.1.5 Practical choices for the model parameters
6.1.1.6 Convergence
6.1.1.7 Comparison between the proposed models (S)GSMM and (S)IMM
6.1.1.8 MIREX 2008: Main Melody Estimation Results
6.1.1.9 MIREX 2009: comparison with MIREX 2008 on development sets
6.1.1.10 MIREX 2009: results on test set
6.1.1.11 Preliminary results for system F-III
6.1.2 Notewise transcription of the melody
6.1.2.1 Task definition
6.1.2.2 Performance measures
6.1.2.3 Results on a synthetic database (ISMIR 2009)
6.1.2.4 Results for the Quaero evaluation campaign
6.2 Audio separation of the main instrument and the accompaniment
6.2.1 Task definition
6.2.2 Wiener filters
6.2.3 Performance measures
6.2.4 Proposed source separation systems
6.2.4.1 System SEP-I for mono music audio signals
6.2.4.2 Extension to stereo signals
6.2.4.3 Parameter estimation for stereo signals
6.2.5 Experiments and results
6.2.5.1 Datasets
6.2.5.2 Melody Tracking Performance
6.2.5.3 Source Separation with the True Pitch Contour
6.2.5.4 Source Separation with Estimated Melody
6.2.5.5 Multitrack example
6.2.5.6 Stereo signal + unvoiced extension
6.2.5.7 Smooth filters and unvoicing model
6.2.5.8 Stereophonic vs. monophonic algorithm
6.2.5.9 SiSEC campaign results
6.2.5.10 Evaluation on the Quaero Source Separation Database
6.2.5.11 Note on the front-end melody estimation systems: F-I,F-II or F-III?
7 Conclusion
7.1 Conclusions
7.2 Potential improvements
7.2.1 Even more « Musicological » model for note duration
7.2.2 A more complex physical layer
7.2.3 Accompaniment model: towards more supervision?
7.2.4 Decidedly perfectible models.
Glossary
A Probability density function definitions
A.1 Complex proper Gaussian distribution Nc
A.1.1 Complex proper Gaussian distribution definition
A.1.2 Complex proper Gaussian distribution properties
A.2 Gamma distribution G
B Derivation of the algorithms
B.1 (S)IMM multiplicative algorithm derivations
B.1.1 Multiplicative gradient principle
B.1.2 IMM and Itakura-Saito multiplicative rules
B.2 (S)GSMM: Expectation-Maximisation algorithm derivations
B.2.1 E step: Computing the posterior p(k, u|xn; (ΘGSMM) (i−1))
B.2.2 M step: amplitude coefficients B
B.2.3 M step: wΦf k
B.2.4 M step: hΓpk (SGSMM)
B.2.5 M step: hMrn
B.2.6 M step: wMfr
B.2.7 M step: Derivations for the a priori probabilities π
B.2.8 Temporal constraint with HMM during the estimation: adaptation of E-step
B.3 Multiplicative algorithm behaviour
C KLGLOTT88 : a glottal source model
D Databases
D.1 MIREX AME databases
D.2 Quaero Main Melody Database
D.3 Leading instrument / accompaniment separation mono database
D.4 Quaero Source Separation Database
Bibliography