DESCRIPTEURS DE SIGNAUX SONORES

DESCRIPTEURS DE SIGNAUX SONORES

ÉTAT DE L’ART:

Ce chapitre traite des familles d’instruments de musique et présente la taxonomie utilisée dans un contexte de classification hiérarchique. La base de données utilisée pour les travaux de ce mémoire est également présentée ainsi que le protocole d’expérimentation. Un résumé des publications les plus pertinentes sur la reconnaissance des instruments de musique introduit et commente les performances des travaux les plus cités.

Catégorisation des instruments:

En premier lieu, il est à noter que les études de ce mémoire sont faites exclusivement sur les instruments de musique occidentaux, en excluant les percussions. Les instruments de musique occidentaux ont été sujets de plusieurs études tant aux niveaux acoustique que psychoacoustique. Cela permet d’approfondir les connaissances disponibles et d’apporter des conclusions plausibles en comparant les résultats obtenus aux performances des recherches actuelles.

Taxojriomie naturelle
La définition de la catégorisation des instruments de musique n’étant pas l’objectif de ce mémoire, l’utilisation de la taxonomie proposée par Martin [2] et réutilisée par Eronen [3] a été considérée. Cela permet, en outre, d’effectuer un comparatif sur les modèles présentement étudiés. De plus, cette taxonomie permet non seulement de regrouper les instruments similaires selon leur mode de production du son mais aussi de les regrouper selon la forme de leur enveloppe, qui est primordiale dans l’entendement du timbre. Cette taxonomie est appelée taxonomie naturelle puisqu’elle s’inspire de la classification populaire de Von Hornbostel et Sachs [1].

La taxonomie naturelle de la Figure 2.1, sépare lors de la première étape de ségrégation, les instruments pizzicato, dont l’attaque est abrupte, par rapport aux instruments soutenus, dont le temps de maintien est constant. Les instruments pizzicato ont comme particularité que la source d’excitation est donnée par une impulsion et le temps de maintien dépend de l’intensité de cette impulsion. Les instruments soutenus ont comme particularité que la source d’excitation est appliquée de façon constante jusqu’au relâchement de la note. Cette caractéristique associée à la continuité d’une note sera référé dans le présent ouvrage par le terme « articulation ».

Au deuxième niveau, les instruments sont regroupés par famille et mode de production. Dans la sous-classe des instruments pizzicato, une seule famille est présente, soit les instruments à cordes. Pour la sous-classe des instruments soutenus, quatre groupes d’instruments sont présents : les cuivres, les flûtes et le piccolo, les instruments à anche et les instruments à cordes.

TaxoEûnnle automatique
Dans sa thèse, Essid [4] compara les performances de la taxonomie naturelle avec une taxonomie inférée automatiquement à partir d’exemples. Ce processus d’inférence nécessite de déterminer les descripteurs à utiliser pour la construction de la taxonomie ainsi que le choix d’un critère de proximité entre instruments de même classe. Un critère de proximité convenable consiste à utiliser une distance probabiliste, c’est-à-dire une distance entre distributions de probabilités des classes [5]. Essid choisit dans son étude la distance de Bhattacharryya et la divergence (version symétrisée de la distance de Kullback-Leibler). En conclusion de son étude, la classification hiérarchique des instruments de musique basée sur la taxonomie automatique donne de meilleurs résultats que celle basée sur la taxonomie naturelle.

Bases de données expérimentales:

Cette section présente les données musicales utilisées dans les expérimentations réalisées dans ce mémoire. Une description des bases de données MUMS et RWC est présentée dans un but de comparaison. Un aperçu des bases de données disponibles qui sont régulièrement utilisées dans des contextes de recherches analogues à celui de ce mémoire est également présenté.

La sélection des données expérimentales est fondamentale dans l’évaluation d’un modèle, non seulement à l’élaboration du modèle, mais à la qualification de son rendement. Une surabondance de données entraîne une analyse difficile et des calculs excessifs tandis qu’une quantité limitée de données entraîne des résultats qui reflètent difficilement la réalité. Enfin, des données fortement homogènes conduisent à une hyperspécialisation.

Les résultats des publications actuelles doivent être interprétés avec prudence ; tandis que la construction des modèles est rigoureuse, les simulations sont parfois effectuées avec des données arbitraires : la singularité (un seul instrument par famille) et l’invariance (un seul modèle d’instrument) sont à l’origine de résultats optimistes. De plus, un enregistrement sonore de haute qualité ne reflète pas fidèlement toutes les conditions des milieux acoustiques : présence de nuisances comme bruits, réverbérations, échos, bande passante réduite, signaux incomplets, superpositions des sources sonores, etc. Il existe aussi une multitude de variantes dans la technique de jeu, le modèle, le style et l’âge de l’instrument. On doit pouvoir également comparer les résultats de chacune des recherches non seulement qualitativement mais quantitativement. Les comparaisons sont couramment difficiles puisque les données respectives à chaque étude sont différentes.

Sources
Les principales sources de données sont présentées ici afin de justifier l’ensemble de données qui a été retenu pour réaliser les travaux de recherche de ce mémoire.

McGiïï University Master Samples Collection
La première version de cette base de données date de 1987 et offrait une variété d’instruments disponibles en support CD [6]. Plus récemment, depuis 2006, la base de données contient presque tous les instruments standards classiques et populaires et est distribuée en support DVD [7]. Cette base de données se veut une source centrale dans la recherche, elle est l’une des plus citées dans les publications traitant la classification et la reconnaissance des instruments de musique [8] et est utilisée dans plus de 200 universités à travers le monde pour des objectifs académiques et de recherches [9].

Les fichiers contenus sur les DVDs sont divisés entre les instruments à cordes, claviers, instruments à vent (bois et cuivres) et percussions. En principe, chaque note est enregistrée séparément (44,1 kHz, 24 bits) en stéréo. Malgré une impressionnante couverture de sons, il y a approximativement 29 enregistrements par instrument ce qui implique que la plage de tous les tons possibles n’est pas nécessairement jouée pour tous les instruments. L’uniformité des enregistrements a été remise en question par Eerola et Ferrer [8] ; ces derniers ont identifié des erreurs parmi les fichiers : libellés erronés, hauteur de note dans la mauvaise classe chromatique et dans le mauvais octave, instruments mal accordés. Finalement, l’absence d’une convention de nommage des fichiers et l’inexistence d’un index rendent difficile l’utilisation de la base de données et à la distinction des erreurs dans celle-ci.

RWC Music Database: Musical instrument Sound
Les données de ce présent mémoire proviennent de la base de données « RWC (Real World Computing) Music Database» [10]. Cette base de données est privilégiée par ses droits d’auteur affranchis, sa grande couverture d’instruments de musique et par le nombre de variations pour chaque instrument. Également, une convention de nommage formelle est utilisée et facilite ainsi l’étiquetage des données.

Chaque fichier sonore contient le signal d’un seul instrument joué avec des notes isolées. La base de données fournit plusieurs enregistrements pour chaque instrument. Différents fabricants pour le même instrument et différents musiciens ont participé pour générer les enregistrements et ainsi fournir un éventail de plusieurs signatures instrumentales.

En principe, la base de données contient trois variations pour chaque instrument : trois manufacturiers, trois intensités et trois musiciens différents. Pour chaque instrument, le musicien joue chaque note individuellement à un intervalle d’un demi-ton sur toute la plage possible de l’instrument. Pour ce qui est des instruments à cordes, la plage complète pour chaque corde est jouée. La dynamique est également variée avec des intensités forte, mezzo et piano.

Autres
II existe quelques alternatives aux bases de données MUMS et RWC tel que la base de données « Musical Instrument Sample » (MIS) [11] de l’Université d’Iowa et la collection « Vienna Symphonie Library » (VSL) produite et commercialisée par l’entreprise autrichienne Vienna Symphonie Library GmbH [12]. Ces deux sources ne sont pas nécessairement conçues pour la recherche scientifique mais plutôt pour la réalisation d’œuvres musicales à l’aide d’échantillonneurs. De plus, les fichiers de la base de données VSL ne peuvent être lus que par des logiciels spécialisés et les paramètres de production des sons ne sont pas spécifiés.

Protocole d’évaluation:

Traitements en amont: extraction des descripteurs:

Un descripteur sonore est caractérisé par son étalement temporel. Certains descripteurs sont globaux et font référence à la sonorité dans son ensemble. Par exemple l’enveloppe sonore et le temps de montée, le temps de maintien, la puissance moyenne du signal sont des descripteurs globaux. D’autres sont instantanés, plus localisés, variant dans le temps et dépendent de la fenêtre d’analyse, comme les descripteurs spectraux par exemple. Il est possible que les trames se superposent ou encore qu’elles ne soient pas uniformes mais tentent plutôt de refléter la morphologie du signal, telle la montée et le maintien de l’enveloppe sonore d’une note. Par exemple, Eronen [3] extrait les coefficients cepstraux sur l’échelle MEL (MFCC) sur deux segments de la note : à partir de l’attaque de la note et à partir du maintien de la note. Une ou plusieurs fonctions d’agrégation (moyenne, médiane, écart type, etc.) permettent, lorsque nécessaire, de condenser l’information en un seul vecteur d’observation par note.

Traitements en aval : classificateur:

Un classificateur peut être considéré comme un système qui, en fonction des données en entrées, fournira une décision en sortie. Dans un contexte de reconnaissance des instruments de musique, les entrées du classificateur sont des vecteurs d’observation construit à partir des descripteurs sonores ; la décision en sortie est déterminée par une catégorisation à des classes. La réalisation de cette étape s’effectue avec deux techniques : l’apprentissage supervisé et l’apprentissage non-supervisé .

L’apprentissage supervisé permet, possédant un échantillon x d’une population X et l’image de l’échantillon par une fonction inconnue /, d’obtenir un estimateur h de f qui pourra prédire le comportement de / pour des données non encore connues de la population (Figure 2.6). Plus formellement, une paire (x,/(x)), x E X est dite un exemple et h une hypothèse ou encore une fonction de prédiction. Contrairement à un problème de régression, l’ensemble des valeurs de sortie n’est pas continue mais discret; on associe à l’entrée une classe sous le format d’une étiquette.

L’apprentissage non-supervisé permet, entre autre, de déterminer les paramètres de la loi de probabilité décrivant les observations. L’apprentissage non-supervisé permet également de partitionner les données en groupes ou sous-groupes à l’aide d’une fonction de distance, construite sur des critères de proximité spécifiques. Par exemple, dans le µµ contexte d’une classification hiérarchique, l’apprentissage non-supervisé permet de regrouper les instruments selon une taxonomie automatique et formelle [4], sans utiliser la taxonomie naturelle par familles d’instruments décrite dans le section 2.1. La fonction doit pouvoir minimiser les différences intraclasses et maximiser les différences interclasses pour optimiser le partitionnement. Ces deux méthodes ont la propriété de faire émerger les dissimilitudes entre groupes et les similitudes entre éléments d’un même groupe.

Travaux actuels:

Les expérimentations effectuées sur la reconnaissance automatique d’instruments de musique sont abordées avec trois approches différentes : la reconnaissance avec des notes isolées, la reconnaissance de phrases musicales monophoniques et la reconnaissance avec de la musique multi-instrumentale. Chacune de ces approches propose un niveau de difficulté différent mais toutes s’appuient sur les études psycho acoustiques et computationnelles concernant la caractérisation et la perception du timbre

CONCLUSION:

Les outils nécessaires à la reconnaissance d’instruments de musique ont été détaillés et assemblés en un système de reconnaissance automatique. Les deux organes fonctionnels du système, l’extraction des descripteurs sonores et la classification des vecteurs d’observation, ont été analysés en profondeur et leurs performances respectives comparées et commentées. Une classification hiérarchique, en plus d’une classification directe, a été conduite pour faire émerger les similitudes entre familles d’instruments. Une nouvelle représentation, le chromatimbre, fut introduite et qualifiée tant visuellement que quantitativement.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

CHAPITRE 1 INTRODUCTION
1.1 Problématique
1.2 Objectifs
1.3 Méthodologie
1.4 Structure du mémoire
CHAPITRE 2 ÉTAT DE L’ART
2.1 Catégorisation des instruments
2.1.1 Taxonomie naturelle
2.1.2 Taxonomie automatique
2.2 Bases de données expérimentales
2.2.1 Sources
2.3 Protocole d’évaluation
2.3.1 Prétraitement des données
2.3.2 Structure générale du système de reconnaissance
2.4 Travaux actuels
2.4.1 Génération d’espaces timbre
2.4.2 Reconnaissance de notes isolées
CHAPITRE 3 DESCRIPTEURS DE SIGNAUX SONORES
3.1 Caractéristiques des sons instrumentaux
3.1.1 L’enveloppe sonore
3.1.2 La hauteur
3.1.3 L’intensité
3.2 Représentation paramétrique
3.2.1 Coefficients cepstraux sur l’échelle MEL ….
3.2.2 Descripteurs spectraux
3.2.3 Descripteurs temporels
3.2.4 Paramètres proposés : moments invariants du chromatimbre ….
3.3 Normalisation des paramètres du vecteur d’observation
CHAPITRE 4 RECONNAISSANCE ET CLASSIFICATION AUTOMATIQUE
4.1 Introduction
4.2 Modèle de mélange de gaussiennes
4.3 Les k plus proches voisins .
4.4 Réduction de la dimension
4.4.1 Analyse en Composante Principale
4.4.2 Sélection séquentielle des descripteurs
4.4.3 Réduction de la dimension dans une classification hiérarchique
CHAPITRE 5 EXPERIMENTATIONS ET RESULTATS
5.1 Sélection des paramètres des algorithmes
5.1.1 Algorithmes de classification
5.1.2 Algorithmes d’extraction des descripteurs
5.1.3 Algorithme de réduction de la dimension
5.1.4 Variations des paramètres du chromatimbre
5.2 Reconnaissance dans une classification directe
5.2.1 Performances des scénarios
5.2.2 Analyse des résultats
5.3 Reconnaissance dans une classification hiérarchique
5.3.1 Performance de la taxonomie naturelle
5.3.2 Performance de la taxonomie automatique
5.3.3 Analyse des résultats
5.4 Reconnaissance psycho-visuelle du chromatimbre
5.4.1 Structure des simulations
5.4.2 Analyse descriptive du chromatimbre
5.4.3 Analyse des résultats
5.5 Discussions
5.5.1 Sélection des paramètres des algorithmes
5.5.2 Classification hiérarchique
5.5.3 Analyse psycho-visuelle du chromatimbre
CHAPITRE 6 CONCLUSION