Principe et intérêt
L’indexation audio musicale a pour but d’améliorer l’accès à l’information sonore musicale. Traditionnellement, l’indexation passe par une description textuelle des documents. Cependant, appliquée aux contenus audio musicaux, l’association de mots clés n’assure qu’une description limitée et généralement éloignée du contenu sonore (titre, compositeur, année…). Une description textuelle du contenu réel est cependant envisageable, par exemple en recensant les instruments utilisés dans un morceau de musique1, ou bien en qualifiant un son particulier… Malheureusement, compte tenu du volume de données disponibles et à venir, cette description implique un investissement humain dissuasif. Par ailleurs, cette option peut engendrer des descriptions trop subjectives pour être efficaces. Prenons l’exemple d’un son particulier. Le qualifier textuellement est une tâche ardue. En effet, des termes tels que « agressif » ou « chaleureux » pourront être employés, mais ils évoqueront des sonorités différentes selon les personnes. Une description précise sera alors délicate. L’indexation audio musicale a donc besoin d’outils (semi-)automatiques permettant une description objective du contenu sonore, afin d’assurer une gestion efficace des données. La question de la description se pose en terme d’extraction automatique d’information représentative du contenu sonore. Les descripteurs obtenus permettent de manipuler les documents selon leur contenu, en fonction de l’application visée. Il existe nombre d’applications à l’indexation audio musicale : il y a bien sûr la consultation d’ »audiothèques » où, même lorsqu’il est connu, le nom du compositeur ou de l’interprète ne suffit pas toujours à accéder rapidement au document désiré (par exemple, comment savoir lequel des 80 albums de Frank Zappa contient l’air qui nous intéresse ? !). Même si le titre de l’œuvre est connu, retrouver un passage désiré peut être délicat si la durée du document est importante (concert, opéra). A la différence de la vidéo où l’utilisateur peut disposer d’images clés, la recherche d’un passage dans un document audio implique encore une écoute exhaustive de celui-ci. L’indexation audio musicale tend à permettre une consultation non-linéaire des documents musicaux, afin de réduire le temps de recherche. D’autres domaines sont concernés : le commerce de la musique sur Internet (recherche de contenu), la vérification de droits d’auteurs (reconnaissance de contenu), l’aide à la post-production de films et à la composition de musique électronique (recherche de sons particuliers). L’indexation du contenu audio permet également d’envisager un écrémage des documents télé et radio diffusés : on peut imaginer un poste radio qui change de station dès qu’il n’y a plus de musique, ou qui recherche un contenu précis comme des concerts ou de la musique techno. Avant de détailler les applications possibles, arrêtons-nous sur les qualités attendues d’un système d’indexation. Imaginons un système d’indexation idéal. La réponse qu’il fournit à une recherche doit être à la fois rapide et précise. Il doit proposer des documents pertinents vis-à-vis de la requête formulée, et ce, quelle qu’elle soit. Cela implique tout d’abord qu’idéalement, tous les types de requête sont permis. L’utilisateur peut donc choisir la manière dont il soumet sa requête au système : texte, son, image, vidéo, bref, n’importe quelle information multimédia. Ensuite, indépendamment de la nature de la requête, l’angle de recherche que peut adopter l’utilisateur est également libre. On peut donc concevoir une requête du type : « Je souhaite trouver un fichier sonore au relief aussi prononcé que cette image ». La nature de la requête est multimédia (texte+image), et l’angle de recherche se fonde sur une notion de « relief » pour obtenir un document audio. Si notre système d’indexation idéal renvoie une réponse adaptée à chaque requête, cela implique deux hypothèses exclusives l’une de l’autre :
– soit, tous les angles de recherche possibles ont été anticipés, l’utilisateur s’inscrivant dans l’un d’entre eux ;
– soit, le système de recherche est capable d’interpréter le désir de l’utilisateur. Ainsi, de manière autonome, il procède à une description des contenus disponibles conformément aux attentes de l’utilisateur.
Il est évident que les contraintes imposées par la réalité rendent un tel système impossible. L’état des outils d’analyse n’autorise pas encore tous les types de requêtes, et il est illusoire d’espérer prévoir tous les angles de recherche. Enfin, si la réponse d’un système passait par une nouvelle description des contenus disponibles, le temps de réponse résultant serait rédhibitoire. Dans un système d’indexation, la description est préalable à la recherche. Consulter les descripteurs et non le contenu lui-même permet -entre autres- de réduire le temps de réponse. Une autre vertu est également attendue du système d’indexation idéal, il s’agit de sa tolérance. Un système doit être robuste aux perturbations qui séparent requête et données recherchées. Par exemple, se tromper sur une note ne doit pas condamner la recherche d’une mélodie. Cette attente étant antagoniste avec le désir de précision évoqué plus tôt, on voit se dégager un compromis précision/tolérance, sous la contrainte de rapidité. L’existence de ce compromis montre que, par essence, il n’existe pas de système d’indexation idéal. La multiplicité des profils de recherche et les attentes en matière de performances amènent à réduire le domaine d’application d’un système d’indexation. Celui-ci se spécialise : le compromis précision/tolérance sous contrainte de rapidité est géré pour la recherche de certains contenus, et pour certains types de requête seulement. Nous allons maintenant détailler les différentes facettes qui constituent l’indexation audio musicale :
– l’extraction de descripteurs,
– l’étiquetage de contenus,
– la recherche et la consultation de documents audio musicaux.
Pour chacune d’elles nous verrons les spécificités qu’entraînent les applications possibles.
Etiquetage en catégories fines
Parallèlement à l’amélioration de l’étiquetage de contenus généraux, des travaux sont menés sur un étiquetage plus précis de certains contenus audio. Des systèmes plus spécialisés traitent des signaux dont la catégorie générale (Musique, par exemple) est supposée connue. Ces systèmes spécialisés sont complémentaires aux systèmes d’étiquetage généraux. Dans un système complet traitant de contenus quelconques, l’étiquetage en catégories fines succèderait à un étiquetage grossier des contenus. Par exemple, [SS97]] présente un descripteur soulignant le rythme prononcé et régulier de musiques telles que la salsa, la techno, certains types de rock, etc. De tels descripteurs pourraient permettre une discrimination au sein des contenus préalablement étiquetés Musique. Une imbrication de telles techniques permettrait, par exemple, la distribution personnalisée de musique [AT00, CV00] (1er stade : sélection des contenus musicaux ; 2ème stade : sélection des styles musicaux désirés). Pour le moment, l’amélioration des étages d’un système complet s’effectue de manière indépendante. Concernant les systèmes d’étiquetage fin, les pré-requis imposés aux données d’entrée peuvent aller au delà d’une connaissance a priori du type général (Parole, Musique…). En effet, ces systèmes spécialisés peuvent attendre des contenus présentés qu’ils soient pré-segmentés. Typiquement, les données d’entrée seront des segments sonores isolés. Dans ce cas, la tâche n’est plus de délimiter des zones de contenu homogène à identifier, mais uniquement d’étiqueter la portion présentée. MuscleFish propose un système d’étiquetage de sons isolés dans lequel 16 variétés sont discriminées [WBKW99]]. On y retrouve des sons de cloches, des cris d’animaux, des bruits de foules, des rires, différents types instruments (cuivres, cordes frottées, percussions…), des bruits d’eau, des voix parlées. D’autres expériences ont été menées sur la discrimination de ces mêmes 16 catégories, avec un taux d’erreur ramené à moins de 10% [Li00]. Plus spécifique (dans l’application), une identification de sons issus d’une trentaine d’instruments de musique est réalisée avec 20% d’échec dans [EK00]. Comme nous l’avons dit plus tôt, lorsque le nombre de catégories discriminées diminue, les performances sont généralement meilleures. Ainsi, Eronen et al. obtiennent un taux d’erreur de 5% lorsqu’ils considèrent simplement la famille des instruments (cuivres, corde pincées, cordes frottées…). Les performances des systèmes d’étiquetage fins et généraux s’améliorent significativement, mais les conditions d’utilisation qu’ils imposent les écartent encore d’un système d’étiquetage de documents audio musicaux quelconques. Nous allons maintenant aborder une autre action qui tire profit de l’extraction de descripteurs : il s’agit de la recherche de contenus.
Fondements du moteur de comparaison
La théorie musicale offre des notions propices à la mise en place de mécanismes de comparaison mélodique. Par exemple, la connaissance du mode constitue un atout dans l’estimation de la similarité. En effet, remplacer une note par une autre est moins perturbant si le mode de la mélodie initiale est conservé que dans le cas contraire [Dow78]. Seulement, si ce type de notions est adapté à la quantification de différences mélodiques, leur caractère haut-niveau les rend difficilement accessibles (i.e. extractibles automatiquement). C’est pourquoi elles sont souvent considérées comme étant connues a priori (e.g. tempo, métrique, tonalité). Dans ce cas, la comparaison dépend d’informations à fournir en complément des mélodies soumises. La nature de ces informations (donc le type d’utilisateur capable de les fournir) destine le moteur de comparaison à un emploi plus ou moins spécialisé (e.g. outil d’analyse pour musicologue, système de recherche grand public). La similarité mélodique possède encore de nombreuses facettes et frontières inexplorées. A notre connaissance, les expériences menées dans le domaine de la psychologie ne permettent pas, à ce jour, de concevoir un moteur de comparaison à la fois efficace et convivial. Celui-ci fournirait des jugements conformes à la perception sans que les mélodies soumises soient complétées pas des informations supplémentaires.
Invariance Le point de départ communément adopté peut être illustré par une définition de la mélodie décrite comme l’entité présentant une invariance à la transposition, au changement de tempo, de timbre (instrument), et d’environnement acoustique. Conformément à cette définition, un moteur de comparaison mélodique doit présenter les propriétés suivantes, notamment vis-à-vis des mélodies comparées :
– Invariance vis-à-vis des tons auxquels sont jouées les mélodies. Une différence de ton ne constitue pas une dissimilarité. Par ailleurs, pour un système de recherche, il serait trop contraignant de demander à un utilisateur de connaître la hauteur originale de la musique qu’il recherche.
– Invariance vis-à-vis des tempos empruntés. De même que pour le ton d’un morceau, une même séquence de notes jouée à deux vitesses différentes ne doit pas engendrer de dissimilarité. De plus, on ne peut attendre d’un sujet recherchant une musique qu’il connaisse sa vitesse d’exécution exacte.
Sensibilité aux erreurs Nous venons de voir deux types de différences que le moteur de comparaison devait ignorer. Au contraire, d’autres différences doivent être prises en compte par le moteur de comparaison. La qualité d’un moteur de comparaison repose sur sa capacité à tolérer ces différences tout en les pénalisant conformément à la dissimilarité qu’elles engendrent. Les différences -ou erreurs- les plus fréquemment considérées par les moteurs de comparaison sont les suivantes :
– transposition : hauteur de note erronée,
– insertion/omission : ajout/absence d’une note,
– fragmentation/consolidation : division d’une note en plusieurs/fusion de plusieurs notes en une.
Les connaissances sur la similarité mélodique ne permettent pas d’établir des hiérarchies entre ces différents types d’erreurs. Leur catégorisation est encore trop grossière pour le permettre. Un témoin de l’évolution – trop lente – de cette catégorisation est l’introduction du type d’erreur fragmentation/consolidation par Mongeau [MD90]. La définition de ce phénomène provient du fait que celui-ci, jusqu’alors exprimé en terme d’insertion/omission, semblait trop pénalisé par rapport à la dissimilarité perçue. En effet, il apparaît inadapté de pénaliser par le coût de trois insertions le remplacement d’une blanche par quatre croches (en particulier lorsqu’elles possèdent la même hauteur). Cet exemple montre qu’il est difficile de disposer de règles permettant de pénaliser justement les différences entre mélodies. Par conséquent, la conception de moteurs de comparaison implique des concessions.
Compromis tolérance/précision Les invariances et la sensibilité que nous venons d’aborder sont le résultat du compromis entre tolérance et précision déjà évoqué en 2.2. Le manque de tolérance d’un moteur de comparaison se traduit par une pénalisation excessive de documents pertinents. Néanmoins, ce besoin de tolérance s’accompagne d’un désir de précision. En effet, il est nécessaire d’assurer une bonne discrimination dans les réponses du système, surtout lorsque la base de données consultée devient volumineuse. Le manque de précision d’un moteur de comparaison se traduit par une trop grande clémence vis-à-vis de documents non pertinents. Le moteur de comparaison gère le compromis tolérance/précision. Une grande tolérance autorisera d’importantes erreurs dans la requête. La faible précision induite se traduira par la présence de séquences non désirées dans ses réponses proposées.
Répartition des propriétés Un moteur de comparaison est composé des deux éléments suivants :
– la description des mélodies à comparer : chaque mélodie est représentée par un descripteur. Ce dernier ne contient que les caractéristiques qui permettront une comparaison pertinente, c’est-à-dire conforme aux invariants et aux tolérances requis.
– la mesure de similarité qui fournit un score en rapport avec la différence témoignée par les deux descripteurs.
La gestion des propriétés du moteur de comparaison peut donc s’opérer à deux niveaux : celui de la représentation de la mélodie, et celui de la mesure de similarité.
Rapidité La rapidité du processus entre évidemment en ligne de compte. Le temps d’attente de l’utilisateur est directement lié au temps de consultation de la base, donc au calcul de la similarité (et par conséquent, à la compacité des représentations mélodiques). Dans les sous-sections suivantes, nous allons voir comment divers moteurs de comparaison témoignent de la similarité mélodique. La question de l’information nécessaire à la comparaison des mélodies sera systématiquement abordée. En effet, dans le contexte d’un système de recherche, ce point détermine la complexité de la requête attendue d’un utilisateur.
La norme MIDI
Le MIDI (Musical Instrument Digital Interface) est une représentation conçue pour la communication entre instruments de musique électroniques. La spécification MIDI définit aussi bien le protocole d’envoi et de réception des messages de commande que les connections physiques existant entre les différents éléments en relation. Un système MIDI se compose de matériel producteur de son (synthétiseurs, échantillonneurs), d’éléments de contrôle (clavier, batterie électronique), et de logiciels, appelés séquenceurs, fonctionnant sur micro-ordinateur. Les éléments de base de la représentation sont les évènements de début et de fin de note, accompagnés des informations de hauteur, de vélocité (= force d’attaque d’une note). En général, chaque instrument est assigné à une piste, elle-même diffusée dans l’un des 16 canaux MIDI. La représentation MIDI peut être stockée dans des fichiers au format standard MIDI (extension « .mid ») qui sont manipulables par les séquenceurs : changer de ton, de tempo, occulter un instrument, modifier certaines notes sont par exemple des transformations aisées. Cette flexibilité en fait un outil très répandu chez les musiciens et les compositeurs. Les premiers l’utilisent souvent à des fins d’accompagnement (type karaoké), et les seconds pour disposer d’un retour sonore (même si le rendu est primaire par rapport à ce que donnerait, par exemple, un réel orchestre). Les fichiers MIDI sont très répandus sur Internet. Le fait que ces fichiers ne contiennent que les instructions correspondant au directives de jeu, et non la musique elle-même entraîne deux conséquences importantes. La première est une taille de fichier extrêmement faible, par exemple 14Ko pour un morceau de piano solo de 4 minutes, contre 40Mo pour une séquence de durée équivalente codée en qualité CD14, et environ 12 fois moins, soit quand même plus de 3Mo pour une version MP3 de bonne qualité (100kbit/s). Cette compacité fait du MIDI un moyen avantageux pour diffuser de la musique à très bas débit (e.g. habillage musical de sites web). La deuxième conséquence importante est un résultat sonore dépendant du matériel utilisé pour jouer le fichier MIDI (synthétiseur de carte son par exemple). Quoiqu’il en soit, le rendu sonore est limité par les performances des méthodes de synthèse mises en jeu. Tous les instruments ne sont donc pas équitablement représentés. Parmi les défavorisés, les parties vocales sont généralement assurées par des instruments de type flûte ou orgue. La qualité d’un fichier MIDI dépend de son mode de création. Nous distinguons deux cas extrêmes. Dans le premier, l’utilisateur du séquenceur spécifie une à une les informations contenues dans son fichier, qu’il s’agisse du tempo, de la métrique, de l’armure (et de leur éventuels changement au cours de la musique) et évidemment des notes. Dans ce cas, l’information contenue dans le fichier MIDI est très proche de celle contenue dans une partition. On peut d’ailleurs soupçonner l’utilisateur de disposer de cette dernière, et de désirer écouter de son rendu sonore. Dans le second cas de figure, l’utilisateur dispose d’un instrument MIDI15 qui lui permet de jouer la musique qu’il désire stocker. L’avantage est la prise en compte des nuances qui évitent le côté mécanique d’une partition « parfaitement » réalisée. Par contre, rien n’oblige l’utilisateur à compléter sa performance par les valeurs de tempo, de métrique ou de tonalité correspondantes. Les seules informations systématiquement présentes dans un fichier MIDI sont les paramètres de notes (hauteur, durée, vélocité) et les instruments qui les jouent. En règle générale, le tempo est spécifié, d’avantage que la métrique, elle-même beaucoup plus fréquente que l’armure. Un fichier MIDI n’est donc pas toujours l’équivalent de la partition. Ce constat pénalise les moteurs de comparaison qui nécessitent d’avantage d’information que les seules notes jouées. Seule l’extraction automatique des informations complémentaires requises (e.g. la tonalité) pourrait permettre l’utilisation de ces moteurs. Nous détaillerons ces questions au chapitre 5, lors de la construction de notre moteur de comparaison.
|
Table des matières
1 Introduction Générale
2 Indexation Audio Musicale
2.1 Introduction
2.2 Principe et intérêt
2.3 Extraction de descripteurs
2.4 Etiquetage de contenus
2.4.1 Etiquetage en catégories générales
2.4.2 Etiquetage en catégories fines
2.5 Recherche de contenus
2.5.1 Types de requête
2.5.2 Reconnaissance de contenus .
2.5.3 Moteurs de recherche
2.5.4 La mélodie : un contenu « haut-niveau »
2.6 Conclusion
3 Etat de l’Art en Indexation Mélodique
3.1 Introduction
3.2 Notions musicales
3.3 Le moteur de comparaison
3.3.1 Fondements du moteur de comparaison
3.3.2 Prise en compte du contexte musical
3.3.3 Contour mélodique et string-matching
3.3.4 Variations sur la notion de contour
3.3.5 Place de l’information rythmique
3.3.6 Autre type de représentation par états
3.3.7 Représentations associées à des distances
3.3.8 Conclusion
3.4 La base de données musicales
3.4.1 L’accès à la partition
3.4.2 La norme MIDI
3.4.3 Sélection des données pertinentes
3.4.4 Indexation
3.4.5 Caractéristiques des bases de données utilisées
3.4.6 Conclusion
3.5 La requête
3.5.1 Transcription automatique d’une requête chantonnée
3.5.2 Non tempérament des requêtes chantonnées
3.5.3 Caractérisation des mélodies chantonnées
3.5.4 Conclusion
3.6 Evaluation de systèmes d’indexation mélodique
3.7 Systèmes disponibles en ligne
3.8 Conclusion
4 Etude de Requêtes Chantonnées
4.1 Introduction
4.2 Transcription automatique d’une mélodie chantonnée
4.2.1 Détection de fréquences fondamentales
4.2.2 Segmentation en notes
4.2.3 Etiquetage des hauteurs
4.2.4 Interface de visualisation du module de transcription
4.2.5 Conclusion
4.3 Analyse de mélodies chantonnées
4.3.1 Références et critère de comparaison
4.3.2 Constitution du corpus de données
4.3.3 Types d’erreurs recensés
4.3.4 Extension/compression des intervalles
4.3.5 Dépendance de l’imprécision à l’amplitude de l’intervalle visé
4.3.6 Dépendance de l’imprécision au rang de l’intervalle dans la mélodie
4.4 Conclusion
5 Conception d’un Moteur de Comparaison
5.1 Introduction
5.2 Description de la requête
5.2.1 Information temporelle
5.2.2 Information fréquentielle
5.2.3 Conclusion
5.3 Description des données de la base
5.3.1 Sélection des données concernées par la description
5.3.2 Réduction de la polyphonie intrinsèque à un instrument
5.3.3 Information temporelle
5.3.4 Information fréquentielle
5.3.5 Caractéristiques du matériau musical décrit
5.3.6 Conclusion
5.4 Mesure de similarité
5.4.1 Distances
5.4.2 Cas des profils de hauteurs
5.4.3 Cas des séquences d’intervalles
5.4.4 Conclusion
5.5 Conclusion
6 Mesure Objective de la Qualité de Moteurs de Comparaison
6.1 Introduction
6.2 Tests subjectifs : Principe
6.3 Tests subjectifs : Modalités
6.3.1 Sélection des mélodies
6.3.2 Dégradations appliquées
6.3.3 Mode de présentation des mélodies
6.3.4 Sujets
6.4 Tests subjectifs : Résultats
6.4.1 Données exploitables
6.4.2 Définition de critères objectifs de qualification
6.4.3 Conclusion
6.5 Application des critères objectifs aux moteurs de comparaison proposés
6.5.1 Principe
6.5.2 Relation entre EL et RT
6.5.3 Relation entre GT et EL
6.5.4 Relation entre GT et RT
6.5.5 Classement des moteurs de comparaison proposés
6.5.6 Conclusion
6.6 Conclusion
7 Evaluation de la Qualité de SR Mélodiques
7.1 Introduction
7.2 Critères de qualité
7.2.1 Qualité de l’application proposée
7.2.2 Choix de critères objectifs pour la qualification des réponses fournies
7.3 Qualification objective de différentes configurations de systèmes
7.3.1 Profils de hauteurs vs. Séquences d’intervalles
7.3.2 Quantifications
7.3.3 Quantifié vs. Non quantifié
7.3.4 Système choisi vs. Etat-de-l’art
7.3.5 Rapidité du système choisi
7.4 Conclusion
8 Stimulations Artificielles pour la Qualification Objective de SR Mélodiques
8.1 Introduction
8.2 Modélisation de l’imprécision en fréquence
8.3 Qualification objective de systèmes par requêtes-tests artificielles
8.3.1 Systèmes fondés sur les profils de hauteurs
8.3.2 Systèmes fondés sur les séquences d’intervalles
8.3.3 Jugement sur la qualité des requêtes-tests artificielles
8.4 Conclusion
9 Conclusion Générale et Perspectives
Télécharger le rapport complet