La nécessité d’une indexation de qualité
La distribution de musique se fait de plus en plus sous format dématérialisé, au détriment du support physique . Cette tendance a plusieurs conséquences :
– Premièrement, la distribution de musique dématérialisée possède un coût de distribution bien moindre que sur support physique. La diminution de cet investissement permet de proposer davantage de références peu connues, moins susceptibles de se vendre. Cela augmente considérablement le nombre de références disponibles .
– Par ailleurs, le contact avec le vendeur disparaît. Le contact à distance étant beaucoup moins spontané, les plates-formes de distribution en ligne n’ont pas jugé utile de proposer des contacts avec des spécialistes pour recommander ou retrouver les disques. Par conséquent, l’organisation et la présentation du service en ligne deviennent primordiales.
– On note également que le contenu audio des morceaux est directement disponible pour la lecture et l’analyse. Cela facilite par exemple la pré-écoute par l’utilisateur avant d’acheter, mais permet également la diffusion de musique par flux (streaming), dans des services intégralement en ligne. Avec l’augmentation de la taille des bases de données et la disparition du conseiller, les utilisateurs ont donc besoin de données très bien organisées et indexées, afin de trouver facilement ce qu’ils cherchent. En outre, les discothèques numériques personnelles sont parfois très étoffées et il est souhaitable de bénéficier d’une bonne indexation. Heureusement, la version dématérialisée permet de stocker des métadonnées permettant une indexation élaborée, et générées par des humains ou des processus automatiques. Ces derniers exploitent des données externes ou le flux luimême, désormais exploitable directement.
Apprentissage automatique pour le tagging
Le tagging automatique fait en général appel à des techniques d’apprentissage pour la classification. C’est à dire que le système, en analysant un grand nombre d’exemples, apprendra lui-même à distinguer les morceaux sur lesquels un tag donné s’applique. Un système classique de tagging automatique est présenté dans la Figure 1.3. On considère ici un tag à la fois, et le but est d’apprendre à classifier les morceaux en deux catégories : ceux sur lesquels le tag s’applique, et ceux sur lesquels il est inapproprié. La procédure comporte deux étapes :
– une étape préalable d’apprentissage, dont le but est de construire, d’après de nombreux exemples, une règle de décision sur les morceaux ;
– puis le tagging proprement dit, où cette règle peut être utilisée sur n’importe quel nouveau morceau pour décider si le tag s’applique. Pour commencer, l’apprentissage consiste donc à analyser un grand nombre d’exemples pour apprendre à classifier de nouveaux morceaux. Il nécessite deux jeux de données connectés :
– un ensemble de morceaux de musique, représentés par leur signal audio et/ou des données provenant de services en ligne ;
– des annotations fiables, indiquant quels morceaux sont associés au tag considéré. L’apprentissage commence par l’extraction, à partir des signaux d’entraînement, d’informations et de caractéristiques supposées pertinentes. On obtient alors un ensemble de descripteurs, généralement numériques, rassemblés dans des vecteurs xi . Chacun de ces vecteurs possède une valeur d’annotation associée yi , indiquant si le tag s’applique ou non sur le morceau correspondant. Puis une technique d’apprentissage statistique va utiliser les xi et les yi pour construire une règle de décision binaire h(x) ∈ {−1, 1}. Lors de la phase de tagging, on doit taguer un morceau préalablement inconnu. On commence alors par extraire les mêmes descripteurs que lors de l’apprentissage, puis la fonction h(x) est utilisée pour décider si le tag s’applique ou pas.
Différents niveaux d’abstraction
Dans la section précédente, nous pointons l’importance capitale d’une bonne représentation des signaux musicaux pour l’efficacité du classifieur. En effet, les caractéristiques présentées doivent être aisément exploitables, et surtout elles doivent être liées aux critères que l’on cherche à discriminer. Par exemple, la durée du morceau sera un descripteur très peu informatif pour apprendre des tags basés sur l’émotion. Par contre, si le tag à apprendre est Morceau-Longue_durée, alors ce descripteur sera très utile. Puisque l’on ne connaît pas toujours a priori le sens de tous les tags qu’il va falloir analyser, il paraît logique d’adopter des représentations qui couvrent le plus possible d’aspects différents, tout en restant peu redondantes. Cela nécessite des descripteurs hétérogènes. Afin d’obtenir des descripteurs différents, il est nécessaire de varier les niveaux d’abstraction. Pour une information, nous appelons « niveau d’abstraction » le positionnement de celle-ci entre le monde des faits, physique, et le monde des idées, des mots, des modèles et des représentations. Ainsi, pour la musique, le plus bas niveau d’abstraction dont nous disposons est le signal. On peut déjà considérer un signal numérique comme abstrait, en cela qu’il n’est pas le son mais constitue une représentation de celui-ci par des nombres, par ailleurs basée sur des mesures approximatives. Mais le signal est connecté de très près au monde physique, et tout son sens reste à extraire. Les tags par contre, sont des informations de beaucoup plus haut niveau d’abstraction : elles sont bien davantage reliées à la sémantique qu’à la physique. Toutes les autres informations peuvent être placées sur cet axe : de la plus physique à la plus perceptuelle, de la plus concrète à la plus chargée de sens. Ainsi, dans un système de tagging, il existe un immense fossé sémantique entre le signal et les tags que l’on cherche à estimer. En utilisant uniquement des descripteurs de bas niveau, c’est au classifieur seul que revient la tâche de franchir ce fossé. Par contre, en extrayant du signal des informations de différents niveaux d’abstraction, cet effort est partagé [ADP07]. Le problème est que ces informations ne sont pas toujours extraites sur les mêmes durées de signal et présentent des spécificités qui les rendent difficiles à exploiter conjointement.
Timbre
Le timbre est un aspect souvent prépondérant lorsque l’on cherche à décrire un morceau pour la classification. De très nombreux descripteurs ont été proposés pour caractériser, entre autres, l’enveloppe temporelle ou spectrale (cf. Figure 2.2), la balance harmonique/bruité, ou l’évolution temporelle d’un son musical ou d’un morceau [MB03, PGS+11, FLTZ11]. Le plus utilisé de ces descripteurs est certainement constitué par les Coefficients cepstraux sur l’échelle de Mel, plus connus sous leur nom anglais Mel-frequency Cepstral Coefficients (MFCC) [RJ93, Log00]. Ces coefficients donnent une description de l’aspect de l’enveloppe spectrale (cf. Figure 2.2). On garde en général les 12 ou 13 premiers coefficients (le premier d’entre eux est parfois omis). Les descripteurs timbraux sont souvent calculés directement à partir du signal temporel ou de transformations sur le plan temps/fréquence telles que : transformée de Fourier, analyse cepstrale, modélisation auto-régressive, etc. Leur simplicité d’extraction et leur forte corrélation avec la physique du signal font de ces caractéristiques des descripteurs de bas niveau d’abstraction. Même si les représentations simples fonctionnent souvent très bien, quelques études ont cherché à trouver des descripteurs plus complexes, notamment en les générant automatiquement. De nombreuses publications ont proposé des méthodes pour construire des descripteurs appris automatiquement sur les données d’apprentissage [PR07, PR09, MKRG12, KRG13]. Dans ces techniques, on choisit au départ un ensemble de quelques dizaines d’opérateurs tels que : racine carrée, maximum, autocorrélation, transformée de Fourier, filtrage passe-bande, etc. Puis un algorithme est utilisé pour trouver des combinaisons de ces opérateurs qui, appliquées au signal, donnent des descripteurs discriminatifs pour la tâche proposée. Bien que ce type de technique permette d’explorer un immense espace de descripteurs, il paraît probable que la simplicité des opérateurs de base ne permette de construire que des descripteurs de bas ou mi-niveau d’abstraction.
|
Table des matières
1. Introduction
1.1. Indexation audio et tags
1.1.1. La nécessité d’une indexation de qualité
1.1.2. Les tags : des étiquettes sémantiques très répandues
1.2. Apprentissage automatique pour le tagging
1.3. Différents niveaux d’abstraction
1.4. Problématiques
1.5. Résumé des contributions
1.6. Structure du document
2. Classification pour le tagging automatique
2.1. Introduction
2.2. Représentation des morceaux
2.2.1. Descriptions du signal
2.2.2. Données sociales et contextuelles
2.2.3. Le problème de la représentation des variations temporelles
2.3. L’apprentissage automatique des tags
2.3.1. Classification multi-labels
2.3.2. Algorithmes d’apprentissage
2.4. Fusion d’informations hétérogènes
2.5. Données pour le tagging automatique
2.5.1. Récolte des annotations
2.5.2. Choix d’une base de données
2.6. Évaluation
2.6.1. Cadre d’évaluation pour la classification
2.6.2. Validité statistique des résultats
2.7. Conclusion
3. Boosting d’arbres de décision : un cadre performant et flexible
3.1. Introduction
3.2. Le boosting : une classe de méta-classifieurs
3.2.1. Un méta-classifieur itératif
3.2.2. Un modèle flexible
3.3. Le cas particulier des arbres de décision
3.3.1. Définition et construction
3.3.2. Comportement des arbres boostés
3.4. Adaptation à plusieurs fonctions de coût
3.5. Le boosting pour la fusion de classifieurs
3.6. Gestion des descripteurs manquants
3.6.1. L’algorithme Ada-ABS
3.6.2. Relation avec Adaboost
3.7. Conclusion
4. Fusion souple d’annotateurs et régression
4.1. L’annotation, génératrice d’incertitude
4.2. Vers une vérité-terrain plus souple
4.3. Fusion souple des annotateurs
4.3.1. Méthode de fusion
4.3.2. Validation de la méthode de fusion
4.4. Apprentissage régressif et validation de l’approche
4.4.1. Mode opératoire
4.4.2. Résultats et discussion
4.5. Conclusion
5. Des descripteurs hétérogènes
5.1. Introduction
5.2. Couvrir différents niveaux d’abstraction
5.2.1. Timbre
5.2.2. Harmonie
5.2.3. Rythme
5.2.4. Tests de performance
5.3. Importance de l’intégration temporelle précoce
5.3.1. Pourquoi une intégration précoce ?
5.3.2. Étude sur la méthode d’intégration
5.4. Influence de l’échelle de description
5.5. Conclusion
6. Décrire un morceau sur plusieurs échelles temporelles
6.1. Introduction
6.2. Travaux pré-existants sur la fusion multi-échelles
6.3. Algorithme de boosting pour l’analyse multi-échelles
6.3.1. Plage de décision
6.3.2. Cœur de l’algorithme
6.4. Deux expériences pour l’évaluation
6.4.1. Reconnaissance des instruments de musique
6.4.2. Multi-tagging
6.5. Conclusion
7. Données collaboratives et fusion multi-niveaux
7.1. Introduction
7.2. Descripteurs issus du contexte éditorial et social
7.2.1. Tags utilisateurs
7.2.2. Paroles
7.2.3. Image de la pochette du disque
7.2.4. Décennie de sortie
7.2.5. Tests de performance
7.3. Fusion multi-niveaux
7.3.1. Des représentations vivant à différentes échelles
7.3.2. Validation expérimentale
7.4. Conclusion
8. Conclusion
A. Métriques d’exactitude pour l’évaluation de classifieurs
A.1. Introduction
A.2. Métriques de récupération (retrieval)
A.3. Métriques de classement
B. Tests statistiques pour l’évaluation des prédictions
B.1. Introduction
B.2. Test de McNemar
B.3. Test de Student par séries appariées avec validation croisée
C. Liste des tags analysés pour les tests
Publications de l’auteur
Bibliographie
Notations
Index
Télécharger le rapport complet