La nรฉcessitรฉ dโune indexation de qualitรฉ
ย ย La distribution de musique se fait de plus en plus sous format dรฉmatรฉrialisรฉ, au dรฉtriment du support physique . Cette tendance a plusieurs consรฉquences :
โ Premiรจrement, la distribution de musique dรฉmatรฉrialisรฉe possรจde un coรปt de distribution bien moindre que sur support physique. La diminution de cet investissement permet de proposer davantage de rรฉfรฉrences peu connues, moins susceptibles de se vendre. Cela augmente considรฉrablement le nombre de rรฉfรฉrences disponibles .
โ Par ailleurs, le contact avec le vendeur disparaรฎt. Le contact ร distance รฉtant beaucoup moins spontanรฉ, les plates-formes de distribution en ligne nโont pas jugรฉ utile de proposer des contacts avec des spรฉcialistes pour recommander ou retrouver les disques. Par consรฉquent, lโorganisation et la prรฉsentation du service en ligne deviennent primordiales.
โ On note รฉgalement que le contenu audio des morceaux est directement disponible pour la lecture et lโanalyse. Cela facilite par exemple la prรฉ-รฉcoute par lโutilisateur avant dโacheter, mais permet รฉgalement la diffusion de musique par flux (streaming), dans des services intรฉgralement en ligne. Avec lโaugmentation de la taille des bases de donnรฉes et la disparition du conseiller, les utilisateurs ont donc besoin de donnรฉes trรจs bien organisรฉes et indexรฉes, afin de trouver facilement ce quโils cherchent. En outre, les discothรจques numรฉriques personnelles sont parfois trรจs รฉtoffรฉes et il est souhaitable de bรฉnรฉficier dโune bonne indexation. Heureusement, la version dรฉmatรฉrialisรฉe permet de stocker des mรฉtadonnรฉes permettant une indexation รฉlaborรฉe, et gรฉnรฉrรฉes par des humains ou des processus automatiques. Ces derniers exploitent des donnรฉes externes ou le flux luimรชme, dรฉsormais exploitable directement.
Apprentissage automatique pour le tagging
ย ย Le tagging automatique fait en gรฉnรฉral appel ร des techniques dโapprentissage pour la classification. Cโest ร dire que le systรจme, en analysant un grand nombre dโexemples, apprendra lui-mรชme ร distinguer les morceaux sur lesquels un tag donnรฉ sโapplique. Un systรจme classique de tagging automatique est prรฉsentรฉ dans la Figure 1.3. On considรจre ici un tag ร la fois, et le but est dโapprendre ร classifier les morceaux en deux catรฉgories : ceux sur lesquels le tag sโapplique, et ceux sur lesquels il est inappropriรฉ. La procรฉdure comporte deux รฉtapes :
โ une รฉtape prรฉalable dโapprentissage, dont le but est de construire, dโaprรจs de nombreux exemples, une rรจgle de dรฉcision sur les morceaux ;
โ puis le tagging proprement dit, oรน cette rรจgle peut รชtre utilisรฉe sur nโimporte quel nouveau morceau pour dรฉcider si le tag sโapplique. Pour commencer, lโapprentissage consiste donc ร analyser un grand nombre dโexemples pour apprendre ร classifier de nouveaux morceaux. Il nรฉcessite deux jeux de donnรฉes connectรฉs :
โ un ensemble de morceaux de musique, reprรฉsentรฉs par leur signal audio et/ou des donnรฉes provenant de services en ligne ;
โ des annotations fiables, indiquant quels morceaux sont associรฉs au tag considรฉrรฉ. Lโapprentissage commence par lโextraction, ร partir des signaux dโentraรฎnement, dโinformations et de caractรฉristiques supposรฉes pertinentes. On obtient alors un ensemble de descripteurs, gรฉnรฉralement numรฉriques, rassemblรฉs dans des vecteurs xi . Chacun de ces vecteurs possรจde une valeur dโannotation associรฉe yi , indiquant si le tag sโapplique ou non sur le morceau correspondant. Puis une technique dโapprentissage statistique va utiliser les xi et les yi pour construire une rรจgle de dรฉcision binaire h(x) โ {โ1, 1}. Lors de la phase de tagging, on doit taguer un morceau prรฉalablement inconnu. On commence alors par extraire les mรชmes descripteurs que lors de lโapprentissage, puis la fonction h(x) est utilisรฉe pour dรฉcider si le tag sโapplique ou pas.
Diffรฉrents niveaux dโabstraction
ย ย Dans la section prรฉcรฉdente, nous pointons lโimportance capitale dโune bonne reprรฉsentation des signaux musicaux pour lโefficacitรฉ du classifieur. En effet, les caractรฉristiques prรฉsentรฉes doivent รชtre aisรฉment exploitables, et surtout elles doivent รชtre liรฉes aux critรจres que lโon cherche ร discriminer. Par exemple, la durรฉe du morceau sera un descripteur trรจs peu informatif pour apprendre des tags basรฉs sur lโรฉmotion. Par contre, si le tag ร apprendre est Morceau-Longue_durรฉe, alors ce descripteur sera trรจs utile. Puisque lโon ne connaรฎt pas toujours a priori le sens de tous les tags quโil va falloir analyser, il paraรฎt logique dโadopter des reprรฉsentations qui couvrent le plus possible dโaspects diffรฉrents, tout en restant peu redondantes. Cela nรฉcessite des descripteurs hรฉtรฉrogรจnes. Afin dโobtenir des descripteurs diffรฉrents, il est nรฉcessaire de varier les niveaux dโabstraction. Pour une information, nous appelons ยซ niveau dโabstraction ยป le positionnement de celle-ci entre le monde des faits, physique, et le monde des idรฉes, des mots, des modรจles et des reprรฉsentations. Ainsi, pour la musique, le plus bas niveau dโabstraction dont nous disposons est le signal. On peut dรฉjร considรฉrer un signal numรฉrique comme abstrait, en cela quโil nโest pas le son mais constitue une reprรฉsentation de celui-ci par des nombres, par ailleurs basรฉe sur des mesures approximatives. Mais le signal est connectรฉ de trรจs prรจs au monde physique, et tout son sens reste ร extraire. Les tags par contre, sont des informations de beaucoup plus haut niveau dโabstraction : elles sont bien davantage reliรฉes ร la sรฉmantique quโร la physique. Toutes les autres informations peuvent รชtre placรฉes sur cet axe : de la plus physique ร la plus perceptuelle, de la plus concrรจte ร la plus chargรฉe de sens. Ainsi, dans un systรจme de tagging, il existe un immense fossรฉ sรฉmantique entre le signal et les tags que lโon cherche ร estimer. En utilisant uniquement des descripteurs de bas niveau, cโest au classifieur seul que revient la tรขche de franchir ce fossรฉ. Par contre, en extrayant du signal des informations de diffรฉrents niveaux dโabstraction, cet effort est partagรฉ [ADP07]. Le problรจme est que ces informations ne sont pas toujours extraites sur les mรชmes durรฉes de signal et prรฉsentent des spรฉcificitรฉs qui les rendent difficiles ร exploiter conjointement.
Timbre
ย Le timbre est un aspect souvent prรฉpondรฉrant lorsque lโon cherche ร dรฉcrire un morceau pour la classification. De trรจs nombreux descripteurs ont รฉtรฉ proposรฉs pour caractรฉriser, entre autres, lโenveloppe temporelle ou spectrale (cf. Figure 2.2), la balance harmonique/bruitรฉ, ou lโรฉvolution temporelle dโun son musical ou dโun morceau [MB03, PGS+11, FLTZ11]. Le plus utilisรฉ de ces descripteurs est certainement constituรฉ par les Coefficients cepstraux sur lโรฉchelle de Mel, plus connus sous leur nom anglais Mel-frequency Cepstral Coefficients (MFCC) [RJ93, Log00]. Ces coefficients donnent une description de lโaspect de lโenveloppe spectrale (cf. Figure 2.2). On garde en gรฉnรฉral les 12 ou 13 premiers coefficients (le premier dโentre eux est parfois omis). Les descripteurs timbraux sont souvent calculรฉs directement ร partir du signal temporel ou de transformations sur le plan temps/frรฉquence telles que : transformรฉe de Fourier, analyse cepstrale, modรฉlisation auto-rรฉgressive, etc. Leur simplicitรฉ dโextraction et leur forte corrรฉlation avec la physique du signal font de ces caractรฉristiques des descripteurs de bas niveau dโabstraction. Mรชme si les reprรฉsentations simples fonctionnent souvent trรจs bien, quelques รฉtudes ont cherchรฉ ร trouver des descripteurs plus complexes, notamment en les gรฉnรฉrant automatiquement. De nombreuses publications ont proposรฉ des mรฉthodes pour construire des descripteurs appris automatiquement sur les donnรฉes dโapprentissage [PR07, PR09, MKRG12, KRG13]. Dans ces techniques, on choisit au dรฉpart un ensemble de quelques dizaines dโopรฉrateurs tels que : racine carrรฉe, maximum, autocorrรฉlation, transformรฉe de Fourier, filtrage passe-bande, etc. Puis un algorithme est utilisรฉ pour trouver des combinaisons de ces opรฉrateurs qui, appliquรฉes au signal, donnent des descripteurs discriminatifs pour la tรขche proposรฉe. Bien que ce type de technique permette dโexplorer un immense espace de descripteurs, il paraรฎt probable que la simplicitรฉ des opรฉrateurs de base ne permette de construire que des descripteurs de bas ou mi-niveau dโabstraction.
|
Table des matiรจres
1. Introductionย
1.1. Indexation audio et tags
1.1.1. La nรฉcessitรฉ dโune indexation de qualitรฉ
1.1.2. Les tags : des รฉtiquettes sรฉmantiques trรจs rรฉpandues
1.2. Apprentissage automatique pour le taggingย
1.3. Diffรฉrents niveaux dโabstraction
1.4. Problรฉmatiquesย
1.5. Rรฉsumรฉ des contributionsย
1.6. Structure du document
2. Classification pour le tagging automatiqueย
2.1. Introductionย
2.2. Reprรฉsentation des morceauxย
2.2.1. Descriptions du signal
2.2.2. Donnรฉes sociales et contextuelles
2.2.3. Le problรจme de la reprรฉsentation des variations temporelles
2.3. Lโapprentissage automatique des tags
2.3.1. Classification multi-labels
2.3.2. Algorithmes dโapprentissage
2.4. Fusion dโinformations hรฉtรฉrogรจnesย
2.5. Donnรฉes pour le tagging automatiqueย
2.5.1. Rรฉcolte des annotations
2.5.2. Choix dโune base de donnรฉes
2.6. รvaluation
2.6.1. Cadre dโรฉvaluation pour la classification
2.6.2. Validitรฉ statistique des rรฉsultats
2.7. Conclusion
3. Boosting dโarbres de dรฉcision : un cadre performant et flexibleย
3.1. Introduction
3.2. Le boosting : une classe de mรฉta-classifieursย
3.2.1. Un mรฉta-classifieur itรฉratif
3.2.2. Un modรจle flexible
3.3. Le cas particulier des arbres de dรฉcisionย
3.3.1. Dรฉfinition et construction
3.3.2. Comportement des arbres boostรฉs
3.4. Adaptation ร plusieurs fonctions de coรปtย
3.5. Le boosting pour la fusion de classifieursย
3.6. Gestion des descripteurs manquantsย
3.6.1. Lโalgorithme Ada-ABS
3.6.2. Relation avec Adaboost
3.7. Conclusionย
4. Fusion souple dโannotateurs et rรฉgressionย
4.1. Lโannotation, gรฉnรฉratrice dโincertitude
4.2. Vers une vรฉritรฉ-terrain plus souple
4.3. Fusion souple des annotateursย
4.3.1. Mรฉthode de fusion
4.3.2. Validation de la mรฉthode de fusion
4.4. Apprentissage rรฉgressif et validation de lโapproche
4.4.1. Mode opรฉratoire
4.4.2. Rรฉsultats et discussion
4.5. Conclusionย
5. Des descripteurs hรฉtรฉrogรจnesย
5.1. Introductionย
5.2. Couvrir diffรฉrents niveaux dโabstraction
5.2.1. Timbre
5.2.2. Harmonie
5.2.3. Rythme
5.2.4. Tests de performance
5.3. Importance de lโintรฉgration temporelle prรฉcoce
5.3.1. Pourquoi une intรฉgration prรฉcoce ?
5.3.2. รtude sur la mรฉthode dโintรฉgration
5.4. Influence de lโรฉchelle de description
5.5. Conclusionย
6. Dรฉcrire un morceau sur plusieurs รฉchelles temporellesย
6.1. Introductionย
6.2. Travaux prรฉ-existants sur la fusion multi-รฉchelles
6.3. Algorithme de boosting pour lโanalyse multi-รฉchellesย
6.3.1. Plage de dรฉcision
6.3.2. Cลur de lโalgorithme
6.4. Deux expรฉriences pour lโรฉvaluationย
6.4.1. Reconnaissance des instruments de musique
6.4.2. Multi-tagging
6.5. Conclusion
7. Donnรฉes collaboratives et fusion multi-niveauxย
7.1. Introductionย
7.2. Descripteurs issus du contexte รฉditorial et social
7.2.1. Tags utilisateurs
7.2.2. Paroles
7.2.3. Image de la pochette du disque
7.2.4. Dรฉcennie de sortie
7.2.5. Tests de performance
7.3. Fusion multi-niveaux
7.3.1. Des reprรฉsentations vivant ร diffรฉrentes รฉchelles
7.3.2. Validation expรฉrimentale
7.4. Conclusionย
8. Conclusionย
A. Mรฉtriques dโexactitude pour lโรฉvaluation de classifieurs
A.1. Introduction
A.2. Mรฉtriques de rรฉcupรฉration (retrieval)
A.3. Mรฉtriques de classement
B. Tests statistiques pour lโรฉvaluation des prรฉdictions
B.1. Introduction
B.2. Test de McNemar
B.3. Test de Student par sรฉries appariรฉes avec validation croisรฉe
C. Liste des tags analysรฉs pour les tests
Publications de lโauteur
Bibliographie
Notations
Index
Tรฉlรฉcharger le rapport complet