Fusion multi-niveaux par boosting pour le tagging automatique

La nรฉcessitรฉ dโ€™une indexation de qualitรฉ

ย  ย La distribution de musique se fait de plus en plus sous format dรฉmatรฉrialisรฉ, au dรฉtriment du support physique . Cette tendance a plusieurs consรฉquences :
โ€“ Premiรจrement, la distribution de musique dรฉmatรฉrialisรฉe possรจde un coรปt de distribution bien moindre que sur support physique. La diminution de cet investissement permet de proposer davantage de rรฉfรฉrences peu connues, moins susceptibles de se vendre. Cela augmente considรฉrablement le nombre de rรฉfรฉrences disponibles .
โ€“ Par ailleurs, le contact avec le vendeur disparaรฎt. Le contact ร  distance รฉtant beaucoup moins spontanรฉ, les plates-formes de distribution en ligne nโ€™ont pas jugรฉ utile de proposer des contacts avec des spรฉcialistes pour recommander ou retrouver les disques. Par consรฉquent, lโ€™organisation et la prรฉsentation du service en ligne deviennent primordiales.
โ€“ On note รฉgalement que le contenu audio des morceaux est directement disponible pour la lecture et lโ€™analyse. Cela facilite par exemple la prรฉ-รฉcoute par lโ€™utilisateur avant dโ€™acheter, mais permet รฉgalement la diffusion de musique par flux (streaming), dans des services intรฉgralement en ligne. Avec lโ€™augmentation de la taille des bases de donnรฉes et la disparition du conseiller, les utilisateurs ont donc besoin de donnรฉes trรจs bien organisรฉes et indexรฉes, afin de trouver facilement ce quโ€™ils cherchent. En outre, les discothรจques numรฉriques personnelles sont parfois trรจs รฉtoffรฉes et il est souhaitable de bรฉnรฉficier dโ€™une bonne indexation. Heureusement, la version dรฉmatรฉrialisรฉe permet de stocker des mรฉtadonnรฉes permettant une indexation รฉlaborรฉe, et gรฉnรฉrรฉes par des humains ou des processus automatiques. Ces derniers exploitent des donnรฉes externes ou le flux luimรชme, dรฉsormais exploitable directement.

Apprentissage automatique pour le tagging

ย  ย Le tagging automatique fait en gรฉnรฉral appel ร  des techniques dโ€™apprentissage pour la classification. Cโ€™est ร  dire que le systรจme, en analysant un grand nombre dโ€™exemples, apprendra lui-mรชme ร  distinguer les morceaux sur lesquels un tag donnรฉ sโ€™applique. Un systรจme classique de tagging automatique est prรฉsentรฉ dans la Figure 1.3. On considรจre ici un tag ร  la fois, et le but est dโ€™apprendre ร  classifier les morceaux en deux catรฉgories : ceux sur lesquels le tag sโ€™applique, et ceux sur lesquels il est inappropriรฉ. La procรฉdure comporte deux รฉtapes :
โ€“ une รฉtape prรฉalable dโ€™apprentissage, dont le but est de construire, dโ€™aprรจs de nombreux exemples, une rรจgle de dรฉcision sur les morceaux ;
โ€“ puis le tagging proprement dit, oรน cette rรจgle peut รชtre utilisรฉe sur nโ€™importe quel nouveau morceau pour dรฉcider si le tag sโ€™applique. Pour commencer, lโ€™apprentissage consiste donc ร  analyser un grand nombre dโ€™exemples pour apprendre ร  classifier de nouveaux morceaux. Il nรฉcessite deux jeux de donnรฉes connectรฉs :
โ€“ un ensemble de morceaux de musique, reprรฉsentรฉs par leur signal audio et/ou des donnรฉes provenant de services en ligne ;
โ€“ des annotations fiables, indiquant quels morceaux sont associรฉs au tag considรฉrรฉ. Lโ€™apprentissage commence par lโ€™extraction, ร  partir des signaux dโ€™entraรฎnement, dโ€™informations et de caractรฉristiques supposรฉes pertinentes. On obtient alors un ensemble de descripteurs, gรฉnรฉralement numรฉriques, rassemblรฉs dans des vecteurs xi . Chacun de ces vecteurs possรจde une valeur dโ€™annotation associรฉe yi , indiquant si le tag sโ€™applique ou non sur le morceau correspondant. Puis une technique dโ€™apprentissage statistique va utiliser les xi et les yi pour construire une rรจgle de dรฉcision binaire h(x) โˆˆ {โˆ’1, 1}. Lors de la phase de tagging, on doit taguer un morceau prรฉalablement inconnu. On commence alors par extraire les mรชmes descripteurs que lors de lโ€™apprentissage, puis la fonction h(x) est utilisรฉe pour dรฉcider si le tag sโ€™applique ou pas.

Diffรฉrents niveaux dโ€™abstraction

ย  ย Dans la section prรฉcรฉdente, nous pointons lโ€™importance capitale dโ€™une bonne reprรฉsentation des signaux musicaux pour lโ€™efficacitรฉ du classifieur. En effet, les caractรฉristiques prรฉsentรฉes doivent รชtre aisรฉment exploitables, et surtout elles doivent รชtre liรฉes aux critรจres que lโ€™on cherche ร  discriminer. Par exemple, la durรฉe du morceau sera un descripteur trรจs peu informatif pour apprendre des tags basรฉs sur lโ€™รฉmotion. Par contre, si le tag ร  apprendre est Morceau-Longue_durรฉe, alors ce descripteur sera trรจs utile. Puisque lโ€™on ne connaรฎt pas toujours a priori le sens de tous les tags quโ€™il va falloir analyser, il paraรฎt logique dโ€™adopter des reprรฉsentations qui couvrent le plus possible dโ€™aspects diffรฉrents, tout en restant peu redondantes. Cela nรฉcessite des descripteurs hรฉtรฉrogรจnes. Afin dโ€™obtenir des descripteurs diffรฉrents, il est nรฉcessaire de varier les niveaux dโ€™abstraction. Pour une information, nous appelons ยซ niveau dโ€™abstraction ยป le positionnement de celle-ci entre le monde des faits, physique, et le monde des idรฉes, des mots, des modรจles et des reprรฉsentations. Ainsi, pour la musique, le plus bas niveau dโ€™abstraction dont nous disposons est le signal. On peut dรฉjร  considรฉrer un signal numรฉrique comme abstrait, en cela quโ€™il nโ€™est pas le son mais constitue une reprรฉsentation de celui-ci par des nombres, par ailleurs basรฉe sur des mesures approximatives. Mais le signal est connectรฉ de trรจs prรจs au monde physique, et tout son sens reste ร  extraire. Les tags par contre, sont des informations de beaucoup plus haut niveau dโ€™abstraction : elles sont bien davantage reliรฉes ร  la sรฉmantique quโ€™ร  la physique. Toutes les autres informations peuvent รชtre placรฉes sur cet axe : de la plus physique ร  la plus perceptuelle, de la plus concrรจte ร  la plus chargรฉe de sens. Ainsi, dans un systรจme de tagging, il existe un immense fossรฉ sรฉmantique entre le signal et les tags que lโ€™on cherche ร  estimer. En utilisant uniquement des descripteurs de bas niveau, cโ€™est au classifieur seul que revient la tรขche de franchir ce fossรฉ. Par contre, en extrayant du signal des informations de diffรฉrents niveaux dโ€™abstraction, cet effort est partagรฉ [ADP07]. Le problรจme est que ces informations ne sont pas toujours extraites sur les mรชmes durรฉes de signal et prรฉsentent des spรฉcificitรฉs qui les rendent difficiles ร  exploiter conjointement.

Timbre

ย  Le timbre est un aspect souvent prรฉpondรฉrant lorsque lโ€™on cherche ร  dรฉcrire un morceau pour la classification. De trรจs nombreux descripteurs ont รฉtรฉ proposรฉs pour caractรฉriser, entre autres, lโ€™enveloppe temporelle ou spectrale (cf. Figure 2.2), la balance harmonique/bruitรฉ, ou lโ€™รฉvolution temporelle dโ€™un son musical ou dโ€™un morceau [MB03, PGS+11, FLTZ11]. Le plus utilisรฉ de ces descripteurs est certainement constituรฉ par les Coefficients cepstraux sur lโ€™รฉchelle de Mel, plus connus sous leur nom anglais Mel-frequency Cepstral Coefficients (MFCC) [RJ93, Log00]. Ces coefficients donnent une description de lโ€™aspect de lโ€™enveloppe spectrale (cf. Figure 2.2). On garde en gรฉnรฉral les 12 ou 13 premiers coefficients (le premier dโ€™entre eux est parfois omis). Les descripteurs timbraux sont souvent calculรฉs directement ร  partir du signal temporel ou de transformations sur le plan temps/frรฉquence telles que : transformรฉe de Fourier, analyse cepstrale, modรฉlisation auto-rรฉgressive, etc. Leur simplicitรฉ dโ€™extraction et leur forte corrรฉlation avec la physique du signal font de ces caractรฉristiques des descripteurs de bas niveau dโ€™abstraction. Mรชme si les reprรฉsentations simples fonctionnent souvent trรจs bien, quelques รฉtudes ont cherchรฉ ร  trouver des descripteurs plus complexes, notamment en les gรฉnรฉrant automatiquement. De nombreuses publications ont proposรฉ des mรฉthodes pour construire des descripteurs appris automatiquement sur les donnรฉes dโ€™apprentissage [PR07, PR09, MKRG12, KRG13]. Dans ces techniques, on choisit au dรฉpart un ensemble de quelques dizaines dโ€™opรฉrateurs tels que : racine carrรฉe, maximum, autocorrรฉlation, transformรฉe de Fourier, filtrage passe-bande, etc. Puis un algorithme est utilisรฉ pour trouver des combinaisons de ces opรฉrateurs qui, appliquรฉes au signal, donnent des descripteurs discriminatifs pour la tรขche proposรฉe. Bien que ce type de technique permette dโ€™explorer un immense espace de descripteurs, il paraรฎt probable que la simplicitรฉ des opรฉrateurs de base ne permette de construire que des descripteurs de bas ou mi-niveau dโ€™abstraction.

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

1. Introductionย 
1.1. Indexation audio et tags
1.1.1. La nรฉcessitรฉ dโ€™une indexation de qualitรฉ
1.1.2. Les tags : des รฉtiquettes sรฉmantiques trรจs rรฉpandues
1.2. Apprentissage automatique pour le taggingย 
1.3. Diffรฉrents niveaux dโ€™abstraction
1.4. Problรฉmatiquesย 
1.5. Rรฉsumรฉ des contributionsย 
1.6. Structure du document
2. Classification pour le tagging automatiqueย 
2.1. Introductionย 
2.2. Reprรฉsentation des morceauxย 
2.2.1. Descriptions du signal
2.2.2. Donnรฉes sociales et contextuelles
2.2.3. Le problรจme de la reprรฉsentation des variations temporelles
2.3. Lโ€™apprentissage automatique des tags
2.3.1. Classification multi-labels
2.3.2. Algorithmes dโ€™apprentissage
2.4. Fusion dโ€™informations hรฉtรฉrogรจnesย 
2.5. Donnรฉes pour le tagging automatiqueย 
2.5.1. Rรฉcolte des annotations
2.5.2. Choix dโ€™une base de donnรฉes
2.6. ร‰valuation
2.6.1. Cadre dโ€™รฉvaluation pour la classification
2.6.2. Validitรฉ statistique des rรฉsultats
2.7. Conclusion
3. Boosting dโ€™arbres de dรฉcision : un cadre performant et flexibleย 
3.1. Introduction
3.2. Le boosting : une classe de mรฉta-classifieursย 
3.2.1. Un mรฉta-classifieur itรฉratif
3.2.2. Un modรจle flexible
3.3. Le cas particulier des arbres de dรฉcisionย 
3.3.1. Dรฉfinition et construction
3.3.2. Comportement des arbres boostรฉs
3.4. Adaptation ร  plusieurs fonctions de coรปtย 
3.5. Le boosting pour la fusion de classifieursย 
3.6. Gestion des descripteurs manquantsย 
3.6.1. Lโ€™algorithme Ada-ABS
3.6.2. Relation avec Adaboost
3.7. Conclusionย 
4. Fusion souple dโ€™annotateurs et rรฉgressionย 
4.1. Lโ€™annotation, gรฉnรฉratrice dโ€™incertitude
4.2. Vers une vรฉritรฉ-terrain plus souple
4.3. Fusion souple des annotateursย 
4.3.1. Mรฉthode de fusion
4.3.2. Validation de la mรฉthode de fusion
4.4. Apprentissage rรฉgressif et validation de lโ€™approche
4.4.1. Mode opรฉratoire
4.4.2. Rรฉsultats et discussion
4.5. Conclusionย 
5. Des descripteurs hรฉtรฉrogรจnesย 
5.1. Introductionย 
5.2. Couvrir diffรฉrents niveaux dโ€™abstraction
5.2.1. Timbre
5.2.2. Harmonie
5.2.3. Rythme
5.2.4. Tests de performance
5.3. Importance de lโ€™intรฉgration temporelle prรฉcoce
5.3.1. Pourquoi une intรฉgration prรฉcoce ?
5.3.2. ร‰tude sur la mรฉthode dโ€™intรฉgration
5.4. Influence de lโ€™รฉchelle de description
5.5. Conclusionย 
6. Dรฉcrire un morceau sur plusieurs รฉchelles temporellesย 
6.1. Introductionย 
6.2. Travaux prรฉ-existants sur la fusion multi-รฉchelles
6.3. Algorithme de boosting pour lโ€™analyse multi-รฉchellesย 
6.3.1. Plage de dรฉcision
6.3.2. Cล“ur de lโ€™algorithme
6.4. Deux expรฉriences pour lโ€™รฉvaluationย 
6.4.1. Reconnaissance des instruments de musique
6.4.2. Multi-tagging
6.5. Conclusion
7. Donnรฉes collaboratives et fusion multi-niveauxย 
7.1. Introductionย 
7.2. Descripteurs issus du contexte รฉditorial et social
7.2.1. Tags utilisateurs
7.2.2. Paroles
7.2.3. Image de la pochette du disque
7.2.4. Dรฉcennie de sortie
7.2.5. Tests de performance
7.3. Fusion multi-niveaux
7.3.1. Des reprรฉsentations vivant ร  diffรฉrentes รฉchelles
7.3.2. Validation expรฉrimentale
7.4. Conclusionย 
8. Conclusionย 
A. Mรฉtriques dโ€™exactitude pour lโ€™รฉvaluation de classifieurs
A.1. Introduction
A.2. Mรฉtriques de rรฉcupรฉration (retrieval)
A.3. Mรฉtriques de classement
B. Tests statistiques pour lโ€™รฉvaluation des prรฉdictions
B.1. Introduction
B.2. Test de McNemar
B.3. Test de Student par sรฉries appariรฉes avec validation croisรฉe
C. Liste des tags analysรฉs pour les tests
Publications de lโ€™auteur
Bibliographie
Notations
Index

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *