Télécharger le fichier pdf d’un mémoire de fin d’études
Économie de la représentation
On examine les diverses possibilités de mesurer le coût correspondant à la description, noté , des données nécessaires à la représentation d’un signal par un modèle granulaire.
Cas des représentations linéaires
Dans le cas où la représentation est linéaire (bases, frames …), la notion de parcimonie renvoie au nombre de composantes eectivement utilisées pour représenter le signal.
La parcimonie est un indicateur de la dispersion des valeurs des coecients d’une représentation d’un signal sur une famille vectorielle (base, dictionnaire …). La norme L0 des coecients ou le rapport des normes L1=L2 sont communément utilisées.
Notons de plus que la parcimonie peut être reliée [KDRE+99] à la capacité d’un signal à être codé de façon ecace. Par exemple dans le cas de la norme L0, plus la représentation du signal comporte de coecients nuls et plus petit sera le nombre de ces même coecients à transmettre.
Cas de la représentation granulaire
Du fait que la fonction de synthèse F n’est en général pas linéaire par rapport aux param ètre , un critère de parcimonie n’est cependant pas susant pour mesurer le caractère économique d’une représentation granulaire. Une raison pour ne pas utiliser la parcimonie* est que les diérentes composantes 1 : : : d de ne sont ni de même nature, ni du même ordre de grandeur ; il n’y aurait donc aucun sens à additionner des puissances de celles-ci.
Une deuxième raison, plus profonde, est que la parcimonie n’est pas équivalente à l’économie, au sens ou la parcimonie ne mesure pas la régularité des coecients. Les techniques telles que le codage entropique permettent de diminuer la quantité de donner nécessaires à la description quantitative des coecients en exploitant les régularités dans la suite des coecients. Autrement dit, il est aussi économique de coder un vecteur de coecient que le vecteur + c, où c 6= 0 est un vecteur constant, bien que L0 ( + c) > L0 ().
La troisième raison, et à nos yeux la plus importante, est que la connaissance de la base, du dictionnaire ou autre est, en plus des coecients, nécessaire à la reconstruction du signal. Ainsi, quand on transmet une suite de coecients de Fourier, la base est connue implicitement par l’inclusion du terme ‘Fourier’, et il est facile de construire une base de Fourier à partir de la seule donnée de la taille de la base. A contrario, le dictionnaire utilisé pour la représentation granulaire dépend lui-même du signal, et il faut donc le transmettre tel quel (ensemble de vecteurs) ou codé sous une forme ou une autre.
Le critère d’économie ou de complexité
Dans l’idéal, le critère que l’on voudrait réellement mesurer est la quantité d’information strictement nécessaire à la description complète des diérents éléments de la représentation, qui est formalisée par les notions de Complexité de Kolmogorov [GV99, LV93, M02] et de Minimum Description Length, dans sa version dite idéale 5 [GV03]. La définition de la complexité proposée par Kolmogorov est particulièrement élégante, en ce sens que celle-ci ne requiert ni ne présuppose aucune autre connaissance que celle des observations elle-mêmes, et en particulier d’aucun a priori ou modèle des données observées, comme c’est par exemple le cas avec la théorie débit-distorsion.
Malheureusement, s’il a été démontré l’existence et l’universalité de cette mesure de complexité, il a également été démontré qu’on ne peut pas concevoir de programme pour la calculer de manière systématique. On peut toutefois employer certaines stratégies pour essayer en pratique de contourner le problème, comme de chercher des majorants de la complexité de Kolmogorov, typiquement en utilisant un algorithme de compression exploitant les redondances statistiques des données. Par exemple, le système de classification automatique de morceaux de musique par genres, présenté dans Algorithmic Clustering of Music [CVdW03], utilise une mesure d’information mutuelle dérivé de la complexité de Kolmogorov, qui est approximée en mesurant le taux de compression d’un algorithme standard type Lempel-Ziv. Ce système exploite en l’occurrence la représentation MIDI, représentation qui peut déjà elle-même être considérée comme une forme du signal très compressée (avec pertes).
Sachant que l’on travaille directement à partir de fragments de signaux et non à partir d’une représentation symbolique, qui est naturellement beaucoup plus compacte et structurée, l’approche consistant à relier la complexité de Kolmogorov du dictionnaire au taux de compression par un algorithme standard ne nous a pas semblé réaliste. Le problème est en eet que la mesure résultante serait excessivement dépendante du choix de l’algorithme de compression utilisé, par exemple selon que l’on utilise un codeur sans pertes (type zip) ou psychoacoustique (type mp3), auquel viennent se rajouter des problèmes purement calculatoires résultant de la masse conséquente de données à traiter.
Le choix a donc été fait de dénir le coût simplement comme le nombre de variables scalaires indépendantes nécessaires à la description de la représentation.
Déni de cette manière, peut être qualié de coût structurel de description, au sens 5Le terme MDL recouvre plusieurs dénitions selon les diérents auteurs et ouvrages considérés. ou celui-ci n’intègre que les relations entre les objets et fait entièrement abstraction de la partie bas-niveau de la représentation, c’est-à-dire des données du dictionnaire. Avant de détailler les diérents termes intervenant dans l’expression du calcul de , on insiste sur les points suivants :
I est un coût associé à une description de la représentation, ce n’est donc en aucune sorte un coût minimal.
I n’intègre pas le coût de description du signal d’erreur es.
I est rapporté au coût de description des données brutes du signal, i.e. N , où N est la longueur du signal en échantillons, conduisant ainsi à une quantité sans dimension. Cette normalisation par rapport à la taille du signal prendra tout son sens au moment de comparer la parcimonie de deux représentations pour deux signaux diérents.
Expression détaillée
Pour décrire une représentation d’un signal, il est a priori nécessaire de disposer des données correspondant aux valeurs prises par les variables ci-dessous.
Le coût de description d’une variable scalaire est choisi égal à 1. Ce choix permet d’éviter à ce stade le problème de la quantication des variables. Logiquement, on considère également qu’une variable vectorielle de dimension n a un coût n, équivalent à n scalaires.
Les diérents termes intervenant dans le calcul du coût total sont :
0 données indépendantes du signal :
I données du programme de calcul numérique des valeurs prises par la fonction
I données correspondant aux valeurs des constantes d, , q, K et M
t données des instants tm
D données nécessaires à la description du dictionnaire D = f kmgm=1:::M
I données des index km des objets dans le dictionnaire
données contenant les valeurs des paramètres m
L’expression des coûts individuels est détaillée ci-dessous, puis simpliée quand cela s’avère possible, :
0 Les données de la fonction F, les dimensions d des objets et des prototypes sont xées à l’avance. Les valeurs de M et de K peuvent en outre être déduites des données de km et de D respectivement : il sut de compter leur nombre.
Le coût 0 ne sera par conséquent pas pris en compte dans le coût global .
t Les instants tm étant xés à l’avance, à moins que le contraire ne soit spécié explicitement, ce coût est nul.
D Le coût D dépend de la nature des prototypes, il sera par conséquent explicité au moment de fournir des exemples concrets de modèles granulaires, au chapitre 5, p.101. Dans tous les cas, ce coût est inférieur ou égal à K .
I Ce coût est simplement le nombre d’objets, M.
est égal au nombre M d’objets multiplié par la dimension q du vecteur .
1. Identication des objets sonores (Section 4.1)
Comment décomposer un signal sur un dictionnaire donné ?
Si l’on suppose les objets sonores et le dictionnaire connus, ce problème revient alors à trouver pour chacun de ces objets le prototype et les paramètres minimisant l’erreur d’approximation
2. Choix du dictionnaire (Section 4.2)
Comment choisir le dictionnaire optimal étant donné un signal s ?
Ce problème inclut les questions liées au
I calcul du dictionnaire proprement-dit, sa taille K étant connue et xée.
I choix du nombre K de prototypes dans le dictionnaire
3. Spécication de la forme générale des objets (Chapitre 5)
Quelle forme adopter pour la fonction F ?
Les chapitres suivants sont consacrés à l’étude de ces problèmes, moyennant certaines restrictions : les objets sonores sont xés comme étant les trames du signal après fenêtrage, le domaine de recherche du dictionnaire est restreint et la fonction F est la même pour tous les prototypes.
|
Table des matières
Introduction
I Présentation
1 Structure d’un signal musical
1.1 Le signal musical : une superposition d’objets sonores
1.1.1 Structure générale d’un signal musical
1.1.2 La norme MIDI
1.1.3 MPEG4 – Structured Audio
1.2 Méthodes de synthèse musicale
1.2.1 Concepts de base
1.2.2 Synthèses soustractive, additive et dérivées
1.2.3 Synthèse granulaire et ses variantes
1.2.4 Autres méthodes
1.3 Conclusion
2 Analyse et synthèse de signaux musicaux
2.1 L’approche analyse-synthèse
2.1.1 Deux opérations duales
2.1.2 L’analyse par la synthèse
2.1.3 Le Matching Pursuit
2.1.4 Codeurs CELP
2.2 Applications de l’analyse-synthèse
2.2.1 Le Vocodeur
2.2.2 PSOLA
2.2.3 Codage et Compression
2.2.4 Séparation de sources
2.2.5 Traitements sonores
2.3 Conclusion
II Modélisation granulaire du signal sonore
3 Introduction du modèle
3.1 Présentation du modèle
3.1.1 Le signal sonore : une superposition d’objets élémentaires
3.1.2 Principe général d’un modèle granulaire
3.1.3 Le modèle granulaire en détail
3.1.4 Dénitions et Notations
3.1.5 Interprétation probabiliste
3.1.6 Mesure de similarité
3.1.7 Exemple de modèle : Synthèse à Table d’ondes
3.2 Discussion autour du modèle
3.2.1 Caractéristiques des objets sonores
3.2.2 Localisation temporelle des objets
3.2.3 Diérents types de redondances
3.2.4 Mesurer la similarité entre objets
3.2.5 Exemples de mesures
3.3 Représentation par un modèle granulaire
3.3.1 Formulation générale du problème
3.3.2 Qualité de l’approximation
3.3.3 Économie de la représentation
3.3.4 Le problème sous contraintes
3.4 Conclusion
4 Calcul du modèle
4.1 Caractérisation des objets sonores
4.1.1 Localisation temporelle des objets
4.1.2 Estimation des paramètres
4.1.3 Matching Pursuit et modèle granulaire
4.2 Calcul du dictionnaire
4.2.1 Position du problème
4.2.2 Calcul du dictionnaire par apprentissage
4.2.3 Un exemple d’algorithme classique , le K-Médians
4.2.4 Algorithmes à seuil(s)
4.2.5 Algorithmes gloutons
4.2.6 Considérations en rapport avec l’aspect calculatoire
4.3 Conclusion
5 Étude spécique de modèles
5.1 Modèles type Table d’ondes
5.1.1 Table d’ondes simple
5.1.2 Modèle table d’ondes avec décalage (TO)
5.1.3 Coût de description du dictionnaire
5.1.4 Conclusion : vers une généralisation du modèle TO
5.2 Modèles type tables de spectres
5.2.1 La hantise du Spectre de phase
5.2.2 Structure générale du modèle
5.2.3 Modélisation du spectre de phase
5.2.4 Discussion autour du problème de l’estimation de la phase
5.2.5 Un embryon de modèle perceptif
5.2.6 Observations à partir d’expériences préliminaires
5.3 Conclusion
III Expérimentation et évaluation
6 Critères d’évaluation
6.1 Protocole expérimental
6.2 Critères d’évaluation
6.3 Conditions de mise en ÷uvre des expériences
6.3.1 A propos de la base de test
6.3.2 Observations à partir des matrices de similarité
6.3.3 Un modèle de la distribution des valeurs de ?
6.3.4 Implémentation logicielle
7 Évaluations sur des signaux monophoniques
7.1 Comparaison des algorithmes de classication
7.2 Comparaisons entre modèles
7.2.1 Modèles type table d’ondes
7.2.2 Inuence de la taille de la fenêtre
7.2.3 Similarité moyenne
7.3 Comparaisons entre diérents signaux
7.4 A propos de l’erreur
7.4.1 Critère mesuré vs. critère optimisé
7.4.2 Commentaire
7.5 Représentation Temps-Prototype et applications musicales
7.6 Perspective d’application : compression avec pertes
7.7 Conclusion
IV Conclusion et perspectives
Problèmes à résoudre
Conclusion
Bibliographie
Télécharger le rapport complet