LA CLASSIFICATION DES VOIX ‎CHANTEES DANS LA MUSIQUE COMMERCIALE

Télécharger le fichier pdf d’un mémoire de fin d’études

La classification des voix chantées dans la musique commerciale

Pour réaliser la catégorisation des voix des chanteurs, une première étape s’impose, il s’agit de séparer la voix du chanteur de la musique dans les enregistrements musicaux. Ensuite pourra intervenir l’étape de classification.

La discrimination voix /musique ‎

Il existe de nombreux travaux qui se sont intéressés à cette problématique qui reste ouverte. Toutefois, ces dernières années certaines techniques ont donné des résultats intéressants. On retiendra la technique du masquage temps-fréquence pour réaliser le démixage. Dans cette technique, des coefficients de DFT (Discrete Fourier Transform) sont regroupés par pan adjacent, la différence de phase entre les canaux, la magnitude et l’ampleur de la variance avec un interactif en temps réel interface graphique. Les résultats produit par cette technique nous semble très satisfaisant au regard de notre application.

Classification des voix chantées

La classification des voix chantées représente une étape fondamentale pour notre système de fouille de données audio. Dans la littérature de classification des voix chantées, la plupart des chercheurs ont défini deux catégories de classification (Type et Qualité). Cette étape consiste à classer les voix des chanteurs en trois classes pour chaque catégorie. Généralement, la classification des voix chantées se fait en trois étapes :
1) L’extraction du vecteur de caractéristiques,
2) la modélisation,
3) et la classification.

Collection des données

zikdalgerie.com est un site de musique algérien qui contient des milliers de chansons, ces chansons sont regroupées par albums où chaque album représente un chanteur. Ce site offre plusieurs statistiques ou données importantes dans notre étude.

Application de techniques de fouille de données

Une fois, nos données rassemblées et agencé, nous utilisons une technique de fouille de données très populaire que sont les arbres de décision. A cet effet, nous avons proposé un nouvel algorithme pour la construction des arbres de décision que nous avons appelé : MDT pour (Multi Décision Tree).

Organisation de la thèse

Ce mémoire est structuré autour de deux thèmes conducteurs : la caractérisation des voix chantées et la fouille de données. Ainsi, les chapitres 2 et 3 sont dédiés à la classification des voix chantées, et les chapitres 4 et 5 sont eux consacrés à la fouille de données.
Le chapitre 1 consiste en une introduction du travail principalement, au travers de sa problématique et son positionnement dans son contexte.
Dans le chapitre 2 nous introduisons d’abord le signal vocal et les différents paramètres qui peuvent le caractériser. On retiendra, en particulier, les paramètres issus de la norme MPEG-7 standard. Nous y décrivons aussi la méthode de masquage temps/fréquence, qui est la technique que nous avons utilisée pour la séparation entre la voix et la musique dans une chanson. Nous y présentons aussi les principales études qui ont traité de la classification des voix chantées.
Le chapitre 3 est dédié à la présentation de notre contribution dans cette thématique. Nous l’avons résumé en trois aspects. D’abord, nous présentons en premier, notre système de classification basé GMM (Gaussian Mixture Model). Ensuite, nous présentons nos expérimentations qui ont permis de dégager un ensemble de caractéristiques optimal. Finalement, nous présentons les détails de notre proposition qui est un système de classification basé sur les GMM flou (Fuzzy GMM). Ce chapitre comprend de nombreuses comparaisons qui situent nos systèmes par rapport à ceux de l’état de l’art.
Le chapitre 4 introduit le domaine de la fouille de données. On y présente les différentes techniques utilisées dans ce domaines. On retiendra, en particulier, les arbres de décision. Dans le contexte des arbres de décion, nous proposons un algorithme de construction qui offre une nouvelle méthode de Bagging. Cet algorithme, nous l’avons appelé : Multi Decision Tree (MDT).
Dans le chapitre 5, nous revenons sur notre projet de départ, en rassemblant les différentes composantes. A ce stade, nous construisons nos ensembles de données et procédons à une fouille de données en utilisant notre algorithme. Dans ce chapitre, on découvrira aussi la réponse à la question de départ.
Une conclusion et des perspectives clôturent cette thèse.

Caractéristiques du signal vocal

L’analyse acoustique

Le signal de parole, qui résulte de la conversion d’une onde acoustique en un signal électrique par un microphone, est un signal temporel unidimensionnel. Le système de paramétrisation utilise, en entrée, le signal de parole et retourne, en sortie, des vecteurs de paramètres à intervalle de temps régulier [Reynolds, 1994]. Ces vecteurs de paramètres sont calculés sur une fenêtre temporelle glissante dont la durée varie généralement entre 20 et 50 millisecondes. Il arrive souvent que les fenêtres temporelles utilisées pour extraire deux segments de signal consécutifs se recouvrent partiellement. La fréquence couramment utilisée pour l’extraction de ces paramètres est 100Hz. Ces caractéristiques ainsi que la dimension des vecteurs de paramètres acoustiques varient selon l’application et le type d’information extraite.

Perception de la parole

Le signal de parole est un vecteur acoustique porteur d’informations d’une grande complexité, variabilité, redondance et influence de l’environnement. Les caractéristiques de ce signal sont appelées traits acoustiques. Chaque trait acoustique a une signification sur le plan perceptuel.
Le premier trait est la fréquence fondamentale, fréquence de vibration des cordes vocales. Ses variations définissent le pitch qui constitue la perception de la hauteur (où les sons s’ordonnent du grave à l’aigu). Seuls les sons quasi-périodiques (voisés) engendrent une sensation de hauteur tonale bien définie.
Le deuxième trait est le spectre fréquentiel dont dépend principalement le timbre de la voix. Le timbre est une caractéristique permettant d’identifier une personne à la simple écoute de sa voix. Le timbre dépend de la corrélation entre la fréquence fondamentale et les harmoniques qui sont les multiples de cette fréquence.
Le dernier trait acoustique est l’énergie correspondant à l’intensité sonore. Elle est habituellement plus forte pour les segments voisés de la parole que pour les segments non voisés.

Analyse et paramétrisation de la voix chantée

Le timbre

Les paramètres les plus souvent utilisés sont ceux qui visent à décrire le timbre. Le timbre est en partie décrit par le spectre du signal. Les paramètres de timbre sont des vecteurs contenant un nombre réduit de coefficients qui permettent de modéliser la forme de l’enveloppe spectrale. Les paramètres les plus souvent rencontrés dans la littérature sont:
Le vecteur de MFCC (Mel Frequency Cespstral Coefficients) : Les MFCC, calculés à partir de l’échelle des mels, peuvent avoir des variantes.
Les coefficients de prédiction linéaire (LPC) sont également utilisés pour décrire le timbre. À l’origine, ces coefficients sont utilisés pour localiser les formants dans la voix parlée. On trouve également des variantes de la LPC.
Il existe d’autres paramètres pour décrire le timbre : les Perceptual Linear Prediction coefficients (PLP), les warped LPC (WLPC), les Log Frequency Power Coefficient (LFPC).

Coefficient d’harmonicité

La voix chantée possède la particularité d’être fortement harmonique. Cette caractéristique, relatée à l’aide d’un coefficient d’harmonicité ou de voisement, a été utilisée à de nombreuses reprises. Chou définit le coefficient harmonique comme la moyenne harmonique du maximum de l’auto corrélation dans le domaine temporel et dans le domaine fréquentiel [Chou et Gu, 2001].

Vibrato de la voix chantée

Un ensemble de filtres est construit afin de détecter différents types de vibrato. D’autres recherches, dont les applications se trouvent dans la classification des sons, proposent des techniques d’extraction et d’estimation des paramètres du vibrato. Rossignol dans sa thèse [Rossignol et al., 1999] propose différentes méthodes pour détecter le vibrato ou extraire ses paramètres sur des sons monophoniques.

Les formants et le formant du chanteur

Les fréquences des formants sont déterminées par la forme du conduit bucco nasal. En général la localisation de trois formants permet d’identifier les voyelles de la voix parlée. Sundberg a montré dans [Sundberg et Rossing, 1990] que le spectre du chant lyrique est caractérisé par une importante énergie entre 2.5 et 3kHz. Ce pic du spectre, appelé formant du chanteur, permet à la voix de passer facilement au-dessus de l’accompagnement orchestral. Pour intégrer les formants et particulièrement le formant du chanteur aux paramètres acoustiques, les auteurs de [Lay et Wang, 2004] utilisent un ensemble de filtres en sous-bandes centrés sur les fréquences des formants. Pour exploiter ces trois dernières caractéristiques, la sortie des filtres est analysée. Une approche similaire à celle utilisée pour le calcul des MFCC est employée pour obtenir un nombre réduit de coefficients : Une transformée en cosinus discret (DCT) est appliquée au logarithme de l’énergie de chaque sous bande du signal filtré puis les 13 premiers coefficients sont conservés.

Autres paramètres

Une autre façon plus générale pour déterminer les paramètres de la voix chantée est d’utiliser la description des signaux tels que les descripteurs de contenu audio comme la norme MPEG-7 standard. Bien que ces paramètres ne soient pas liés à la biomécanique de la voix chantante, ils peuvent être utiles dans le processus de reconnaissance. Le vecteur de caractéristiques de [Zwan et al., 2008] contient dans le groupe « d’autres paramètres » les paramètres suivants:
– ASE (Audio Spectrum Envelope) décrit le spectre de puissance à court terme de la forme d’onde. Les valeurs moyennes et les variances de chaque coefficient dans le temps. Ils sont désignés comme ASE1. . . ASEn et ASE1var. . . ASEnvar respectivement.
– ASC (Audio Spectrum Centroid) décrit le centre de gravité du log fréquence spectre de puissance. La valeur moyenne et la variance sont désignées comme ASC et ASCvar respectivement.
– ASS (Audio Spectrum Spread) La valeur moyenne et la variance dans le temps, elles sont désignés comme l’ASS et ASSvar respectivement.
– SFM (Spectral Flatness Measure) calculée pour chaque bande de fréquence. Les valeurs moyennes et les écarts sont notés SFM1. . . SFMn et SFM1var . . . SFMnvar.
– Paramètres liés à des valeurs discrètes harmoniques: HSD (Harmonic Spectral Deviation), HSS
(Harmonic Spectral Spread), HSV (Harmonic Spectral Variation).
Les paramètres présentés dans cette section sont inclus dans le groupe de paramètre de MPEG-7 descripteurs.

La séparation voix/musique

Les documents audio contiennent souvent plusieurs sources sonores (chanteurs, instruments, bruits) mélangées par enregistrement live ou en studio. La séparation de sources vise à reconstruire les signaux sources afin de les écouter individuellement. La séparation de sources dans un signal audio est un problème posé depuis longtemps et qui a fait l’objet de plusieurs travaux. Dans le domaine de la chanson, la séparation entre la voix du chanteur et de la musique est doublement difficile car les deux signaux sont souvent corrélés et harmonieux entre eux.
Il y a plusieurs techniques de séparation de voix/musique, ces méthodes reposent toutes sur des approches dites “aveugle” consistant à extraire du signal des descripteurs audio “génériques” utilisés ensuite pour apprendre les deux classes de segments “chanté” et “non chanté” à l’aide d’algorithmes statistiques.
On recense dans le tableau suivant pour chaque étude les descripteurs et les systèmes de classification qui ont fourni les meilleurs résultats. La base utilisée et la méthode de séparation sont également précisées. On note que les études concernant l’identification des chanteurs ne nécessitent pas une détection de la voix aussi complète que celles dont le but est la séparation automatique d’un morceau en deux parties : voix chantées et musique.

Les méthodes de classification et de modélisation de la voix chantée

Les études rapportées dans ce document relèvent principalement du domaine de la reconnaissance des formes. Les méthodes de classification utilisées sont des outils classiques dérivant des approches génératives (modélisation probabiliste essentiellement). Nous rappelons brièvement leurs principes.

Les Modèles de Markov Caches

Les Modèles de Markov Cachés (Hidden Markov Models ou HMM en anglais) permettent de modéliser des enchaînements temporels au travers d’états, en tenant compte de leur durée. Cette méthode, développée dans les années 1965-1970 par Leonard E. Baum [Lee et Ellis, 2008] a été utilisée pour la reconnaissance de la parole ; elle est idéale pour modéliser chaque mot comme un enchaînement de sons de longueur variable. De la même façon, ils peuvent être utilisés pour modéliser n’importe quelle séquence temporelle qui respecte une certaine grammaire. En musique, ils sont utilisés par exemple pour modéliser les enchaînements d’accords [Mauch et al., 2007] ou de tonalités [Inoshita et Katto, 2009].
Les tonalités, tout comme les accords au sein d’une tonalité, s’enchaînent en respectant certaines règles. Pour construire les HMM, on peut ainsi, soit utiliser les nombreuses théories musicales, soit utiliser des corpora annotés manuellement. Dans ce cas, il faut estimer les probabilités de transitions entre états à l’aide des algorithmes classiques d’apprentissage des HMM, pour rendre compte de ces règles (pour les algorithmes d’apprentissage, voir [Rabiner 1989]).
À titre d’exemple, citons la reconnaissance d’accords : à partir d’une suite d’observations de type « chroma vector », l’étape de classification/reconnaissance se fait en cherchant, dans le HMM représentant le modèle, le chemin qui maximise la probabilité d’observation de cette suite.

Les Modèles de Mélanges de Gaussiennes

Les modèles de Mélanges de Gaussiennes (Gaussian Mixture Models ou GMM en anglais) sont des lois de probabilité uni- ou multidimensionnelles, très utilisées pour modéliser des répartitions inconnues ou susceptibles de présenter plusieurs modes dont le nombre est souvent inconnu. Ces mélanges sont couramment utilisés pour modéliser la voix d’un locuteur, ou la variabilité d’un son en parole. De fait, elles présentent l’avantage d’avoir été très étudiées ; leurs propriétés sont connues, les algorithmes d’estimation des paramètres sont approuvés.
Un modèle de mélange de Gaussiennes est la somme pondérée de N Gaussiennes uni-ou multidimensionnelles. Pour un nombre de Gaussiennes N fixé, la loi probabiliste de la distribution est définie de la manière suivante : ( ∑ ∑ ∑) ∑ ( ∑) (II.4)
Avec f(x; µk;µk) la loi normale uni- (resp. multi-) dimensionnelle de moyenne (resp. vecteur de moyennes) µk et de variance (resp. matrice de covariance) ∑ k et µk le poids de la kiéme composante. Théoriquement, ces mélanges permettent d’approcher le nombre de distributions probabilistes, pourvu que le nombre de composantes soit suffisant.
Dans un problème à M classes, la distribution des paramètres pour chaque classe est modélisée par un GMM, le processus de décision se fait ensuite par la méthode du maximum de vraisemblance [Duda et al., 2001] .
Les GMM sont utilisés beaucoup dans le domaine de traitement de signal, et particulièrement dans celui de la reconnaissance du locuteur et du chanteur.

Les Machines à Vecteur de Support

Les Machines à Vecteur de Support [Boser et al., 1992] (Support Vector Machine, ou SVM en anglais) sont des outils de classification discriminants développés pour les problèmes à deux classes. Dans le cas de données séparables linéairement dans un espace à N dimensions, les deux classes sont séparables par un hyperplan.
Ceci consiste à rechercher le meilleur hyperplan H, c’est-à-dire celui qui maximise sa distance aux frontières de chaque classe. Tout l’intérêt des SVM est que cet hyperplan optimal peut être caractérisé par les points de chaque classe qui en sont les plus proches.
Dans le cas où les données ne sont pas séparables dans l’espace de représentation, elles sont projetées dans un espace de dimension supérieure où elles sont séparables. Le problème est évidemment de trouver le bon espace image, au travers d’une fonction noyau adéquate qui correspond au produit scalaire dans ce nouvel espace.
Des méthodes ont été développées pour étendre cet outil aux problèmes à plusieurs classes :
-La méthode « un contre un » : N (N – 1) SVM bi-classe sont créés, pour apprendre toutes les séparations existant entre chaque couple de classes.
-La méthode « un contre tous » : N SVM bi-classe sont créés, pour apprendre les frontières de chacune des classes.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

CHAPITRE I : INTRODUCTION GENERALE
I.1. Problématique de départ : Une enquête sociale?‎
I.2. Démarche générale
I.2.1.‎ La classification des voix chantées dans la music commercial
I.2.1.1. La discrimination voix /musique ‎
I.2.1.2. Classification des voix chantées
I.2.2.‎‎Collection des données ‎
I.2.3.‎‎Application de technique de fouille de donnée
I.3. Organisation de la thèse ‎‎
CHAPITRE II : LA CLASSIFICATION DES VOIX ‎CHANTEES DANS LA MUSIQUE COMMERCIALE ‎
II.1.‎Introduction
II.2.‎Caractéristiques du signal vocal
II.2.1.‎‎L’analyse‎acoustique
II.2.2. Perception de la parole
II.2.2. ‎Analyse et paramétrisation de la voix chantée
II.2.3.1. Le timbre‎
II.2.3.2.‎Coefficient‎d’harmonicité‎
II.2.3.3. Vibrato de la voix chantée‎‎
II.2.3.4. Les formants et le formant du chanteur‎
II.2.3.5. Autres paramètres‎‎
II.3‎ ‎La séparation voix/musique
II.3.1. La méthode du masquage temps / fréquence ‎‎
II.3.1.1. Etapes‎de‎l’algorithme‎de‎séparation‎‎‎
II.4 Les méthodes de classification et de modélisation de la voix chantée
II.4.1 Les Modèles de Markov Caches ‎
II.4.2 Les Modèles de Mélanges de Gaussiennes ‎
II.4.3 Les Machines à Vecteur de Support ‎
II.4.4 Les k-Plus Proches Voisins ‎
II.4.5 Les Réseaux de Neurones ‎‎
II.4.6 La Quantification Vectorielle ‎‎
II.5.‎L’évaluation de la qualité vocale
II.5.1. Le processus d’évaluation de la qualité vocale‎
II.6.‎La classification des voix chantées en type
II.6.1. Les méthodes de classification en type ‎‎
II.6.1.1. Classification des voix selon la tessiture
II.6.1.1.1. Les types de voix selon la tessiture
II.6.1.2 Fréquence fondamentale‎
II.6.2. Les travaux de Zwan‎
II.6.3 Le travail de Prassert ‎
II.6.4 Tableau récapitulatif‎
II.7. Conclusion
CHAPITRE III : APPROCHES PROPOSE POUR LA CLASSIFICATION DES ‎VOIX CHANTEES
III.1.Introduction
III.2.‎ Utilisation des Modèle de mélanges gaussiens pour la classification des voix ‎ chantées ‎
III.2.1.‎L’extraction‎des‎caractéristiques
III.2.2. La classification (Modélisation et classification avec MMG « Modèle de Mélanges ‎Gaussiens »)‎‎
III.‏‏‎2.2.1. Modélisation par GMMs
III.2.2.2. Critère de classification
III.3. La sélection des caractéristiques et de nombre de mélanges de gaussiennes pour la ‎ classification des ‎ voix chantées
III.3.1. Extraction des caractéristiques
III.3.1.1.‎MPEG-7 low-level descriptors
III.3.1.2 Non- MPEG-7 descripteurs‎
III.3.2.‎Modélisation et classification avec MMG « Modèle de Mélanges ‎Gaussiens »
III.3.3 La sélection des caractéristiques et de nombres de gaussien
III.4.‎ Utilisation de T2 FGMMs (Type-2 Fuzzy Gaussian Mixture Models) pour la ‎ classification des voix chantées
III.4.1. Extraction des caractéristiques
III.4.1.1.‎MPEG-7 low-level descriptors
III.4.1.2 Non- MPEG-7 descripteurs‎
III.4.2.‎La sélection des caractéristiques
III.4.3. Modélisation et classification avec T2 FGMM « Type-2 Fuzzy Gaussian Mixture ‎Models‎»‎
III.4.3.1.‎Modélisation avec T2 FGMMs
III.4.3.2. T2 FGMMs Classification
III.5.‎Expérimentations et résultats ‎
III.6.‎Conclusion
CHAPITRE IV : LA FOUILLE DE DONNEES
IV.2.‎Le processus de fouille de données
IV.3. Les techniques de fouille de données
IV.3.1‎Les‎algorithmes‎d’apprentissage
IV.3.1.1. Le Classifieur Bayésien ‎
IV.3.1.1.1.‎Théorème de bayes
IV.3.1.1.2. Le classifieur bayésien naïf
IV.3.1.2. Machines à Vecteurs Supports ‎
IV.3.1.3. Les arbres de décision ‎
IV.3.1.3.1. La‎construction‎d’un‎arbre‎de‎décision‎‎
IV.3.1.3.2. Les algorithmes des arbres de décision
IV.4. Les ensembles de classifieurs
IV.4.1‎ Méthodes de Construction des ensembles de classifieurs‎
IV.4.2‎ Le Bagging‎
IV.4.3‎ Le Boosting
IV.4.4‎ L’apprentissage‎en‎cascade‎
IV.4.5‎ Les forêts aléatoires (Random Forest)‎
IV.5.‎La technique proposée (Multi Decision Tree ou multiple arbres de décision) ‎
IV.5.1‎Phase‎d’apprentissage‎‎
IV.5.2.1.‎Exemple illustratif d’apprentissage‎à‎l’aide‎de‎MDT
IV.5.2‎. La phase de décision
IV.5.2.1.‎ Exemple illustrative de processus de décision de la méthode MDT
IV.6. Expérimentations et résultats
IV.7.Conclusion
CHAPITRE V : LA FOUILLE DE DONEES AUDIO
V.1.Introduction
V.2. L’établissement des données à collecter‎
Les données offertes par le site
V.3.‎La classification des voix chantées
V.3.1. La séparation de voix chantées / musique‎
V.3.2.‎Utilisation de T2 FGMMs pour la classification des voix chantées
V.3.2.1.‎L’extraction‎des‎caractéristiques‎
V.3.2.2. La modélisation et la classification avec T2FGMMs
V.3.3. Construction de la base de données ‎
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *