Modèles génératifs pour la classification et la séparation de sources sonores en temps-réel

En électronique grand public deux domaines sont particulièrement représentés : l’image et l’audio. Ce dernier permet de transmettre de nombreuses informations, dont une information spatiale. De plus en plus de contenus utilisent des formats dits «multicanaux» (qui contiennent deux canaux (stéréo) ou plus) par opposition à «monocanal» (un seul canal). Les techniques de spatialisation sonore sont présentes dans de nombreux secteurs d’activité : le cinéma, les jeux vidéo plus récemment la réalité virtuelle et augmentée, voire la musique. Un exemple d’utilisation de spatialisation sonore est le jeu de tir à la première personne (FPS). En utilisant un système audio multicanal (5.1 ou 7.1), le joueur est capable de localiser ses ennemis virtuels grâce au son. La principale difficulté réside dans l’acquisition d’un tel système multicanal. De plus une écoute uniquement stéréo (au casque) non binauralisée ne permet pas de retranscrire toute l’information spatiale (seulement les canaux gauche et droit).

Basée sur ce constat, la société A-Volute a développé un produit qui transforme l’information spatiale contenue dans un flux audio en information visuelle. A-Volute est un éditeur de logiciel audio mondialement connu pour son logiciel d’amélioration audio Nahimic, et également pour d’autres logiciels en marque blanche. Le but d’un logiciel d’amélioration audio est de perfectionner l’expérience audio d’un utilisateur en corrigeant certaines parties du signal audio suivant le contexte (augmentation des basses ou des aigus, ajout de réverbération, suppression du bruit, etc.). Comme ce logiciel est surtout utilisé par la communauté des «gamers» (les joueurs de jeux vidéo), le logiciel propose des améliorations pour les jeux vidéo (mise en avant des explosions ou des bruits de pas par exemple), mais également pour l’écoute de musique ou le visionnage de film (amélioration de la voix notamment). Il est indispensable pour les joueurs de FPS de localiser les ennemis : ainsi une transcription visuelle des indices sonores est pertinente.

La traduction d’indices acoustiques utiles à la localisation avait déjà été traitée par Collins et Taillon [71, 22]. Ils proposent de représenter les évènements sonores par des icônes représentant le type de son (tir d’armes à feu, bruit de pas, etc.) ainsi que la direction d’émission de ce son. Afin de mettre en œuvre ce procédé, les développeurs de jeux vidéo devraient inclure ce traitement directement dans le jeu, ce qui va à l’encontre de leur habitude. Greff et Pham [72] ont donc proposé une méthode utilisant uniquement une analyse du flux audio multicanal. Cette méthode retranscrit visuellement certains attributs sonores comme le niveau ou la position spatiale.

Caractéristiques du traitement de signal temps-réel

Le concept de temps-réel fait référence à deux critères [34] : la vitesse et la latence. La vitesse est le temps mis pour prendre une décision : elle est reliée au nombre de frames utilisées par le système. Par exemple, un système rapide n’utilisera que peu de frames pour prendre sa décision (1 ou 2 par exemple). Ensuite, la latence est reliée au temps de calcul (voir Figure 2.8). Par exemple, si une frame dure 50ms, alors la décision doit être calculée en moins de 50ms, sinon elle ne pourra pas être utilisée dans le processus. Un processus temps-réel récupère des frames à des instants spécifiques (flèches noires). Si le temps de calcul (t.c.) est faible (rectangle bleu plein), la décision pourra être utilisée par le système car elle sera accessible avant la prochaine frame. Si le temps de calcul est grand (rectangle rouge plein), la décision ne pourra pas être utilisée par le système. Le choix de la vitesse et de la latence dépend des contraintes imposées par l’utilisateur.

Théorie de l’apprentissage statistique

Présentation générale

L’apprentissage statistique est une famille de méthodes et d’algorithmes servant à apprendre des modèles et extraire de l’information à partir de données brutes [14, 39]. Le but est de trouver une fonction R entre les entrées x ∈ Rd , appelées les attributs, et la sortie y telle que y = R(x). Cette sortie peut être un vecteur réel (on parle alors de régression) ou le label d’une classe (on parle alors de classification). L’apprentissage statistique est basé sur deux étapes principales : l’extraction d’attributs et un algorithme d’apprentissage.

L’extraction d’attributs consiste à extraire des informations pertinentes des données brutes qui serviront à l’algorithme d’apprentissage, à l’aide d’une fonction f (·). Par exemple, les descripteurs audio sont utilisés en classification audio [84], les sacs de mots pour le traitement du langage naturel, etc. C’est une étape importante car elle conditionne les performances de l’algorithme d’apprentissage : celui-ci pourrait ne pas apprendre les bonnes informations et donc ne pourrait pas généraliser son apprentissage. L’étape d’extraction d’attributs est très dépendante du domaine (audio, texte, image, etc.). Dans le cas de la grande dimension (beaucoup de données en entrée, à la fois en taille d’échantillon et en nombre d’attributs), une étape de réduction de dimension peut être envisagée, soit de manière supervisée (avec une analyse discriminante de Fisher [39] par exemple, si on dispose d’échantillons labellisés) ou non supervisée (avec une Analyse en Composantes Principales (PCA) [14] par exemple).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
motivation
2 Quelques éléments de traitement du signal et apprentissage statistique pour la classification et la séparation de sources sonores
3 Classification de sources audio en temps-réel
4 Séparation de sources audio en temps-réel
5 Conclusion générale
perspectives
Bibliographie
A Liste des descripteurs audio
B Détails de certains calculs
C Autres résultats pour la séparation
D Implémentation numérique des méthodes
E Articles de conférences et de journaux

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *