Apprentissage de structures multi-dimensionnelles pour l’improvisation musicale

L’improvisation automatique est un domaine récent issu des études sur la créativité artificielle. L’objectif principal est de mettre en place des interactions musicales improvisées entre des humains et des ordinateurs. De nombreuses problématiques sont mises en avant par ce domaine, comme par exemple la nécessité de réaliser un apprentissage interactif en temps réel, une écoute artificielle efficace, de modéliser des structures musicales, etc. Nous visons à créer une nouvelle pratique musicale par l’extension de la recherche sur l’improvisation débouchant sur la création d’interactions nouvelles entre humains et machines. Le projet DYCI2 s’interesse au cœur même de ces problématiques, et se base sur des études et des projets développés à l’Ircam par Gérard Assayag et les « OMax Brothers ».

Ce stage a eu lieu dans le cadre du projet ANR DYCI2 (Dynamiques Créatives de l’Interaction Improvisée). Ce projet a pour objectif de créer des modèles efficaces d’écoute artificielle, d’apprentissage et de création automatique de musique permettant à des agents numériques d’avoir des interactions musicales improvisées en temps réel. Ce projet est séparé en trois tâches principales qui seront effectuées en parallèle :
— écoute informée créative,
— apprentissage interactif de structures musicales,
— dynamiques d’interaction improvisée.
Ce stage concerne la partie «Apprentissage interactif de structures musicales» de ce projet. L’objectif de cette tâche est de concevoir des méthodes d’apprentissage automatique sur des données symboliques permettant de représenter les corrélations entre différentes dimensions musicales (par exemple : hauteurs, harmonie, timbres…), et de reconnaître des structures multi-échelles émergeant dans un contexte d’improvisation.

Les systèmes actuels d’improvisation automatique sont capables de prendre en considération des informations unidimensionnelles, typiquement la mélodie, fournies en direct par un musicien ou lues dans un corpus afin de générer de nouvelles improvisations par une recombinaison du matériau musical. Ces improvisations peuvent être guidées par l’utilisation de paramètres de contrôle, par une écoute active de l’environnement musical en temps réel, ou par le suivi d’un scénario prédéfini. Cependant, aucune des méthodes actuelles ne prend en considération une combinaison des différentes dimensions musicales pour générer une improvisation. Prendre en compte cet aspect multi-dimensionnel de la musique semble très intéressant car cela correspond au comportement réel des improvisateurs.

L’objectif de ce stage est de s’intéresser aux méthodes d’apprentissage automatique basées sur l’interpolation de sous-modèles probabilistes pour l’aspect multi-dimensionnel de la musique afin d’évaluer l’intérêt de telles méthodes pour des tâches relatives à l’improvisation. Ce stage s’est déroulé à Inria Nancy – Grand Est, dans l’équipe-projet Multispeech. Cette équipe est spécialisée dans la modélisation de la parole et du langage naturel et s’intéresse notamment à la modélisation statistique de la parole en se basant sur des modèles bayésiens et des réseaux de neurones profonds.

Le centre de recherche Inria Nancy – Grand Est fut crée en 1986. Il développe l’essentiel de ses activités scientifiques en partenariat avec le CNRS, l’Universités de Lorraine, l’Université de Strasbourg et l’Université de Franche-Comté. Il accueille actuellement environ 220 chercheurs, doctorants et ingénieurs. Le champ de recherche d’Inria Nancy est très large. Il s’intéresse à des thématiques informatiques variées avec 23 équipes-projets travaillant autour de cinq domaines principaux :
— mathématiques appliquées, calcul et simulation,
— algorithmique, programmation, logiciels et architectures,
— réseaux, systèmes et services, calcul distribué,
— perception, cognition, interaction,
— santé, biologie et planète numériques.

Pour ce stage, je fut accueilli par l’équipe-projet Multispeech. Dirigée par Denis Jouvet, cette équipe-projet est constituée d’une trentaine de personnes (dont huit doctorants) d’Inria, de l’Université de Lorraine et du CNRS. Ses recherches concernent le traitement de la parole, avec une attention particulière pour les aspects multisources (séparation de sources, reconnaissance robuste de la parole), multilingues (apprentissage de langues étrangères) et multimodaux (synthèse audiovisuelle). Ses recherches s’orientent selon trois axes :
— la modélisation explicite de la parole, en se basant sur des modèles physiques,
— la modélisation statistique de la parole, utilisant des techniques d’apprentissage automatique comme, par exemple, des modèles bayésiens et des réseaux de neurones profonds,
— la prise en compte des incertitudes liées à la forte variabilité du signal.

Les travaux sur l’improvisation automatique sont issus initialement de la recherche sur la composition automatique. De nombreux systèmes ont été developpés. Conklin [11], et Pachet et al. [24] développent des méthodes probabilistes basées sur des chaines de Markow cachées. D’un autre côté des méthodes basées sur la structure d’oracle des facteurs sont développés par les « OMax Brothers » [5, 32], Donze et al. [12], Schankler et al. [29]… Nous présentons ici trois logiciels issus de l’Ircam qui montrent bien les principes de l’improvisation automatique.

OMax est un logiciel d’improvisation automatique utilisant Max/MSP pour faire des prestations musicales en temps réel. Son principe est d’apprendre en direct le style d’un musicien et de générer une improvisation par une recombinaison du matériau musical fourni par le musicien. OMax ne fait appel à aucune notion préalable ni aucune règle harmonique issue d’une quelconque théorie musicale, ce qui lui permet de s’adapter à tous types d’improvisation. OMax se contente de modéliser le style de l’improvisateur en extrayant des règles implicites données par l’improvisation. Il repose sur le principe de réinjection stylistique [20], le musicien réagissant à son propre style au cours de l’improvisation. Son fonctionnement se base sur l’oracle des facteurs [5, 3] ; un automate issu de la bioinformatique utilisé pour la recherche de sous-chaînes. OMax peut prendre en entrée du MIDI polyphonique (Musical Instrument Digital Interface : protocole de communication pour instruments de musique électronique et pour ordinateurs), et de l’audio monophonique [4]. Dans le cas de l’audio, les hauteurs des notes sont détectées par l’algorithme Yin [10]. OMax possède une interface graphique permettant de visualiser l’oracle des facteurs en temps réel [18, 19].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
2 Présentation de l’organisme d’accueil
2.1 Inria Nancy
2.2 L’équipe Multispeech
3 État de l’art
3.1 Improvisation automatique
3.1.1 OMax
3.1.2 ImproTeK
3.1.3 SoMax
3.2 Modèles probabilistes
3.2.1 Modélisation du langage et n-grammes
3.2.2 Lissage des modèles
3.2.3 Interpolation de sous-modèles
4 Utilisation de modèles probabilistes pour l’improvisation automatique
4.1 Présentation des tâches et du corpus
4.2 Représentations utilisées
4.3 Sous-modèles
4.4 Apprentissage
4.5 Résultats
4.5.1 Tâche d’harmonisation
4.5.2 Génération de mélodie
5 Conclusion 

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *