Les étapes dans la construction d’un système d’ACSES
Les approches par apprentissage automatique constituent le cœur de l’activité en ACSES. Nous nous focalisons dans ce chapitre sur les tâches majeures du domaine : la classification et la détection de scènes et d’événements. Ces deux problèmes sont des cas particuliers parmi les nombreuses applications possibles de l’apprentissage automatique pour la classification. Les approches d’ACSES possèdent de nombreux points communs sur les architectures des systèmes et sur les techniques utilisées avec les autres applications de classification de données temporelles, en particulier pour le traitement de la parole et de la musique. A quelques exceptions près, les travaux et systèmes d’ACSES se décomposent en une série de grandes étapes computationnelles, allant du signal brut jusqu’à la prédiction des catégories.
Tout d’abord, les différentes approches présentées incluent toutes une forme d’apprentissage supervisé et supposent donc la présence d’une base de données annotées. On se donne une base de données de N signaux audio {x1, .., xN }. Ces signaux peuvent être de longueur variable selon la tâche traitée. Ils peuvent être longs de plusieurs secondes pour la classification de scènes, ou de quelques dizaines de millisecondes pour la détection d’événements lorsque la décision se fait au niveau des trames temporelles. On se donne également un ensemble de C étiquettes dans {1, .., C}, où chaque entier est associé à unz étiquette textuelle représentant un type de scène ou d’événement.
Alors, un vecteur d’étiquettes y ∈ {0, 1} C est associé à chaque signal dans la base, où yc = 1 indique si l’étiquette c est présente dans le signal .
S’inspirer de la compréhension humaine des sons environnementaux
Distinguer différents événements
On retrouve souvent des notions importantes de psycho-acoustique à la base de nombreux descripteurs audio fréquemment utilisés en analyse de sons environnementaux. L’idée étant d’essayer d’établir des liens entre notre perception des sons et des propriétés acoustiques du signal.
Par exemple, les deux concepts parmi les plus utilisés à la base de la construction de systèmes et de descripteurs de traitement de l’audio sont la perception de la hauteur et de l’intensité des sons. Notre perception de la hauteur, ou le pitch en anglais, nous permet de placer les sons sur une échelle allant du grave à l’aigu. Pour des cas simples, ou monophoniques, le pitch est simplement lié à l’excitation de certaines zones de la membrane basilaire ainsi qu’à la périodicité de l’excitation du nerf auditif [Meddis et O’Mard, 1997; Oxenham et al., 2004]. Par exemple, les modèles expliquant notre compréhension de la hauteur sont à la base de nombreux algorithmes de détection de fréquence fondamentale [Boersma, 2006; De Cheveigné et Kawahara, 2002]. Ensuite, la sonie est ce qui nous permet de nous représenter la force des sons, de silencieux à fort. La sonie dépend à la fois de l’intensité du son et de son spectre, où le contenu spectral d’un son complexe influe sur notre perception de son intensité [Zwicker et al., 1991; Moore et al., 1997]. Toutefois, nous sommes tout de même capables de différencier deux événements sonores de même hauteur et de sonie similaire. On utilise alors la notion de timbre pour définir ce qui constitue la différence entre ces deux sons [Risset et Wessel, 1982]. Le timbre est une notion très riche, qui se définit par de multiples aspects tels que les modulations d’amplitudes, les répartitions de l’énergie en fréquence ou encore la durée d’attaque d’un son. Le timbre est depuis longtemps étudié pour comprendre comment nous différencions les instruments de musique à l’écoute [McAdams et al., 1995; Grey et Moorer, 1977]. Certains travaux similaires plus récents s’intéressent également au timbre des événements sonores urbains, en particulier pour étudier ce qui nous permet de qualifier la qualité de sons, tels que ceux émis par des portières de voiture ou des climatiseurs [Parizet et al., 2008; Susini et al., 2004; Lewicki, 2002].
Comprendre les scènes sonores
Nous sommes capables d’analyser et catégoriser la plupart des sons en fonction de plusieurs critères liés à notre système auditif. Mais que se passe-t-il quand une multitude de ces différents sons se superposent dans le temps et en fréquence pour former une scène sonore ? Même dans un environnement sonore très riche, nous sommes capables d’identifier certains événements d’intérêt nous permettant de caractériser la nature de la scène sonore (type de lieu, dangerosité, ambiance).
L’analyse computationnelle de scènes sonores (CASA), de l’anglais computational auditory scene analysis [Wang et Brown, 2006], s’intéresse à la modélisation de notre compréhension des scènes sonores pour en isoler les différents éléments clés la constituant. Si idéalement nous serions capables de séparer et identifier chaque source sonore séparément, nous formons des groupes basés sur certains critères tels que le timbre, la position spatiale ou la nouveauté temporelle. Pour des applications d’ACSES comme la classification de scènes sonores, l’objectif est d’identifier la nature du lieu auquel correspond la scène sonore [Barchiesi et al., 2015]. Pour effectuer ce genre de tâches, il a été montré que l’Homme se base sur l’identification d’événements caractéristiques de la nature de la scène sonore (une moto pour une rue ou des vagues pour la plage) [Peltonen et al., 2001]. Durant notre écoute d’une scène sonore, nous collectons un certain nombre d’indices correspondant à l’occurrence de différents événements qui vont nous guider progressivement vers notre compréhension du contexte dans lequel nous nous trouvons.
Extraction de descripteurs
Représentations temps-fréquence
Les représentations temps-fréquence sont souvent utilisées en ACSES, tout comme pour la plupart des tâches de classification audio. Elles sont à la base d’une grande majorité de techniques d’extraction de descripteurs, de factorisation de matrices et d’apprentissage profond. Leur principal avantage par rapport au signal brut est de fournir une représentation plus parcimonieuse et plus aisément interprétable à la fois par l’humain et par la machine.
Une majorité des représentations temps-fréquence s’obtient à partir de la transformée de Fourier à court terme (TFCT), représentant l’amplitude dans chaque bande de fréquence au court du temps en projetant le signal sur des ondes de Fourier. La TFCT possède par construction un axe fréquentiel espacé linéairement. Distribuer les fréquences ainsi rend l’interprétation de la TFCT parfois difficile, à la fois pour les Hommes, car elle retranscrit mal notre perception de la hauteur, et pour les machines, car elle nécessite un grand nombre de bandes de fréquence pour représenter de manière adéquate les sons en basses fréquences. Pour ces raisons, la majorité des travaux en analyse de sons environnementaux se base sur des représentations temps-fréquence motivées par notre perception auditive. Le premier exemple étant celui des bandes critiques [Fletcher, 1940] basées sur la largeur de bande de nos filtres auditifs dans la cochlée. L’échelle en bande rectangulaire équivalente (ERB), de l’anglais equivalent rectangular bandwidth [Glasberg et Moore, 1990], ou l’échelle de Bark [Zwicker et Terhardt, 1980] sont deux exemples d’échelles fréquentielles s’inspirant de la notion de bandes critiques.
Si ces échelles ont déjà été utilisées en ACSES, les représentations les plus largement plébiscitées sont les spectres Mel et la transformée à Q constant (CQT), de l’anglais Constant-Q transform. Les spectres Mel se basent sur notre sensation de la hauteur pour construire une échelle adaptée à notre perception des sons [Stevens et al., 1937]. Les CQT séparent l’échelle des fréquences géométriquement de sorte que le ratio Q entre la fréquence centrale d’une bande et la résolution fréquentielle soit constant [Brown, 1991]. Les spectres Mel et les CQT sont exploités pour plusieurs techniques d’extraction de descripteurs cepstraux ou de descripteurs d’images utilisés en ACSES [Dennis et al., 2013; Rakotomamonjy et Gasso, 2015; Battaglino et al., 2015]. De plus, ces deux représentations constituent le choix de représentation d’entrée pour une très grande majorité de systèmes par apprentissage de descripteurs ou réseaux de neurones profonds soumis aux éditions 2016 et 2017 du challenge DCASE. Il est par exemple rare de trouver un système de détection d’événements performant ne se servant pas du spectre Mel en entrée du système de classification.
Ingénierie de descripteurs
Lors des premières études sur la classification de scènes, l’objectif était souvent de trouver des descripteurs capables de caractériser les spécificités d’une scène sonore. Les premiers travaux se sont naturellement tournés vers les descripteurs audio performants pour d’autres applications (parole, musique…) dans le but de les combiner et de comparer leurs performances sur ce nouveau problème. Ces descripteurs sont conçus pour décrire des aspects précis du contenu temporel ou fréquentiel du signal, en supposant qu’ils permettent de différencier certaines catégories de sons présents dans les bases de données de sons environnementaux. Nous mentionnons ici quelques-unes des catégories les plus représentées.
Descripteurs temporels et fréquentiels Une large collection de descripteurs temporels et fréquentiels a été proposée par le passé. Il est usuel de faire référence à ces descripteurs comme descripteurs de bas-niveau. Parmi les descripteurs temporels les plus représentés on trouve l’enveloppe temporelle, le taux de passage par zéros, des coefficients d’auto-corrélation ou encore différents moments de la forme d’onde. Dans la même lignée, plusieurs descripteurs ont été proposés pour décrire des propriétés précises du contenu spectral du son, parfois reliés à des grandeurs perceptives. On trouve notamment l’enveloppe spectrale, les moments spectraux, la pente spectrale, le flux spectral et bien d’autres [Peeters, 2004]. Ces descripteurs de bas-niveau ont souvent été utilisés en ASCES, l’approche la plus répandue étant d’en combiner une large collection en complément d’autres types de descripteurs cepstraux [Chu et al., 2009; Geiger et al., 2013; Petetin et al., 2015].
Descripteurs cepstraux Les descripteurs cepstraux sont de loin les plus représentés en ACSES parmi les autres représentations issues de l’ingénierie de descripteurs. Ils permettent la décomposition du signal selon le modèle source-filtre pour modéliser le processus de production de la parole. Parmi les variantes de coefficients cepstraux disponibles, les plus populaires sont les coefficients cepstraux en bandes Mel (MFCC) [Davis et Mermelstein, 1980]. Ils sont calculés par la transformée en cosinus discrète inverse du logarithme de l’énergie des bandes Mel. La plupart des premières approches d’ACSES se basent sur l’extraction de MFCC pour caractériser les sons environnementaux [Peltonen et al., 2002; Aucouturier et al., 2007; Clavel et al., 2005]. Ce choix est principalement dû à la popularité des MFCC pour de multiples problèmes bien établis du traitement de la parole. Encore aujourd’hui, des travaux continuent de présenter des méthodes d’apprentissage automatique plus complexes s’apprenant à partir de coefficients cepstraux. Notamment, parmi les 10 premiers systèmes à l’édition 2016 du challenge DCASE pour la classification de scènes incluent les MFCC dans leur représentation d’entrée [Eghbal-Zadeh et al., 2016; Marchi et al., 2016; Li et al., 2017]. La popularité des MFCC pour caractériser les sons environnementaux peut paraître relativement surprenante compte tenu du fait que certaines catégories d’événements sont très éloignées des propriétés de la parole. Les descripteurs MFCC, par le faible nombre de coefficients usuellement utilisés, ont des difficultés à représenter correctement les sons en plus haute fréquence en plus d’être une représentation relativement indépendante de la hauteur des sons. Avec la récente explosion des modèles d’apprentissage profond, les MFCC sont relégués au second plan. En effet, de moins en moins de travaux continuent de se servir des MFCC pour aller vers des systèmes apprenant les caractéristiques adéquates directement à partir des spectres Mel. Descripteurs d’images Des approches plus récentes ont introduit l’utilisation de descripteurs issus du traitement d’images afin d’extraire de l’information à partir des représentations temps-fréquence d’une scène. L’idée derrière les descripteurs d’images est de représenter une scène ou un événement par une image correspondant à son spectrogramme. Pour la classification de scènes, les premiers descripteurs d’images introduits sont les histogrammes de gradient orienté (HOG) [Rakotomamonjy et Gasso, 2015], de l’anglais Histogram of Oriented Gradients. Les HOG se construisent en calculant un histogramme des directions du gradient pour chaque pixel dans différents blocs de l’image. L’objectif est donc de modéliser l’évolution de l’information temps-fréquence dans le spectrogramme de la scène, ce qui permet par exemple de directement caractériser les sons d’accélération souvent présents dans les environnements urbains (dans la rue ou dans le bus). Dans une approche similaire, d’autres travaux reprennent les motifs binaires locaux (LBP), de l’anglais Local Binary Pattern pour la classification de scènes [Battaglino et al., 2015; Yang et Krishnan, 2017]. Les LBP calculent un code binaire de différents patchs de l’image représentant l’activation des pixels de valeurs supérieures à un seuil fixé par le pixel central du patch. Il s’agit d’un autre moyen de modéliser la distribution temps-fréquence contenue dans les spectrogrammes des scènes, en s’inspirant de l’analyse de texture en traitement d’image. On trouve également l’utilisation d’autres descripteurs très répandus en traitement de l’image tel que les SIFT, de l’anglais scale-invaraint feature transform, ou d’autres descripteurs créés pour la classification d’événements tels que les histogrammes d’énergie par bandes de fréquence (SPD), de l’anglais Subband power distribution [Dennis et al., 2014, 2013].
Représentations multi-échelles et dictionnaires d’ondelettes Comme alternative aux représentations temps-fréquence et aux MFCC, des dictionnaires d’ondelettes ont été proposés afin de représenter les signaux environnementaux. Les ondelettes permettent une représentation temps-échelle des signaux par la dilatation et la translation de brèves oscillations [Mallat, 1989]. Des premiers travaux ont démontré le potentiel d’approches similaires en projetant des signaux de sons environnementaux sur des dictionnaires d’ondelettes de Gabor par matching poursuit [Chu et al., 2009]. Pour la classification de scènes, Ren et al. [2017] se sont intéressés à la construction d’alternatives aux TFCT pour apprendre des réseaux de neurones, en utilisant différentes transformées en ondelettes. Parallèlement, d’autres auteurs ont exploité la transformée en scattering en obtenant des performances très prometteuses pour la classification d’événements [Salamon et Bello, 2015a; Lostanlen et Andén, 2016]. La transformée en scattering construit des représentations invariantes en enchaînant des opérations de transformée en ondelettes, de modules et de filtrages passe-bas [Mallat, 2012]. Ces opérations s’avèrent efficaces pour caractériser les non-stationnarités du signal ainsi que les textures sonores, deux aspects importants de l’analyse des sons environnementaux.
Modélisation et intégration temporelle
La modélisation de l’évolution temporelle de l’information joue souvent un rôle central en analyse de sons environnementaux. En effet, la classification de scènes et d’événements sonores demande de classifier des séquences d’observations. Dans le même temps, la détection d’événements nécessite de trouver les instants de début et de fin des événements présents dans la scène.
Dans l’organisation de ce chapitre, nous avons choisi de placer cette étape entre l’extraction de descripteurs et la classification, bien que la modélisation temporelle ne constitue pas forcement une étape à part entière. Elle est souvent intégrée et prise en compte directement dans les modèles de classification ou d’extraction de représentations.
La manière la plus simple de traiter l’aspect temporel des données est d’avoir recours à diverses statistiques représentant la distribution temporelle des descripteurs associés aux signaux à classifier [Joder et al., 2009]. Si on se contente souvent de la moyenne à travers tout l’exemple, certains travaux ont étudié l’ajout de moments d’ordres supérieurs [Geiger et al., 2013; Salamon et Bello, 2015a; Krijnders et Holt, 2013]. Pour aller plus loin, Roma et al. [2013] ont proposé avec succès l’application de la Recurrence Quantification Analysis (RQA) en anglais, une méthode inspirée de la théorie du chaos permettant d’analyser les motifs récurrents dans la séquence d’observations. Une autre alternative très courante est simplement de classifier les descripteurs par trame et d’effectuer une intégration tardive. Par un système de vote ou d’opérations sur la séquence de probabilités en sortie de classifieur, l’intégration tardive permet d’obtenir une décision pour l’ensemble de la séquence d’observations.
L’évolution de l’information temporelle peut également se retrouver directement modélisée par certains descripteurs. En particulier, la majorité des descripteurs d’images se compose d’histogrammes de caractéristiques locales [Rakotomamonjy et Gasso, 2015; Dennis et al., 2013; Battaglino et al., 2015]. Ces approches se sont montrées surtout efficaces pour la classification de scènes où la distribution de l’information dans le temps est plus importante que l’ordre dans lequel les événements se produisent. De même, certaines techniques de factorisation de matrices prennent en compte une modélisation temporelle directement dans la décomposition. C’est le cas par exemple de la NMF convolutive et de ses équivalents probabilistes [Benetos et al., 2012; Komatsu et al., 2016a]. En revanche, les variations temporelles apprises par ces modèles restent relativement locales et demandent souvent une étape d’intégration temporelle supplémentaire. Ce n’est pas le cas des auto-encodeurs récurrents qui, par le choix d’unités appropriées dans les couches du réseau, permettent d’apprendre des vecteurs descripteurs représentant des séquences d’observations de longueur variables [Amiriparian et al., 2017].
Enfin, dans la majorité des cas, la modélisation de l’évolution temporelle de l’information dans les scènes et événements sonores se fait durant l’étape de classification. De nombreux modèles de détection ou de classification sont capables de tirer parti du contexte temporel pour prendre des décisions locales ou globales.
Rendre les systèmes plus robustes
Détection d’événements pour la classification de scènes et réciproquement
Les problèmes de détection d’événements et la classification de scènes sonores sont en majorité traités séparément. Pourtant, il existe des liens très forts entre ces deux tâches. En effet, avoir de l’information sur le contexte dans lequel nous nous situons peut nous informer sur la nature des événements pouvant être présents dans la scène sonore. Réciproquement, avoir un moyen d’identifier les occurrences de certains événements pourrait grandement faciliter la reconnaissance de la nature de la scène sonore. Dans ce sens, quelques travaux ont proposé d’inclure un module de détection du contexte avant l’étape de détection d’événements. Ces approches utilisent par exemple un modèle HMM appris pour chaque contexte en supposant que l’occurrence temporelle des différents événements dépend du lieu dans lequel a été effectué l’enregistrement [Heittola et al., 2013a; Lu et al., 2015]. Dans l’autre sens, Heittola et al. [2010] ont proposé d’appliquer un système de détection d’événements dans l’objectif de construire un histogramme d’occurrence des événements dans la scène. Cet histogramme est ensuite utilisé comme représentation pour un système de classification de scènes. D’autres approches proposent de regrouper les événements sonores par thèmes puis de modéliser le contexte sonore comme une collection de thèmes, comme on peut le faire en analyse de documents [Kim et al., 2009; Imoto et al., 2013]. Ces deux types d’approches ont montré des améliorations de performances sur des bases de données de faible taille en se servant de modèles relativement simples. La taille des bases et les modèles de classification actuels ouvrent la possibilité d’une nouvelle exploration au goût du jour de ce type d’approches. Les modèles de classification de scènes et de détection d’événements étant de plus en plus performants séparément, il serait possible d’aller vers des modèles capables d’effectuer les deux tâches conjointement.
Pré-traitement et augmentations
Nous avons mentionné précédemment que la taille relativement faible de la plupart des bases de données du domaine rend difficile l’apprentissage de modèles de classification complexes. Le faible nombre de données disponibles à l’apprentissage n’est pas nécessairement représentatif de la variabilité de chaque catégorie. Une des réponses à ce problème est d’employer des méthodes d’augmentation ou de pré-traitement permettant d’augmenter artificiellement le nombre de représentations par exemple audio, se traduisant par une augmentation de la taille de la base d’apprentissage.
Une première approche, à la frontière entre l’extraction de descripteurs et l’augmentation, est de tirer parti des données multi-canal lorsqu’elles sont disponibles. De nombreuses bases de données sont enregistrées avec deux microphones fournissant des enregistrements binauraux. L’approche la plus répandue et la plus simple consiste à extraire de descripteurs ou spectrogramme séparément pour chaque canal. Cette stratégie a été retenue par un grand nombre de participants aux challenges DCASE. On peut également augmenter le nombre de canaux en ajoutant la somme ou la différence entre les canaux gauche et droite [Eghbal-Zadeh et al., 2016]. D’autres méthodes proposent l’extraction de descripteurs binauraux, modélisant les différences entre les canaux afin de rendre les systèmes de détection plus robustes [Adavanne et Virtanen, 2017; Adavanne et al., 2017]. Enfin, le nombre de canaux peut être augmenté artificiellement en utilisant des pré-traitements par séparation de sources. Par exemple, l’objectif peut être de séparer le bruit de fond des événements afin de faciliter leur détection [Heittola et al., 2011, 2013b; Y.Hang et Park, 2017]. D’autres approches utilisent des stratégies d’augmentations de données en effectuant de légères perturbations des signaux afin d’augmenter artificiellement le nombre et la variabilité des exemples. Pour l’analyse de sons environnementaux, l’objectif est de rendre les systèmes invariants à certaines modifications temporelles et fréquentielles. Les deux stratégies d’augmentations que l’on retrouve le plus fréquemment sont le décalage fréquentiel et l’étirement temporel, plus connus sous le nom de pitch shifting et time-stretching en anglais. L’idée est que deux événements d’une même catégorie peuvent avoir une structure fréquentielle similaire mais également avoir des spectrogrammes décalés de quelques fractions de tons ou étirés de quelques fractions de secondes l’un par rapport à l’autre. Les augmentations ont déjà fait leurs preuves dans certaines applications de MIR et de parole [Schlüter et Grill, 2015] et commencent à être de plus en plus appliquées en analyse de sons environnementaux, en majorité pour améliorer la capacité de généralisation de modèles de type CNN [Lehner et al., 2017; Salamon et al., 2017; Salamon et Bello, 2017]. Dernièrement, Mun et al. [2017] ont exploré l’utilisation de modèle de réseaux génératifs adversaires (GAN), de l’anglais generative adverserial networks. Par leur capacité à générer de nouveaux exemples similaires aux données d’apprentissage, les modèles GAN ont été utilisés avec succès pour faire de l’augmentation de données pour la classification de scènes.
|
Table des matières
1 Introduction
1.1 L’approche computationnelle de l’analyse de sons environnementaux
1.2 Applications
1.3 Structure du document et contributions
2 État de l’art
2.1 Les étapes dans la construction d’un système d’ACSES
2.2 S’inspirer de la compréhension humaine des sons environnementaux
2.3 Extraction de descripteurs
2.4 Apprentissage de descripteurs
2.5 Modélisation et intégration temporelle
2.6 Classification et détection
2.7 Rendre les systèmes plus robustes
3 Descripteurs d’images pour la représentation des sons environnementaux
3.1 Représentations temps-fréquence
3.2 Combiner les HOG et les SPD
3.3 Classification
3.4 Validation expérimentale
3.5 Conclusion
4 Apprentissage non-supervisé de descripteurs par factorisation de matrices
4.1 Apprentissage non-supervisé de descripteurs
4.2 Approches par factorisation de matrices
4.3 Système de classification de scènes sonores
4.4 Expériences sur la classification de scènes
4.5 Nos premiers systèmes de détection d’événements par NMF non-supervisée
4.6 Expériences sur la détection d’événements avec recouvrement
4.7 Conclusion
5 Apprentissage supervisé de représentations positives
5.1 Factorisation supervisée de matrices
5.2 Le modèle TNMF
5.3 Étude expérimentale des algorithmes TNMF
5.4 Systèmes de classification de scènes
5.5 Systèmes de classification d’événements
5.6 Conclusion
6 Approches par réseaux de neurones profonds
6.1 Motivations
6.2 Quelques notions et notations sur les modèles utilisés
6.3 NMF et MLP
6.4 Approches pour la classification de scènes
6.5 NMF, CNN et RNN pour la détection d’événements
6.6 Premiers résultats avec DNN-TNMF
6.7 Conclusion
7 Conclusion
7.1 Bilan de la thèse
7.2 Perspectives
A Bases de données
A.1 Collection et annotation de données pour l’analyse de scènes sonores
A.2 Classification de scènes sonores
A.3 Classification d’événements
A.4 Détection d’événements
B Métriques pour la détection d’événements
B.1 Pourquoi des métriques particulières ?
B.2 Score F1 et ER par segment
C Noyaux de Sinkhorn pour la classification de descripteurs d’images
C.1 Noyaux de Sinkhorn pour la classification
C.2 Comparaison de l’impact du choix du noyau
Références
Télécharger le rapport complet