La classification en général
Aujourd’hui il nous est encore difficile de définir globalement la classification notamment, car chaque communauté associe le terme « classification » au vocabulaire de son contexte scientifique. Nous trouvons ainsi aujourd’hui que la classification est liée aux méthodes d’apprentissage (machine learning et deep learning pour apprentissage automatique et apprentissage profond en anglais), à l’intelligence artificielle, à la vision par ordinateur (computer vision en anglais), à la reconnaissance de formes (pattern recognition en anglais), à l’optimisation, à la topologie mathématique, à la reconnaissance, aux modèles de prédiction, aux méthodes de segmentation, etc. Néanmoins, il est possible de séparer la manière de faire de la classification en deux approches principales en fonction du niveau d’informations disponibles sur les données et de l’objectif recherché.
La classification supervisée
La première approche consiste à vouloir remplacer (ou du moins seconder) un expert ou un superviseur. Par exemple, dans notre contexte, l’objectif est de réaliser automatiquement les tâches de reconnaissance et/ou de détection en identifiant chaque nouvelle observation, comme l’aurait fait un ou plusieurs experts. On parle alors de classification supervisée et plus largement d’analyse discriminante. Pour la validation de ces méthodes de classification, il est nécessaire d’avoir une base de données annotées. En résumé, l’idée principale est d’utiliser l’expérience, ou vérité terrain, donnée par un ou plusieurs experts du domaine considéré pour construire et valider l’algorithme de reconnaissance. La construction consiste à « apprendre » cette vérité terrain, c’est la phase d’apprentissage. La validation consiste à comparer les résultats proposés par l’algorithme avec la vérité terrain, c’est la phase de test. Nous reviendrons plus loin (cf. section 2.7) sur les questions de validation de méthodes d’apprentissage et sur les problématiques inhérentes aux bases de données.
La classification non supervisée
La seconde approche est plus complexe à résumer. Mathématiquement, on cherche à interpréter les données de façon géométrique (ou topologique) en se basant sur la notion de distance ou similarité. Cette notion de distance peut s’appliquer entre les données directement ou s’utilise entre des « sous-espaces » de données qu’on appelle l’ensemble de descripteurs ou features (pour caractéristiques en anglais). La distance ainsi définie va alors permettre de partitionner les données par rapport aux descripteurs choisis. On parle de classification non supervisée (clustering en anglais) ou plus largement d’analyse descriptive ou exploratoire. Nous proposons ici quelques problématiques liées à ces méthodes : la recherche de sous-espaces représentatifs (descripteurs pertinents par rapport au contexte) afin de réaliser, par exemple, de la segmentation (sélection de zones d’intérêt); la visualisation (représentation schématique simple) et/ou l’accès rapide aux informations voulues par un ou plusieurs utilisateurs dans un contexte donné; la génération d’hypothèses, c’est-à-dire le fait de proposer un comportement général à partir d’observations faites sur les données; la simulation de données observées (problématique d’incrustation dans de l’image ou de la vidéo comme par exemple la synthèse de texture). L’idée ici est que les données ne sont généralement pas labellisées ni « classées » par un expert. Les enjeux sont alors, soit d’observer des données à des fins statistiques (proportion, comptage, etc.), soit de construire des classes pertinentes par rapport au contexte applicatif dans l’idée de faire de la classification supervisée.
La classification semi-supervisée
Pour finir, lorsque la base de données est partiellement annotée et qu’il n’y a pas d’expert pour terminer le travail d’annotation, la classification non supervisée peut être utilisée afin d’aider à compléter les annotations manquantes. On parle alors de classification semi-supervisée voire de détection ou d’apprentissage de nouveauté. Dans la pratique, qu’elle soit manuelle ou non, l’utilisation de la classification non supervisée, c’est-à-dire le fait de « regarder » les données, est fondamentale. Cette étape permet éventuellement de confirmer ou d’infirmer les propositions faites par un expert sur les annotations des données, en plus de vérifier si la tâche demandée est réalisable manuellement par un être humain.
Formulation mathématique de notre problématique
Dans notre contexte d’acoustique passive, comme nous savons a priori quelles données nous souhaitons reconnaître, notre méthode de reconnaissance correspond à de la classification supervisée. L’objectif est de donner de la connaissance (phase d’apprentissage) à un système pour qu’il devienne capable de faire de la re-connaissance. De façon plus générale, nous cherchons à transformer un ensemble de données en informations pertinentes. Ces informations sont pertinentes lorsqu’elles permettent de séparer les données de classes différentes et/ou de rassembler les données d’une même classe afin de mieux les identifier. Formellement, à partir d’un ensemble de N couples de données labellisées D = {(xi ,ℓi)}1≤i≤N avec x1,x2,…,xN les données elles-mêmes ou un ensemble de descripteurs, et ℓ1,ℓ2,…,ℓN les labels associés (ou noms des classes de signaux), nous cherchons une fonction (un classifieur) f qui, après avoir effectué une phase d’apprentissage (construction de f ) sur une base d’apprentissage DA (sous ensemble de D), soit capable de retourner une estimation du label ℓy (ou classe) associé à l’entrée (ou l’observation) y soit :
f (y|DA) = ˆℓy (2.1)
Ici, le « sachant DA » représente l’expérience ou la connaissance apportée au système pour qu’il puisse réaliser de façon automatique l’estimation du label ℓy associé à l’observation y. L’idée est toujours de vouloir remplacer l’expert du domaine. C’est cette expertise qui, associée à l’architecture du système, détermine la façon de représenter chaque classe.
Vue d’ensemble générale des étapes de la reconnaissance
Avant de rentrer dans les détails de la reconnaissance en bioacoustique sous marine, nous proposons de décrire le processus général effectué sur les données (ici des signaux). Tout d’abord, les données brutes D sont séparées en deux ensembles disjoints, la base d’apprentissage DA et la base de test DT. Les données d’apprentissage DA sont ensuite « transformées » ou projetées dans un espace représentatif des signaux d’intérêts (signaux sélectionnés par un expert). Dans la littérature, il s’agit principalement d’espaces temps-fréquence ou temps-échelle (cf. plus loin la section 2.5). A partir de cette représentation des données vient l’extraction de descripteurs ou caractéristiques ou attributs. Ces descripteurs peuvent être vus comme des « nouvelles variables d’observation » qui permettent de discriminer les signaux d’intérêt, par exemple des informations temps-fréquence.
Les données d’apprentissage DA résident alors dans un sous-espace XA uniquement constitué des valeurs (qualitative et/ou quantitative) des descripteurs des signaux d’intérêts. A partir de ces descripteurs et de la vérité terrain, la phase d’apprentissage prend fin avec le choix et/ou la construction de f (cf. plus loin section 2.7). Il existe deux façons générales de considérer f (cf. plus de détails dans la partie 2.7). La première approche consiste à avoir f reposant sur un comparateur ou une mesure de similarité. C’est-à-dire que le système de reconnaissance a en mémoire un ou plusieurs représentants de chaque classe. Ces représentants peuvent prendre en compte les connaissances a priori des données ou se baser directement sur des données brutes. Le choix de f et la construction de ces représentants correspondent à la phase d’apprentissage. Comme nous le verrons plus loin, la reconnaissance correspond alors à identifier le représentant le plus ressemblant de l’observation courante (entrée du système). La procédure est alors liée à des problématiques d’estimation, l’idée est que le modèle de chaque classe soit le plus représentatif possible. La seconde approche consiste à contraindre directement l’espace de représentation des données. Il s’agit de réduire l’espace d’entrée jusqu’à un espace de sortie qui soit généralement de dimension égale au nombre de classes à identifier. La construction de f consiste alors à résoudre un problème de minimisation d’une fonction dite fonction de coût. Cette fonction de coût permet d’identifier les erreurs commises par le système afin de le corriger ou de le mettre à jour. Dans ce cas, f est un système dont les sorties correspondent au nombre de classes attendues. Pour chaque élément x de XA, f se met à jour pour converger vers le résultat voulu. Une fois l’apprentissage terminé, l’espace de sortie représente alors une partition (l’espace est partitionné c’est-à-dire, qu’il a des frontières associées à chaque classe) qui permet d’identifier chaque élément par sa position géométrique dans cet espace. Enfin, vient la phase de test, la base de test DT subit les mêmes traitements que les données d’apprentissage pour devenir un ensemble de descripteurs XT de même nature que XA. De cette façon, les performances de la méthode peuvent être évaluées en comparant les résultats proposés par f avec la vérité terrain donnée par l’expert. Pour la suite, nous proposons de commencer par donner du sens à la définition de ce qu’est une classe. Puis, nous présentons les représentations des données d’observation proposées dans la littérature bioacoustique pour introduire les descripteurs utilisés. Ensuite, nous discuterons de l’architecture des systèmes utilisés, notamment leur mise en œuvre, à savoir si les méthodes considérées sont basées sur un ensemble de projections (par exemple les réseaux de neurones) ou plutôt sur une mesure de similarité. Enfin, nous discuterons des problématiques inhérentes aux bases de données réelles et à la validation des méthodes de reconnaissance.
|
Table des matières
Introduction générale
Motivations scientifiques
Contexte d’étude
Problématique
Organisation du manuscrit
Contributions scientifiques
1 Contexte et problématique
1.1 La reconnaissance de formes
1.2 La bioacoustique
1.3 Le paysage sonore de l’Océan : quand nos oreilles deviennent nos yeux
1.4 La grande famille des mammifères marins
1.5 L’entreprise SERCEL et l’environnement sismique
1.6 Problématique et démarche scientifique adoptée
2 La classification en bioacoustique
2.1 La classification en général
2.2 Formulation mathématique de notre problématique
2.3 Vue d’ensemble générale des étapes de la reconnaissance
2.4 La notion de classes de signaux
2.5 La représentation des données
2.6 Les descripteurs
2.7 Apprentissage et architecture des méthodes de reconnaissance
2.8 La validation des méthodes de reconnaissance
2.9 Conclusion
3 SINR-SRC
3.1 Méthodologie
3.2 Résultats expérimentaux
3.3 Auto-apprentissage incrémental semi-supervisée
3.4 Niveau de confiance
3.5 Conclusion
4 Une extension de SINR-SRC : le détecteur multiclasses
4.1 Mise en œuvre d’un détecteur multiclasses
4.2 Résultats expérimentaux
4.3 Conclusion et perspectives
Conclusion générale
Télécharger le rapport complet