La classification en gรฉnรฉral
Aujourdโhui il nous est encore difficile de dรฉfinir globalement la classification notamment, car chaque communautรฉ associe le terme ยซ classification ยป au vocabulaire de son contexte scientifique. Nous trouvons ainsi aujourdโhui que la classification est liรฉe aux mรฉthodes dโapprentissage (machine learning et deep learning pour apprentissage automatique et apprentissage profond en anglais), ร lโintelligence artificielle, ร la vision par ordinateur (computer vision en anglais), ร la reconnaissance de formes (pattern recognition en anglais), ร lโoptimisation, ร la topologie mathรฉmatique, ร la reconnaissance, aux modรจles de prรฉdiction, aux mรฉthodes de segmentation, etc. Nรฉanmoins, il est possible de sรฉparer la maniรจre de faire de la classification en deux approches principales en fonction du niveau dโinformations disponibles sur les donnรฉes et de lโobjectif recherchรฉ.
La classification supervisรฉe
La premiรจre approche consiste ร vouloir remplacer (ou du moins seconder) un expert ou un superviseur. Par exemple, dans notre contexte, lโobjectif est de rรฉaliser automatiquement les tรขches de reconnaissance et/ou de dรฉtection en identifiant chaque nouvelle observation, comme lโaurait fait un ou plusieurs experts. On parle alors de classification supervisรฉe et plus largement dโanalyse discriminante. Pour la validation de ces mรฉthodes de classification, il est nรฉcessaire dโavoir une base de donnรฉes annotรฉes. En rรฉsumรฉ, lโidรฉe principale est dโutiliser lโexpรฉrience, ou vรฉritรฉ terrain, donnรฉe par un ou plusieurs experts du domaine considรฉrรฉ pour construire et valider lโalgorithme de reconnaissance. La construction consiste ร ยซ apprendre ยป cette vรฉritรฉ terrain, cโest la phase dโapprentissage. La validation consiste ร comparer les rรฉsultats proposรฉs par lโalgorithme avec la vรฉritรฉ terrain, cโest la phase de test. Nous reviendrons plus loin (cf. section 2.7) sur les questions de validation de mรฉthodes dโapprentissage et sur les problรฉmatiques inhรฉrentes aux bases de donnรฉes.
La classification non supervisรฉe
La seconde approche est plus complexe ร rรฉsumer. Mathรฉmatiquement, on cherche ร interprรฉter les donnรฉes de faรงon gรฉomรฉtrique (ou topologique) en se basant sur la notion de distance ou similaritรฉ. Cette notion de distance peut sโappliquer entre les donnรฉes directement ou sโutilise entre des ยซ sous-espaces ยป de donnรฉes quโon appelle lโensemble de descripteurs ou features (pour caractรฉristiques en anglais). La distance ainsi dรฉfinie va alors permettre de partitionner les donnรฉes par rapport aux descripteurs choisis. On parle de classification non supervisรฉe (clustering en anglais) ou plus largement dโanalyse descriptive ou exploratoire. Nous proposons ici quelques problรฉmatiques liรฉes ร ces mรฉthodes : la recherche de sous-espaces reprรฉsentatifs (descripteurs pertinents par rapport au contexte) afin de rรฉaliser, par exemple, de la segmentation (sรฉlection de zones dโintรฉrรชt); la visualisation (reprรฉsentation schรฉmatique simple) et/ou lโaccรจs rapide aux informations voulues par un ou plusieurs utilisateurs dans un contexte donnรฉ; la gรฉnรฉration dโhypothรจses, cโest-ร -dire le fait de proposer un comportement gรฉnรฉral ร partir dโobservations faites sur les donnรฉes; la simulation de donnรฉes observรฉes (problรฉmatique dโincrustation dans de lโimage ou de la vidรฉo comme par exemple la synthรจse de texture). Lโidรฉe ici est que les donnรฉes ne sont gรฉnรฉralement pas labellisรฉes ni ยซ classรฉes ยป par un expert. Les enjeux sont alors, soit dโobserver des donnรฉes ร des fins statistiques (proportion, comptage, etc.), soit de construire des classes pertinentes par rapport au contexte applicatif dans lโidรฉe de faire de la classification supervisรฉe.
La classification semi-supervisรฉe
Pour finir, lorsque la base de donnรฉes est partiellement annotรฉe et quโil nโy a pas dโexpert pour terminer le travail dโannotation, la classification non supervisรฉe peut รชtre utilisรฉe afin dโaider ร complรฉter les annotations manquantes. On parle alors de classification semi-supervisรฉe voire de dรฉtection ou dโapprentissage de nouveautรฉ. Dans la pratique, quโelle soit manuelle ou non, lโutilisation de la classification non supervisรฉe, cโest-ร -dire le fait de ยซ regarder ยป les donnรฉes, est fondamentale. Cette รฉtape permet รฉventuellement de confirmer ou dโinfirmer les propositions faites par un expert sur les annotations des donnรฉes, en plus de vรฉrifier si la tรขche demandรฉe est rรฉalisable manuellement par un รชtre humain.
Formulation mathรฉmatique de notre problรฉmatiqueย
Dans notre contexte dโacoustique passive, comme nous savons a priori quelles donnรฉes nous souhaitons reconnaรฎtre, notre mรฉthode de reconnaissance correspond ร de la classification supervisรฉe. Lโobjectif est de donner de la connaissance (phase dโapprentissage) ร un systรจme pour quโil devienne capable de faire de la re-connaissance. De faรงon plus gรฉnรฉrale, nous cherchons ร transformer un ensemble de donnรฉes en informations pertinentes. Ces informations sont pertinentes lorsquโelles permettent de sรฉparer les donnรฉes de classes diffรฉrentes et/ou de rassembler les donnรฉes dโune mรชme classe afin de mieux les identifier. Formellement, ร partir dโun ensemble de N couples de donnรฉes labellisรฉes D = {(xi ,โi)}1โคiโคN avec x1,x2,…,xN les donnรฉes elles-mรชmes ou un ensemble de descripteurs, et โ1,โ2,…,โN les labels associรฉs (ou noms des classes de signaux), nous cherchons une fonction (un classifieur) f qui, aprรจs avoir effectuรฉ une phase dโapprentissage (construction de f ) sur une base dโapprentissage DA (sous ensemble de D), soit capable de retourner une estimation du label โy (ou classe) associรฉ ร lโentrรฉe (ou lโobservation) y soit :
f (y|DA) = หโy (2.1)
Ici, le ยซ sachant DA ยป reprรฉsente lโexpรฉrience ou la connaissance apportรฉe au systรจme pour quโil puisse rรฉaliser de faรงon automatique lโestimation du label โy associรฉ ร lโobservation y. Lโidรฉe est toujours de vouloir remplacer lโexpert du domaine. Cโest cette expertise qui, associรฉe ร lโarchitecture du systรจme, dรฉtermine la faรงon de reprรฉsenter chaque classe.
Vue dโensemble gรฉnรฉrale des รฉtapes de la reconnaissance
Avant de rentrer dans les dรฉtails de la reconnaissance en bioacoustique sous marine, nous proposons de dรฉcrire le processus gรฉnรฉral effectuรฉ sur les donnรฉes (ici des signaux). Tout dโabord, les donnรฉes brutes D sont sรฉparรฉes en deux ensembles disjoints, la base dโapprentissage DA et la base de test DT. Les donnรฉes dโapprentissage DA sont ensuite ยซ transformรฉes ยป ou projetรฉes dans un espace reprรฉsentatif des signaux dโintรฉrรชts (signaux sรฉlectionnรฉs par un expert). Dans la littรฉrature, il sโagit principalement dโespaces temps-frรฉquence ou temps-รฉchelle (cf. plus loin la section 2.5). A partir de cette reprรฉsentation des donnรฉes vient lโextraction de descripteurs ou caractรฉristiques ou attributs. Ces descripteurs peuvent รชtre vus comme des ยซ nouvelles variables dโobservation ยป qui permettent de discriminer les signaux dโintรฉrรชt, par exemple des informations temps-frรฉquence.
Les donnรฉes dโapprentissage DA rรฉsident alors dans un sous-espace XA uniquement constituรฉ des valeurs (qualitative et/ou quantitative) des descripteurs des signaux dโintรฉrรชts. A partir de ces descripteurs et de la vรฉritรฉ terrain, la phase dโapprentissage prend fin avec le choix et/ou la construction de f (cf. plus loin section 2.7). Il existe deux faรงons gรฉnรฉrales de considรฉrer f (cf. plus de dรฉtails dans la partie 2.7). La premiรจre approche consiste ร avoir f reposant sur un comparateur ou une mesure de similaritรฉ. Cโest-ร -dire que le systรจme de reconnaissance a en mรฉmoire un ou plusieurs reprรฉsentants de chaque classe. Ces reprรฉsentants peuvent prendre en compte les connaissances a priori des donnรฉes ou se baser directement sur des donnรฉes brutes. Le choix de f et la construction de ces reprรฉsentants correspondent ร la phase dโapprentissage. Comme nous le verrons plus loin, la reconnaissance correspond alors ร identifier le reprรฉsentant le plus ressemblant de lโobservation courante (entrรฉe du systรจme). La procรฉdure est alors liรฉe ร des problรฉmatiques dโestimation, lโidรฉe est que le modรจle de chaque classe soit le plus reprรฉsentatif possible. La seconde approche consiste ร contraindre directement lโespace de reprรฉsentation des donnรฉes. Il sโagit de rรฉduire lโespace dโentrรฉe jusquโร un espace de sortie qui soit gรฉnรฉralement de dimension รฉgale au nombre de classes ร identifier. La construction de f consiste alors ร rรฉsoudre un problรจme de minimisation dโune fonction dite fonction de coรปt. Cette fonction de coรปt permet dโidentifier les erreurs commises par le systรจme afin de le corriger ou de le mettre ร jour. Dans ce cas, f est un systรจme dont les sorties correspondent au nombre de classes attendues. Pour chaque รฉlรฉment x de XA, f se met ร jour pour converger vers le rรฉsultat voulu. Une fois lโapprentissage terminรฉ, lโespace de sortie reprรฉsente alors une partition (lโespace est partitionnรฉ cโest-ร -dire, quโil a des frontiรจres associรฉes ร chaque classe) qui permet dโidentifier chaque รฉlรฉment par sa position gรฉomรฉtrique dans cet espace. Enfin, vient la phase de test, la base de test DT subit les mรชmes traitements que les donnรฉes dโapprentissage pour devenir un ensemble de descripteurs XT de mรชme nature que XA. De cette faรงon, les performances de la mรฉthode peuvent รชtre รฉvaluรฉes en comparant les rรฉsultats proposรฉs par f avec la vรฉritรฉ terrain donnรฉe par lโexpert. Pour la suite, nous proposons de commencer par donner du sens ร la dรฉfinition de ce quโest une classe. Puis, nous prรฉsentons les reprรฉsentations des donnรฉes dโobservation proposรฉes dans la littรฉrature bioacoustique pour introduire les descripteurs utilisรฉs. Ensuite, nous discuterons de lโarchitecture des systรจmes utilisรฉs, notamment leur mise en ลuvre, ร savoir si lesย mรฉthodes considรฉrรฉes sont basรฉes sur un ensemble de projections (par exemple les rรฉseaux de neurones) ou plutรดt sur une mesure de similaritรฉ. Enfin, nous discuterons des problรฉmatiques inhรฉrentes aux bases de donnรฉes rรฉelles et ร la validation des mรฉthodes de reconnaissance.
|
Table des matiรจres
Introduction gรฉnรฉrale
Motivations scientifiques
Contexte dโรฉtude
Problรฉmatique
Organisation du manuscrit
Contributions scientifiques
1 Contexte et problรฉmatique
1.1 La reconnaissance de formes
1.2 La bioacoustique
1.3 Le paysage sonore de lโOcรฉan : quand nos oreilles deviennent nos yeux
1.4 La grande famille des mammifรจres marins
1.5 Lโentreprise SERCEL et lโenvironnement sismique
1.6 Problรฉmatique et dรฉmarche scientifique adoptรฉe
2 La classification en bioacoustique
2.1 La classification en gรฉnรฉral
2.2 Formulation mathรฉmatique de notre problรฉmatique
2.3 Vue dโensemble gรฉnรฉrale des รฉtapes de la reconnaissance
2.4 La notion de classes de signaux
2.5 La reprรฉsentation des donnรฉes
2.6 Les descripteurs
2.7 Apprentissage et architecture des mรฉthodes de reconnaissance
2.8 La validation des mรฉthodes de reconnaissance
2.9 Conclusion
3 SINR-SRC
3.1 Mรฉthodologie
3.2 Rรฉsultats expรฉrimentaux
3.3 Auto-apprentissage incrรฉmental semi-supervisรฉe
3.4 Niveau de confiance
3.5 Conclusion
4 Une extension de SINR-SRC : le dรฉtecteur multiclasses
4.1 Mise en ลuvre dโun dรฉtecteur multiclasses
4.2 Rรฉsultats expรฉrimentaux
4.3 Conclusion et perspectives
Conclusion gรฉnรฉrale
Tรฉlรฉcharger le rapport complet