Outils d’apprentissage automatique pour la reconnaissance de signaux temporels

Lโ€™apprentissage automatique (Machine learning) est une discipline vouรฉe ร  mettre en place des thรฉories et des algorithmes permettant ร  une machine dโ€™apprendre automatiquement des rรจgles dโ€™analyse et de dรฉcision. Ces rรจgles automatiques couvrent les besoins en traitement des donnรฉes tels que la reprรฉsentation, lโ€™extraction dโ€™information et la reconnaissance automatique. De maniรจre moins formelle, lโ€™apprentissage automatique consiste ร  transfรฉrer un dรฉfaut de connaissance a priori de lโ€™expert vers une machine (un ordinateur). Celle-ci, plus ร  mรชme quโ€™un Homme dโ€™explorer un vaste ensemble dโ€™hypothรจses, doit alors construire, par elle-mรชme, un outil rรฉpondant au besoin de lโ€™expert. En ce sens, lโ€™apprentissage automatique rรฉpond ร  lโ€™impossibilitรฉ de modรฉliser un phรฉnomรจne pour en distiller lโ€™information utile. Lโ€™ordinateur, de concert avec les algorithmes et les thรฉories dโ€™apprentissage automatique, se prรฉsente comme un moyen alternatif dโ€™arriver au but recherchรฉ, en remplaรงant la capacitรฉ dโ€™abstraction et de rรฉflexion de lโ€™Homme par lโ€™exploration systรฉmatique dโ€™un espace dโ€™hypothรจses.

ร‰Lร‰MENTS Dโ€™APPRENTISSAGE STATISTIQUE

Lโ€™apprentissage statistique est une discipline des mathรฉmatiques appliquรฉes ร  la frontiรจre de quatre domaines : les statistiques, lโ€™analyse fonctionnelle, lโ€™optimisation et lโ€™informatique. Elle regroupe un ensemble de mรฉthodes visant ร  modรฉliser un phรฉnomรจne physique ร  partir dโ€™observations de celui-ci et des moyens calculatoires actuels, de la maniรจre la plus directe possible. Les statistiques incarnent le fondement de cette discipline, par le cadre thรฉorique quโ€™elles fournissent, permettant ainsi de gรฉnรฉraliser des propriรฉtรฉs infรฉrรฉes des observations antรฉrieures ร  toute observation inรฉdite. Les modรจles utilisรฉs pour dรฉcrire le phรฉnomรจne physique dโ€™intรฉrรชt tiennent leurs origines de lโ€™analyse fonctionnelle et sont souvent (mais pas nรฉcessairement) dรฉterminรฉs par la rรฉsolution dโ€™un problรจme dโ€™optimisation (i.e. un problรจme consistant ร  dรฉterminer les minima dโ€™une fonction dโ€™รฉnergie, plus couramment appelรฉe fonction de coรปt), mettant en jeu tout un panel dโ€™algorithmes et bien entendu, des systรจmes informatiques adรฉquats. Il est un principe important en apprentissage statistique (que lโ€™on peut rรฉsumer par utiliser la maniรจre la plus directe) : il est sage dโ€™รฉviter toute รฉtape intermรฉdiaire entre les donnรฉes et le but ร  atteindre (la modรฉlisation du phรฉnomรจne) car il y a fort ร  parier que les marches intermรฉdiaires soient individuellement plus difficiles ร  franchir que le but recherchรฉ lui-mรชme. Ainsi, lโ€™apprentissage statistique se place de facto en opposition aux approches bayรฉsiennes qui cherchent systรฉmatiquement ร  capturer le mรฉcanisme de gรฉnรฉration des observations, peu importe le but recherchรฉ. En pratique, il est souvent plus difficile dโ€™accรฉder ร  une telle information quโ€™ร  une reprรฉsentation du phรฉnomรจne dโ€™intรฉrรชt.

Formalisme

Les observations que nous avons mentionnรฉes auparavant sont des vecteurs caractรฉristiques x, regroupant des descripteurs appelรฉs variables explicatives. Il est alors dโ€™usage de distinguer deux branches de lโ€™apprentissage statistique : lโ€™apprentissage supervisรฉ et nonsupervisรฉ. Dans ce dernier, les observations sont au centre des dรฉbats et lโ€™on va, par exemple, chercher ร  mettre en place des techniques de sรฉparation aveugle (Analyse en Composantes Principales (ACP), analyse en composantes indรฉpendantes, factorisation de matrices, etc.) et de crรฉation automatique de groupes (clustering). En apprentissage supervisรฉ, chaque observation x est accompagnรฉe dโ€™une รฉtiquette y (elle aussi observรฉe), aussi appelรฉe variable expliquรฉe. De maniรจre plus rigoureuse, une observation est un couple (x, y) dont la premiรจre partie sert ร  expliquer la deuxiรจme. La finalitรฉ de lโ€™apprentissage supervisรฉ est, ร  partir dโ€™observations รฉtiquetรฉes, dโ€™infรฉrer une rรจgle f donnant lโ€™รฉtiquette y associรฉe ร  une observation inรฉdite x ; autrement dit, dโ€™รฉtablir un lien de cause ร  effet entre les deux entitรฉes : y = f(x).

Suivant la nature de lโ€™รฉtiquette y, on distingue trois familles dโ€™approches :
โ–ย la rรฉgression : les รฉtiquettes sont prises dans R ;
โ– la classification multi-classe : les รฉtiquettes proviennent de J1, KK (K รฉtant un entier au moins รฉgale ร  3) ;
โ– la classification binaire : les รฉtiquettes sont dans {โˆ’1, 1}, abrรฉgรฉ {ยฑ1}. Il est รฉquivalent de concevoir les รฉtiquettes dans {1, 2} mais la notation prรฉcรฉdente simplifie les expressions mathรฉmatiques.

Pour la suite de ce manuscrit (et conformรฉment ร  nos travaux), nous nous placerons dans le cadre de lโ€™apprentissage supervisรฉ et nous nous concentrerons sur des problรจmes de classification binaire. Une grande partie de ce qui est รฉcrit dans cet chapitre (concernant lโ€™apprentissage automatique) peut รชtre naturellement รฉtendue ร  la rรฉgression et (de maniรจre moins รฉvidente) ร  la classification multi-classe. En revanche, nous ne traiterons aucunement dโ€™apprentissage statistique non-supervisรฉ.

Interprรฉtation gรฉomรฉtriqueย 

Jusquโ€™ici, nous avons prรฉsentรฉ les SVM comme des outils dโ€™apprentissage statistique possรฉdant une particularitรฉ fonctionnelle (lโ€™utilisation dโ€™un RKHS comme espace des hypothรจses) qui, par la suite, se sont ouverts ร  plusieurs variantes ร  travers le choix des fonctions de rรฉgularisation et de perte. Ce serait un tort de nรฉgliger lโ€™interprรฉtation gรฉomรฉtrique dโ€™une SVM, qui donne une intuition de la notion de rรฉgularisation, diffรฉrente de celle consistant ร  limiter les variations de f.

Pour ce faire, nous introduisons ร  prรฉsent le concept dโ€™espace de redescription, qui reprรฉsente un nouvel espace de Hilbert, potentiellement de grande dimension, dans lequel les donnรฉes sont rรฉarrangรฉes et traitรฉes comme deux classes linรฉairement sรฉparables. Le thรฉorรจme suivant, dรป ร  Aronszajn, nous affirme lโ€™existence dโ€™un tel espace et dโ€™une fonction de redescription permettant de lier les entrรฉes ร  leurs images dans ledit espace.

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

Introduction
Motivations
Contributions
Organisation du manuscrit
Publications
1 Apprentissage automatique
1.1 Introduction
1.2 ร‰lรฉments dโ€™apprentissage statistique
1.2.1 Formalisme
1.2.2 Approche bayรฉsienne
1.2.3 Approche frรฉquentiste
1.2.4 Optimisation et convexitรฉ
1.3 Machine ร  vecteurs supports
1.3.1 Dรฉfinition fonctionnelle
1.3.2 Approche numรฉrique
1.3.3 Interprรฉtation gรฉomรฉtrique
1.4 Sรฉlection de modรจle
1.4.1 Risque structurel
1.4.2 Critรจres
1.4.3 Apprentissage de noyau multiple
1.4.4 Apprentissage de noyau multiple genรฉralisรฉ
1.5 Apprentissage dโ€™instance multiple
1.5.1 Dรฉfinition
1.5.2 Algorithmes
1.6 Synthรจse
2 Reconnaissance de signaux
2.1 Introduction
2.2 Descripteurs
2.3 Agrรฉgation
2.4 Transformรฉes temps-caractรฉristique
2.4.1 Distribution bilinรฉaire
2.4.2 Banc de filtres
2.4.3 Rรฉseau neuronal
2.4.4 Transformรฉe en ondelettes
2.4.5 Diffusion dโ€™ondelettes
2.4.6 Dictionnaire
2.5 Reconnaissance prรฉcoce
2.5.1 Motivations
2.5.2 Classification
2.5.3 Dรฉtection
2.6 Synthรจse
3 Apprentissage dโ€™une reprรฉsentation TF convolutive
3.1 Introduction
3.2 Formalisation du problรจme
3.3 Approche directe
3.3.1 Cas dโ€™รฉcole
3.3.2 Cas gรฉnรฉral
3.3.3 Comparaison numรฉrique
3.4 Rรฉgularisation par famille gรฉnรฉratrice
3.4.1 Restriction du problรจme
3.4.2 Apprentissage de la transformรฉe temps-frรฉquence
3.4.3 Conditions dโ€™รฉquilibre
3.4.4 Dรฉtails dโ€™implรฉmentation
3.4.5 Dรฉtermination automatique de la fonction dโ€™agrรฉgation
3.4.6 Relation avec lโ€™รฉtat de lโ€™art
3.5 Expรฉriences numรฉriques
3.5.1 Paramรฉtrisation des mรฉthodes
3.5.2 Donnรฉes synthรฉtiques
3.5.3 Problรจme dโ€™interface cerveau-machine
3.5.4 Scรจnes acoustiques
3.6 Synthรจse
4 Un modรจle de dรฉtecteur prรฉcoce
4.1 Introduction
4.2 Dรฉtection prรฉcoce
4.2.1 Espace de similaritรฉ
4.2.2 Modรจle pour la dรฉtection prรฉcoce
4.2.3 Une reprรฉsentation par similaritรฉs adรฉquate
4.3 Algorithme dโ€™apprentissage et analyse de complexitรฉ
4.3.1 Problรจme dโ€™apprentissage
4.3.2 Algorithme par ensemble actif
4.3.3 Algorithme incrรฉmental
4.3.4 Complexitรฉ du modรจle
4.4 Discussion
4.5 Expรฉriences numรฉriques
4.5.1 Comparaison des approches de rรฉsolution
4.5.2 Fiabilitรฉ
4.5.3 Prรฉcocitรฉ
4.5.4 Fonctionnement en temps rรฉel
4.6 Synthรจse
Conclusion

Lire le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *