Lโapprentissage automatique (Machine learning) est une discipline vouรฉe ร mettre en place des thรฉories et des algorithmes permettant ร une machine dโapprendre automatiquement des rรจgles dโanalyse et de dรฉcision. Ces rรจgles automatiques couvrent les besoins en traitement des donnรฉes tels que la reprรฉsentation, lโextraction dโinformation et la reconnaissance automatique. De maniรจre moins formelle, lโapprentissage automatique consiste ร transfรฉrer un dรฉfaut de connaissance a priori de lโexpert vers une machine (un ordinateur). Celle-ci, plus ร mรชme quโun Homme dโexplorer un vaste ensemble dโhypothรจses, doit alors construire, par elle-mรชme, un outil rรฉpondant au besoin de lโexpert. En ce sens, lโapprentissage automatique rรฉpond ร lโimpossibilitรฉ de modรฉliser un phรฉnomรจne pour en distiller lโinformation utile. Lโordinateur, de concert avec les algorithmes et les thรฉories dโapprentissage automatique, se prรฉsente comme un moyen alternatif dโarriver au but recherchรฉ, en remplaรงant la capacitรฉ dโabstraction et de rรฉflexion de lโHomme par lโexploration systรฉmatique dโun espace dโhypothรจses.
รLรMENTS DโAPPRENTISSAGE STATISTIQUE
Lโapprentissage statistique est une discipline des mathรฉmatiques appliquรฉes ร la frontiรจre de quatre domaines : les statistiques, lโanalyse fonctionnelle, lโoptimisation et lโinformatique. Elle regroupe un ensemble de mรฉthodes visant ร modรฉliser un phรฉnomรจne physique ร partir dโobservations de celui-ci et des moyens calculatoires actuels, de la maniรจre la plus directe possible. Les statistiques incarnent le fondement de cette discipline, par le cadre thรฉorique quโelles fournissent, permettant ainsi de gรฉnรฉraliser des propriรฉtรฉs infรฉrรฉes des observations antรฉrieures ร toute observation inรฉdite. Les modรจles utilisรฉs pour dรฉcrire le phรฉnomรจne physique dโintรฉrรชt tiennent leurs origines de lโanalyse fonctionnelle et sont souvent (mais pas nรฉcessairement) dรฉterminรฉs par la rรฉsolution dโun problรจme dโoptimisation (i.e. un problรจme consistant ร dรฉterminer les minima dโune fonction dโรฉnergie, plus couramment appelรฉe fonction de coรปt), mettant en jeu tout un panel dโalgorithmes et bien entendu, des systรจmes informatiques adรฉquats. Il est un principe important en apprentissage statistique (que lโon peut rรฉsumer par utiliser la maniรจre la plus directe) : il est sage dโรฉviter toute รฉtape intermรฉdiaire entre les donnรฉes et le but ร atteindre (la modรฉlisation du phรฉnomรจne) car il y a fort ร parier que les marches intermรฉdiaires soient individuellement plus difficiles ร franchir que le but recherchรฉ lui-mรชme. Ainsi, lโapprentissage statistique se place de facto en opposition aux approches bayรฉsiennes qui cherchent systรฉmatiquement ร capturer le mรฉcanisme de gรฉnรฉration des observations, peu importe le but recherchรฉ. En pratique, il est souvent plus difficile dโaccรฉder ร une telle information quโร une reprรฉsentation du phรฉnomรจne dโintรฉrรชt.
Formalisme
Les observations que nous avons mentionnรฉes auparavant sont des vecteurs caractรฉristiques x, regroupant des descripteurs appelรฉs variables explicatives. Il est alors dโusage de distinguer deux branches de lโapprentissage statistique : lโapprentissage supervisรฉ et nonsupervisรฉ. Dans ce dernier, les observations sont au centre des dรฉbats et lโon va, par exemple, chercher ร mettre en place des techniques de sรฉparation aveugle (Analyse en Composantes Principales (ACP), analyse en composantes indรฉpendantes, factorisation de matrices, etc.) et de crรฉation automatique de groupes (clustering). En apprentissage supervisรฉ, chaque observation x est accompagnรฉe dโune รฉtiquette y (elle aussi observรฉe), aussi appelรฉe variable expliquรฉe. De maniรจre plus rigoureuse, une observation est un couple (x, y) dont la premiรจre partie sert ร expliquer la deuxiรจme. La finalitรฉ de lโapprentissage supervisรฉ est, ร partir dโobservations รฉtiquetรฉes, dโinfรฉrer une rรจgle f donnant lโรฉtiquette y associรฉe ร une observation inรฉdite x ; autrement dit, dโรฉtablir un lien de cause ร effet entre les deux entitรฉes : y = f(x).
Suivant la nature de lโรฉtiquette y, on distingue trois familles dโapproches :
โย la rรฉgression : les รฉtiquettes sont prises dans R ;
โ la classification multi-classe : les รฉtiquettes proviennent de J1, KK (K รฉtant un entier au moins รฉgale ร 3) ;
โ la classification binaire : les รฉtiquettes sont dans {โ1, 1}, abrรฉgรฉ {ยฑ1}. Il est รฉquivalent de concevoir les รฉtiquettes dans {1, 2} mais la notation prรฉcรฉdente simplifie les expressions mathรฉmatiques.
Pour la suite de ce manuscrit (et conformรฉment ร nos travaux), nous nous placerons dans le cadre de lโapprentissage supervisรฉ et nous nous concentrerons sur des problรจmes de classification binaire. Une grande partie de ce qui est รฉcrit dans cet chapitre (concernant lโapprentissage automatique) peut รชtre naturellement รฉtendue ร la rรฉgression et (de maniรจre moins รฉvidente) ร la classification multi-classe. En revanche, nous ne traiterons aucunement dโapprentissage statistique non-supervisรฉ.
Interprรฉtation gรฉomรฉtriqueย
Jusquโici, nous avons prรฉsentรฉ les SVM comme des outils dโapprentissage statistique possรฉdant une particularitรฉ fonctionnelle (lโutilisation dโun RKHS comme espace des hypothรจses) qui, par la suite, se sont ouverts ร plusieurs variantes ร travers le choix des fonctions de rรฉgularisation et de perte. Ce serait un tort de nรฉgliger lโinterprรฉtation gรฉomรฉtrique dโune SVM, qui donne une intuition de la notion de rรฉgularisation, diffรฉrente de celle consistant ร limiter les variations de f.
Pour ce faire, nous introduisons ร prรฉsent le concept dโespace de redescription, qui reprรฉsente un nouvel espace de Hilbert, potentiellement de grande dimension, dans lequel les donnรฉes sont rรฉarrangรฉes et traitรฉes comme deux classes linรฉairement sรฉparables. Le thรฉorรจme suivant, dรป ร Aronszajn, nous affirme lโexistence dโun tel espace et dโune fonction de redescription permettant de lier les entrรฉes ร leurs images dans ledit espace.
|
Table des matiรจres
Introduction
Motivations
Contributions
Organisation du manuscrit
Publications
1 Apprentissage automatique
1.1 Introduction
1.2 รlรฉments dโapprentissage statistique
1.2.1 Formalisme
1.2.2 Approche bayรฉsienne
1.2.3 Approche frรฉquentiste
1.2.4 Optimisation et convexitรฉ
1.3 Machine ร vecteurs supports
1.3.1 Dรฉfinition fonctionnelle
1.3.2 Approche numรฉrique
1.3.3 Interprรฉtation gรฉomรฉtrique
1.4 Sรฉlection de modรจle
1.4.1 Risque structurel
1.4.2 Critรจres
1.4.3 Apprentissage de noyau multiple
1.4.4 Apprentissage de noyau multiple genรฉralisรฉ
1.5 Apprentissage dโinstance multiple
1.5.1 Dรฉfinition
1.5.2 Algorithmes
1.6 Synthรจse
2 Reconnaissance de signaux
2.1 Introduction
2.2 Descripteurs
2.3 Agrรฉgation
2.4 Transformรฉes temps-caractรฉristique
2.4.1 Distribution bilinรฉaire
2.4.2 Banc de filtres
2.4.3 Rรฉseau neuronal
2.4.4 Transformรฉe en ondelettes
2.4.5 Diffusion dโondelettes
2.4.6 Dictionnaire
2.5 Reconnaissance prรฉcoce
2.5.1 Motivations
2.5.2 Classification
2.5.3 Dรฉtection
2.6 Synthรจse
3 Apprentissage dโune reprรฉsentation TF convolutive
3.1 Introduction
3.2 Formalisation du problรจme
3.3 Approche directe
3.3.1 Cas dโรฉcole
3.3.2 Cas gรฉnรฉral
3.3.3 Comparaison numรฉrique
3.4 Rรฉgularisation par famille gรฉnรฉratrice
3.4.1 Restriction du problรจme
3.4.2 Apprentissage de la transformรฉe temps-frรฉquence
3.4.3 Conditions dโรฉquilibre
3.4.4 Dรฉtails dโimplรฉmentation
3.4.5 Dรฉtermination automatique de la fonction dโagrรฉgation
3.4.6 Relation avec lโรฉtat de lโart
3.5 Expรฉriences numรฉriques
3.5.1 Paramรฉtrisation des mรฉthodes
3.5.2 Donnรฉes synthรฉtiques
3.5.3 Problรจme dโinterface cerveau-machine
3.5.4 Scรจnes acoustiques
3.6 Synthรจse
4 Un modรจle de dรฉtecteur prรฉcoce
4.1 Introduction
4.2 Dรฉtection prรฉcoce
4.2.1 Espace de similaritรฉ
4.2.2 Modรจle pour la dรฉtection prรฉcoce
4.2.3 Une reprรฉsentation par similaritรฉs adรฉquate
4.3 Algorithme dโapprentissage et analyse de complexitรฉ
4.3.1 Problรจme dโapprentissage
4.3.2 Algorithme par ensemble actif
4.3.3 Algorithme incrรฉmental
4.3.4 Complexitรฉ du modรจle
4.4 Discussion
4.5 Expรฉriences numรฉriques
4.5.1 Comparaison des approches de rรฉsolution
4.5.2 Fiabilitรฉ
4.5.3 Prรฉcocitรฉ
4.5.4 Fonctionnement en temps rรฉel
4.6 Synthรจse
Conclusion