Propriété fondamentale des réseaux de neurones non bouclés

GENERALISATION ET ESTIMATION DES PERFORMANCES

Résumé

Dans la pratique, l’objectif d’une modélisation statistique n’est pas d’ajuster finement un modèle sur un ensemble d’apprentissage, mais d’obtenir un bon compromis entre performances d’apprentissage et performances de généralisation. Il existe principalement deux manières de résoudre ce dilemme entre le biais et la variance de la famille de fonctions considérée :

• les méthodes de validation croisée, qui scindent la base de données disponibles de manière à estimer les performances de généralisation du modèle sur des données n’ayant pas servi à l’apprentissage, ce qui permet, a posteriori, d’éliminer les solutions sur ajustées,
• la régularisation qui, par arrêt prématuré de l’apprentissage (early-stopping), ou par ajout d’un terme de pénalisation à la fonction de coût (weight decay), permet de pénaliser a priori les modèles à forte variance.

En réalité, le sur ajustement se traduit par une influence trop importante de certains exemples sur l’estimation des coefficients du modèle, qui peut ainsi s’ajuster très précisément à ces exemples. Nous allons étudier dans ce mémoire, par une approche théorique du leave-oneout, une manière de résoudre à la base ce phénomène de sur ajustement, que la validation croisée classique et la régularisation traitent de manière indirecte. Un cas de sur ajustement particulièrement simple à détecter concerne les modèles pour lesquels la matrice jacobienne Z n’est pas de rang plein. Nous nous proposons de le détecter numériquement en vérifiant les propriétés que doivent respecter les termes diagonaux hii de la matrice de projection Z (t ZZ) -1 tZ, et nous montrons qu’il correspond à des modèles pour lesquels certains coefficients sont sous-déterminés. Par ailleurs, nous présentons la notion d’intervalle de confiance sur la sortie du modèle. Nous utilisons dans ce mémoire une expression classique de cet intervalle, fondée sur un développement de Taylor de la sortie du modèle au voisinage de la solution des moindres carrés. Par opposition à la performance de généralisation du modèle, qui peut s’interpréter comme un intervalle de confiance associé à la mesure de la sortie du processus, les intervalles de confiance sur la sortie du modèle dépendent des entrées de ce dernier. Ils permettent ainsi de déterminer les zones de l’espace des entrées où – par manque d’exemples – la confiance sur la prédiction du modèle est trop faible.

En revanche, la détermination d’intervalles de confiance (ou de bornes) sur l’erreur de généralisation empirique, par rapport à l’erreur de généralisation théorique, fait depuis plusieurs années l’objet de recherches sur la théorie de l’apprentissage. Cependant, compte tenu du cadre de cette thèse, ces bornes ne sont pas exploitables pour l’instant.

Le dilemme biais / variance

Ce compromis a été formalisé en décomposant la performance moyenne d’un modèle – sur toutes les bases d’apprentissage possibles – en deux parties [Geman 92] : la première, appelée biais, rend compte de la différence moyenne entre le modèle et l’espérance mathématique de la grandeur à modéliser ; la seconde, appelée variance, reflète l’influence du choix de la base d’apprentissage sur le modèle.

Ce compromis peut certes s’obtenir en augmentant la taille de la base d’apprentissage, mais ce n’est malheureusement pas toujours possible. Dans la pratique, il existe principalement deux façons d’éviter le surajustement (cf. [Gallinari 97]), lorsqu’on dispose d’une base de donnée limitée :

• a posteriori, c’est-à-dire après apprentissage : le sur ajustement se détecte alors sur la base d’une estimation des performances de généralisation du modèle. La principale méthode utilisée dans le domaine des réseaux de neurones est la validation croisée (voir [Stone 74]), fondée sur un ré-échantillonnage de la base de données,
• a priori, c’est-à-dire en cours d’apprentissage (voire avant celui-ci) : il s’agit des techniques de régularisation, qui visent à pénaliser l’obtention de modèles sur ajustés, mais qui ne dispensent pas de l’étape d’estimation des performances du modèle.

On suppose généralement que le processus à modéliser comporte plusieurs entrées non bruitées et une sortie bruitée.

Enfin, il est également important de noter que la question de la sélection de l’architecture optimale est étroitement liée à celle de l’estimation des performances de généralisation du modèle : idéalement, ces deux étapes devraient être effectuées simultanément, de manière à comparer des architectures entre elles sur la base de l’estimation des performances de généralisation. En revanche, il peut être utile – dans certains cas – de séparer la sélection de la taille optimale du modèle, de l’apprentissage du modèle final. Pour ce faire, les notions de bases d’apprentissage et de validation concernent l’étape de sélection de la taille optimale. Dans un second temps, ces deux bases sont regroupées en une seule base d’apprentissage servant à concevoir le modèle final. Dans tous les cas, il est utile de disposer d’une base de test indépendante dont on se sert à la fin pour vérifier la validité et estimer les performances du modèle.

La validation croisée

Cette méthode repose sur une estimation des performances à partir d’exemples n’ayant pas servi à la conception du modèle. Pour ce faire, on scinde la base d’apprentissage en D parties de taille (approximativement) égale. On réalise alors D apprentissages du modèle, en laissant à chaque fois une des parties de côté pour le valider (cf. figure 2.3, tirée de [Bishop 97]). La performance du modèle s’obtient à partir des erreurs de validation constatées après les D apprentissages.

En utilisant la fonction de coût des moindres carrés, on procède généralement comme suit :
• pour chaque partie laissée de côté, on calcule l’erreur quadratique moyenne de validation (EQMV),
• à la fin, la performance de généralisation du modèle – appelée « score de validation croisée » – est estimée en réalisant la moyenne quadratique des D erreurs (EQMV) précédentes. Dans le contexte de réseaux de neurones, la recherche de l’architecture optimale s’effectue souvent en partant d’un modèle linéaire et en augmentant progressivement le nombre de neurones cachés. Le modèle optimal est alors défini comme étant celui qui présente le meilleur score de validation croisée. La limite naturelle de la validation croisée correspond au cas où D est égal au nombre d’exemples dans la base d’apprentissage. Cette méthode est connue sous le nom de « leaveone-out » (voir [Plutowski 94]) car chaque apprentissage n’est validé que sur un seul exemple. Les difficultés de cette méthode sont de deux ordres :
• le temps de calcul nécessaire, qui – pour une même base d’apprentissage est d’autant plus grand que D est élevé (il est donc maximum dans le cas du leave-one-out),
• des performances contrastées en termes de taille de l’architecture sélectionnée et d’estimation des performances. À ce niveau, deux cas sont à distinguer :
− le nombre d’exemples est grand au regard de la complexité de la fonction à approcher (nombre d’entrées, non-linéarité) : dans ce cas, le phénomène de sur ajustement est difficile à mettre en évidence. La méthode donne certes de bons résultats – même avec un petit nombre de partitions – mais sans grand mérite car il y a peu de risque de sur ajustement.
− le nombre d’exemples est petit au regard de la complexité de la fonction à approcher : on est obligé d’augmenter le nombre de partitions de façon à garder un nombre suffisant d’exemples pour réaliser l’apprentissage des D modèles. Les résultats montrent alors une tendance à la surestimation de la taille des modèles nécessaires et à la sous-estimation des scores de validation croisée. Ceci traduit un phénomène mis en évidence par [Breiman 96] : une petite modification des données d’apprentissage peut entraîner de grandes différences dans les modèles sélectionnés. Autrement dit, si l’on raisonne en termes de fonction de coût, les exemples dont on se sert pour estimer les paramètres d’un modèle peuvent grandement influencer les minima vers lesquels convergent les différents apprentissages. On parle alors d’instabilité vis-à-vis des données d’apprentissage : les EQMV calculées à partir des différentes partitions ne peuvent donc pas raisonnablement êtres moyennées pour estimer la performance de généralisation du modèle.

La littérature conseille généralement d’utiliser D = 10. Cependant, ne sachant pas a priori s’il dispose de « peu » ou de « beaucoup » d’exemples (au sens défini ci-dessus), le concepteur essaiera souvent différentes valeurs de D. Si l’on se rappelle qu’à partir d’une base d’apprentissage, il est recommandé de procéder à plusieurs initialisations des poids de façon à diminuer le risque de minima locaux, on arrive très vite à un nombre d’apprentissages très élevé. En soi, ceci n’est pas grave si les résultats de ces différents essais sont cohérents. Dans le cas contraire, le découragement peut rapidement intervenir.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
1 INTRODUCTION AUX RÉSEAUX DE NEURONES
Résumé
1.1 Introduction
1.1.1 Les neurones
1.1.2 Les réseaux de neurones non bouclés
1.2 Propriété fondamentale des réseaux de neurones non bouclés
1.2.1 L’approximation universelle
1.2.2 La parcimonie
1.2.3 De l’approximation de fonction à la modélisation statistique
1.3 Mise en œuvre des réseaux de neurones
1.3.1 la fonction de coût
1.3.2 Le calcul du gradient
1.3.3 L’algorithme d’optimisation
2 GÉNÉRALISATION ET ESTIMATION DES PERFORMANCES
Résumé
2.1 Introduction
2.2 Le dilemme biais / variance
2.3 La validation croisée
2.4 La régularisation
2.4.1 Early stopping
2.4.2 Pénalisation de la fonction de coût (weight decay)
2.5 Le surajustement
2.5.1 Discussion : qu’est-ce que le surajustement ?
2.5.2 Détection du surajustement
2.6 Les intervalles de confiance
2.6.1 Introduction
2.6.2 Différence entre performance du modèle et intervalle de confiance ?
2.6.3 Comment interpréter les intervalles de confiance ?
2.7 Bornes sur les performances de généralisation
3 ETUDE THÉORIQUE DU LEAVE-ONE-OUT
Résumé
3.1 Introduction
3.2 Approximation locale de la solution des moindres carrés
3.3 Effet du retrait d’un exemple de l’ensemble d’apprentissage
3.3.1 Effet du retrait d’un exemple sur sa prédiction
3.3.2 Effet du retrait d’un exemple sur l’intervalle de confiance de sa prédiction
3.3.3 Interprétation des hii
3.4 Validation des résultats de leave-one-out
3.4.1 Interprétation géométrique de l’estimation des performances en leave-one-out
3.4.2 Limite de l’approche : cas du retrait d’un exemple avec forte influence
3.5 Conclusion
4 UTILISATION DU LEAVE-ONE-OUT POUR LA SÉLECTION DE MODÈLES
Résumé
4.1 Introduction – définition du problème
4.2 Sélection de modèle sur la base des performances d’apprentissage (pour une
architecture donnée)
4.2.1 1ère méthode : choisir le modèle pour lequel l’EQMA est minimale
4.2.2 2ème méthode : choisir un « minimum de rang plein » de la fonction de coût
4.2.3 Conclusion
4.3 Sélection de modèle sur la base de Ea (pour une architecture donnée)
4.4 Sélection des minima sur la base de Ep (pour une architecture donnée)
4.4.1 Qualité de la sélection
4.4.2 Qualité de l’estimation des performances de généralisation
4.5 Sélection de l’architecture optimale
4.5.1 Utilisation des intervalles de confiance
4.5.2 Amélioration progressive des modèles
4.6 Conclusion
5 UN NOUVEL ALGORITHME D’APPRENTISSAGE
Résumé
5.1 Introduction
5.2 Algorithme pour la minimisation de J*
5.2.1 Calculs du coût et du gradient
5.2.3 Modification des coefficients
5.2.3.a Rappel : l’algorithme de Levenberg-Marquardt
5.2.3.b Adaptation à la minimisation de J*
5.2.4 En résumé
5.3 Mise en œuvre de l’algorithme
5.3.1 Etude des contraintes
5.3.2 Mise en œuvre de l’algorithme
5.4 Conclusion
6 INTRODUCTION AU SOUDAGE PAR POINTS
Résumé
6.1 Généralités
6.1.1 Principe
6.1.2 Déroulement du cycle de soudage
6.1.3 Paramètres de soudage
6.1.4 Mécanisme de formation de la soudure
6.1.4 Géométrie d’un point soudé
6.2 Caractérisation d’une tôle d’acier revêtues
6.2.1 Le domaine de soudabilité
6.2.2 La dégradation des électrodes
6.3 Conclusion
7 LA MODÉLISATION DU SOUDAGE PAR POINTS
Résumé
7.1 Introduction
7.2 Modélisation du soudage par points
7.2.1 La soudabilité d’une tôle
7.2.2 Le point soudé
7.2.3 La commande du soudage par points
7.2.4 Conclusion
7.3 Caractéristiques de la qualité de la soudure
7.3.1 Introduction
7.3.2 Les signaux électriques
7.3.3 Les signaux mécaniques
7.3.4 Conclusion
8 DÉVELOPPEMENT D’UN MODÈLE NEURONAL DU SOUDAGE PAR POINTS
Résumé
8.1 Introduction
8.2 Enjeux de la modélisation
8.2.1 Domaine de validité souhaité
8.2.2 Incertitude sur la mesure du diamètre de bouton
8.3 Principe de la modélisation
8.3.1 Base d’apprentissage initiale
8.3.2 Sélection des entrées
8.3.3 Modélisation et utilisation des intervalles de confiance
8.3.4 Conclusion
8.4 Application
8.4.1 Contrôle de la qualité des soudures
8.4.1.a Cas du produit GA
8.4.1.b Cas du produit GZ 2
8.4.1.c Conclusion et perspectives
8.4.2 Dégradation des électrodes
8.4.2.a Loi de commande utilisée
8.4.2.b Application aux produits GA et GZ 2
8.4.2.c Conclusion
8.5 Conclusion – perspectives industrielles
8.5.1 Conclusion
8.5.2 Perspectives industrielles
CONCLUSION