Problèmes de déséquilibre de classes
Topologie en couches
Si les unités élémentaires sont souvent très proches dans la plupart des systèmes neuronaux, c’est au niveau d’architecture de ces neurones que les systèmes se différencient. Il a été constaté que si les neurones sont placés en couches successives (les sorties d’un certain nombre de neurones sont les entrées des suivants et ainsi de suite jusqu’à la sortie), alors l’ensemble du réseau est capable de décider des problèmes plus complexes et peut aussi simuler n’importe quelle fonction booléenne. Ce type d’organisation (Figure 8) est appelé perceptron multicouche (PMC).
Les unités de calcul ne sont plus appelées perceptrons mais plus simplement neurones ou encore noeuds. Outre la topologie en couches, la principale différence avec la version de [Fa] vient de l’utilisation de fonctions d’activation dérivables et non linéaires telles que la sigmoïde, encore appelée fonction logistique. L’idée d’une telle topologie est ancienne et il a fallu attendre un certain nombre d’années pour voir apparaitre des algorithmes permettant de calculer les poids d’un tel réseau en particulier à cause de l’introduction des couches cachées. Proposé pour la première fois par [Pg] en 1974, l’utilisation de la rétro propagation du gradient de l’erreur dans des systèmes à plusieurs couches sera de nouveau mise au-devant de la scène en 1986 par [Pc], et simultanément, sous une appellation voisine, chez [Pcv] durant sa thèse. Ces réseaux sont souvent totalement connectés, ce qui signifie que chaque neurone d’une couche i est connecté à tous les neurones de la couche i+1. Par contre, dans un schéma classique, les neurones d’une même couche ne sont jamais reliés entre eux.
Les PMC sont essentiellement employés à deux taches le partitionnement d’un espace de formes pour des problèmes de classification et l’approximation de fonctions. Contrairement au perceptron de [Fa], le PMC peut représenter n’importe quelle fonction booléenne à n variables, bien que certaines puissent requérir un nombre exponentiel en n de neurones dans les couches cachées. Du fait de la non-linéarité de la sigmoïde comme fonction d’activation, les frontières de séparation s’adaptent mieux à chaque classe dans le cas d’un problème de classification. Cette propriété se retrouve aussi dans le cas de l’approximation de fonctions qui produit des courbes continues et lisses à la fois. Les PMC possèdent des propriétés mathématiques intéressantes. Beaucoup d’entré elles sont valables pour des réseaux a seulement deux couches cachées, ce qui témoigne de la puissance potentielle des PMC. Il est à noter que ces propriétés sont rarement constructives dans le sens ou bien qu’il soit démontré qu’un certain nombre de neurones soit suffisant pour réaliser une tache, la propriété ne donne aucune information sur la topologie à choisir afin de résoudre le problème (Annexe A .Propriétés mathématiques).
La majeure partie des propriétés sont prouvées sans l’hypothèse de l’utilisation de la sigmoïde, il suffit simplement que la fonction d’activation soit bornée (majorée et minorée), croissante et continue. La difficulté d’utilisation de ce réseau réside dans le fait qu’il faille déterminer sa topologie, il s’agit de définir le nombre de neurones des différentes couches ainsi que leurs interconnexions. Si le nombre de neurones cachés est trop faible, l’algorithme d’apprentissage n’arrivera pas à construire une représentation intermédiaire du problème qui soit linéairement séparable et certains des exemples ne seront pas appris correctement. Inversement, si ce nombre est trop élevé, il y a risque d’apprentissage par coeur du problème le réseau reconnait parfaitement les exemples d’apprentissage mais donnera des résultats médiocres sur des nouvelles données qu’il n’a pas vues durant l’apprentissage.
Apprentissage supervisé et asymétrie
Comme nous l’avons souligné en introduction , la prise en compte de l’asymétrie des classes en apprentissage est un problème relativement récent apparu dès lors que le data mining est devenu une technologie amplement utilisée dans l’industrie ,dans des exemples réels comme le diagnostic des maladies de la thyroïde [MA94], la gestion des défauts des boites de vitesses des hélicoptères[JMG95], la détection de fraudes téléphoniques [FP97], ou encore la recherche de gisements de pétrole sur des images satellites [KHM98]. L’asymétrie est devenu un défi majeur de l’apprentissage supervisé, le déséquilibre des jeux de données pouvant atteindre 1 pour 100, 1 pour 1000, 1 pour 10000 et souvent encore plus [CJK04]. Comme le notent Florian Ver hein et Sanjay Chawla [VC07] « dans des applications comme le diagnostic médical ou la détection de fraudes, les jeux de données déséquilibrés sont la norme et non l’exception ». La communauté scientifique du data mining s’est attelée à ces problèmes, et les ateliers qui y sont consacrés dans les principales conférences [WCS00, WLI00, WLI03, ID- 03, SI-04] témoignent de l’ampleur des définitions qui sont posés
Problèmes d’asymétrie Dans un article très complet sur le sujet ; Gary Weiss [Wei04] propose de les différents problèmes de l’asymétrie, en associant à chacun les méthodes adaptées. Ses conclusions sont les suivantes
Des études ont été menées pour déterminer quelles sont les méthodes les plus adaptées selon les caractéristiques du problème. Concernant l’échantillonnage, Houles [HKN07] préconise le sous-échantillonnage tant que le déséquilibre n’est pas trop fort (jusqu’à environ 10%), préférant le sur-échantillonnage lorsqu’il est au-delà (conclusion partagée par [BSGR03]). Japkowicz [Jap00b] confirme également Houles lorsqu’il préconise les méthodes d’échantillonnage aléatoires simples, ne constatant pas d’améliorations significatives avec les méthodes plus fines mais plus couteuses. Ce même auteur remarque par ailleurs que lorsque les classes sont facilement séparables, le déséquilibre affecte peu les modèles [Jap00a, VR05]. De plus un important résultat de Weiss et Prouvost montre que l’équilibre des classes n’est pas forcement la distribution qui permet d’avoir systématiquement les meilleurs résultats [WP03] ; la question que se posent à présent de nombreux auteurs est «quelle est la meilleure distribution ? »[VR05]. Enfin concernant les arbres de décision, Elkan [Elk01] préfère modifier uniquement le seuil de décision plutôt que modifier la composition du jeu de données.
Weiss propose une étude comparative entre approches sensibles aux coûts, suréchantillonnage et sous-échantillonnage [WMZ07]. Constatant qu’aucune méthode ne domine les autres systématiquement, il évalue ces différentes approches en fonction des caractéristiques du problème. Il conclue que sur les grands jeux de données (plus de 10 000 individus), l’apprentissage sensible aux coûts fournit de meilleurs résultats que l’échantillonnage. Sur les petits jeux de données par contre, c’est le sur-échantillonnage qui l’emporte. Enfin d’une manière générale, les auteurs notent qu’on ne peut pas départager le sur-échantillonnage du sous-échantillonnage les résultats varient beaucoup d’un jeu de données à l’autre. On retrouvé aussi que la méthode de moindre carré utiliser pour résoudre le problème de déséquilibre dans le processus d’apprentissage parce que cette méthode utilisée dans le chapitre 3 comme un algorithme de régulation de la base de donnés.
Apprentissage sur données déséquilibrés
Foster Prouvost rappelle dans l’éditorial de l’atelier sur les jeux de données déséquilibrés de la conférence AIII [Pro00] les fondements de la prise en compte du déséquilibre des classes en apprentissage. La plupart des algorithmes sont basés sur deux hypothèses (1) le critère à minimiser est le nombre d’erreurs et (2) le jeu de données d’apprentissage est un échantillon représentatif de la population sur laquelle le modèle sera appliqué. Ce sont ces deux hypothèses qui font que les modèles ne sont pas satisfaisants quand ils sont construits à partir de données déséquilibrées. On peut l’illustrer par un exemple simple si 99 % des donnée s’appartiennent à une seule classe, il sera difficile de faire mieux que le 1% d’erreur obtenu en classant tous les individus dans cette classe selon les hypothèses que nous venons de citer c’est même la meilleure chose à faire. Il convient donc de vérifier dans quelle mesure il est possible de se passer de ces hypothèses sans remettre en cause les fondements des algorithmes. Propose de distinguer plus précisément les différents problèmes des données déséquilibrées, et de l’apprentissage des classes rares. Nous allons les exposer dans points suivants.
|
Table des matières
Table des figures
Listes des tableaux
Liste des variations
Chapitre 1 Contexte médicale
Introduction générale
1.introduction
2.Contexte médical
2.1. Définition
2.2. Les principes types de diabète
2.2.1. Diabète de type 1
2.2.2. Diabète de type 2
2.2.3. Diabète gestationnel
2.3. Les symptômes
2.4. Cause du diabète
2.5. Tests pour le diagnostic du diabète
2.6. Le diabète dans le Monde
2.7. Diabète En Algérie
2.8. Complications
2.9. Prévention
2.9.1. Prévention primaire
2.9.2. Prévention secondaire
3.Facteurs de risque
4.Aide au diagnostic
Conclusion
Chapitre 2 Etat de l’art
1.Introduction
2.Fonctionnement général des méthodes de classification
2.1. Principe de la classification
2.2. Classification et techniques supervisées
2.2.1. Techniques inductives
2.Réseaux de neurones
2.2.1. Techniques inductives
3.Réseaux de neurones
3.1. Le neurone biologique
3.1.1. La structure d’un neurone se compose de trois parties
3.2. Le neurone formel (artificiel) (RNA)
3.2.1. Modélisation d’un neurone formel
3.3. Topologie en couches
3.3.1. Apprentissage
4.Problèmes de déséquilibre de classes
4.1. Problématique
4.1.1. Apprentissage supervisé et asymétrie
4.1.2 Problèmes d’asymétrie
4.2 Notation et concepts
4.3 Apprentissage supervisé et classification d’asymétries
4.4 Problèmes de l’asymétrie en apprentissage supervisé
4.4.1 Apprentissage sur données déséquilibrés
4.4.2 Asymétrie des coûts
4.5 Apprentissage supervisé sensible à l’asymétrie
4.5.1 Stratégies d’échantillonnage
4.5.2 Stratégies algorithmiques
5 Discussion
5.1 Synthèse
6 Conclusion
Chapitre 3 Expérimentation et discussion
1.Introduction
2.Base de données PIMA
3.Considération 1 classification par réseaux de neurone perceptron multicouche
3.1. Principe
3.2. Repartitionnement de la base
3.3. Les critères d’évaluation
3.4. Experementation et descution
4.Considération 2 méthode de moindre carrée
4.1. Définition de moindre carré
4 Principe
4.2 Experementation et descution
5 Comparaison entre les deux considérations
6 Conclusion
Conclusion Générale
Bibliographie
Télécharger le rapport complet