Evaluation du risque de SMS-MS
Machines a vecteur de support
Les machines a vecteurs de support (SVM pour support vector machine) sont decrites dans (Cortes & Vapnik, 1995), qui les ont developpees a l’origine pour la reconnaissance optique de caracteres. Le modele est base sur une approche geometrique : trouver un hyperplan qui separe les deux groupes (SMS-MS ou non SMS-MS) avec la marge maximale. Le principe est illustre dans la Figure 1, dans un espace tres simplifie constitue de seulement deux dimensions. Sur la figure, il existe une infinite de separateurs possibles entre les 2 groupes (points noirs vs points blancs). Il est neanmoins intuitif que l’hyperplan choisi, passant le plus loin possible des observations les plus proches et donc maximisant la marge, est un meilleur separateur. Les observations les plus proches de l’hyperplan, delimitant la marge, sont appelees vecteurs de support.
La plupart des problemes reels ne sont pas lineairement separables. Pour que les SVMs soient utilisables sur ces problemes, on peut alors utiliser deux techniques : la redescription dans un espace de dimension superieure et la marge souple (soft margin). La redescription dans un espace de dimension superieure peut permettre de trouver un separateur lineaire. On utilise pour ce changement de dimension une fonction non lineaire φ, qui permet de convertir les observations x de l’espace d’origine en φ(x) dans l’espace de redescription. On recherchera alors dans cet espace l’hyperplan 0 = w
・ φ(x) + w0 separateur avec la marge maximale. Il n’est pas necessaire de connaitre φ pour trouver cet hyperplan. En effet, le calcul de l’hyperplan necessite seulement la connaissance du produit scalaire entre les points de l’espace de redescription. Il suffit donc de definir une fonction noyau verifiant K(x1,x2) = φ(x1)
・ φ(x2) pour etre capable de trouver l’hyperplan. Cette « astuce du noyau » (kernel trick) a pour avantage de reduire le temps de calcul, car le calcul des produits scalaires dans l’espace de redescription, de dimension plus elevee, serait plus long. Les fonctions noyaux les plus classiquement utilisees sont le noyau lineaire, le noyau polynomial, et le noyau gaussien ou radial (Burges, 1998). Nous avons utilise un noyau lineaire, K(x1,x2) = x1
・ x2, qui correspond en fait a une absence de changement d’espace. La marge souple introduit une tolerance pour des observations mal classees lors du calcul de l’hyperplan separateur. La methode ne recherchera alors plus un hyperplan parfaitement separateur, mais un hyperplan qui minimise le cout lie aux erreurs de classement. Cela permet de gerer les cas non lineairement separables, mais aussi de limiter le risque de surapprentissage, en mettant en balance un cout lie aux poids du modele et un cout lie aux erreurs de classification. Le package e1071 a ete utilise pour ce classifieur.
Reseaux de neurones artificiels
Les reseaux de neurones artificiels sont bases sur une formalisation des reseaux de neurones biologiques (McCulloch & Pitts, 1943). Ils ont initialement ete developpes afin de mieux comprendre l’activite nerveuse. Puis, des etudes ont suggere que le cerveau utilise le meme algorithme pour traiter de multiples problemes differents (hypothese de l’algorithme d’apprentissage unique) (Metin & Frost, 1989 ; Roe et al., 1992). Ainsi, imiter les methodes de traitement de l’information utilisees dans le cerveau pourrait fournir un algorithme d’apprentissage automatique tres puissant et polyvalent : c’est ce que les reseaux de neurones artificiels tentent d’accomplir. La Figure 2 presente un perceptron multicouche, qui est un type classique de reseau de neurones.
Les neurones sont modelises comme des unites ayant des entrees (equivalents de dendrites) et une sortie (equivalent de l’axone). Ces unites utilisent une fonction d’activation (souvent une fonction logistique) pour determiner la valeur de sortie. Ils sont organises en couches, avec une couche d’entree qui recoit les donnees (variables explicatives), une couche de sortie qui produit la classification, et une ou plusieurs couches cachees entre les deux. Cette structure permet aux reseaux de neurones de modeliser des interactions complexes, des operateurs logiques (AND, OR, XOR…) et des relations non lineaires (Geman et al.,1992). Cependant, il faut suffisamment de donnees pour pouvoir estimer les differents parametres du modele quand le reseau choisi est complexe. Nous avons utilise un perceptron multicouche simple, avec une couche cachee contenant 10 unites. Nous avons implemente le package simpleNeural pour ce classifieur.
Evaluation des resultats, critere de jugement
Le critere principal pour comparer les performances des differentes methodes etait leur aire sous la courbe ROC (AUC). Ces AUCs ont ete calculees a partir d’une validation croisee 10-fold repetee (Kohavi, 1995). Dans une validation croisee 10-fold, les donnees sont divisees en une partition aleatoire de 10 blocs de meme taille et ayant la meme proportion de malades et de non-malades que l’echantillon total (validation croisee dite ≪ stratifiee ≫, qui ameliore l’estimation du taux d’erreur par rapport a une validation croisee non stratifiee (Boulesteix et al., 2008)).
Puis, on entraine le classifieur sur un echantillon d’apprentissage constitue de 9 blocs, et on l’applique sur le bloc restant : on obtient des valeurs predites sur ce bloc. L’operation est repetee 10 fois, chaque fois avec un bloc different comme echantillon de validation et les 9 autres comme echantillon d’apprentissage. La validation croisee a ete repetee sur 72 partitions differentes, afin de reduire la variance inherente a la validation croisee (Braga-Neto & Dougherty, 2004 ; Kim, 2009) tout en gardant un cout de calcul raisonnable. Les AUCs ont ensuite ete comparees par bootstrap (10000 iterations), avec un seuil de significativite defini a 5 %. Les sensibilite, specificite, valeur predictive positive (VPP) et valeur predictive negative (VPN) ont ete calculees avec un seuil de decision determine automatiquement par une fonction de cout. Puisque le modele a pour objectif le depistage, nous avons cherche a maximiser la sensibilite : la fonction de cout a donc utilise un cout de 0 pour une classification correcte, de 1 pour un faux positif et de 10 pour un faux negatif.
Comparaison des méthodes de classification
Les methodes d’apprentissage automatique ont obtenu, a l’exception du SVM (et des forets aleatoires sur les donnees utilisant le score de Karasek agrege), une precision de classification similaire ou superieure a celle de la regression logistique sans selection de variables. Cette difference peut probablement s’expliquer par la meilleure robustesse de ces methodes par rapport a la regression logistique en presence d’un grand nombre de variables. L’amelioration notable de l’AUC obtenue par la regression logistique lorsque le jeu de donnees est simplifie par l’agregation du score de Karasek, divisant par deux le nombre de variables (de 45 a 22 variables), soutient cette explication. Il pourrait etre avance que nous avons fait un usage suboptimal de la regression logistique, puisque les variables n’ont pas ete soigneusement choisies a la main, comme il est habituel en epidemiologie, mais ont ete choisies automatiquement a la place.
Cependant, dans un contexte de validation croisee, la selection automatique est la seule methode faisable (et c’est ce qui est generalement utilise en apprentissage automatique). Afin de compenser pour cette penalite potentielle, nous avons realise 3 regressions logistiques, utilisant soit aucune selection, soit une selection ≪ enveloppe ≫ (stepwise), soit une selection ≪ embarquee ≫ (elastic net). Nous n’avons pas utilise de selection par ≪ filtre ≫, mais les filtres sont connus pour etre de moins bonnes methodes de selection en terme de performance de classification : en pratique, ils sont utilises essentiellement quand le nombre de variables est tres eleve, parce qu’ils sont bien moins demandeurs en temps de calcul que les autres types de methodes de selection (Dernoncourt et al., 2014 ; Pudil & Somol, 2008). Pour les autres methodes de classification, nous avons uniquement realise la classification directement, sans selection de variables, afin de garder des temps de calcul raisonnables et de ne pas multiplier les comparaisons. En consequence, il est possible que nous ayons perdu un peu de precision sur ces methodes. Cependant, cette perte est tres probablement negligeable, etant donne d’une part la degradation des performances de toutes les methodes sauf la regression sans selection et LDA sur les donnees avec Karasek agrege, et d’autre part que 45 variables est un (tres) petit nombre de variables initial pour un probleme d’apprentissage automatique avec un echantillon de pres de 1500 observations. Certains auteurs recommandent d’ailleurs de ne pas effectuer de selection de variables avec ces Evaluation du risque de TMS – methodes de classification, sauf si cela est rendu necessaire par le temps de calcul (Munson & Caruana, 2009), ce qui n’est pas le cas ici.
La comparaison des performances des differentes methodes est limitee par un manque de puissance, et les differences observees ne sont, a l’exception de la mauvaise performance du SVM sur le jeu de donnees reduit, pas statistiquement significatives. Cependant, le manque de puissance est un probleme courant dans les etudes de comparaison de methodes utilisant des donnees non-artificielles, a tel point que le calcul de la significativite est souvent mis de cote (Caocci et al., 2013 ; Hubbard et al., 2013 ; Rose, 2013). Nos resultats montrent des tendances comparables a celles observees dans la litterature : le reseau de neurones artificiels a obtenu de meilleures performances que la regression logistique (Caocci et al., 2013), SuperLearner egalement (Hubbard et al., 2013), et SuperLearner etait parmi les meilleures methodes (Rose, 2013). La difference la plus notable avec cette derniere etude etait la tres mauvaise performance des reseaux de neurones dans celle-ci alors que le reseau de neurones a obtenu les meilleures performances dans notre etude. Cette difference pourrait peut-etre s’expliquer par le tres petit nombre d’unites cachees utilisees par Rose (seulement 2), alors que nous en avons utilisees 10 et que Caoci et al. en ont utilisees 30. La regression logistique avec filet elastique et DLDA ont obtenu d’aussi bons resultats que le reseau de neurones artificiels et SuperLearner, alors que seuls ces derniers sont capables de decouvrir automatiquement des interactions simples ou complexes. Ceci suggere soit qu’il n’y a pas d’interactions entre les variables, soit que ces interactions ne sont pas utiles a la classification.
|
Table des matières
Liste des abbreviations
Plan
1 Introduction
2 Materiels et Methodes
2.1 Donnees
2.1.1 Echantillon d’etude
2.1.2 Variables
2.2 Methodes
2.2.1 Methodes de classification
2.2.1.1 Regression logistique
2.2.1.2 Analyse discriminante lineaire et analyse discriminante lineaire diagonale
2.2.1.3 Forets aleatoires
2.2.1.4 Machines a vecteur de support
2.2.1.5 Reseaux de neurones artificiels
2.2.1.6 SuperLearner
2.2.2 Evaluation des resultats, critere de jugement
3 Résultats
4 Discussion et conclusion
4.1 Comparaison des methodes de classification
4.2 Variables selectionnees dans le modele filet elastique
4.3 Evaluation du risque de SMS-MS
Références
Liste des figures
Liste des tableaux
Table des matieres
Annexes
Annexe 1 : Statistiques descriptives des variables utilisees dans les modeles
Annexe 2 : Questionnaire de suivi de l’enquete COSALI
Télécharger le rapport complet