Le DRSVM, un problème de classification avec sélection de variables intelligente

Télécharger le fichier pdf d’un mémoire de fin d’études

Comment inclure des noyaux dans la formulation DRSVM

Le DRSVM est un problème qui inclut un processus de sélection de variables intelligent afin de construire un modèle interprétable. Cependant le DRSVM est dans sa formulation ini-tiale un problème linéaire et nous sommes donc limités dans le choix de la représentation des données pendant l’apprentissage. Or, dans une optique d’interprétabilité, il peut être justement intéressant de sortir du cadre linéaire et d’essayer de construire le modèle d’apprentissage, non pas à partir des variables d’origines, mais à partir de variables davantage explicatives appelées prototypes. Plus précisément nous avons recherché des formes de prototypes de manière à re-tenir dans le modèle final des variables symbolisant des relations de dépendance locale entre les points d’observation et les variables. Cela nous a conduit à nous intéresser aux noyaux (voir section 3.1) en raison de leur capacité à changer l’espace de représentation des données et d’englober dans leur formulation des informations relatives à la topologie et à la structure des données.
Une forme de modèle de type kernel appelée kernel basis a particulièrement retenu notre attention car elle permet d’associer des noyaux différents, ce qui est en adéquation avec notre recherche de prototypes spécifiques (voir section 3.2). Nous avons mené une étude théorique via la théorie des RKHS dont les conclusions nous indiquent qu’il est pertinent de nous orien-ter vers une pénalisation de type L1 − L2 (voir section 3.3). Ensuite nous avons réfléchi sur la manière de combiner le DRSVM avec le modèle kernel basis. La présence du terme de régulari-sation en norme 1 rend cependant difficile l’introduction de la kernelisation via les RKHS (voir section 3.4). A la place, nous avons choisi d’adopter une approche dictionnaire afin de coupler le problème DRSVM au modèle kernel basis (voir section 3.4). Enfin nous avons réalisé une série d’expérimentations sur des données synthétiques et des données réelles afin de valider la capacité de notre modèle à réaliser une tâche de classification tout en générant simultanément de l’interprétabilité (voir section 3.5).
Les apports principaux de cette thèse se composent d’une robustification d’un algorithme de chemin de régularisation appelé DRSVM et d’une proposition d’extension dans le cadre kernel basis dans une perspective d’interprétation de modèle.
Formulation du chemin λ1 DRSVM
Nous avons rencontré des problèmes structurels liés à la nature du chemin proposé pour l’algorithme DRSVM. En outre nous avons conjecturé que le paramètre par rapport auquel est construit le chemin n’est pas approprié. Nous avons alors réalisé une étude du problème DRSVM sous sa forme initiale. Mais ce dernier n’étant pas différentiable, il a été nécessaire de mener l’analyse via le prisme de la théorie de la sous-différentielle. Cela nous a conduit à proposer la construction d’un chemin linéaire par morceau par rapport au paramètre de régulari-sation λ1. Nous avons présenté cette approche lors de la conférence ESANN de 2014 [Lachaud et al., 2014].
Reformulation du problème DRSVM par les noyaux
Le DRSVM est, dans sa formulation initiale, un algorithme linéaire. Afin de l’adapter en modèle kernel basis, nous nous sommes interrogés sur la manière d’introduire les noyaux au sein de ce modèle. Le problème faisant intervenir dans sa structure un terme en norme 1, il est difficile d’induire la kernelisation de manière directe par le kernel trick. Aussi, nous avons opté pour une approche par dictionnaire afin d’introduire les noyaux au sein du DRSVM. Plus préci-sément nous avons explicité la forme du dictionnaire approprié afin d’obtenir une solution de la forme kernel basis. Une fois le dictionnaire construit nous avons résolu le problème DRSVM à l’aide de la résolution du chemin en norme 1 développée ci-dessus. Ensuite nous avons proposé pour une application de reconnaissance de formes dans des images un protocole afin d’illustrer l’aptitude de ce modèle à proposer des modèles pertinents et interprétables. Ce deuxième apport fait l’objet d’une publication en cours de rédaction d’un article journal portant sur la fusion du DRSVM et le kernel basis, dont la soumission est prévue début 2016.

Des données à l’information

Individuellement, chaque observation est définie par un ensemble de valeurs. Leur significa-tion peut avoir une réalité physique et donc porteuse de sens en elle-même. La valeur ajoutée de l’analyse d’un ensemble de données revient dans la capacité à extraire de l’information, c’est à dire des conclusions permettant de comprendre l’organisation et les phénomènes de génération de ces données. Une information est extraite de l’intégralité ou d’une partie des données, elle reste donc en cohérence avec la nature des observations. C’est donc une donnée de plus haut niveau, qui intègre une synthèse de la base étudiée.
L’information peut permettre d’identifier des synergies entre des variables, la redondance de valeurs, des individus représentatifs ou au contraire des individus aberrants et plus généralement une relation sous-jacente entre des individus et des variables descriptives.
La notion de connaissance s’applique lorsque ces informations sont analysées par un ex-pert du domaine d’application considéré qui en extrait une information intelligible. La connais-sance n’est pas nécessairement nouvelle, elle peut au contraire être conforme à des hypothèses connues mais non appliquées encore sur les données observées. Le processus décrit par Fayyad et al. [1996] résume les étapes préliminaires de l’extraction de connaissance à partir de données. Il met notamment l’accent sur le fait que c’est un processus visant à impliquer un humain dans une chaîne de traitement. A ce titre, les informations produites doivent pouvoir être visualisées.

Les outils et méthodes statistiques

Le cœur de l’extraction de connaissance réside dans l’application de méthodes pour automa-tiser au maximum le traitement de volumes de données afin de faciliter l’interprétation par un analyste ou un expert.
Au fil des ans, les techniques d’analyse ont été appliquées sur de nombreuses catégories de données. La généricité de la méthodologie d’analyse a en effet été éprouvée pour différents usages à partir de données vectorielles, temporelles, matricielles, Les domaines d’application de ces méthodes d’analyse de données sont très variés.
On peut notamment citer quelques exemples en :
– Santé : quantification de risques selon des symptômes et des données cliniques,
– Industrie : détection d’anomalies dans un système,
– Finances : compréhension du marché et prédiction de l’évolution des prix,
– Marketing : analyse du comportement des acheteurs.
Ces méthodes, appelées aujourd’hui analytics, sont à l’interface des statistiques, de l’infor-matique et de la visualisation. Comme l’illustre la figure 1.2, il s’agit d’un schéma exhaustif du traitement itératif de l’information [Padhy et al., 2012].
Initialement focalisée sur la description synthétique des données pour la génération de ta-bleaux de bord, les résultats nécessitaient une forte implication de l’expert qui devait maitriser l’intégralité des outils statistiques pour extraire efficacement des résultats pertinents et cohé-rents.
Par la suite, des composantes d’aide à l’analyse ont permis d’approfondir ces résultats, en particulier la visualisation et la recherche interactive. Une nouvelle dimension permettait ainsi à l’expert de comprendre non seulement la tendance des données, mais également de pouvoir accorder de l’importance à des cas spécifiques. Ces deux premières étapes se focalisent essentiellement sur l’historique d’observations et visent donc à extraire de cet ensemble de données des conclusions relatives au comportement passé, afin de pouvoir décrire et voir les tendances obtenues.
La fouille de données, ou Datamining peut être vue comme une étape complémentaire pour comprendre, c’est à dire d’établir des liens entre les données afin de justifier les tendances et les comportements décrits précédemment [Wu et al., 2008]. Les méthodes de corrélation ou de recherche de motifs sont ainsi capables de fournir des explications par la recherche de liens, mais également la quantification de l’impact d’un sous-ensemble de données.
Comme les tâches précédentes, une des difficultés réside dans la capacité à appliquer de telles méthodes sur des volumes conséquents, notamment par la combinatoire causée par la recherche exhaustive de relations. L’autre problématique relative à la fouille de données est la validité des analyses effectuées. La cohérence des résultats peut être partiellement validée par des connaissances expertes, mais doit pouvoir aussi proposer des résultats inconnus afin de générer de la connaissance. La fouille de données est un moyen de valider des hypothèses relatives à l’existence d’un modèle sous-jacent de génération de données. Elle ouvre la voie à l’apprentissage statistique.
DATAMINING : SYNTHÉTISER AUTOMATIQUEMENT LES DONNÉES
Les étapes ultimes des analytics sont en effet l’aide à la décision. Une dimension de pré-diction est ainsi nécessaire pour prolonger la validité des analyses fournies en appliquant une stratégie d’apprentissage applicable sur des données inconnues. La plupart des modèles d’ap-prentissage s’appuient sur des concepts statistiques existant en fouille de données en posant un cadre d’optimisation et des méthodes de résolution en vue de généraliser facilement la pro-cédure de génération d’un modèle prédictif. Un tel modèle, selon son architecture, peut être appliqué pour estimer les valeurs de nouvelles données, ou bien être intégré dans un schéma d’optimisation de comportement afin de fournir des préconisations sur un usage plus efficace pour un scénario donné.
Datamining : synthétiser automatiquement les données
Un premier moyen pour extraire de la connaissance à partir de données consiste à les explo-rer. Cela constitue ce que l’on appelle fouille de donnée ou Datamining. L’objectif consiste à appliquer des méthodes statistiques pour non seulement décrire les valeurs mesurées, mais éga-lement identifier les variables d’intérêt contenant le cœur de l’information portée par l’ensemble de la base analysée.
Statistique descriptive
La statistique descriptive consiste à résumer les données d’observations, à partir d’informa-tions de nature statistique [Weibull, 1951]. L’objectif est d’obtenir des informations qui consti-tuent une synthèse efficace, permettant de comprendre et d’analyser le comportement des don-nées. Pour avoir un aperçu de ce comportement, on peut commencer par calculer et afficher sous la forme d’un tableau de synthèse, des caractéristiques élémentaires telles que la moyenne, les valeurs extrémales, la médiane, l’écart type (voir figure 1.3). Notons qu’à certains égards, la statistique descriptive est proche de la représentation graphique de données statistiques ou Statistical graphics qui possèdent en commun certaines techniques. Notamment la méthode des histogrammes, l’un des moyens les plus classiques de représentation graphique de la répartition des données selon une variable [Silverman, 1986, Sheather, 2004].
Ainsi, la statistique descriptive constitue une étape préliminaire essentielle afin d’évaluer la localisation et la dispersion des données, d’identifier éventuellement des variables élémentaires permettant de caractériser l’évolution des données et de réaliser certains prétraitements tels que la normalisation ou le centrage. Mais pour des données à hautes dimensions faisant interve-nir des mécanismes complexes entre les variables, la statistique descriptive ne suffit plus et il est alors nécessaire d’utiliser d’autres méthodes, capables d’exploiter et de faire émerger les relations pertinentes sur les données et sur les variables.
x 1.0058 0.9741 −1.9852 3.5093 0.9958
y 1.9329 1.8892 . −5.1184 6.0550 1.9763
Estimer les relations entre les variables
Une autre manière de décrire les données, consiste à étudier les relations, possiblement com-plexes, entre les différentes variables. Cette problématique constitue un enjeu phare du domaine de l’analyse de données et a conduit au développement de nombreuses méthodes afin d’extraire de telles relations.
Détecter l’existence d’une relation de dépendance entre les variables
On peut commencer par tester naïvement tout les couples de variables et observer s’il existe ou non une relation de dépendance. Pour ce faire on supposera que les observations sont des réalisations i.i.d. d’un couple de variables aléatoires (X ,Y ) de loi jointe de densité P(x, y) in-connue. L’information mutuelle est une mesure basée sur le concept d’entropie [Ihara, 1993] qui permet de détecter des relations de dépendance : P(x, y) I(X ,Y ) = R R P(x, y) log  P(x)P(y)  dxdy, avec P(x) et P(y) les densités des lois de X et Y .
Notons qu’elle n’indique aucune précision sur la forme de la dépendance. L’information mutuelle a l’avantage de détecter simplement l’existence des dépendances entre les variables [Batina et al., 2011].
Estimation de la forme d’une dépendance
Corrélation : dans certaines situations nous pouvons avoir des a priori sur la nature des re-lations entre les variables. Aussi, il peut être intéressant de définir des critères d’évaluation spécifiques à la forme des dépendances. Le coefficient de corrélation permet par exemple de quantifier le degré de dépendance linéaire entre deux variables [Joseph Lee Rodgers, 1988] : ρ(X,Y) = E  (X − E(X))(Y − E(Y )) . E((X − E(X ))2)  E((Y − E(Y ))2)
Contrairement à l’information mutuelle, il ne permet pas a priori de repérer d’autres formes de dépendance. Une haute valeur en valeur absolue du coefficient de corrélation indique une forte dépendance linéaire et son signe indique si les variables sont corrélées ou anti-corrélées.
Causalité : si le coefficient de corrélation est simple à calculer, sa réalité physique est plus difficile à interpréter. Une corrélation élevée entre deux variables ne permet pas nécessairement d’expliquer une variable en fonction de l’autre. Il est d’ailleurs possible de générer de nombreux paradoxes en partant du postulat inverse. Afin de qualifier l’explication d’une variable par rap-port à une autre, on parle plutôt de causalité. Cette notion repose sur l’hypothèse implicite que l’une des variables est antérieure à la seconde (la cause précède l’effet) et qu’elle est cause unique de l’effet. Ce paradigme a conduit à la définition du test de Granger [Granger, 1969] qui permet de quantifier le degré de causalité entre deux variables. Notons que la notion de causalité est particulièrement pertinente dans le cadre des série temporelles où la notion d’antériorité est intrinsèquement présente [Eichler, 2012]. Néanmoins la notion de causalité, de part son aspect sémantique étendu demeure une notion ambiguë et de plus l’approche du test de Granger est restreinte au cas mono-causale [Guyon et al., 2007].
L’approche bi-variée à partir de mesures telles que l’information mutuelle, le coefficient de corrélation ou de causalité permet d’identifier simplement d’éventuelles interactions entre les variables des données d’étude. Mais elle peut devenir assez vite laborieuse quand le nombre de variables p devient important car on a p(p −1) relations à analyser. Aussi, il peut être intéressant d’extraire plutôt des relations globales entre les variables afin d’expliquer les données.
Extraction d’un sous-ensemble de variables explicatives
Représentation des données : pour les problèmes de hautes dimensions, l’extraction de va-riables pertinentes en vue de leur description, dans l’espace des données d’origine est une tâche ardue. Aussi, il peut être intéressant d’essayer de rechercher par le biais de transformations, d’autres espaces où la représentation des données est plus adaptée. La célèbre méthode d’ana-lyse en composantes principales (Principal Component Analysis) [Jolliffe, 2005] propose de décomposer les données dans des sous espaces orthogonaux ordonnés de manière à ce que les premiers espaces représentent au mieux la variabilité des données.
Sélection de variables : de manière générale toutes les variables d’un problème ne sont a priori pas explicatives. Aussi il peut être intéressant de réduire leur nombre afin de simplifier l’analyse des données en réalisant ce que l’on appelle une sélection de variable [Avrim Blum, 1997, Guyon and Elisseeff, 2003]. Par exemple, si on utilise l’analyse en composantes prin-cipales pour décrire les données, on peut effectuer une sélection de variables pertinentes en limitant la projection des données sur les premiers sous-espaces qui maximisent l’information. On obtient alors un ensemble limité de variables discriminantes permettant de décrire simple-ment les données. Notons que dans sa forme initiale, le problème de sélection de variable est combinatoire car il consiste à rechercher des sous-ensembles de variables informatifs et c’est donc a priori un problème extrêmement complexe.
Localisation les données
Plutôt que d’expliquer les observations à partir de variables explicatives, une approche duale consiste à rechercher des points afin de décrire les observations. Afin de se représenter comment sont localisées les données, on peut utiliser aux méthodes de clustering dont objectif consiste en la recherche de partitions des données en groupes appelés classes, où les observations ont un comportement homogène. Cette problématique est difficile, dans la mesure où nous ne savons pas a priori si les données d’étude ont effectivement une tendance à s’agréger en groupes et à supposer même qu’un tel phénomène existe, il reste à déterminer leur nombre.
Déterminer les points centraux
La description des données d’observation dans l’espace, peut être envisagée en tentant de les comparer relativement à des points, possiblement virtuels, qui représentent un caractère local des données. Si nous avons la connaissance d’une partition pertinente des données, un choix naturel est de s’intéresser au centre de gravité de chaque classe pour localiser les observations. Mais dans la pratique les classes sont a priori inconnues et il est nécessaire de se donner un critère afin de pouvoir évaluer la pertinence d’une partition. Un choix standard est de prendre la somme des variances intra-classe V (S) (voir par exemple Cornuéjols and Miclet [2011]) d’une partition S = (s j )1≤ j≤m de X : j=1 x∈s jV(S) =∑  ∑x − µ j   2,1m2(1.1) avec m le nombre de classe, (µ j )1≤ j≤m les centres de gravité des classes et |s j | le cardinal de s j .
Dans l’hypothèse où le nombre de classes est fixe, ce critère est particulièrement pertinent car plus le regroupement est adapté aux données et plus la variance intra-classe est faible. La mé-thode k-means introduite par MacQueen et al. [1967], consiste pour un jeu de données (xi)1≤i≤n, à trouver une partition S = (s j )1≤ j≤m de X minimisant la variance intra-classe (1.1).
Notons que la méthode est sous-optimale et il est possible de tomber sur un optimum local.
Limites de l’analyse de données pour l’interprétation
La fouille de données exploratoire permet d’extraire des informations pertinentes sur les don-nées et constitue une approche essentielle dans le but d’expliquer les observations. Cependant elle possède plusieurs limites inhérentes à la tâche qu’elle tente de résoudre. Par hypothèse, ne sachant pas a priori ce que l’on cherche, il devient rapidement impossible quand la dimension du problème augmente, d’explorer toutes les relations possibles (combinaisons de variables ou de points explicatifs) et il est alors nécessaire d’avoir recours à des heuristiques afin d’axer la recherche pour extraire de l’information pertinente. Nous pouvons nous demander, dans l’hypo-thèse où de telles relations existent, s’il est possible lors d’un processus d’apprentissage de les faire ressortir à travers la forme du modèle afin de pouvoir expliquer les données d’observation.
Apprendre un modèle
A partir des observations retenues durant l’analyse préliminaire des données qui permet de faire émerger des schémas de dépendances au sein des données, la problématique de prédiction surgit naturellement. Elle consiste en effet à s’interroger sur la capacité à générer une fonction de prédiction, c’est à dire à généraliser les observations effectuées. Le modèle construit dans cette optique n’étant fondé que sur des données, il s’agit de modèles dits statistiques.
Définition de l’apprentissage
Le concept d’apprentissage machine ou Machine Learning a émergé historiquement avec le développement de l’informatique dans les année 50. La machine (automate, robot, ordinateur) peut être assimilée à un système abstrait dont la fonction est de réaliser une tâche. En général, elle reçoit des données dites d’entrée afin d’être fonctionnelle et renvoie des données dites de sortie, utilisées en vue de la réalisation de la tâche considérée. Arthur Samuel donne en 1959 la définition suivante du Machine Learning : « Machine Learning : Field of study that gives computers the ability to learn without being explicitly programmed ». Bien que le terme apprentissage, ne soit pas explicitement défini, cette définition suggère la motivation de rendre les machines autonomes et capables d’évoluer par elles même, sans l’intervention directe de l’homme.
Une définition plus récente de Cros et Gardin donne un sens plus précis à l’apprentissage : « Processus permettant à la machine d’améliorer ses performances, pour l’analyse et/ou pour la recherche automatique des informations en fonction de ses expériences propres ». La machine est appréhendée comme un objet sensible, qui, de par sa confrontation avec le réel, développe une sorte d’individualité et une forme de connaissance lui permettant d’effectuer plus efficace-ment une tâche donnée. Afin de juger du pouvoir de notre machine, il est nécessaire d’évaluer la qualité de l’apprentissage. La définition proposé par Tom Mitchell introduit la notion de me-sure de performance afin d’évaluer l’apprentissage : « A computer program CP is said to learn from experience E with respect to some class of tasks T and performance measure P, if its perfor-mance at tasks in T, as measured by P, improves with experience E. Ainsi on compare l’état de la machine avant et après apprentissage, en évaluant sa capacité à exécuter une tâche, relativement à une mesure de performance que l’on a définie au préalable. x     MACHINE      y = f (x)
Avant de réaliser la phase d’apprentissage, il faut définir la structure de la machine en choi-sissant un modèle d’apprentissage. Dans le contexte des travaux présentés dans ce manuscrit, un modèle est défini à partir des données fournies en exemple du phénomène à apprendre sans a priori sur la forme de la fonction. Ainsi pour associer efficacement les données, les modèles d’apprentissage font intervenir dans leur formulation des coefficients, dont les valeurs néces-sitent d’être réglées afin de rendre la machine opérationnelle. L’adaptation des coefficients du modèle de la machine est effectuée relativement à des données observées dites données d’ap-prentissage et constitue la phase d’apprentissage. Autrement dit, la machine, indépendamment de son architecture, n’est pas directement utilisable, il faut préalablement l’adapter aux don-nées et c’est en ce sens que nous parlons d’apprentissage machine. Le réglage des coefficients se fait par le biais d’une résolution par optimisation sur les données d’apprentissage. Le but en fin d’apprentissage est d’avoir, si possible, une machine capable de réaliser efficacement la tâche sur de nouvelles données de même nature que les données d’apprentissage. De façon très informelle, nous pouvons considérer que réaliser une tâche T, revient à prendre une ac-tion A en réponse à un stimulus S. Nous n’abordons pas ici la problématique d’apprentissage de préférence (ranking) ou de classifieurs multi-labels. Aussi, nous supposons que l’action est représentée par une variable aléatoire Y à valeur dans Y ⊆ R et le stimulus par une variable aléatoire X à valeur dans X ⊆ R p. De plus, nous assimilons la machine d’apprentissage à une fonction f : X → Y (voir figure 1.4)
Apprentissage supervisé
Dans la suite, nous nous intéresserons spécifiquement à l’apprentissage dit supervisé, c’est à dire que pour chaque donnée x une étiquette (label) y est associée.
Principe
Objectif : l’apprentissage dit supervisé consiste à exploiter l’information issue de couples d’observations (x, y) afin de construire une machine f capable de prédire pour un nouvel exemple x′ via sa réponse f (x ′) une valeur appropriée de y′, c’est-à-dire tel que f (x′) et y soient proches, dans un certain sens qu’il est nécessaire de préciser.
Modélisation des observations : nous supposons que nous avons à disposition un ensemble de données d’observation Sn = (xi, yi)1≤i≤n ⊂ (X × Y )n, réalisations d’un couple de variables aléatoires (X ,Y ) de loi parente de densité PX ,Y ∈ P , où P est l’ensemble des densités de probabilité sur X × Y . De plus, l’échantillon est supposé vérifier la propriété d’indépendance (i.i.d.). Cette hypothèse est fondamentale en apprentissage statistique, dans la mesure où elle ga-rantit que les observations récoltées sont bien issues d’une même source et que chaque exemple est informatif [Amini, 2015]. Sous ces hypothèses, l’apprentissage supervisé peut être aussi interprété comme un processus d’induction, où on cherche à estimer une fonction f à partir d’ensembles d’observations [Cornuéjols and Miclet, 2011].
Classification et régression : l’apprentissage peut se scinder en deux catégories : la régres-sion et la classification. La régression consiste à partir d’un échantillon d’estimer une fonction de la densité de la loi des sorties Y par rapport à la loi des entrées X . La classification, bien qu’elle puisse se concevoir comme un cas particulier de régression où la variable prédite prend des valeurs discrètes, consiste aussi à séparer les données en différents groupes appelés classes.
Paradigme de l’apprentissage statistique : la modélisation du stimulus x en tant que réa-lisation dune variable aléatoire X de loi de densité PX permet de rendre compte l’incertitude liée à la représentativité des données d’apprentissage dont on dispose. Plus la dimension des données d’entrée est grande, plus il est nécessaire d’avoir à disposition un nombre de données important pour pouvoir apprendre une représentation correspond à la réalité. Ce phénomène est connu sous le nom de « malédiction de la dimensionnalité » [Friedman, 1997]. La modélisation de l’action y en tant que réalisation d’une variable aléatoire suivant une loi marginale de densité conditionnelle sachant X = x est intéressante dans la mesure où elle traduit l’incertitude sur la possibilité d’évaluer y connaissant x. Par exemple, si les variables (X ,Y ) sont indépendantes, construire une machine pour évaluer y à l’aide de x, est intrinsèquement voué à l’échec. Le para-digme de l’apprentissage statistique est fondamentalement différent des modèles paramétriques dans la mesure où aucune hypothèse sur la forme de la fonction n’est posée. Ces derniers font l’hypothèse que, connaissant la variable x, la valeur de y est déterminée par une fonction f ⋆ appartenant à un ensemble connu et fini de fonctions.
Réaliser une tâche d’apprentissage consiste à construire f ⋆ à partir d’un échantillon Sn de façon à ce qu’ayant observé x ∈ X , la machine renvoie une réponse y ∈ Y qui permette d’ef-fectuer la tâche le plus efficacement possible.
Un critère de performance : le risque
Fonction de coût : construire une machine consiste à trouver une fonction f : X → Y qui exploite au maximum la relation entre les variables x ∈ X et y ∈ Y . Afin d’apprécier la qualité de la machine, il est nécessaire d’introduire L : Y × Y → R+ appelée fonction de coût qui quantifie l’erreur de prédiction. C’est à dire que pour une observation (x, y), plus la valeur prédite f (x) est différente de y, plus la valeur de L est grande, afin de pénaliser l’erreur. Il existe plusieurs choix standards pour la fonction de coût (voir figure 1.5) qui pénalisent de manière différente les écarts entre prédictions et valeurs observées selon la tâche considérée. Ces fonctions coût les plus usuelles sont :
= 1y= f (x)
= max[0, 1 − y f (x)]
= max[0, (1 − y f (x))2] (1.2)
= ex p−y f (x)
= 12 (1 − t an(y f (x)).
Dans le cadre de la classification, la fonction de coût la plus naturelle est la fonction binaire L0/1 qui associe zéro si la prédiction est égale à l’étiquette et 1 sinon. Cependant, elle n’est ni continue ni convexe et par conséquent peu compatible avec une résolution efficace.
Compréhension des modèles construits
Un bonne machine d’apprentissage, sous-entend généralement que le modèle appris atteint une bonne performance afin d’accomplir la tâche fixée. Mais on peut aussi désirer avoir un certain contrôle des mécanismes de fonctionnement de la machine afin d’apporter des connais-sances supplémentaires sur les données modélisées selon Shmueli [2010]. Pour analyser les causes des erreurs de la machine, par exemple, ou pour savoir s’il est possible d’extraire des in-formations utiles sur les données par l’étude de l’architecture du modèle. Ainsi il peut être aussi intéressant d’essayer de construire des modèles interprétables. Un tel caractère doit respecter certains types de propriétés afin de faciliter son analyse et d’extraire une certaine intelligibilité de la solution :
– lisibilité : la solution doit être simple, et donc parcimonieuse,
– réalité : le modèle contient un lien réel avec les données,
– interactivité : le modèle évolue en fonction des paramètres.
Nous allons à travers ce prisme étudier quelques algorithmes d’apprentissages classiques et nous interroger sur leur structure vis-à-vis de cette problématique d’interprétabilité de modèle.
Interprétation du modèle par les variables
La méthode des arbres de classification introduite par Breiman et al. [1984] consiste à construire un ensemble de règles hiérarchiques sur les variables afin de séparer les données. On classe un nouvel exemple, en parcourant l’arbre par un test mono-variable. Ainsi le modèle est représenté par un certain nombre de règles dont leur hiérarchie met en évidence les variables discriminantes. L’exemple de classification de la figure 1.6 est issu d’un arbre à deux niveaux. Cette pro-fondeur est ici suffisante pour classer parfaitement les exemples d’apprentissage. Le premier niveau applique une règle de décision R1 par seuillage de la variable x2. Le deuxième niveau de l’arbre applique une deuxième règle R2 pour les données prédites dans la classe positive (bleu) au premier niveau par un seuillage sur la variable x1.
Du point de vue de l’interprétabilité, les arbres apportent une solution intéressante car chaque règle ne considère qu’une seule variable discrète ou continue et le modèle, qui peut être affiché, est lisible par un expert. Cependant, la discrimination n’est opérée que par rapport aux variables et non par rapport aux données.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Notations
Introduction
1 Apprendre pour expliquer ou pour prédire ? 
1.1 Contexte : de la donnée à la connaissance
1.2 Datamining : synthétiser automatiquement les données
1.3 Apprendre un modèle
1.4 Régularisation des modèles d’apprentissage
1.5 Formulation retenue et orientation des travaux
2 Le DRSVM un modèle interprétable ? 
2.1 Le DRSVM, un problème de classification avec sélection de variables intelligente
2.2 DRSVM et chemin de régularisation
2.3 Proposition d’un chemin pour le DRSVM, via l’analyse de la sous-différentielle
2.4 Conclusion
3 Kernelisation DRSVM 
3.1 Machines à noyaux
3.2 Le modèle kernel basis, une approche multi-noyau
3.3 Formalisation du problème kernel basis via les RKHS
3.4 Kernelisation du DRSVM
3.5 Expérimentations pour le kernel basis
3.6 Conclusion
Conclusion 
Annexe 

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *