Impact de cancer du côlon

Contexte

Au début des années 90, la sélection de variables portait sur des domaines souvent décrits par quelques dizaines de variables. Ces dernières années, par l’accroissement des capacités de recueil, de stockage et de manipulation des données, en particulier, dans les récentes avancées biotechnologiques permettent maintenant de mesurer une énorme quantité de données biologiques (protéiques, méthabolémiques, séquence ADN) souvent caractérisées par des centaines voir des milliers de variables, par conséquent, de nouvelles techniques de sélection de variables sont apparus pour tenter d’aborder ce changement d’échelle et de traiter notamment la prise en compte de variables redondantes et non pertinentes. Autant que, l’exploration de données est utilisée dans plusieurs applications médicales comme la prédiction de l’e_cacité des tests médicaux, la classi_cation des tumeurs, la détection des cancers, ce dernier est l’un des thèmes de recherche le plus chaud en bioinformatique. Ces cancers représentent la première cause de mortalité dans le monde tel que les cancers du poumon, de l’estomac, du foie, du côlon et du sein sont les plus grands _éaux de l’humanité.

Nous nous intéressons plus particulièrement à la sélection des gènes marquant le cancer du côlon par l’approche _ltre vue que le cancer colorectal est une priorité de santé publique par l’OMS (Organisation Mondiale de la Santé), il touche plus d’un million de personne chaque année et tue prés de la moitié, c’est le troisième cancer dans le monde chez les deux sexes confondus ; leurs chronicité et leurs fréquence ne cesse de désstabiliser le secteur de santé. Le cancer du côlon constitue de plus en plus un problème majeur de santé publique dans le monde et surtout en Algérie où 4 000 nouveaux cas sont enregistrés chaque année avec un taux de mortalité allant de 40 à 50%.

Aide au diagnostic

Aujourd’hui, la di_culté réside non seulement dans l’obtention des données gé-nomiques mais également dans leurs analyses, l’objectif consiste à développer des méthodes d’analyse permettant d’extraire un maximum d’informations à partir des données récoltées par les biologistes et généticiens, celles-ci a fait émerger un grand nombre de questions, il est claire qu’une bonne procédure de sélection doit en pratique être complètement explicite, simple à implémenter et rapide à calculer. La sélection des données biologiques contribuent vers le renforcement de l’aide au diagnostic médical, le niveau et le taux de progression de biomarqueurs mesur és de façon répétitives sur chaque sujet permettant de quanti_er la sévérité de la maladie et la susceptibilité de sa progression ; ceci est usuellement intéressant, sur les plans cliniques et scienti_ques, d’aider l’expert à prendre ces décisions dans un temps moins tardif que la survie d’un patient. Le domaine typique de telle situation est le domaine biomédical où nous pouvons maintenant faire énormément de mesures sur un individu donné (mesure d’expression de gènes par exemple), mais le nombre d’individus sur lequel nous faisons l’expérience est réduit (dans le cas d’étude d’une maladie, le nombre de porteurs de la maladie qui participent à une étude est souvent limité). Le domaine qui concerne le développement de méthodes qui permettent la sélection de variables pertinentes est très actif, peuvent assurer une meilleure prédiction et de sélectionner correctement ces variables est important pour l’interprétation du modèle (un cliniticien sera évidement intéressé de savoir que tel et tel gènes sont impliqués dans le développement de métastase par exemple). Les techniques de sélection (ou réduction) de dimension consistent à rechercher des directives informatives et d’éliminer les directives qui ne contiennent que du bruit. Ces techniques se divisent en deux groupes : les approches multi variées et les approches purement scalaires.

Problématique

La sélection de variables est devenue l’objet qui attire l’attention de nombreux chercheurs durant ces dernières années, cette sélection permet d’identi_er et d’éliminer les variables qui pénalisent les performances d’un modèle complexe dans la mesure où elles peuvent être bruitées, redondantes ou non pertinentes. De plus, la mise en évidence des variables pertinentes facilitent l’interprétation et la compr éhension des aspects médicaux et biologiques ; ainsi, elle permet d’améliorer la performance de prédiction des méthodes de classi_cation et de passer outre le _éau de la haute dimensionnalité de ces données (the curse of dimentionalty). Le problème spéci_que de la selection de variables nécessite une approche particuli ère puisque le nombre de variables est très largement supérieur vis-à-vis du nombre d’échantillons (expériences ou observations), dans la littérature du machine Learning trois approches sont envisagées relèvent des méthodes de type wrapper ou embedded ces méthodes sélectionnent de façon implicite les variables où la sélection se fait lors de processus d’apprentissage, ces deux approches sont caractérisées par la pertinences des attributs sélectionnées mais un temps de calcul long à l’opposé de la méthode _ltre, approche couramment utilisée à ce jours pour analyser les données biologiques, cette approche consiste à parcourir la sélection des variables avant le processus de l’apprentissage et ne conserve que les caractéristiques informatives. Le travail que nous présentons dans ce mémoire de Master s’inscrit dans la sé- lection de variables plus particulièrement les gènes de cancer du côlon qui permet de développer le contexte d’aide au diagnostic pour détecter l’état du patient (malade ou sain) et pourrait apporter plus de connaissance sur les caractéristiques de ce cancer. Aussi, nous mettons en évidence l’utilisation de l’approche _ltre qui a été extraite de la littérature scienti_que.

Approche wrapper

Les wrappers ont été introduits par John et al. en 1994 [JKP94b]. Leurs principe est de générer des sous ensembles candidats et de les évaluer grâce à un algorithme de classi_cation. Cette évaluation est faite par un calcul d’un score, par exemple un score d’un ensemble sera un compromis entre le nombre de variables éliminées et le taux de réussite de la classi_cation sur un _chier de test.L’appel de l’algorithme de classi_cation est fait plusieurs fois à chaque évaluation (c’est-à-dire à chaque sélection d’une variable, nous calculons le taux de classi_cation pour juger la pertinence d’une caractéristique) car un mécanisme de validation croisée est fréquemment utilisé. Le principe de wrappers est de générer un sous ensemble bien adaptés à l’algorithme de classi_cation (Figure 2.2). Les taux de reconnaissance sont élevés car la sélection prend en compte le biais intrinsèque de l’algorithme de classi_cation.

Un autre avantage est sa simplicité conceptuelle ; nous n’avons pas besoin de comprendre comment l’induction est a_ectée par la sélection des variables, il su_t de générer et de tester. Cependant, trois raisons font que les wrappers ne constituent pas une solution parfaite. D’abord, ils n’apportent pas vraiment de justi_cation théorique à la sé- lection et ils ne nous permettent pas de comprendre les relations de dépendances conditionnelles qu’il peut y avoir entre les variables. D’autre part la procédure de sélection est spéci_que à un algorithme de classi_cation particulier et les sous ensembles trouvés ne sont pas forcément valides si nous changeons de méthode d’induction. Finalement, c’est l’inconvénient principale de la méthode, les calculs devient de plus en plus très longs, voir irréalisables lorsque le nombre de variables est très grand.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Remerciements
Résumé
Abstract
Table des matières
Table des _gures
Liste des tableaux
Glossaire
Introduction
1 Problématique
1 Contexte
1.1 Introduction
1.2 Impact de cancer du côlon
1.3 Dé_nition de Cancer du côlon
1.4 Symptômes
1.5 Facteurs de risques
1.6 Stades de cancer du côlon
1.7 Traitements
1.8 Cancer du côlon en Algérie
2 Aide au diagnostic
3 Problématique
4 Conclusion
2 La sélection de variables
1 Introduction
2 Approches de la sélection de variab
2.1 Approche wrapper
2.2 Approche _ltre
2.3 Approche Embedded
3 Sélection de variables (Features Selection
3.1 Principe
3.2 Mesure de pertinence
3.3 Procédure de recherche
3.4 Critère d’arrêt
3.5 Sélection de variables dans la littérature
3.6 Sélection de variables de cancer du côlon dans la littérature
4 Contribution
5 Conclusion
3 Résultats et discussion 31
1 Introduction
2 Base de données
3 Etapes de sélection
3.1 Information Mutuelle (MI)
3.2 minimum Redondance Maximum Relevance (mRMR)
3.3 ReliefF
3.4 Fisher
4 Etapes de classi_cation
5 Résultats
6 Discussion
7 Synthèse sur les techniques de sélection
8 Comparaison avec l’état de l’art
9 Conclusion
Conclusion
Bibliographie