Sélection des attributs dans le domaine biomédical

SELECTION DES ATTRIBUTS DANS LE DOMAINE BIOMEDICAL

Les chercheurs en intelligence artificielle visent toujours à programmer des machines capables d’effectuer des tâches qui requièrent de l’intelligence. Cependant, programmer des machines capables de s’adapter à toutes les situations et éventuellement d’évoluer en fonction de nouvelles contraintes est difficile [1]. L’enjeu est de contourner cette difficulté en dotant la machine de capacités d’apprentissage lui permettant de tirer profit de son expérience. C’est pourquoi parallèlement aux recherches sur le raisonnement automatique se sont développées des recherches sur l’apprentissage par les machines en anglais « machine Learning ». Le principal objectif de ses recherches est la résolution automatique des problèmes complexes par la prise de décision sur la base d’observations de ces problèmes [1]. L’utilisation de l’apprentissage automatique pour les applications biomédicales connaît une augmentation considérable [3].

Ce regain d’intérêt a plusieurs causes. D’une part, l’application réussie des techniques d’apprentissage automatique dans différents domaines tels que la recherche sur le web, la reconnaissance de la parole et de l’écriture, la modélisation spatiale, etc. D’autre part, le développement le plus récent est l’avènement des dossiers médicaux électroniques. Par ailleurs, L’industrie s’est orienté vers le développement des techniques permettant la production de grandes quantités de données qui sont difficiles à exploiter [3]. Nous abordons ce chapitre par introduire les méthodes de réduction des données, en particulier la réduction du vecteur d’entrée, à savoir, le nombre d’attributs. Il existe principalement deux méthodes différentes : Sélection et extraction des variables. Dans ce chapitre, nous nous intéressons particulièrement aux méthodes de sélection des variables. Au début, les principales motivations pour ce choix sont décrites, suivies par la définition des notions de redondance et de pertinence d’un attribut. Par la suite, nous détaillons les différentes étapes et types de sélection d’attributs avant de présenter le principe de classification. Nous terminons ce chapitre par un état de l’art dans le domaine biomédical.

ETAT DE L’ART DE LA SELECTION D’ATTRIBUTS DANS LE DOMAINE BIOMEDICAL

Les bases de données biomédicales sont souvent représentées par un grand nombre de caractéristiques de la maladie et un nombre relativement faible de dossiers des patients. Ces caractéristiques (attributs) ne sont pas toutes pertinentes et peuvent être source de bruit. Plusieurs travaux de recherche ont été réalisés pour remédier à cette malédiction de dimension. Ces travaux peuvent être divisés en plusieurs axes de recherches indépendants :

Traitement des données médicales : Afin de démontrer l’utilité de la sélection des attributs dans le domaine biomédical, plusieurs recherches ont été testées sur les différents ensembles de données médicales disponibles sur le net, comme par exemple le répertoire de « UCI Machine Learning ». Dans [26], les auteurs proposent une technique qui recherche une division stratégique de l’espace des caractéristiques dans le but d’identifier les meilleurs sous-ensembles de caractéristiques pour chaque instance. Cette technique est basée sur l’approche Wrapper, où un algorithme de classification est utilisé comme fonction d’évaluation pour différencier entre plusieurs sous-ensembles d’attributs. Dans [27], des règles d’association et de corrélation des caractéristiques ont été utilisées afin de réduire la dimensionnalité dans le domaine médical. Dans [28] les auteurs se sont basé sur des méthodes d’hybridation des Particules Swarm Optimization (PSO) et la théorie des ensembles.

La recherche et analyse de documents médicaux : Les documents textuels sont généralement représentés comme une matrice attribut-document. Les attributs peuvent être des mots simples à partir du document de texte ou paires plus complexes extraites afin d’enrichir la représentation matricielle [29]. Dans [30] une approche wrapper basée sur la recherche d’information sémantique est proposée. La similarité sémantique consiste à calculer la similarité entre les termes conceptuellement similaires, mais lexicalement dissemblables. D’autres applications dans le domaine biologique ont été revues dans [31].

L’imagerie médicale : La sélection d’attributs dans l’imagerie est aussi très importante [32]. Dans [33] les auteurs ont passé en revue les différentes méthodes qui existent dans la littérature pour la détection du cancer du sein.

L’analyse et la prédiction des séquences qui codent les protéines : sachant que de nombreuses caractéristiques peuvent être extraites d’une séquence et la plupart des dépendances se produisent entre des positions adjacentes. Pour faire face à la grande quantité d’attributs possibles, et la quantité souvent limitée d’échantillons, les auteurs de [34] ont présenté le modèle interpolé Markov. Ils ont utilisé l’interpolation entre les différents ordres du modèle de Markov en se basant sur des échantillons de petite taille et une méthode de filtrage (chi 2) dans l’objectif de sélectionner les caractéristiques pertinentes. Saeys et al. [35], ont combiné différentes mesures de codage de prédiction potentiel, et ont ensuite utilisé une approche de filtre multivariée pour la couverture de Markov et ainsi ne conserver que les attributs les plus pertinents. Parallèlement de nombreuses méthodes d’analyse de séquence comprennent la reconnaissance de signaux courts, plus ou moins conservées dans la séquence, ce qui représente principalement des sites de liaison pour diverses protéines [36]. Une approche commune pour trouver des motifs réglementaires, est de relier des motifs à des niveaux d’expression des gènes en utilisant une approche de régression. La sélection des fonctionnalités peut ensuite être utilisé pour rechercher les motifs qui maximisent l’ajustement du modèle de régression [37]. Dans [38], les auteurs démontrent les avantages d’employer la sélection d’attributs, en utilisant l’entropie caractéristique de classe comme filtre pour éliminer les caractéristiques non pertinentes.

Traitement des données biopuces : l’avènement des jeux de données de puces à ADN a stimulé une nouvelle ligne de recherche en bioinformatique. Les données de biopuces constituent un grand défi pour les techniques de calcul, en raison de leur grande dimension (jusqu’à plusieurs dizaines de milliers de gènes) et de leurs petites tailles d’échantillon [39]. En outre, des complications expérimentales supplémentaires comme le bruit et la variabilité rendent l’analyse des données de puces à ADN un domaine très passionnant. Afin de faire face aux caractéristiques particulières de ces données, la nécessité évidente de réduction de dimension a fait objet de plusieurs recherches scientifiques [40]–[43]. En raison de la haute dimensionnalité de la plupart des analyses micropuces, les techniques de sélection rapides et efficaces, telles que les méthodes de filtrage univariées, ont attiré plus d’attention.

ÉTUDE DES METHODES DE SELECTION D’ATTRIBUTS

L’identification des attributs pertinents et la suppression des attributs redondants est une étape cruciale pour une classification efficace. De nombreux algorithmes de sélection ont été proposés dans la littérature. Nous avons présenté dans le premier chapitre la procédure générale de sélection et nous avons vu qu’il existe trois approches générales de sélection d’attributs: wrapper, embedded et filter. Ces méthodes permettent de ne sélectionner que les attributs ou les ensembles d’attributs les plus pertinents afin d’atteindre leurs objectifs de classification. Dans ce chapitre une panoplie de méthodes de sélection de type « filter » sera présentée et expérimentée. Ce choix est justifié par la simplicité de ces méthodes, leur temps de calcul, et principalement pour leur indépendence de l’algorithme de classification. Nous nous sommes intéressés à un problème de classification pour l’aide au diagnostic médical et plus particulièrement à la détection des arythmies cardiaques. Selon l’organisation monidale de la santé, les maladies cardio-vasculaires sont la première cause de mortalité dans le monde. En effet, on estime à 17,5 millions le nombre de décès dû aux maladies cardiovasculaires, soit 31% de la mortalité mondiale totale [44].

Il est possible de prévenir la plupart des maladies cardiovasculaires en s’attaquant aux facteurs de risque comportementaux (tabagisme, mauvaise alimentation et obésité, sédentarité et utilisation nocive de l’alcool) à l’aide de stratégies à l’échelle de la population [44]. Les personnes souffrant de maladies cardiovasculaires ou exposées à un risque élevé de maladies cardiovasculaires (du fait de la présence d’un ou plusieurs facteurs de risque comme l’hypertension, le diabète, l’hyperlipidémie ou une maladie déjà installée) nécessitent une détection précoce et une prise en charge au moment opportun avant qu’il ne soit trop tard [44]. Les arythmies cardiaques font références à n’importe quel changement du rythme du coeur (trop faible, trop fort ou irrègulier). À chaque battement cardiaque, un signal électrique se propage à partir du haut du coeur vers le bas. Comme le signal se déplace, il provoque le coeur à se contracter et pomper le sang. Ce signal peut être détecté en utilisant des électrocardiogrammes (ECG).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Résumé
Abstract
ملخص
Remerciements
Table des matières
Liste des tableaux
Liste des figures
Introduction générale
Chapitre 1. Sélection des attributs dans le domaine biomédical
1.1. Introduction
1.2. Différence entre sélection et extraction des variables
1.3. La sélection d’attributs
1.3.1. Motivation
1.3.2. Notions de pertinence d’un attribut
1.3.3. Notions de redondance d’un attribut
1.4. Procédure de sélection d’attributs
1.4.1. La procédure de génération
1.4.2. La fonction d’évaluation
1.4.2.1. Approche wrapper
1.4.2.2. Approche filter
1.4.2.3. Approche embedded
1.4.3. Le critère d’arrêt
1.4.4. La validation
1.5. Techniques de l’apprentissage automatique
1.5.1. Catégories de l’apprentissage automatique
1.5.2. Problème de classification
1.5.3. Validation et évaluation des classifieurs
1.6. Etat de l’art de la sélection d’attributs dans le domaine biomédical
1.7. Conclusion
Chapitre 2. Etude des méthodes de sélection d’attributs
2.1. Introduction
2.2. Materiels et méthodes
2.2.1. Présentation de l’ensemble de données
2.2.2. Classifieurs utilisés
2.2.3. Evaluation de la base de donnée originale
2.2.4. Prétraitement de la base
2.2.5. Utilisation de la base dans la littérature
2.3. Sélection des attributs avec l’approche Filter
2.3.1. Approche univarié
2.3.1.1. Méthode Gain d’information
2.3.1.2. Méthode GainRatio
2.3.1.3. Méthode Khi2
2.3.1.4. Méthode ReliefF
2.3.1.5. Méthode Incertitude symétrique
2.3.1.6. Méthode SVM
2.3.1.7. Méthode OneR
2.3.2. Approche multivarié
2.3.2.1. Méthode CFS
Algorithme BestFirst
Algorithme GeneticSearch
Algorithme GreedyStepwise
2.3.2.2. Méthode de consistance
Algorithme de recherche aléatoire
2.4. Résultats obtenus
2.4.1. Filtre univarié
2.4.1.1. Méthode InfoGain
2.4.1.2. Méthode GainRatio
2.4.1.3. Méthode Chi2
2.4.1.4. Méthode ReliefF
2.4.1.5. Méthode Incertitude symétrique
2.4.1.6. Méthode SVM
2.4.1.7. Méthode OneR
2.4.2. Filtre multivarié
2.4.2.1. Méthode CFS
2.4.2.2. Méthode Consistance
2.5. Discussion des résultats
2.6. Conclusion
Chapitre 3. Vers une classification ensembliste
3.1. Introduction
3.2. Terminologies et taxonomies
3.2.1. Classifieur de base
3.2.2. Définitions et motivations
3.2.3. Structures des classifieurs ensembliste
3.3. Etat de l’art des approches ensemblistes
3.3.1. Ensemble de classifieurs homogènes
3.3.2. Ensemble de classifieurs hétérogènes
3.4. Critères de sélection des classifieurs de base
3.4.1. Algorithmes de recherches
3.4.2. Le rôle de la diversité pour la sélection des classifieurs
3.4.3. Quantification de la diversité
3.4.3.1. Mesures « pairwise »
3.4.3.2. Mesures « non-pairwise »
3.5. Conclusion
Chapitre 4. Nouvelle approche ensembliste pour la détection des arythmies cardiaques
4.1. Introduction
4.2. Matériels et méthodes
4.3. Fusion des classifieurs par règles fixes
4.4. Sélection des classifieurs de base
4.4.1. Sélection dynamique des classifieurs
4.4.2. Recherche SingleBest
4.4.3. Recherche N-Best
4.4.4. Recherche vers l’avant
4.4.5. Discussion des résultats
4.5. Méthode proposée pour la sélection des classifieurs de base
4.5.1. Description détaillée
4.5.2. Résultats et discussion
4.6. Etude comparative avec la littérature
4.7. Classification ensembliste des données biopuces
4.7.1. Présentation des bases de données considérées
4.7.2. Présentation générale des données biopuces
4.7.3. Prétraitment des données
4.7.4. Résultats de la combinaison par règles fixes
4.7.5. Résultats obtenus en utilisant notre approche
4.7.6. Comparaison avec la littérature : données bipuces
Conclusion générale et perspectives
Références bibliographiques

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *