La prédiction de propriétés et d'activités de molécules

Réduction du nombre de variables

Comme nous l’avons rappelé, un grand nombre de descripteurs différents sont collectés pour la modélisation d’une grandeur donnée, car les facteurs déterminants du processus étudié ne sont a priori pas connus. Cependant, les descripteurs envisagés n’ont pas tous une influence significative sur la grandeur modélisée, et les variables ne sont pas toujours mutuellement indépendantes. De plus, le nombre de descripteurs, c’est-à-dire la dimension du vecteur d’entrée, détermine la dimension du vecteur des paramètres à ajuster. Si cette dimension est trop importante par rapport au nombre d’exemples de la base d’apprentissage, le modèle risque d’être surajusté à ces exemples, et incapable de prédire la grandeur modélisée sur de nouvelles observations . Il est donc nécessaire de réduire la dimensionnalité des variables d’entrée. Plusieurs approches sont possibles pour résoudre ce problème :
− réduire la dimension de l’espace des entrées ;
− remplacer les variables corrélées par de nouvelles variables synthétiques, obtenues à partir de leurs combinaisons ;
− sélectionner les variables les plus pertinentes.
Nous allons maintenant décrire les méthodes les plus fréquemment utilisées.

L’analyse en composantes principales

L’analyse en composantes principales (ou ACP) [9], est une technique d’analyse de données utilisée pour réduire la dimension de l’espace de représentation des données. Contrairement à d’autres méthodes de sélection, celle-ci porte uniquement sur les variables, indépendamment des grandeurs que l’on cherche à modéliser. Les variables initiales sont remplacées par de nouvelles variables, appelées composantes principales, deux à deux non corrélées, et telles que les projections des données sur ces composantes soient de variance maximale. Elles peuvent être classées par ordre d’importance. Considérons un ensemble de n observations, représentées chacune par p données. Ces observations forment un nuage de n points dans p . Le principe de l’ACP est d’obtenir une représentation approchée des variables dans un sous-espace de dimension k plus faible, par projection sur des axes bien choisis ; ces axes principaux sont ceux qui maximisent l’inertie du nuage projeté, c’est-à-dire la moyenne pondérée des carrés des distances des points projetés à leur centre de gravité. La maximisation de l’inertie permet de préserver au mieux la répartition des points. Dès lors, les n composantes principales peuvent être représentées dans l’espace sous-tendu par ces axes, par une projection orthogonale des n vecteurs d’observations sur les k axes principaux. Puisque les composantes principales sont des combinaisons linéaires des variables initiales, l’interprétation du rôle de chacune de ces composantes reste possible. Il suffit en effet de déterminer quels descripteurs d’origine leur sont le plus fortement corrélés. Les variables obtenues peuvent ensuite être utilisées en tant que nouvelles variables du modèle. Par exemple, la régression sur composantes principales [10] (ou PCR) est une méthode de modélisation dont la première étape est une analyse en composantes principales, suivie d’une régression linéaire multiple .

La méthode de régression des moindres carrés partiels

La régression des moindres carrés partiels [11, 12] (MCP, ou PLS) est également une méthode statistique utilisée pour construire des modèles prédictifs lorsque le nombre de variables est élevé et que celles-ci sont fortement corrélées. Cette méthode utilise à la fois des principes de l’analyse en composantes principales et de la régression multilinéaire. Elle consiste à remplacer l’espace initial des variables par un espace de plus faible dimension, sous-tendu par un petit nombre de variables appelées « variable latentes », construites de façon itérative. Les variables retenues sont orthogonales (non corrélées), et sont des combinaisons linéaires des variables initiales. Les variables latentes sont obtenues à partir des variables initiales, mais en tenant compte de leur corrélation avec la variable modélisée, contrairement aux variables résultant de l’analyse en composantes principales. Elles doivent ainsi expliquer le mieux possible la covariance entre les entrées et la sortie. Elles sont alors les nouvelles variables explicatives d’un modèle de régression classique, telles que la régression linéaire multiple.

Sélection des variables pertinentes

L’analyse en composantes principales a pour but de réduire les corrélations entre les variables, mais cette étape de réduction est indépendante de la grandeur modélisée. Or, les variables calculées n’ont pas nécessairement une influence sur cette grandeur. Il est nécessaire d’éliminer celles dont l’influence est inférieure à celle du bruit, et de sélectionner uniquement les plus pertinentes d’entre elles. Il est possible, à partir de p descripteurs, de former 2p sousensembles de variables, donc 2p modèles, dont il faudrait comparer les performances pour déterminer le meilleur jeu de descripteurs. Cette méthode permet d’envisager toutes les combinaisons possibles de descripteurs, mais sa mise en œuvre est très lourde. Des approches alternatives ont donc été développées. La sélection progressive consiste à incorporer les variables au modèle une à une, en sélectionnant, à chaque étape, la variable dont la corrélation partielle avec la grandeur modélisée est la plus élevée. À l’inverse, lors de l’élimination progressive, on débute la modélisation avec l’ensemble des descripteurs, en les éliminant un par un jusqu’à obtenir le meilleur jeu de composantes. La sélection pas à pas est une combinaison des deux méthodes évoquées précédemment. Les variables sont incorporées une à une dans le modèle, par sélection progressive. Cependant, à chaque étape, on vérifie que les corrélations partielles des variables précédemment introduites sont encore significatives. Une méthode plus efficace est celle du descripteur sonde [13, 14]. Cette sélection est généralement effectuée à partir d’un modèle linéaire en ses paramètres, par exemple un modèle polynomial. En effet, la pertinence d’une variable est indépendante du modèle considéré, et les variables ainsi sélectionnées peuvent être utilisées comme variables de modèles plus complexes. La méthode consiste à ajouter un descripteur aléatoire, appelé « descripteur sonde », à la liste des variables candidates. Ces variables sont alors classées selon leur pertinence par une méthode d’orthogonalisation. On se fixe le risque que l’on est prêt à accepter de conserver une variable candidate alors qu’elle est moins bien classée que le descripteur sonde, et l’on en déduit le rang, dans le classement, au-delà duquel les variables sont éliminées.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
CHAPITRE 1 – La prédiction de propriétés et d’activités de molécules
I – Les descripteurs : sélection, calcul ou mesure, problèmes en résultant
I.1 – Les descripteurs moléculaires
I.2 – Réduction du nombre de variables
II – Modélisation par optimisation sans contrainte
II.1 – Régression linéaire multiple (MLR)
II.2 – Réseaux de neurones
II.3 – Sélection du modèle
III – Optimisation sous contraintes
III.1 – Théorie statistique de l’apprentissage
III.2 – Les machines à vecteurs supports
III.3 – Les méthodes à noyaux pour la modélisation QSPR/QSAR
IV – Autres méthodes de QSPR/QSAR
IV.1 – Méthode de contribution de groupes
IV.2 – Analyse comparative de champs moléculaires (CoMFA)
IV.3 – Modélisation à partir des structures des molécules
CHAPITRE 2 – Les Graph Machines
I – Définition et caractéristiques d’un graphe
I.1 – Graphes simples
I.2 – Graphes orientés
I.3 – Graphes étiquetés
I.4 – Matrices d’adjacence
II – Représentation de données structurées par des graphes
III – Apprentissage à partir de graphes : RAAMs et LRAAMs
III.1 – Les Mémoires Auto-Associatives Récursives
III.2 – Les Mémoires Récursives Auto-Associatives Étiquetées
IV – Les Graph Machines
IV.1 – Modélisation à partir de graphes acycliques
IV.2 – Structure mathématique des graph machines
IV.3 – Les étiquettes
V – L’apprentissage des graph machines
V.1 – Propriété d’approximation universelle
V.2 – Utilisation des algorithmes traditionnels
V.3 – Sélection de modèle
VI – Modélisation à partir de graphes cycliques
VI.1 – Transformation de graphes quelconques en arborescences
VI.2 – Méthode alternative de modélisation à partir de graphes cycliques
VII – Exemples didactiques d’utilisation des graph machines
VII.1 – Détermination du nombre de nœuds d’un graphe
VII.2 – Détermination du nombre d’arêtes et de cycles d’un graphe
VIII – Résumé : méthodologie de conception de modèles prédictifs ou de classifieurs
par apprentissage à partir d’une base de données structurées
CHAPITRE 3 – Méthodologie en QSPR et QSAR
I – Construction des graph machines associées aux molécules
I.1 – Représentation de molécules par des arborescences
I.2 – Étiquettes (nature, degré, isomérie, éventuel descripteur)
I.3 – Conversion des graphes en arborescences – choix de l’algorithme
II – Sélection des exemples de la base d’apprentissage
III – Fonctions de nœud et sélection de la complexité
III.1 – Structure de la fonction de nœud
III.2 – Cas particulier : les graph machines pour la classification
III.3 – Sélection du modèle
CHAPITRE 4 – Exemples de modélisations de propriétés et d’activités moléculaires par les graph machines
I – Prédiction de propriétés de molécules
I.1 – Prédiction du coefficient de partage eau/octanol
I.2 – Prédiction de descripteurs moléculaires
I.3 – Énergie libre de solvatation de diverses molécules
I.4 – Prédiction de propriétés sur une même base de molécules
II – Prédiction d’activités moléculaires
II.1 – Toxicité de molécules diverses sur un être vivant, le Pimephales promelas
II.2 – Prédiction de l’activité agoniste de dérivés ecdystéroïdes
III – Classification
IV – Un exemple complexe : la prédiction de l’activité d’analogues de l’épothilone
IV.1 – Modélisation directe de l’activité des 63 molécules
IV.2 – Modélisation en deux étapes : classification puis régression
CHAPITRE 5 – Conclusions et perspectives
BIBLIOGRAPHIE
ANNEXES