Méthodes de criblage virtuel in silico

Choix d’une cible thérapeutique

Dans l’article L. 5111-1 du Code la Santé Publique , un médicament est défini par ses « propriétés curatives ou préventives à l’égard des maladies ». Le processus de découverte d’un nouveau médicament doit donc débuter par la définition d’une maladie pour laquelle le défaut de traitement adapté et efficace engendre un réel besoin médical. Il s’agit le plus souvent de pathologies touchant une grande partie de la population, largement étudiées et donc avec un fort potentiel commercial, comme par exemple les maladies neurodégénératives, les cancers, le Syndrôme d’Immuno Déficience Acquise (SIDA), etc…. Cependant, des maladies dites « orphelines » qui sont des maladies rares, c’est à dire touchant une faible portion de la population et donc moins attractives au niveau financier, présentent un réel besoin de nouvelles thérapies adéquates puisqu’aucun traitement n’est actuellement disponible et peuvent donc constituer des thèmes de recherche très stimulants . Une fois la maladie à cibler définie, l’étape suivante correspond à l’identification d’une cible biologique potentielle et la validation de sa pertinence. Cette cible peut être diverse selon la maladie étudiée, dans notre cas il s’agira de protéines (voir paragraphe Deuxième Partie Résultats), mais les gènes ou encore les ARNs peuvent aussi constituer des cibles biologiques intéressantes. La dernière estimation portait à 500 le nombre de cibles qui seraient modulées par des médicaments commercialisés, mais ce nombre est en constante augmentation. 13 Trois critères sont à prendre en compte pour définir le potentiel d’une entité biologique à devenir une bonne cible pour un médicament : son efficacité, sa sécurité, mais aussi et surtout son caractère « druggable ». La « druggabilité » d’une cible est définie par sa capacité à être modulée par la liaison de petites molécules chimiques ou de produits biologiques plus larges. Elle est couramment estimée par évaluation de l’appartenance de la cible à des familles de gènes déjà ciblées avec succès par des médicaments (récepteurs couplés aux protéines G, kinases…) 15, mais cette approche est trop réductrice et de nouvelles méthodes permettant d’affiner son estimation sont recherchées . Parmi les approches utilisées pour identifier une cible biologique, il est possible de citer la recherche bibliographique, la recherche de l’expression d’ARN messagers (ARNm) ou de protéines et la recherche d’associations génétiques. 17 La recherche bibliographique dans la littérature scientifique de données en rapport avec la maladie est la première méthode à utiliser. L’exploration de données ou « data mining » qui utilise des approches bioinformatiques pour trier des données issues d’une grande variété de sources (publications, brevets, données d’expression des gènes, protéomique, …) a permis d’améliorer grandement le nombre de cibles identifiées par cette approche . La recherche de l’expression d’ARNm ou de protéines dans la pathologie étudiée permet aussi d’identifier des cibles biologiques. La corrélation entre l’expression des entités et la progression ou non de la maladie définit de quelle manière la cible doit être modulée. La recherche d’associations génétiques entre des polymorphismes génétiques et le risque de développer une maladie ou la rapidité de sa progression est une méthode émergente et très prometteuse d’identification de cibles. 17 Ainsi, des études d’associations pangénomiques (ou Genome Wide Association Studies GWAS) recherchent des cibles biologiques impliquées dans la non progession 19 ou au contraire dans la progression rapide 20 vers le SIDA. Avant de rechercher des molécules capables d’agir sur la cible biologique identifiée, il est nécessaire de procéder à la validation de cette cible. Cette validation consiste d’une part à s’assurer de l’effet bénéfique de la modulation de la cible sur la pathologie étudiée tout en vérifiant d’autre part que les conséquences de ces altérations ne seront pas néfastes. De nombreux outils in vitro et in vivo sont utilisés lors de cette étape de validation, parmi lesquels les animaux transgéniques, les petits ARN interférents (ou small interfering RNA siRNA), les anticorps monoclonaux ou encore la chémogénomique (dont le but est de fournir une petite molécule pour chaque protéine codée par le génome pour explorer les fonctions cellulaires et guider la découverte de nouveaux médicaments 21). 17

Chimiothèques dans l’espace réel et l’espace global

Les chimiothèques dans l’espace réel (ensemble des composés constituant les chimiothèques privées des laboratoires pharmaceutiques) et l’espace global (ensemble des composés déjà synthétisés) sont constituées de composés potentiellement immédiatement disponibles pour criblage expérimental. 39 Il s’agit le plus souvent de collections virtuelles mise à disposition gratuitement par des fournisseurs ou des institutions et des produits correspondant, conditionnés en vrac ou en microplaques, afin de permettre leur évaluation biologique et disponibles à l’achat auprès de différents fournisseurs.

Chimiothèques de fragments

Les chimiothèques de fragments ont été développées pour augmenter la diversité de l’espace chimique exploré 44. En effet, à partir d’une petite base de données de 100 fragments, l’ensemble des combinaisons obtenues par assemblage de trois fragments différents permet d’obtenir un million de composés 45. L’utilisation de fragments permet donc aussi une réelle économie de temps et d’argent pour les criblages virtuels ou expérimentaux tout en présentant un taux de succès d’identification de hits de trois à cinq pourcent, supérieur à celui obtenu lors des criblages expérimentaux à haut débit qui atteint à peine un pourcent . Par analyse des hits identifiés lors d’approches basées sur les fragments, une « règle de 3 », à l’instar de la « règle de 5 » de Lipinsiki 46 (voir paragraphe 2.2.3.3), a été proposée pour la construction de chimiothèques de fragments optimisées 47. Cette règle pose des valeurs seuils pour 6 propriétés physico-chimiques : le poids moléculaire (< 300 Da) le nombre de donneurs et d’accepteurs de liaisons hydrogène (≤ 3), le coefficient de partage clogP (≤ 3), le nombre de liaisons rotatives (≤ 3), et l’aire de surface polaire (< 60 Å²). Le Tableau 3 liste des chimiothèques de fragments respectant cette « règle de 3 »

Les formats de fichiers SMILES

Le format SMILES (Simplified Molecular-Input Line-Entry System) introduit en 1988 60 permet la représentation d’une molécule comme une succession d’atomes et de liaisons. Dans ce système, les atomes sont représentés par leurs symboles atomiques entre crochets, sauf pour les éléments classiques de la chimie organique (B, C, N, O, P, S, F, Cl, Br et I) pour lesquels l’écriture entre crochets est réservée uniquement aux cas où la charge, la masse, un isotope ou la stéréochimie sont précisés. Le symbole atomique est en majuscule (par exemple C pour le carbone) lorsque l’atome appartient à un groupement aliphatique ou en minuscule lorsqu’il fait partie d’un groupement aromatique (par exemple un phényle est représenté par le code SMILES : c1ccccc1). Les liaisons simples, doubles, triples et aromatiques sont codées respectivement par les symboles suivants « – », « = », « # » et « : ». Les liaisons simples et aromatiques peuvent être omises pour simplifier le code, des atomes adjacents sont donc liés par une liaison simple ou aromatique, la distinction étant instinctive selon la casse des symboles atomiques (par exemple, CCCC et cccc représentent respectivement le butane et le 1,3-butadiène). Les ramifications, impossible à représenter telles quelles puisque le code SMILES est un enchaînement linéaire d’atomes, sont spécifiées entre parenthèses (par exemple, CC(C)C pour l’isobutane). De même, les cycles aromatiques sont construits en cassant une liaison du cycle et l’enchaînement des atomes du cycle est indiqué classiquement mais avec un chiffre suivant le symbole atomique de chaque atome impliqué dans la liaison rompue (Figure 7).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Première partie Introduction
1 Découverte de nouveaux médicaments
1.1 Histoire de la découverte des médicaments
1.2 Schéma général de R&D
1.2.1 Choix d’une cible thérapeutique
1.2.2 Identification de hits
1.2.3 Génération et optimisation des leads
1.2.4 Tests pré-cliniques
1.2.5 Tests cliniques
2 Méthodes de criblages in silico
2.1 Généralités
2.2 Les chimiothèques
2.2.1 Différents types de chimiothèques
2.2.1.1 Chimiothèques dans l’espace réel et l’espace global
2.2.1.2 Chimiothèques dans l’espace tangible et virtuel
2.2.2 Formats de chimiothèques virtuelles
2.2.2.1 Les formats de fichiers 2D
2.2.2.2 Les formats de fichiers 3D
2.2.3 Préparation d’une chimiothèque
2.2.3.1 États d’ionisation, mésomérie et tautomérie
2.2.3.2 Génération des conformations 3D
2.2.3.3 Filtres ADME-Tox
3 Criblage virtuel « ligand-based »
3.1 Recherche de similarité
3.1.1 Descripteurs de similarité
3.1.1.1 Descripteurs 2D
3.1.1.2 Descripteurs 3D
3.1.2 Métriques de similarité
3.2 Modèles pharmacophoriques « ligand- based »
3.2.1 Approches pharmacophoriques 2D
3.2.2 Approches pharmacophoriques 3D
3.2.2.1 Elucidation du pharmacophore
3.2.2.2 Criblage de chimiothèques
3.3 Modèles de relations quantitatives structure-activité (QSAR)
3.3.1 QSAR-2D
3.3.2 QSAR 3D
3.3.2.1 Analyse comparative des champs moléculaires : CoMFA
3.3.2.2 Analyse comparative d’indices de similarité moléculaire : CoMSIA
3.3.2.3 GRID/GOLPE
3.3.2.4 Phase
3.4 Succès du criblage virtuel « ligand-based »
4 Criblage virtuel « structure-based »
4.1 Identification du site de liaison
4.1.1 Structure co-cristallisée avec un ligand
4.1.2 Outils de prédiction de site de liaison
4.1.2.1 Outils de prédiction basés sur la géométrie
4.1.2.2 Outils de prédiction basés sur les énergies
4.1.2.3 Outils de prédiction basés sur la connaissance
4.2 Modèles pharmacophoriques basés sur la structure du récepteur
4.2.1 Approche basée sur le récepteur
4.2.2 Approche basée sur le complexe récepteur-ligand
4.3 RD-QSAR (Receptor Dependent-Quantitative Structure-Activity Relationship)
4.4 Conception de novo
4.4.1 Identification des sites d’interactions dans le site de liaison
4.4.2 Assemblage des blocs de construction
4.4.3 Recherche combinatoire
4.4.4 Attribution de scores
4.5 Méthodes de docking
4.5.1 Docking avec ligand rigide
4.5.2 Docking avec ligand flexible
4.5.2.1 Algorithmes de recherche
4.5.2.2 Scoring
4.5.3 Principaux logiciels de docking
4.5.4 Problématique lié aux méthodes de docking
4.5.4.1 Disponibilité des structures des protéines
4.5.4.2 Importance du solvant
4.5.4.3 Gestion de la flexibilité de la protéine
4.6 Succès du criblage virtuel basé sur la structure
5 Evaluation des méthodes de criblage virtuel
5.1 Précision du positionnement
5.1.1 Ecart quadratique moyen ou RMSD
5.1.2 L’erreur relative de déplacement RDE
5.1.3 L’espace réel du facteur R RSR
5.1.4 Classification de précision basée sur les interactions IBAC
5.2 Enrichissement d’une chimiothèque
5.2.1 Les banques d’évaluation
5.2.2 Les métriques de performance
5.2.2.1 Facteurs d’enrichissement
5.2.2.2 Courbes de ROC (Receiver Operating Characteristic)
5.2.2.3 Robust Initial Enhancement (RIE)
5.2.2.4 Boltzmann-enhanced discrimination of ROC (BEDROC)
6 Objectifs de thèse
Deuxième partie Résultats
1 Evaluation des méthodes de criblage virtuel
1.1 SBVLS : Définition de critères basés sur les propriétés du site de liaison pour optimiser la sélection de la (ou des) structure(s) de référence
1.1.1 Introduction
1.1.2 Publication
1.1.3 Discussion
1.1.4 Analyse critique de l’étude
1.1.4.1 La banque d’évaluation DUD
1.1.4.2 Déroulement de l’étude
1.1.5 Conclusion
1.2 La NRLiSt BDB : une banque d’évaluation validée manuellement dédiée aux ligands et aux structures des récepteurs nucléaires
1.2.1 Introduction
1.2.1.1 Les récepteurs nucléaires
1.2.1.2 Récepteurs nucléaires et évaluation des méthodes de criblage virtuel
1.2.2 Publication
1.2.3 Discussion
1.2.3.1 Séparation des jeux de données « agoniste » et « antagoniste »
1.2.3.2 Sélection des RNs, des structures et des ligands à inclure dans la NRLiSt BDB
1.2.3.3 Tentative de profilage des ligands agonistes et antagonistes à l’aide de descripteurs structuraux
1.2.3.4 Présentation du site web de la NRLiSt BDB
1.2.4 Analyse critique de l’étude
1.2.4.1 Critique de la base de données ChEMBL
1.2.4.2 Déséquilibre inter- et intra- jeux de données
1.2.4.3 Diversité structurale de la NRLiST BDB
1.2.4.4 Améliorations
1.2.5 Conclusion
1.3 Importance du profil pharmacologique du ligand co-cristallisé et utilisation de « decoys ligands »
1.3.1 Introduction
1.3.2 Publication
1.3.3 Discussion
1.3.3.1 Influence de l’utilisation de jeux de données séparés sur les performances du docking
1.3.3.2 Importance du ligand co-cristallisé dans la structure utilisée pour le criblage
1.3.3.3 Recherche de nouveaux decoys
1.3.4 Analyse critique de l’étude
1.3.5 Conclusion
2 Réalisation d’un criblage virtuel à la recherche de composés inhibant l’interleukine IL-6
2.1 La polyarthrite rhumatoïde
2.2 Interleukine IL-6
2.3 Protocole du criblage
2.3.1 Chimiothèque de criblage
2.3.2 Sélection de la structure et identification du site actif
2.3.3 Réalisation du criblage virtuel
2.3.4 Tests biologiques
2.3.4.1 Criblage expérimental par test cellulaire HEK-BLUE TM IL-6
2.3.4.2 Essai de spécificité des produits confirmés
2.3.4.3 Test de liaison IL-6/IL-R
2.3.5 Résultats préliminaires
Troisième partie Conclusion
Bibliographie
Liste des publications
Liste des communications orales
Posters
Résumé
Résumé en anglais