Algorithmique pour l’annotation automatique de peptides non ribosomiques

Les peptides non ribosomiques (NRP en anglais) sont des molécules synthétisées par des bactéries et champignons microscopiques. Ces molécules sont d’une importance capitale pour ces organismes car elles sont souvent utilisées comme mécanisme de défense contre d’autres micro-organismes. Nous, humains, nous intéressons à ces molécules car elles sont une source importante de nouvelles molécules pour la pharmacologie. En particulier, une très grande partie des NRP découverts à ce jour ont des propriétés antibiotiques. La célèbre pénicilline, découverte par Alexander Fleming au début du siècle dernier, est une molécule issue d’une transformation d’un précurseur NRP.

Comme leur nom l’indique, les peptides non ribosomiques ne sont pas produits par la voie de synthèse classique des protéines (utilisant le ribosome). Cette voie de synthèse alternative autorise la cellule à créer des molécules de formes et de compositions inhabituelles. Les molécules sont assemblées à partir d’éléments de base appelés monomères. Il existe actuellement plus de 500 monomères différents répertoriés comme étant inclus au sein de NRP. Ce sont les compositions inhabituelles couplées aux formes particulières qui confèrent leur diversité d’activité et leur efficacité aux NRP. Connaître les compositions des NRP est d’une importance cruciale car c’est cela qui nous permet de relier un composé à sa voie de synthèse et aussi de prédire l’activité que peut avoir cette molécule.

Les structures NRP sont découvertes via deux méthodes. D’un côté, il existe des logiciels d’analyse d’ADN qui détectent les gènes menant à la création de ces molécules. Ces logiciels prédisent, à partir de l’ADN, les différents constituants potentiels des NRP produits. Cependant, en l’état actuel des connaissances, ces techniques ne peuvent pas complètement inférer les compositions et formes complètes des peptides qui seront synthétisés. D’un autre côté, il est possible de découvrir expérimentalement des NRP en analysant les composés produits par les organismes. Ce processus permet d’obtenir, par spectrométrie de masse entre autres, les structures chimiques des molécules. Cependant, pour obtenir les informations biologiques (les monomères présents dans le peptide), il est souvent nécessaire d’effectuer une annotation manuelle. Là où la première méthode de découverte donne rapidement de nombreuses annotations incomplètes, la seconde méthode donne des annotations exactes mais avec un bien plus faible débit du fait du traitement manuel. Ma thèse s’articule autour de l’obtention rapide et exacte des annotations biologiques et de leur utilisation.

Synthèse non-ribosomique

Afin de bien comprendre la voie de synthèse non ribosomique, commençons par quelques rappels rapides sur la synthèse des protéines classiques. Dans la cellule, les protéines sont assemblées par un complexe moléculaire, appelé ribosome, qui lit les les ARN messagers. Ces ARN sont les vecteurs de l’information génétique et sont issus de la transcription d’un morceau d’ADN. Ils sont traduits par triplets de nucléotides (appelés codons) en chaînes d’acides aminés. Les 64 codons possibles (4³ nucléotides) sont pour la plupart traduits en 20 acides aminés appelés acides aminés protéogéniques (car ils interviennent dans la synthèse classique de protéines). Ces acides aminés sont tous composés d’un même squelette atomique autorisant deux liaisons et permettant ainsi la formation de chaînes peptidiques. Sur le squelette est ancrée une chaîne latérale variant d’un acide aminé à l’autre, leur donnant leur spécificité . Les deux liaisons qu’effectue le squelette sont supportées par un groupement amine (NH2) et un groupement carboxyle (C(= O)OH). Ces deux groupements se lient entre eux et créent ainsi une protéine linéaire. Lorsque la chaîne n’est constituée que de quelques acides aminés (généralement moins de 25) on ne la nomme plus protéine mais peptide.

Une fois assemblée, une protéine se replie sur elle même et les caractéristiques structurelles et physico-chimiques qui en découlent lui donnent son activité. Plus précisément, les propriétés des éléments en contact avec d’autres molécules détermineront l’activité de cette protéine. Il est possible que ces surfaces soient à “l’extérieur” de la protéine ou à “l’intérieur” sous forme de poche. Ces propriétés sont donc très dépendantes du repliement et des types des acides aminés exposés.

Généralités sur les peptides non ribosomiques

Les peptides non ribosomiques (Non Ribosomal Peptide -NRP-) sont des petits polymères synthétisés par certaines bactéries et certains champignons unicellulaires. Tout comme les protéines classiques, les NRP sont des molécules résultant d’assemblages de briques de base. Cependant, comme le nom l’indique, la voie de synthèse d’un NRP est différente de celle d’une protéine classique. Cette voie de synthèse comporte une étape supplémentaire , lors d’une création classique de protéine, l’ADN est transcrit en ARN qui lui même est traduit en protéine. Dans le cas d’une NRPS, la protéine produite n’est pas le produit final mais une enzyme modulaire agissant seule ou en complexe afin d’assembler les NRP. Ces complexes sont appelés des synthétases (Non Ribosomal Peptide Synthetase -NRPS-).

Les monomères

Tandis que les protéines classiques sont majoritairement composées des 20 acides aminés standards, la synthèse non ribosomique incorpore plusieurs centaines de briques de base différentes. Ces briques de base sont appelées monomères. La base de données de référence des NRP compte pour le moment 533 monomères différents. Les monomères peuvent provenir de différents groupes. Parmi ces monomères, on compte les 20 acides aminés standards ainsi qu’un grand nombre de dérivés proches , il est par exemple possible d’obtenir des monomères méthylés ou oxydés . On peut également citer les sucres et les acides gras comme faisant partie des monomères candidats à l’inclusion dans des NRP.

Les structures peptidiques

Contrairement à la création des peptides classiques par le ribosome, les NRPS peuvent assembler les monomères au sein des NRP de manière non linéaire. Certains monomères possèdent plus de deux groupements capables de réagir et former une liaison avec un autre monomère , on peut constater que le monomère nommé Dpr (acide 2,3-diamonopropionique) possède un groupement amine supplémentaire à celui déjà présent dans le squelette des acides aminés classiques. Ce groupement en bout de chaîne latérale autorise le Dpr à se lier 3 fois et ainsi casser la linéarité de la molécule assemblée. Ces monomères permettent ainsi d’obtenir des structures à embranchements.

Les liaisons inter-monomères

Classiquement, les liaisons au sein de peptides se font par le rapprochement d’un groupement carboxyle d’un premier monomère vers le groupement amine d’un second. Au sein des NRP, plusieurs autres types de liaisons viennent s’ajouter aux liaisons peptidiques. Ceci augmente la diversité structurale des peptides. La liaison peptidique classique reste tout de même la principale liaison effectuée entre monomères. En dehors de celle-ci, nous pouvons lister trois différentes façons de lier les NRP.

Le premier type de liaison inclut un monomère contenant un atome de soufre. Comme pour les protéines classiques, les monomères soufrés peuvent effectuer des ponts disulfures (liaison entre deux atomes de soufre en perdant deux atomes d’hydrogène). Cependant, ce type de liaison n’est pas le seul impliquant un soufre. Comme nous le verrons plus tard lors de la description des modules NRPS Cy , l’atome de soufre peut également intervenir dans une cyclisation entre deux monomères en perdant son atome d’hydrogène de la même manière que lorsqu’il réalise un pont disulfure .

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Prérequis
0.1 Représentation 2D de molécules
0.2 Représentation 1D d’une molécule : les SMILES
0.3 Graphes
1 Les peptides non ribosomiques
1.1 Synthèse non-ribosomique
1.1.1 Introduction
1.1.2 Généralités sur les peptides non ribosomiques
1.1.3 Généralités sur les synthétases
1.1.4 Les domaines principaux
1.1.5 Les domaines de modification des monomères
1.1.6 Incorporations extra-NRPS
1.2 Les outils bioinformatiques pour l’annotation et l’analyse des NRP/NRPS
1.2.1 Les outils d’annotation de NRPS
1.2.2 Les bases de connaissances de NRPS
1.2.3 L’annotation de NRP
1.2.4 Les bases de connaissance de NRP
2 s2m : Des atomes vers les monomères
2.1 Introduction
x CONTENTS
2.2 Formalisation du problème d’annotation
2.2.1 Définition du problème
2.2.2 L’existant
2.2.3 Vers des problèmes informatiques
2.3 Sous-graphe Maximum Commun vs Isomorphisme de Sous-graphe
2.3.1 Sous-graphe Maximum Commun
2.3.2 Isomorphisme de sous-graphe
2.3.3 Choisir l’algorithme de recherche de monomères
2.4 Construction de Smiles2Monomers
2.4.1 Isomorphisme de sous-graphe appliqué à la recherche de monomères
2.4.2 Des monomères aux résidus
2.4.3 Pavage de monomères
2.4.4 Recherche approximative (light)
2.4.5 Vue globale des algorithmes
2.5 Résultats et interprétations
2.5.1 Jeux de données
2.5.2 Profil d’un résultat
2.5.3 Choix des paramètres
2.5.4 Répartition des temps de calcul et analyse
2.5.5 Analyse des résultats
3 Vers un enrichissement de Norine
3.1 Norine
3.1.1 Généralités
3.1.2 Les peptides
3.1.3 Les outils liés
3.2 Les contributions de s2m à Norine
3.2.1 Améliorations de l’existant
3.2.2 Mises à jour de Norine
3.3 Vers la biologie de synthèse
CONTENTS
3.3.1 L’existant
3.3.2 Aider les techniques de recombinaisons modulaires
Conclusions