Généralités sur l’analyse de la texture des séquences protéiques

Architecture des protéines

Les protéines sont un des éléments essentiels au maintien des processus nécessaires à la vie. Ce sont des polymères biologiques d’une grande variété fonctionnelle et structurale. Elles représentent une des classes les plus importantes des molécules biologiques en raison de leur capacité, entre autres, à catalyser spécifiquement une réaction, à s’auto-assembler (oligomère), à transporter des ions ou de petites molécules à travers différents milieux cellulaires, ou à réguler l’expression des gènes. Ce sont ces gènes eux-mêmes qui codent pour les protéines. Les régions codantes des gènes (ADN) sont transcrites en ARN messagers, puis ceux-ci sont traduits en séquences d’acides aminés par les ribosomes qui allongent les chaînes polypeptidiques par formation séquentielle de liaisons peptidiques (CO-NH) entre le groupement acide d’un acide aminé et le groupement amine de l’acide aminé suivant. Chaque acide aminé est constitué d’un carbone (appelé carbone Ca), substitué par un groupement carboxyle (COOH), un groupement amine (NH2), un atome d’hydrogène (H) et un radical R. Les radicaux R sont appelés chaînes latérales, alors que les atomes Ca, N, C et O constituent la chaîne principale de la protéine ou squelette. La nature des radicaux confère au résidu des propriétés chimiques particulières (hydrophobie, charge, flexibilité, encombrement stérique). Une des plus importantes est l’hydrophobie, considérée comme le moteur du repliement protéique [KOSHI, J. M. et al., 1997; LADUNGA, I. et al., 1997]. La chaîne principale a une conformation définie pour chaque résidu par trois angles dièdres : y, j et w (Figure 1). L’angle phi (j) est l’angle de rotation autour de la liaison NCa, l’angle psi (y) est l’angle de rotation autour de la liaison Ca-C’. La liaison peptidique est plane et en conformation trans (w=0) dans la majorité des cas, pour des raisons d’encombrement stérique (seule la proline est en conformation cis dans 10% des cas). Les deux angles dièdres y et j permettent de définir les conformations énergétiques favorables de la chaîne polypeptidique dans l’espace et de préciser les interactions entre les différents groupements portés par les acides aminés [RAMAKRISHNAN, C. et al., 1965].

Les contraintes stériques sont minimales pour la glycine (-180° < Φ < 180°) et maximales pour la proline (-90° < Φ < -40°). Tous les acides aminés hydrophobes ont normalement des angles Φ négatifs. L’enchaînement des acides aminés le long de cette chaîne est la structure primaire ou séquence de la protéine. Cette séquence renferme l’ensemble des informations nécessaires au repliement de la protéine [ANFINSEN, C. B. 1973].

Structure secondaire des protéines

Les groupements amines et carboxyles des résidus de la chaîne principale sont capables de former des liaisons hydrogène, donnant naissance à des segments polypeptidiques caractérisés par des répétitions régulières locales. Ces régions appelées « structures secondaires régulières » minimisent les répulsions stériques entre les chaînes latérales des différents acides aminés, et maximisent le nombre de liaisons hydrogène : elles sont donc énergétiquement favorisées. Les angles possibles et les structures qu’ils engendrent le plus souvent sont représentés sur un diagramme de Ramachandran [RAMAKRISHNAN, C. et al., 1965]. L’hélice a (Figure 2 à gauche), l’une des deux structures secondaires régulières, se présente sous la forme d’un enroulement hélicoïdal de la chaîne d’acides aminés stabilisé par des interactions hydrogènes entre les résidus i et les résidus i+4, dont le pas est de 3.6 acides aminés par tour. Les hélices α sont plus ou moins longues, allant de 4-5 acides aminés à 40 acides aminés, la longueur moyenne étant de 12. Certains acides aminés se retrouvent préférentiellement dans les hélices α. L’alanine, la leucine, l’acide glutamique et la méthionine sont des acides aminés formateurs d’hélice α. A l’inverse, on rencontre peu de glycine, de tyrosine, de sérine et de proline. De plus, une proline sera plus souvent au début d’une hélice α qu’à la fin [ALBERTS, B et al., 1997]. Si tous les résidus (ou la plupart) sont hydrophobes sur une face de l’hélice, l’autre face étant tapissée de résidus hydrophiles, l’hélice  α adopte un caractère amphiphile qui peut lui permettre de s’associer à d’autres faces hydrophobes (d’hélice α, de membrane, de feuillet β, etc…).

Un grand nombre de protéines sont constituées par une alternance de structures secondaires (hélices a et/ou feuillet b) connectées par des boucles ou des tours, qui sont des structures dites non régulières (« coils »). On réserve généralement le nom de tour à la structure qui connecte deux brins b antiparallèles permettant à la chaîne polypeptidique de faire un demi-tour. Les tours sont généralement courts (2 à 4 acides aminés en dehors des brins). Le terme de boucle est plutôt utilisé pour des séquences plus longues (plus de 4 résidus en général), qui peuvent alors prendre un plus grand nombre de conformations que les tours. Ces boucles connectent généralement des hélices a entre elles, ainsi que des hélices a avec des brins b, ou encore deux brins b spatialement distants. La longueur moyenne des boucles est de 6 à 10 acides aminés. La combinaison d’hélices et de feuillets confère à la protéine un cœur hydrophobe stable. Les boucles sont retrouvées à la surface des protéines et sont largement exposées au solvant. En conséquence, elles sont riches en acides aminés chargés et polaires.

Structure tertiaire et repliement protéique

La structure tertiaire est formée par l’agencement des structures secondaires entre elles. Elle est le résultat d’interactions diverses (liaisons hydrogène, hydrophobes, électrostatiques, covalentes comme les ponts disulfures…) entre acides aminés de la même chaîne principale, mais non voisins dans la séquence. Cette configuration stable et définie, qui permet à des acides aminés séquentiellement éloignés de se retrouver côte à côte, est primordiale pour l’activité biologique des protéines. L’un des facteurs les plus important qui gouverne le repliement d’une protéine est la distribution de ses chaînes latérales polaires et non polaires [BRANDEN, C et al., 1991]. Celui-ci s’effectue sans réarrangement des liaisons covalentes chimiques de la protéine à l’exception parfois de la formation de ponts disulfures entre des cystéines. Les nombreuses chaînes latérales hydrophobes d’une protéine ont tendance à être agglomérées à l’intérieur de la molécule, ce qui leur permet d’éviter le contact avec l’environnement aqueux. Au contraire, presque toutes les chaînes latérales polaires ont tendance à se placer près de l’extérieur de la molécule protéique, où elles peuvent interagir avec l’eau et avec d’autres molécules polaires. La stabilité du repliement provient des interactions faibles entre les atomes situés au cœur de la protéine et de ceux exposés au solvant. Ces interactions sont les forces de Van der Waals, les liaisons hydrogène et les liaisons ioniques. Le repliement d’une protéine s’effectue sous contrôle thermodynamique (la forme repliée possède normalement l’énergie la plus basse), dicté uniquement par l’information contenue dans sa séquence [ANFINSEN, C. B. 1973]. De manière remarquable, les structures protéiques ne définissent qu’un nombre limité et réduit de repliements distincts, un repliement (ou « fold ») étant caractérisé par une disposition unique, ou très proche, de structures secondaires régulières et par une connexion (topologie) identique de ces structures secondaires. Les génomes procaryotes et eucaryotes codent pour plusieurs milliers de protéines de repliements divers. A l’heure actuelle nous connaissons au niveau structural plus de la moitié des types de repliements indépendants qu’utiliseraient les protéines. En effet, pour plus de 1012 séquences protéiques que contiendrait la biosphère terrestre, on estime que seul environ un millier de types de repliements tridimensionnels indépendants existeraient [WANG, Z. X. 1998; ZHANG, C. et al., 1998; GOVINDARAJAN, S. et al., 1999]. Les différentes topologies de repliement sont classées principalement en quatre familles: « tout a » ou « tout b » quand les hélices ou les brins représentent respectivement au moins 90% des structures secondaires de la protéine, «a/b » quand il y a une alternance de brins et d’hélices et « a+b » lorsqu’il y a ségrégation entre deux parties séparées de brins et d’hélices (Figure 3 et Figure 4). Il existe cependant plusieurs autres catégories regroupant les protéines multi-domaines, les protéines ayant peu de structures secondaires et les protéines membranaires. Deux bases de données  répertorient ces repliements protéiques : SCOP [MURZIN, A. G. et al., 1995] et CATH [ORENGO, C. A. et al., 1997; HADLEY, C. et al., 1999]. La banque de données SCOP regroupe les protéines de la Protein Data Bank (PDB) [BERMAN, H. M. et al., 2000] présentant une relation de similarité structurale et d’évolution. La classification de SCOP comprend les 5 classes de repliement définies ci-dessus alors que CATH n’en contient que 4 en regroupant les repliements a/b et a+b dans une classe unique alpha-bêta comme défini initialement par Levitt et Chothia [LEVITT, M. et al., 1976]).

SCOP

La classification SCOP (pour Structural Classification Of Proteins) comporte principalement cinq classes de repliements : A (tout a), B (tout b), C (a/b), D (a+b), auxquelles se sont ajoutées rapidement les classes E (protéines multidomaines), F (protéines membranaires et de surface) et G (petites protéines). A ces classes se sont ajoutées récemment quatre classes moins bien définies (I, J, K et L) correspondant respectivement aux protéines « coiled_coil » (formant des tresses d’hélices), aux structures protéiques déterminées à faible résolution, aux peptides et aux modèles de protéines.

Chaque classe de repliement comporte trois niveaux de hiérarchie :
– les familles regroupent des protéines ayant un lien de parenté. Généralement, elles présentent plus de 30% d’identité de séquence entre elles. Néanmoins, dans certains cas, leurs fonctions et structures similaires suffisent à les inclure dans une même famille (par exemple, les globines forment une famille dont les membres présentent seulement environ 15% d’identité),
– les super familles rassemblent des protéines présentant une faible identité de séquence entre elles mais dont les repliements et fonctions semblent voisins et seraient probablement dû à une origine évolutive commune,
– le repliement regroupe les protéines partageant une majorité de structures secondaires dans le même arrangement et avec les mêmes connexions topologiques. Dans cette classe, on peut retrouver des protéines présentant des similarités structurales et n’ayant aucun lien de parenté entre elles.

CATH
La classification CATH (pour “Class Architecture Topology Homologous superfamily”) est également une banque hiérarchique de structures protéiques. Les protéines sont désignées comme multi-domaines ou monodomaines, d’après trois algorithmes de reconnaissance de domaines (DETECTIVE [SWINDELLS, M. B. 1995], PUU [HOLM, L. et al., 1994] et DOMAK [SIDDIQUI, A. S. et al., 1995]). Ces domaines sont classés suivant quatre niveaux principaux de hiérarchie :
– C : La classe structurale est définie à partir de la composition en structures secondaires. Pour être qualifiées de tout a, les protéines doivent comporter plus de 50 % d’hélices a et moins de 5 % de brins b dans leur structure. De plus, elles doivent avoir plus de 50 % d’interactions ou de contacts aa et moins de 5 % de contacts bb. Pour être qualifiées de tout b, les protéines doivent comporter plus de 50 % de feuillets b et moins de 5 % d’hélices a dans leur structure. De plus, elles doivent avoir moins de 10 % d’interactions ou de contacts aa et plus de 50 % de contacts bb. Les repliements a/b et a+b sont regroupés dans une même classe de repliement. Celle-ci est définie par un ensemble d’hélices a et de feuillets b tel qu’il y ait entre 15 % et 55 % d’hélices a et entre 10 % et 45 % de feuillets b dans le repliement. Contrairement à a+b, a/b contient beaucoup de feuillets b antiparallèles [MICHIE, A. D. et al., 1996]. Une dernière classe contient les domaines protéiques avec peu de structures secondaires.
– A : L’architecture décrit l’arrangement spatial des structures secondaires sans tenir compte de leurs connectivités. Dans ce niveau, sont retrouvées par exemple les protéines adoptant les architectures en tonneau ou en sandwich trois couches.

– T : La topologie rassemble des structures dont l’architecture et les connexions entre structures secondaires sont globalement proches [TAYLOR, W. R. et al., 1989].
– H : Les familles de protéines Homologues regroupent les domaines protéiques considérés comme partageant un ancêtre commun et pouvant ainsi être décrites comme homologues. Les similarités sont d’abord identifiées par comparaison de séquences puis par comparaison de structure. D’autres procédures utilisent les scores de SSAP pour relier des protéines avec un taux plus faible d’identité de séquence [TAYLOR, W. R. et al., 1989]. Il existe une dernière classe (S) qui regroupe les familles de séquences. Cette sous-classe de H contient les protéines avec des identités de séquence supérieures à 35%.

Un même type de repliement protéique peut donc être généré par un très grand nombre de séquences naturelles, souvent très différentes entre elles. Depuis la résolution de la première structure protéique en 1960 [KENDREW, JC. et al., 1960], le nombre de structures résolues n’a cessé de croître. Ainsi, la Protein Data Bank (PDB) compte actuellement 31 059 entrées structurales (24 mai 2005) [BERMAN, H. M. et al., 2000]. On estime que le nombre de repliements différents dans la nature est de l’ordre du millier [WANG, Z. X. 1998; ZHANG, C. et al., 1998; GOVINDARAJAN, S. et al., 1999; WOLF, Y.I. et al., 2000] ce qui est très inférieur par rapport aux nombre de séquences connues (banque Non Redondante du NCBI, 2 543 432 séquences en juin 2005) [WOODSMALL, R. M. et al., 1993]. D’autre part, il apparaît que le nombre de séquences ne cesse de croître alors que la détection de repliements nouveaux tend à diminuer. Des domaines protéiques présentant un même type de repliement ont souvent des séquences conservées et des fonctions voisines. Ainsi, lorsque deux séquences protéiques présentent plus de 30 % d’identité de séquence, elles adoptent, sauf exception rarissime, un même repliement [SANDER, C. et al., 1991; CHOTHIA, C. et al., 1997]. Cependant des protéines peuvent être souvent très divergentes (e.g. 10% d’identité de séquence) et être très similaires au niveau de leur structure tertiaire et de leur fonction.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
Première partie : Généralités sur l’analyse de la texture des séquences protéiques
Chapitre I Structure des protéines : généralités
1 Architecture des protéines
2 Structure secondaire des protéines
3 Structure tertiaire et repliement protéique
3.1 SCOP
3.2 CATH
4 Les domaines protéiques et régions non structurées
Chapitre II La méthode Hydrophobic Cluster Analysis
1 Introduction
2 Fondement de la méthode HCA
3 Représentation HCA : règles de segmentation de la séquence en amas
3.1 Représentation binaire des acides aminés
3.2 Un support hélicoïdal
3.3 Distance de connectivité
3.4 L’alphabet HCA
3.5 Un acide aminé interrupteur d’amas : la proline
4 Un amas correspond majoritairement à un type de structure secondaire
5 But et Perspectives
Chapitre III Analyse de la texture
1 Texture et analyse de texture : Généralités
1.1 Définition de la texture
1.2 Deux types de texture : aléatoire et structurée
2 Perception et analyse visuelle d’une texture
3 Quelques méthodes d’analyse de texture
3.1 Méthodes de premier ordre
3.2 Méthodes de second ordre : méthode de matrice de cooccurrence
3.3 Méthodes d’ordre supérieur : méthode des longueurs de plages de niveaux de gris (ou de sections)
3.3.1 Paramètre SRE
3.3.2 Paramètre LRE
3.3.3 Paramètre GLD
3.3.4 Paramètre RLD
3.3.5 Paramètre RLP
4 But de notre étude
Deuxième partie : Développements méthodologiques pour analyser la texture dans les séquences protéiques
Préambule
Chapitre IV Exploitation des méthodes d’analyse de texture en imagerie
1 Adaptation des méthodes d’analyse de texture en imagerie à notre système (tracé HCA)
1.1 Transposition du tracé HCA dans une matrice
1.2 Choix d’une taille de fenêtre glissante
1.3 Choix d’un code
1.3.1 Code hydrophobe HCA (code01)
1.3.2 Code à 4 groupes (code 1234)
1.3.3 Code amas-non amas (code amas)
1.4 Choix d’une direction (pour les calculs de matrice de cooccurrence et de longueurs de plage)
2 Constitution des banques de protéines de référence
3 Résultats
3.1 Méthode de premier ordre
3.1.1 Etude de la distribution du paramètre « pourcentage d’acides aminés hydrophobes »
3.1.2 Etude du profil d’hydrophobie
3.2 Méthode de cooccurrence
3.2.1 Etude des distributions des paramètres entropie et contraste
3.2.2 Etude de profils de cooccurrence
3.3 Méthode des longueurs de plage
3.3.1 Etude des distributions des paramètres SRE, LRE, GLD, RLD et RLP66
3.3.2 Etude de profils des longueurs de plage
3.4 Distribution des amas hydrophobes dans les banques A, B, C et D
4 Discussion et Conclusion
Chapitre V DomHCA : un outil pour prédire les régions structurées
1 Introduction : Travaux précédents
1.1 Prédiction de domaines structuraux
1.2 Prédiction de « linkers » et de régions non structurées
1.3 Conclusion et but de l’étude
2 Fondement de la procédure DomHCA et caractérisation des domaines globulaires
2.1 Distribution des acides aminés hydrophobes V, I, L, F, M, Y et W
2.2 Distribution des amas hydrophobes
2.3 Distribution des tailles des domaines
3 Principe de l’algorithme pour détecter les régions structurées
4 Ajustement des bornes des régions structurées
4.1 Ajustement global
4.2 Ajustement des bornes de début et de fin de la région structurée
4.3 Correction apportée à la prédiction de régions structurées de petite taille entourées par de grandes régions charnières
5 Score d’hydrophobie
6 Information déduite du score d’hydrophobie sur la présence éventuelle de passages membranaires dans les régions structurées
6.1 Introduction
6.2 Indications quant à la présence éventuelle de passages membranaires dans le cadre de la prédiction DomHCA
6.3 Passages membranaires hélicoïdaux multiples
6.4 Passages membranaires hélicoïdaux isolés
6.5 Cas particuliers des porines
7 Evaluation de la prédiction DomHCA
7.1 Méthodologie
7.1.1 Constitution des échantillons tests
7.1.2 Cas des protéines monodomaines
7.1.3 Cas des protéines « pluridomaines »
7.2 Résultats
7.2.1 Hydrophobie et taille des régions prédites
7.2.2 Prédiction de régions structurées à partir de chaînes « monodomaines »
7.2.3 Prédiction des régions structurées à partir de chaînes pluri-domaines
7.2.4 Comparaison avec d’autres méthodes
7.3 Application aux séquences de Plasmodium falciparum
8 Discussion et Conclusion
Chapitre VI Autres développements et caractérisation de régions spécifiques dans les protéines
1 Introduction
2 Identification de régions de répétition
2.1 Méthode d’identification
2.1.1 Harmonique standard
2.1.2 Harmonique hydrophobe
2.1.3 Harmonique dégénérée
2.2 Caractérisation des harmoniques
2.2.1 Répétitions structurées, pseudo-structurées
2.2.2 Répétitions simples ou mixtes
3 Identification de peptides de fusion
3.1 Introduction
3.2 Méthode de détection
4 Prédiction de la classe de repliement (A, B, C, D)
4.1 Propension des acides pour un type de structure secondaire
4.2 Distribution des acides aminés au sein des différents types de repliements
4.3 Dictionnaire d’amas hydrophobes
4.3.1 Règles d’attribution des états A, B et ?
4.3.2 Prédiction de la tendance de repliement de régions structurées
4.4 Fréquence d’apparition des amas hydrophobes par rapport à l’aléatoire (Zscore) et corrélation aux structures secondaires
4.5 Distribution des amas en fonction de leur longueur et de leur nombre d’acides aminés hydrophobes
5 Conclusion
Conclusion générale

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *