Les quatre niveaux d’organisation de la structure des protéines

Télécharger le fichier pdf d’un mémoire de fin d’études

Évolution des séquences protéiques

L’évolution des séquences protéiques résulte d’évènements qui interviennent à l’échelle des séquences nucléotidiques : mutations ponctuelles (substitutions, délétions et insertions) ou réarrangements de plus grande taille (schématisés Figure 1.5) tels que l’émergence de novo ou la perte de gènes (Albalat et Cañestro, 2016) ou de régions, leur duplication, leur fusion ou leur fission. Ces évènements peuvent modifier les propriétés physico-chimiques des protéines codées par les gènes concernés, et affecter leurs structure 3D (interactions intra-moléculaires), leurs propriétés de surface et/ou leurs fonctions (Fowler et Fields, 2014; Jasinska et al., 2020). Cependant, des mutations compensatoires localisées dans le voisinage 3D des résidus concernés peuvent permettre le maintien de ces propriétés (Figure 1.6) (Altschuh et al., 1987; Levin et Mishmar, 2017; Marks et al., 2011). La co-évolution entre résidus d’une protéine peut donc refléter un voisinage 3D.

L’ordre dans les protéines : relations séquence-structure-fonction

Les séquences qui ont évolué à partir d’un ancêtre commun sont appelées séquences homologues. Il existe différents types d’homologues, détaillés ci-après. Les orthologues sont issus d’un évènement de spéciation. Ils assurent une fonction similaire dans des organismes différents et présentent un niveau de conservation élevé (Koonin, 2005). Les paralogues sont issus d’un évènement de duplication au sein d’un organisme donné, et constituent donc une forme de redondance fonctionnelle à l’issue de cet évènement. Alors qu’une des copies pourra continuer à exercer la fonction de leur ancêtre, l’autre pourra diverger et acquérir une nouvelle fonction (néo-fonctionnalisation) ou devenir non fonctionnelle (pseudogénisation) (Bershtein et al., 2021; Gabaldón et Koonin, 2013; Soria et al., 2014). En parallèle de ces mécanismes d’évolution verticale, des transferts de matériel génétique entre organismes peuvent se produire. Ces évènements de transferts horizontaux sont courants chez les procaryotes, via des intermédiaires viraux (Weinbauer et Rassoulzadegan, 2004). Lorsque ces transferts impliquent des régions codantes, ils conduisent à l’observation d’un autre type de gènes homologues nommés xénologues. Ces séquences évoluent de façon autonome dans chacun de leurs hôtes.
Figure 1.6. Illustration du phénomène de co-évolution entre deux acides aminés. a) Représentation d’un alignement multiple de séquences homologues, où deux positions qui ont co-évolué sont mises en avant. b) Représentation schématique de la structure d’une des protéines reprises dans l’alignement de séquences, dans laquelle est mise en évidence l’interaction entre les résidus qui ont co-évolué, permettant le maintien de la structure (pont salin ou interaction de van der Waals). Figure adaptée de Bittrich et al., 2019.

Les domaines : unités structurales, évolutives et fonctionnelles des protéines

La notion de domaines, introduite en 1973 (Wetlaufer, 1973), répond à une des trois définitions, qui généralement se recoupent : (i) une région qui se structure indépendamment du reste de la protéine, (ii) un segment qui évolue indépendamment du reste de la protéine, (iii) une unité capable d’avoir une fonction indépendamment du reste de la protéine (Branden et Tooze, 1996) (Figure 1.7). La taille d’un domaine est en moyenne de 100 acides aminés, et peut varier entre environ 30 et 500 acides aminés (Wheelan et al., 2000).
Cyrus Chotia en 1992 (Chothia, 1992), puis d’autres auteurs (Bordin et al., 2021; Holm et Sander, 1996; Kolodny et al., 2013; Koonin et al., 2002; Wolf et al., 2000; Zhang et DeLisi, 1998) ont montré qu’il n’existe qu’un nombre limité de repliements 3D que peuvent adopter les domaines. Ce nombre a été estimé à quelques milliers. Les domaines sont découpés et classés en familles structurales (repliements) dans des banques dédiées sur la base de la composition en structures secondaires et l’agencement de celles-ci (SCOPe (Andreeva et al., 2020), CATH (Redfern et al., 2007; Sillitoe et al., 2021), ECOD (Cheng et al., 2014)) (Figure 1.8, flèche bleue). La dernière version de la banque de classification structurale SCOPe (Tableau 1.1) (v2.08, sept 2021 (Chandonia et al., 2022)) que nous avons utilisée dans ce travail de thèse, recense 1256 repliements distincts. Au sein d’une même famille structurale, ces approches définissent différentes familles de séquences sur la base de leurs relations évolutives (Figure 1.8, flèche rouge). Dans le cas de SCOPe, 5084 familles évolutives sont ainsi définies (Tableau 1.1). Il est important de remarquer que ces banques contiennent relativement peu de protéines membranaires par rapport à l’ensemble des structures déterminées expérimentalement et répertoriées dans la PDB. Une annotation plus précise de ces protéines membranaires est proposée par la banque OPM (Lomize et al., 2006). Les domaines membranaires ont la particularité d’être composés uniquement d’un type de structures secondaires : une ou plusieurs hélices alpha (Figure 1.9.A) ou un ensemble de brins beta organisés en tonneaux (beta-barrels, Figure 1.9.B).
Par ailleurs, différentes bases de données de séquences de domaines ont été construites indépendamment de l’information structurale. Chaque famille de séquences homologues, considérées comme portant une fonction similaire, est représentée sous forme d’un profil probabiliste (PSSM ou HMM). Les deux banques les plus larges sont CDD et InterPro (Scaiewicz et Levitt, 2015), et proposent toutes deux des outils permettant l’identification de nouveaux membres (Jones et al., 2014; Marchler-Bauer et Bryant, 2004). Cette approche est à la base de l’annotation fonctionnelle que j’exploite dans mes travaux de thèse. InterPro (InterPro 90.0, 4 août 2022 (Blum et al., 2021)) recense 11954 familles de domaines.

Séquences, structures, fonctions : ressources et outils

Les banques de données

Les séquences, domaines et structures des protéines, ainsi que les fonctions qui leur ont été assignées (ou l’absence de fonction) sont consignés dans de nombreuses bases de données, jouant un rôle important dans la centralisation de ressources exhaustives permettant l’annotation des protéines. Les données sont des séquences protéiques entières (e.g. UniProt (The UniProt Consortium, 2021), banque non redondante (nr) du NCBI (Sayers et al., 2021), Big Fantastic Database (BFD) (Steinegger et al., 2019b; Steinegger et Söding, 2018)), des profils de séquences entières (e.g. eggNOG regroupant les séquences orthologues dans des profils uniques (Huerta Cepas et al., 2019)), des profils de séquences de domaines (e.g. InterPro (Blum et al., 2021); Conserved Domain Database (CDD) (Lu et al., 2017), Pfam (Mistry et al., 2021)) ou enfin les structures 3D déterminées expérimentalement (e.g. PDB (Berman et al., 2003) ), qui peuvent être découpées en domaines structuraux (e.g. SCOPe (Chandonia et al., 2022) et CATH (Sillitoe et al., 2021)) ainsi que les structures 3D prédites (e.g. AFDB, prédictions par AlphaFold2 (Varadi et al., 2022)). Certaines de ces ressources proposent une classification des données : CATH et SCOPe sur la base des structures (comme vu ci-dessus) ; ECOD, InterPro, CDD et SUPERFAMILY sur la base de l’information évolutive.
InterPro, par exemple, propose de classer les domaines en superfamilles homologues (S), familles (F), domaines (D), et les domaines eux-mêmes peuvent être catalogués selon leur fonction et caractéristiques comme des répétitions (R), ou des sites (S) d’intérêts (sites actifs, sites de liaison, site conservés, sites transmembranaires).
La banque de données OPM, que j’ai également exploité dans le cadre de cette thèse, regroupe les protéines membranaires présentes dans PDB, et les classe selon six critères différents dont leur composition en structures secondaires (e.g. domaine membranaire composé d’hélices alpha polytopique (plusieurs passages), bitopique (un seul passage), ou domaine composé de brins beta organisés en tonneau beta) ou leur localisation (e.g. membrane bactérienne interne gram-négative, membrane plasmique d’eucaryote, membrane de lysosome)

L’ordre dans les protéines : relations séquence-structure-fonction

(Lomize et al., 2006). Shimizu et al. (2018) ont montré qu’OPM est la banque de données de structures 3D de domaines membranaires détenant le plus grand nombre d’entrées (9842, contre 4229 pour mpstruc (White, 2009), 3104 pour PDBTM (Tusnády et al., 2004) et 1457 pour SCOPe, au moment de l’étude).
Dans ces banques de données, on retrouve une annotation fonctionnelle et/ou structurale associée aux protéines ou aux domaines. Certaines entrées restent cependant de fonction inconnue, elles porteront l’annotation unknown function ou DUF (Domain of Unknown Function) (Bateman et al., 2010). D’autre part, l’étiquette hypothetical proteins regroupe les protéines prédites à partir de données de séquençage, protéines putatives et protéines non caractérisées (Sahoo et al., 2020).

Outils de recherche de similitude de séquences

Pour annoter une séquence, la méthode traditionnelle consiste à rechercher des parentés dans les banques de données de séquences et/ou de domaines, et à lui transférer leur(s) annotation(s). Ces parentés ou relations d’homologie sont prédites sur la base de la recherche de similitudes.
De nombreux programmes existent pour la recherche de similitude dans une banque de séquences, et peuvent être appliqués à de grands jeux de données grâce au développement d’algorithmes rapides et efficaces, tels que diamond (Buchfink et al., 2015), qui correspond à une version accélérée de l’algorithme BLAST (Camacho et al., 2009). Cet algorithme est une heuristique, dont le fonctionnement est basé sur le découpage des séquences en mots de taille k, ainsi les séquences à annoter ne seront alignées qu’aux séquences de la banque de données partageant des mots similaires.
D’autres programmes se concentrent sur la détection d’orthologues. Ces méthodes permettent de regrouper des séquences similaires, permettant ainsi l’annotation rapide de celles-ci. Parmi ces algorithmes de classification non supervisée, on retrouve orthoMCL (Fischer et al., 2011), INPARANOID (Remm et al., 2001) ou MMseqs2 (Steinegger et Söding, 2018). Ce dernier algorithme est particulièrement adapté aux très grands jeux de données de séquences, une comparaison des séquences par paires en se basant sur leur composition en mots de taille k lui permet de générer des graphes de séquences dans lesquels les séquences similaires sont reliées et à partir desquels il définit des groupes de séquences similaires.
Considérer l’information évolutive, reprise sous forme de profils ou de modèles de Markov cachés (HMM), permet d’augmenter la sensibilité de détection d’homologues. Les algorithmes de recherche itérative (PSI-BLAST (Altschul et al., 1997) et HHblits (Steinegger et al., 2019a)) permettent la construction d’un profil à partir de la séquence à annoter, complétée par des recherches de similitudes itératives avec les nouveaux homologues identifiés. A chaque itération, le profil sera donc de plus en plus complet, et la recherche permettra de détecter, par recherche dans des banques de séquences, des relations d’homologie de plus en plus éloignées.
D’autres algorithmes permettent une recherche à partir d’un profil dans des banques de profils (e.g. HHsearch (Steinegger et al., 2019a) et hmmscan (Eddy, 2011)), pour la mise en évidence de relations d’homologie alors même que les séquences partagent moins de 20% d’identité (Blake et Cohen, 2001; Steinegger et al., 2019a).
Les méthodes décrites ci-dessus reposent toutes sur des alignements séquences-séquences ou séquences-profils, une étape dont s’affranchissent les méthodes basées sur les modèles de langage des protéines (ou pLM pour « protein Language Model ») (Bepler et Berger, 2019; Elnaggar et al., 2022; Rives et al., 2021; Schütze et al., 2022). Ces méthodes apparues récemment utilisent des algorithmes d’apprentissage tirés du traitement automatique du langage naturel. Dans le cadre des protéines, chaque acide aminé est considéré comme un mot, et est encodé en fonction du contexte dans lequel il est retrouvé (on parle d’« embedding »). Ces méthodes ont des résultats prometteurs, elles permettent de détecter des relations d’homologie entre séquences qui partagent moins de 20% de pourcentage d’identité (Heinzinger et al., 2022; Littmann et al., 2021).

Outils de prédiction des structures

Jusqu’à récemment, les méthodes de prédictions de structure 3D les plus efficaces en terme de précision se limitaient à une modélisation basée sur l’homologie, plus justement dénommée modélisation comparative (Jisna et Jayaraj, 2021). Des outils comme Phyre2 (Kelley et al., 2015) et HHPred (Steinegger et al., 2019a) permettent de rechercher des similitudes entre la séquence à modéliser et celles présentes dans les banques de données de structures 3D (e.g. PDB, CATH, SCOPe). Le programme MODELLER (Webb et Sali, 2021), référence du domaine de la modélisation comparative, permet de construire des modèles de structures 3D satisfaisant les contraintes spatiales sur la base de l’alignement d’une séquence avec une ou plusieurs séquences de structure 3D connue(s) et utilisée(s) comme gabarit(s), avant de les affiner par minimisation énergétique (étapes détaillées Figure 1.10). Des outils comme SWISS-MODEL (Waterhouse et al., 2018) permettent d’automatiser l’ensemble de ces étapes, depuis la recherche de gabarits jusqu’à la proposition de modèles de structures 3D affinés. Ces approches reposent donc très fortement sur les méthodes décrites dans le chapitre 1.1.4.2. Elles ne sont performantes que dans les cas où on retrouve de la similitude dans les banques de données structurales. Une alternative est proposée par les méthodes d’enfilage (« threading »), telles ORION (Ghouzam et al., 2015) et THREADER (Buchan et Jones, 2017), qui permettent de d’aller au-delà de la seule information évolutive en considérant des informations relatives aux caractéristiques structurales des séquences comparées.

Identification de signatures du repliement : Hydrophobic Cluster Analysis (HCA)

Contrastant avec les approches précédemment présentées, la méthode Hydrophobic Cluster Analysis (HCA) exploite la dichotomie hydrophobe/hydrophile propre à un milieu micellaire au sein d’une représentation bidimensionnelle. Cette approche permet de révéler des informations relatives aux structures secondaires régulières, châssis de l’architecture des protéines. En particulier, HCA donne accès aux acides aminés constitutifs du cœur des structures de domaines globulaires et participant aux structures secondaires régulières, de façon intrinsèque (sans apprentissage) et à partir de l’analyse d’une séquence unique (sans se référer à l’ensemble des séquences d’une famille). Ceci revêt donc un intérêt majeur dès lors que l’on a affaire à des séquences orphelines, sans homologue connu. Après en avoir décrit les principes, je décrirai comment cette approche peut être utilisée pour décrypter différentes facettes propres aux caractéristiques structurales des protéines.

Principes de la méthode HCA

HCA permet de mettre en évidence la position des structures secondaires régulières des protéines via l’utilisation d’une représentation bidimensionnelle de leurs séquences dans le référentiel de l’hélice alpha (Gaboriaud et al., 1987; Woodcock et al., 1992). Comme illustré en Figure 1.14, le passage d’une séquence protéique 1D à la représentation 2D (d) est réalisé en positionnant les résidus sur la trame d’une hélice alpha (a), puis en coupant l’hélice le long de l’axe horizontal (b), permettant ainsi de passer de la tridimensionnalité de l’hélice à une représentation bidimensionnelle, où chaque ligne d’acides aminés correspond à un tour d’hélice. Ce plan est dupliqué (c), conduisant à un diagramme HCA bidimensionnel (d). Pour faciliter la lecture de ces diagrammes et faire apparaître au mieux des traits structuraux marquants, certains résidus sont remplacés par des symboles, et les résidus hydrophobes forts sont entourés, mettant en évidence les amas hydrophobes.

Les régions intrinsèquement désordonnées

Les régions intrinsèquement désordonnées (ou IDRs pour intrinsically disordered regions) sont des régions qui, au sein des protéines, n’adoptent pas de structure 3D bien définie et stable, du moins, pour une partie d’entre elles, pas de manière spontanée (Habchi et al., 2014; Tompa, 2002; Uversky et al., 2000; van der Lee et al., 2014; Wright et Dyson, 1999). Lorsque ces régions couvrent l’intégralité de la protéine, on parle de protéines désordonnées, ou IDPs pour intrinsically disordered proteins. Le caractère désordonné de ces séquences en acides aminés est généralement associé à une pression de sélection moindre ; les séquences évoluent rapidement, et il est généralement difficile de mettre en avant des relations d’homologie (Zarin et al., 2019). L’annotation de ces séquences est aussi critique, car leur caractère désordonné ne signifie pas absence de fonction. Au contraire, leur flexibilité et caractère dynamique leur confère des propriétés largement exploitées dans divers processus cellulaires, dont l’importance a été largement démontrée au cours des vingt dernières années (van der Lee et al., 2014). De plus, les IDRs sont très répandus dans le vivant, il est admis qu’ils couvrent environ 30% des résidus du protéome humain, et jusqu’à 50% dans certains protéomes d’eucaryotes unicellulaires. Chez les procaryotes, la part de désordre est plus faible, souvent inférieure à 28% (Peng et al., 2015; Ward et al., 2004; Xue et al., 2010).

IDRs : une hétérogénéité de conformations

Une région protéique complètement désordonnée ne présente aucune structure secondaire régulière et la chaîne polypeptidique est complètement étendue. Mais entre cet extrême et une chaîne polypeptidique repliée et compacte typique des domaines globulaires, plusieurs niveaux de repliement sont possibles (Figure 1.19). Quatre états intermédiaires de repliement ont ainsi été décrits (van der Lee et al., 2014) : les conformations étendues (coils ou Extended), caractérisées par l’absence totale de structure organisée (on les retrouvera aussi sous le nom de « désordre complet »); les globules pré-fondus (pre-molten globules), dans lesquels apparaissent des structures secondaires transitoires (regroupant les catégories « transient secondary structure » et « compact globule ») ; les globules fondus (molten globules), qui présentent des structures secondaires semblables à celles d’un état natif, et une structuration partiellement repliée et stable ; et enfin, l’ordre (dans lequel on retrouve les catégories « disordered loop » et « folded protein») où le désordre correspond aux boucles et aux régions de liaison (linkers), dans le cas des protéines multi-domaines, de taille plus ou moins importante (Dunker et al., 2001). Les IDRs sont caractérisés par une absence de contrainte structurale à l’état isolé, ce qui leur confère une grande flexibilité et un caractère dynamique important. Ainsi, elles pourront osciller rapidement entre différentes conformations qui sont conditionnées à leur environnement (e.g. pH, température) ou à leur liaison à un partenaire (Dyson et Wright, 1998; Uversky et Dunker, 2010).

La flexibilité des IDRs : un avantage fonctionnel

Les fonctions des IDRs

Plusieurs fonctions sont décrites dans le désordre, et différentes classifications des IDRs basées sur ce critère ont été proposées (Dunker et al., 2001; Gsponer et Babu, 2009; van der Lee et al., 2014). Celle qui semble prédominer aujourd’hui est celle proposée par Tompa (2002, 2005) et représentée en Figure 1.20. Les IDRs qui ne peuvent pas interagir avec des partenaires et donc ne se structurent pas occupent la fonction de chaîne entropique. Ce sont souvent des régions de liaison (linkers), qui permettent le mouvement des domaines situés de part et d’autre de l’IDR, ou des « espaceurs » (spacers), qui régulent les interactions entre domaines. Les autres IDRs exercent généralement des rôles qui leurs sont conférés par leur capacité à interagir avec des partenaires (protéines, ADN, ARN, petits ligands). Dans une grande partie des cas, cette interaction permettra à la région désordonnée de se structurer transitoirement (on parle de transition désordre-vers-ordre), ce qui lui conférera sa fonction (Jakob et al., 2014; Sugase et al., 2007; Wright et Dyson, 2009). En raison de leur flexibilité et leur caractère dynamique, les liaisons dans lesquelles sont impliquées les IDRs peuvent être d’affinité variable, et être ou non transitoires (Dreier et al., 2022; Wright et Dyson, 2015) et de spécificité variable, permettant à certains IDRs d’avoir plusieurs partenaires d’interaction (c’est par exemple le cas du suppresseur de tumeur p53 (Mohan et al., 2006; Oldfield et al., 2005)). Toutes ces particularités font des IDRs des points centraux (hubs) des réseaux de régulation ou de signalisation. Les IDRs pourront ainsi jouer un rôle de régulateurs par le biais de sites de modifications post-traductionnelles (display sites), comme on l’observe par exemple au niveau des queues d’histones (Kouzarides, 2007) ou du suppresseur de tumeur p53 (Bode et Dong, 2004). Les effecteurs, impliqués dans la signalisation cellulaire, sont capable d’activer ou d’inhiber certains acteurs protéiques (Galea et al., 2008; Sugase et al., 2007). Parmi les IDRs, on retrouve également les assembleurs qui jouent un rôle de recrutement et de stabilisation dans la formation de complexes moléculaires, les chaperonnes qui assistent leur partenaire (protéine ou ARN) dans le processus de repliement (Schroeder et al., 2004; Young et al., 2004) et les récepteurs éboueurs (scavengers) qui stockent et neutralisent de petits ligands (tels que l’ATP ou l’adrénaline (Daniels et al., 1978)).
Enfin, il a été montré que les IDPs peuvent jouer un rôle de séparateurs de phases liquide-liquide (LLPS pour « Liquid liquid phase separation »), créant ainsi des gouttelettes (droplets) au sein des cellules (Flock et al., 2014). Ces formations peuvent permettre la concentration de molécules dans un espace confiné de la cellule, favorisant des réactions biochimiques, ou au contraire, elles peuvent permettre d’isoler certaines molécules du reste de la cellule (Alberti, 2017; Cioce et Lamond, 2005). Elles sont également impliquées dans la signalisation cellulaire (Banani et al., 2017; Chong et Forman-Kay, 2016; Wu et Fuxreiter, 2016).

Les sites fonctionnels d’interaction

Les interactions des IDRs avec leurs partenaires peuvent faire intervenir trois types de régions, présentées ci-dessous et en Figure 1.21. Il existe un recouvrement de ces caractéristiques, qui suggère que ce sont trois états situés sur un même continuum.
Les courts motifs linéaires (Short Linear motifs (SLiMs)) (Dinkel et al., 2014), aussi appelés motifs linéaires (Linear Motifs (LM) (Diella et al., 2008) et MiniMotifs (Mi et al., 2012) sont des motifs courts (3-10 acides aminés), qui sont à l’origine d’interactions de faible affinité (interactions transitoires et réversibles). Les SLiMs ne sont pas retrouvés systématiquement au sein de régions désordonnées, mais c’est le cas pour environ 80% d’entre eux (Davey et al., 2011; Fuxreiter et al., 2007). Parmi ces SLiMs, environ 60% évoluent d’un état désordonné à un état ordonné lors de l’interaction avec leur partenaire (Davey et al., 2011). Il est intéressant de noter ici que diverses études ont montré que certains IDRs maintenaient un certain degré d’hétérogénéité conformationnelle lors de la liaison à un partenaire, amenant à intégrer une notion de flou (« fuzziness ») (Borgia et al., 2018; Sharma et al., 2015; Tompa et Fuxreiter, 2008). On distingue deux grandes familles de SLiMs, d’une part les sites de modifications post-traductionnelles, et d’autre part les ligands. Les SLiMs ligands permettent de recruter des molécules (protéiques ou nucléotidiques), jouant divers rôles. Le rôle d’assembleur, notamment, est facilité par la multivalence des SLiMs qui permet ainsi le recrutement de plusieurs partenaires de manière rapprochée. Un exemple est celui d’un motif intrinsèquement désordonné de liaison à l’ubiquitine (DisUBM), qui reste désordonné lors de sa liaison et agirait en augmentant l’affinité d’autres IDPs pour des partenaires repliés ubiquitylés (Dreier et al., 2022).
Les dispositifs de reconnaissance moléculaire (Molecular Recognition Features (MoRFs) (Oldfield et al., 2005) sont des motifs plus longs (10-70 aa), spécifiques du désordre, aussi appelés éléments structuraux préformés (performed structured elements ou PSEs (Fuxreiter et al., 2004)) ou éléments de reconnaissance moléculaire (molecular recognition elements ou MOREs (Mohan et al., 2006; Oldfield et al., 2005)). Ces motifs se replient en interagissant avec leurs partenaires (la protéine p53, par exemple, contient plusieurs MoRFs qui sont en état désordonné en absence de partenaires (Oldfield et al., 2005)). Ils ont la particularité de présenter des structures secondaires préformées, qui se précisent et sont stabilisées lors de l’interaction. Comme les SLiMs, les MoRFs peuvent jouer le rôle d’assembleurs (Abet et al., 2014).
Les domaines intrinsèquement désordonnés (IDDs) ont la particularité d’être conservés, au même titre que les domaines structurés (Chen et al., 2006), mais ils sont partiellement ou complètement désordonnés (Tompa et al., 2009). C’est le cas, par exemple, du domaine inhibiteur de kinase (KID) des inhibiteurs de CdK (Galea et al., 2008). Ces domaines sont souvent impliqués dans des liaisons à l’ADN, l’ARN, ou à des protéines (Chen et al., 2006). D’autre part, certains domaines structurés fonctionnent uniquement en présence de désordre dans leur voisinage, les IDDs avec lesquels ils co-existent sont donc conservés, bien qu’ils n’exercent pas de fonctions qui leur sont propres (Pentony et Jones, 2010; Teraguchi et al., 2010).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

PREAMBULE
CHAPITRE 1. INTRODUCTION
1.1. L’ORDRE DANS LES PROTEINES : RELATIONS SEQUENCE-STRUCTURE-FONCTION
1.1.1. Les quatre niveaux d’organisation de la structure des protéines
1.1.2. Évolution des séquences protéiques
1.1.3. Les domaines : unités structurales, évolutives et fonctionnelles des protéines
1.1.4. Séquences, structures, fonctions : ressources et outils
1.1.4.1. Les banques de données
1.1.4.2. Outils de recherche de similitude de séquences
1.1.4.3. Outils de prédiction des structures
1.1.4.4. Identification de signatures du repliement : Hydrophobic Cluster Analysis (HCA)
1.2. LES REGIONS INTRINSEQUEMENT DESORDONNEES
1.2.1. IDRs : une hétérogénéité de conformations
1.2.2. La flexibilité des IDRs : un avantage fonctionnel
1.2.2.1. Les fonctions des IDRs
1.2.2.2. Les sites fonctionnels d’interaction
1.2.3. Les séquences du désordre : biais et évolution
1.2.4. Les ressources et outils du désordre
1.2.4.1. Les banques de données du désordre
1.2.4.2. Les prédicteurs du désordre
1.2.4.3. AlphaFold2 et HCA, applicables à l’ordre et au désordre ?
1.3. LES INCONNUS DES PROTEOMES
1.3.1. Définitions et quantification
1.3.2. Causes de l’inconnu : erreurs d’annotation, désordre ou nouveauté ?
1.3.3. Ressources et outils
1.4. STRATEGIE ET OBJECTIFS DE LA THESE :
CHAPITRE 2. DEVELOPPEMENT DU SCORE HCA ET COMBINAISON AVEC LES PREDICTIONS D’ALPHAFOLD2 POUR L’ETUDE DU CONTINUUM ORDRE/DESORDRE PRESENTATION DE L’ARTICLE A SEQUENCE-BASED FOLDABILITY SCORE COMBINED WITH ALPHAFOLD2 PREDICTIONS TO DISENTANGLE THE PROTEIN ORDER/DISORDER CONTINUUM
Abstract
Introduction
Materials and Methods
Results
Discussion
References
Tables and Figures
Supplementary Information
CHAPITRE 3. EXPLORATION DE L’INCONNU D’ALPHAFOLD2 : DU DESORDRE ET PLUS PRESENTATION DE L’ARTICLE DIGGING INTO THE 3D STRUCTURE PREDICTIONS OF ALPHAFOLD2 WITH LOW CONFIDENCE: DISORDER AND BEYOND
Abstract
1.Introduction
2. Material and Methods
3. Results
4. Discussion
References
CHAPITRE 4. DISCUSSION
4.1. IDENTIFICATION DES SEQUENCES DE L’INCONNU
4.2. UTILISATION DU SCORE HCA POUR DECRIRE DE L’INCONNU
4.3. UTILISATION DU SCORE HCA POUR LA DESCRIPTION DE PROTEINES DE NOVO
CHAPITRE 5. CONCLUSION ET PERSPECTIVES
BIBLIOGRAPHIE

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *