Télécharger le fichier pdf d’un mémoire de fin d’études
Les protéines ADAMTS/TSL et la progression tumorale
Les alterations´ du microenvironnement cellulaire et en premier lieu de la matrice extracellulaire sont directement associees´ a` la progression tumorale10. A ce titre le roleˆ des regulateurs´ du remode-lage de la MEC est essentiel et de tres` nombreux travaux ont montres´ que l’expression et l’activite´ des proteines´ ADAMTS / ADAMTSL sont fortement alter´ees´ au cours de la progression tumo-rale11,12. L’implication de ces proteines´ est extremementˆ complexe et peut tout aussi bien contribuer a` des effets protumoraux qu’antitumoraux comme cela a et´e´ demontr´e´ dans le contexte de l’angio-genese`13. L’exemple le plus documente´ est celui de ADAMTS1 qui, par son activite´ proteolytique´ sur des composes´ de la MEC peut gen´erer´ des facteurs anti-angiogeniques´ comme pour le nidogen ou des facteurs pro-angiogeniques´ comme pour les proteoglycans´. De la memeˆ fac¸on, ADAMTS1 peut pieger´ le facteur angiogenique VEGF en le liant a` son extremit´e´ C-terminale mais peut aussi contribuer a` sa liberation´ en activant le remodelage de la MEC (Figure 2).
Cet exemple illustre la complexite´ des activites´ des ADAMTS / TSL qui depend´ du contexte dans lequel elles sont exprimees´ et de la nature de leurs interactions avec les composes´ de leur environnement. Si les adamalysines sont evoqu´ees´ depuis quelques annees´ comme de nouvelles cibles therapeutiques´ d’inter´et,ˆ principalement en raison de leur activite´ enzymatique, les travaux recents´ demontrent´ que les ADAMTS ont de nombreux effets independants´ de cette activite´ comme l’equipe´ Dymec (equipe´ en collaboration sur ce projet) l’a montre´ pour ADAMTS16.
Dans ce contexte, l’identification de modules / motifs fonctionnels constitue un verrou dans la decouverte´ de nouvelles cibles therapeutiques´. En effet la caracterisation´ des differentes´ regions´ responsables des fonctions d’une proteine,´ permettrait de savoir ou` cibler precis´ement´ cette proteine´ pour agir sur ces differentes´ fonctions. C’est pourquoi nous nous sommes interess´es´ aux methodes´ actuelles de predictions´ de fonction des proteines´ afin de pouvoir mettre au point une strategie´ adaptee´ aux ADAMTS / ADAMTSL.
Methodes de prediction de fonctions proteiques
Il existe actuellement 2 principaux types d’approches de prediction´ de fonctions proteiques´ a` partir des sequences´ ; 1) les approches basees´ sur la conservation de residus,´ et 2) les approches basees´ sur la phylogenie´ moleculaire´.
Conservation de residus´ et identification de modules fonctionnels
Residus´ conserves´
Les differents´ residus´ d’une proteine´ n’ont pas tous la memeˆ importance, certains sont essen-tiels a` la structure ou aux fonctions de la proteine,´ d’autres sont beaucoup moins importants. Les residus´ essentiels subissent une pression de selection´ plus importante que les autres residus´ de la proteine´ : ils presentent´ moins de substitutions et sont plus conserves´ au cours de l’evolution´. La conservation des residus´ est l’un des phenom´enes` les plus etudi´es´ dans le domaine de l’analyse des sequences´ proteiques´14. Le principe est d’identifier les residus´ conserves´ qui sont responsables de (ou des) fonction(s) de la proteine´15. Ces approches sont tres` utilisees´ par les biologistes et les bioinformaticiens, et font appel gen´eralement´ aux methodes´ d’alignement multiple des homologues d’une proteine´ d’inter´etˆ. Le but est de chercher les colonnes les plus conservees´ de l’alignement multiple afin d’identifier les residus´ conserves´ potentiellement essentiels a` la structure et / ou a` une fonction de la proteine´. Les analyses de conservation sont utilisees´ pour detecter´ les residus´ impliques´ dans des liaisons avec un ligand, pour predire´ les interfaces d’interactions proteine´-proteine,´ pour detecter´ les residus´ responsables du maintien de la structure et pour determiner´ les specificit´es´ fonctionnelles de la proteine´. Les autres methodes´ de prediction´ de residus´ fonctionnels font gen´eralement´ appel a` des informations structurales et sont utilisees´ quand on dispose d’une structure de la proteine´ d’inter´etˆ.
Regions´ conservees´
La recherche de regions´ conservees´ au sein des sequences´ proteiques´ permet la caracterisation´ de modules ou domaines proteiques´23. Ces modules ou domaines peuvent etreˆ mis en evidence´ a` l’aide de differents´ algorithmes d’identification de regions´ conservees´ (Figure 3). Les modules ou domaines peuvent etreˆ represent´es´ sous formes de motifs proteiques,´ que ce soit par une sequence´ consensus ou par une matrice des differents´ residus´ possibles a` chaque position. Les motifs proteiques´ decrits´ dans la litterature´ sont stockes´ dans des bases de donnees´ de motifs / domaines24 (Figure 4).
Combinatoire en regions´ conservees´
Les analyses de conservation se basent gen´eralement´ sur des alignements afin de determiner´ les residus´ les plus conserves´ par plusieurs sequences,´ or les alignements multiples gen´eralement´ utilises,´ vont chercher a` obtenir un alignement globalement optimal. Coste (un encadrant du stage) et Kerbellec ont developp´e´ un outil d’alignement multiple partiel local (paloma)22 qui permet de detecter´ l’ensemble des blocs de conservation locale, sans gaps, impliquant plusieurs sequences´ (pas forcement´ toutes). C’est pourquoi cette methode´ est particulierement` adaptee´ a` la recherche de regions´ conservees´ au sein de proteines´ possedants´ une importante combinatoire en domaines, comme c’est le cas pour les proteines´ ADAMTS / ADAMTSL. Cependant, les approches basees´ sur la ”conservation” des sequences´ permettent d’observer les residus´ qui auraient et´e´ selectionn´es´ par un important nombre de sequences,´ mais ne permettent pas de correler´ la variation des sequences´ avec des phenotypes´. Pour ceci il serait necessaire´ de representer´ cette variation, par exemple en realisant´ une phylogenie´ des sequences´.
Utilisation de la phylogenie´ moleculaire´ pour la prediction´ de fonctions proteiques
Bien que la majorite´ des predictions´ de fonctions des proteines´ soit basee´ directement sur des methodes´ de similarite´ de sequences,´ il est egalement´ possible d’utiliser des methodes´ basees´ sur l’analyse phylogen´etiques´ pour affiner les predictions´ de fonction moleculaire´ d’une proteine´25. La phylogenomique´ utilise l’hypothese` que la fonction d’une proteine´ et sa sequence´ evoluent´ en parallele`26. Les methodes´ phylogen´etiques´ se basent sur la connaissance de l’evolution´ de la famille de proteines´ pour decrire´ comment la fonction moleculaire´ a pu evoluer´. Ces methodes´ phylogen´etiques´ utilisent l’histoire de l’evolution´ des proteines,´ infer´ee´ sous la forme d’un arbre phylogen´etique,´ pour transferer´ et predire´ les fonctions des proteines,´ a` partir des fonctions connues de proteines´ proches dans l’arbre27. Si l’arbre phylogen´etique´ et le transfert de l’information a` travers l’arbre sont fait de maniere` robuste, on evite´ les biais (e.g. les scores de similarites´28) que presentent´ les methodes´ de prediction´ par similarite´ de sequences´25. Les methodes´ phylogen´etiques´ ont recemment´ permis de predire´ des fonctions precises´ de familles de proteines´ d’inter´etsˆ25.
Phylogenie moleculaire, evolution et cancer
Parce que la progression du cancer est un processus evolutif´ regit´ par des contraintes selectives,´ les approches de phylogenie´ moleculaire´ developp´ees´ pour modeliser´ et deduire´ des relations evolutives´ parmi les organismes sont aujourd’hui utilisees´ pour caracteriser´ les etapes´ de la cancerogen´ese` a` l’echelle´ des genomes´29. Croiser l’evolution´ et le phenotype´ permet ainsi de caracteriser´ des fonc-tions. L’application de ces methodes´ a` l’etude´ d’un gene` pris isolement´ ou de familles de genes` permet de mettre en evidence´ des sequences´ impliquees´ dans la regulation´ du processus cancereux´.
A titre d’exemple, l’analyse phylogen´etique´ des genes` de la famille des ubiquitines ligase E3, SINA / SIAH a permis d’identifier des motifs fonctionnels conserves´ au cours de l’evolution´ et qui constituent des cibles d’inter´etˆ therapeutique´ notamment dans le cadre des cancers metastatiques´ dependant´ de l’oncogene` K-RAS30. Une etude´ plus recente,´ basee´ sur la reconstruction phylogen´etique´ du gene` WFDCA, reprim´e´ ou non exprime´ dans le cancer du colon,ˆ a permis d’identifier 4 residus´ critiques pour l’integrit´e´ de la proteine´31. Ces approches soulignent l’inter´etˆ de developper´ des ap-proches de phylogenie´ moleculaire´ pour identifier et caracteriser´ de nouveaux motifs / domaines impliques´ dans le processus tumoral. L’application de ces methodes´ a` la famille des ADAMTS / TSL constitue un enjeu particulier en raison du nombre variable de copies paralogues parmi les 19 especes` (i.e. de 26 pour Homo sapiens a` 7 chez pour C. elegans), ainsi que la combinatoire en domaines des paralogues (Figure 1) de cette famille de proteique´. Ces differentes´ caracteristiques´ rendent la famille de proteine´ ADAMTS / ADAMTSL non compatible avec les approches de phy-logenie´ classique.
Reconciliation´ phylogen´etique´ Domaines-Genes`-Especes`
Reconciliation´ Genes`-Especes`
Les methodes´ classiques de phylogenie´ moleculaire´ servent a` etudier´ l’evolution´ orthologues d’un gene,` c’est a` dire a` regarder l’histoire du gene` au cours de l’evolution´ des especes`. Or les genes` peuvent egalement´ evoluer´ de maniere` paralogue. Un gene` peut evoluer´ de maniere` independante´ au sein d’une espece,` il peut etreˆ duplique,´ perdu ou memeˆ transfer´e´ au sein d’une espece`. L’histoire du gene` n’est ainsi pas toujours l’histoire des especes,` en particulier chez une famille de proteines´ multigenes` (i.e. comprenant de nombreux paralogues) comme la famille ADAMTS / ADAMTSL. Afin de pouvoir prendre en compte l’evolution´ orthologue et l’evolution´ paralogue il existe des ou-tils de reconciliation´ phylogen´etique´32 qui vont permettre de reconstruire la phylogenie´ de famille multigenes`. On parle de reconciliation´ car l’histoire des especes` (i.e. evolution´ orthologue) n’est pas l’histoire des genes` (i.e. evolution´ paralogue).
Proteines´ multidomaine
De plus, les methodes´ classiques de phylogenie´ moleculaire´ ne sont pas directement prevues´ pour prendre en compte le cas particulier des familles de proteines´ multidomaine. En effet, les genes` des familles de proteines´ multidomaine sont caracteris´es´ par une mosa¨ıque de segments de sequence,´ chacun de ces segment de sequence´ code pour un module fonctionnel ou structural (qui peuvent etreˆ aussi nommes´ domaines) de la proteine´33. Les familles de proteines´ multidomaines evoluent´ par brassage de ces modules, que ce soit par insertion, duplication ou perte de modules34. Cette evolution´ a` l’echelle´ de segments de sequences´ joue un roleˆ majeur dans l’evolution´ de fonc-tions de proteines´ multidomaine, comme par exemple cela a et´e´ montre´ pour l’apparition des ani-maux multicellulaires35,36 et du systeme` immunitaire chez les vertebr´es´37.
Reconciliation´ Domaines-Especes`
Les methodes´ de phylogenie´ classiques ne sont pas adaptees´ pour estimer cette evolution´ a` l’echelle´ de segments de sequence´. En effet, les methodes´ de phylogenie´ classique considerent` les proteines´ comme briques de base de l’evolution´. Cela revient a` poser l’hypothese` que tous les sites d’un alignement multiple ont la memeˆ histoire phylogen´etique´. Ce qui signifie que chaque proteine´ possede` un ensemble de modules fixes qui evoluent´ avec elle. Dans le cas de proteines´ multidomaine ceci n’est pas le cas, des regions´ differentes´ d’une proteine´ multidomaine peuvent resulter´ d’histoires differentes´. Il faut ainsi considerer´ les modules comme briques de base de l’evolution´. Dans ce contexte Stolzer et al. ont developp´e´ un outil de reconciliation´ phylogen´etique´ prenant en compte l’evolution´ specifique´ des modules proteiques´38,39. On parle de reconciliation´ car l’histoire d’un module n’est pas l’histoire du gene`. Ce modele` realise´ 2 reconciliations´ suc-cessives : 1) la reconciliation´ de l’evolution´ des especes` avec l’evolution´ des genes,` puis 2) la reconciliation´ de l’evolution´ des genes` avec l’evolution´ d’un module. Dans la continuite´ des travaux de Stolzer, Li40 a recemment´ developp´e´ un nouveau modele` de reconciliation´ DGS (Domain-Gene-Species), prenant en compte de maniere` simultanee´ tous les modules presents´ et realisant´ les deux reconciliations´ conjointement de maniere` a` optimiser les deux. Ces outils permettent d’obtenir a` partir d’un arbre phylogen´etique´ des especes,` d’un arbre phylogen´etique´ des genes,` et d’un arbre phylogen´etique´ pour chaque module, l’histoire phylogen´etique´ la plus parcimonieuse, prenant en compte l’evolution´ des genes` au sein des especes` et l’evolution´ des modules au sein des genes`. Pour chaque module, on obtient donc son histoire au cours de l’evolution´ de la famille de proteines,´ ainsi que la composition en modules de chacune des proteines´ ancestrales.
Prediction de fonction par phylogenie´ moleculaire´ et conservation de sequences´
Dans ce contexte, les objectifs du projet ont et´e´ d’initier une caracterisation´ fonctionnelle des proteines´ de la famille ADAMTS / ADAMTSL en utilisant les nouvelles approches de reconciliation´ phylogen´etique´ (e.g. reconciliation´ DGS). Nous proposons une nouvelle strategie´ de caracterisation´ en modules fonctionnels qui va reposer sur : 1) l’identification de modules conserves´ (impliques´ dans les fonctions ou le maintien de la structure de la proteine),´ 2) l’evolution´ espece`-genes`-domaines, et 3) les differents´ types des donnees´ disponibles. Nous cherchons a` reconstruire l’his-toire phylogen´etique´ des differentes´ proteines´ et de leurs modules pour pouvoir les mettre en lien avec l’apparition de differentes´ fonctions et ainsi observer des co-occurences module / fonction dans le but de predire´ l’implication du module concerne´ dans la fonction. Ce travail propose une premiere` phylogenie´ des ADAMTS et ADAMTSL, une inference´ des compositions ancestrales en modules, ainsi qu’un protocole de prediction´ d’interaction des proteines´ modernes et ancestrales.
Materiels´ et methodes´
Dans un premier temps, nous aborderons la strategie´ mise en place et son pipeline associe,´ avant de s’interesser´ aux etapes´ principales de ce pipeline. Differents´ scripts ont et´es´ realis´es´ en python3 et en shell sh afin de constituer un pipeline appliquant notre strategie,´ seuls les plus importants seront detaill´es´ dans ce rapport.
Strategie´ et pipeline de caracterisation´ en modules fonctionnels
Une nouvelle strategie´ de caracterisation´ de proteines´ en modules fonctionnels a et´e´ mise en place, afin de prendre en compte les differentes´ caracteristiques´ de la famille ADAMTS / ADAMTSL, a` savoir une organisation multidomaine, un nombre important de familles de genes` paralogues par especes` (26 chez l’humain) ainsi que des donnees´ fonctionnelles de differents´ types (Figure 5). Cette strategie´ consiste dans un premier temps a` effectuer une segmentation sans a priori en modules des regions´ conservees´ dans les sequences´ proteiques´. Cette segmentation per-met ainsi d’obtenir un decoupage´ en modules conserves´. Dans un second temps, les arbres phy-logen´etiques´ des differents´ niveaux d’evolution´ (especes,` genes,` modules) sont construits, afin d’ef-fectuer une reconciliation´ phylogen´etique´ DGS et obtenir une histoire phylogen´etique´ de notre fa-mille de proteine´ et de ses modules conserves´. Dans un dernier temps, les donnees´ fonctionnelles des bases de donnees´ sont integr´ees´ et transfer´ees´ le long de cette phylogenie´ de notre famille de proteine´. L’idee´ est de pouvoir correler´ des apparitions de fonctions et de modules au cours de l’evolution,´ et ainsi de predire´ une association module / fonction.
d) Integration´ d’informations fonctionnelles (issues de bases de donnees)´ a` l’arbre obtenu, puis transfert de ces annotations a` travers l’arbre (2.7). Ici une information d’interaction proteine´-proteine´ est transfer´ee´ (en rouge) a` l’ancetreˆ commun des proteines´ la possedant´. Il se trouve que cette interaction proteine´-proteine´ (I2 en rouge), apparaˆıt en memeˆ temps que le module bleu, ce qui illustre une association module bleu / interaction I2.
Cette nouvelle strategie´ a et´e´ implement´ee´ dans un pipeline bioinformatique (Figure 6), les etapes´ principale de ce pipeline sont detaill´ees´ dans la suite du materiel´ et methode´.
Construction du jeu de sequences´
Logique du jeu de sequences´
La strategie´ mise en oeuvre necessite´ de prendre en compte : 1) l’evolution´ orthologue (i.e. les genes` evoluent´ avec les especes,` deux proteines´ orthologues sont des proteines´ homologues chez des especes` differentes,´ possedant´ gen´eralement´ la memeˆ fonction et resultantes´ d’une speciation),´
2) l’evolution´ paralogue (i.e. les genes` evoluent´ au sein des especes,` par duplication / perte, deux proteines´ paralogues sont des proteines´ homologues d’une memeˆ especes,` possedant´ gen´eralement´ des fonctions differentes´ et resultantes´ d’une duplication du gene)`. Chaque paralogue est associe´ a` une composition en domaines / modules. Dans le but de pouvoir reconstruire la phylogenie´ des ADAMTS / ADAMTSL, il est necessaire´ de prendre en compte et de reconcilier´ ces 2 dimen-sions d’evolution´ (i.e. evolution´ orthologue et evolution´ paralogue). Pour ceci nous avons besoin d’informations de paralogies et d’orthologies, nous allons donc chercher a` constituer un jeu de sequences´ proteiques´ constitue´ des paralogues d’especes` (i.e. represente´ l’evolution´ orthologue) representatives´ de l’evolution´ des metazoaires´ (Figure 11).
Selection´ des especes`
Nous avons identifie´ 564 especes` possedant` des sequences´ pour les proteines´ des familles ADAMTS et ADAMTSL dans la base de donnees´ Uniprot41, avec une surrepresentation´ des especes` mammiferes`. Afin de constituer un jeu de donnees´ representatif´ de l’evolution,´ nous avons selectionn´e´ 19 especes` possedant´ des sequences´ pour les proteines´ des familles des ADAMTS et ADAMTSL dans la base de donnees´ Uniprot. L’utilisation d’especes` differentes´ nous permettra egalement´ d’uti-liser les informations fournies chez les differentes´ especes` dans le but de caracteriser´ les proteines´ humaines. Ces 19 especes` ont et´e´ selectionn´ees´ de maniere` a` representer´ la diversite´ et l’evolution´ des metazoaires,´ protostomiens, tuniciers et vertebr´es´ (i.e. differents´ embranchements de l’arbre de l’evolution´ des metazoaires)´.
Recup´eration´ des sequences´
Les sequences´ proteiques´ (au format fasta) ont ensuite et´e´ extraites a` partir de la base de donnees´
Uniprot. En raison du nombre tres` important d’isoformes (65 isoformes connus chez l’humain, pour 26 genes),` seules les sequences´ dites canoniques pour chaque proteine´ et chaque espece` ont et´e´ retenues dans cette premiere` etude´. Les sequences´ consider´ees´ comme canoniques par Uniprot doivent respecter au minimum l’un des criteres` suivants : representer´ la proteine´ la plus prevalente,´ etreˆ la plus similaire a` ses sequences´ orthologues, etreˆ la plus complete` en domaines et annotations, ou a` defaut´ d’aucun de ces critere,` etreˆ la plus longue. A plus long terme toutes les sequences´ iso-formes devront etreˆ integr´ees´.
Blasts RBH
Afin de completer´ ce premier jeu de donnees´ pour les 19 especes,` des recherches par alignement de sequences´ de type Reciprocal Best Hits42 (RBH) ont et´e´ effectuees´ pour toutes les sequences´ manquantes. Pour cela les sequences´ identifiees´ chez l’humain (qui est l’espece` possedant´ le plus de paralogues connus et dont les sequences´ sont de meilleure qualite)´ ont et´e´ recherchees´ par aligne-ment de sequences´ BLAST17(Basic Local Alignment Search Tool), dans les genomes´ des especes` ou` les annotations sont manquantes. Les meilleures sequences´ obtenues (best hit) ont ensuite et´e´ recontrolˆees´ par BLAST contre le genome´ humain dans le but de retrouver l’orthologue humain a` l’origine de la recherche. Si l’orthologue humain d’origine est bien identifie,´ l’orthologue de l’espece` recherchee´ est valide´. Dans le cas contraire, la sequence´ best hit est consider´ee´ comme trouvee´ par hasard et n’est pas consider´ee´ dans les donnees´. Cette recherche permet de completer´ la liste des sequence´ proteique´ d’ADAMTS / ADAMTSL qui ne sont pas ref´erenc´ees´ comme telles dans les bases de donnees´.
Nettoyage du jeu de sequences´
Dans un second temps, un arbre phylogen´etique´ des genes` codants pour les sequences´ proteiques´ identifiees´ a et´e´ reconstruit par la methode´ present´ee´ en section 2.4. Les sequences´ ne se regrou-pant pas avec leurs orthologues, ont et´e´ retirees´ du jeu de donnees´. A l’issu de cette etape,´ le jeu de donnees´ nettoye´ regroupe 341 sequences´ proteiques´ d’ADAMTS / ADAMTSL de 26 familles paralogues chez 19 especes` differentes´ (section 3.1). Afin de faciliter l’identification des sequences,´ chaque proteine´ est ref´erenc´ee´ par le nom de son orthologue humain prec´ed´ee´ du nom de l’espece` d’origine. Par exemple l’orthologue d’ADAMTS1 chez Mus musculus sera note´ musmusculusa-damts1. Tous les en-tetesˆ des sequences´ proteiques´ au format FASTA sont normalisees´ de la fac¸on suivante :
Construction de l’arbre phylogenetique des especes
Dans le but de pouvoir realiser´ une reconciliation´ phylogen´etique,´ il est necessaire´ d’avoir un arbre phylogen´etique´ des especes`. L’arbre phylogen´etique´ des especes` est construit en utilisant la Taxonomie NCBI43. Notre arbre a et´e´ reconstruit a` partir de la version de la base de donnees´ dispo-nible le 8 fevrier´ 2019. La taxonomie NCBI est un regroupement de connaissances taxonomiques issues d’une grande variet´e´ de sources (articles publies,´ bases de donnees´ en lignes, avis d’ex-perts en taxonomies). L’arbre phylogen´etique´ obtenu va egalement´ servir a` reconcilier´ les differents´ arbres qui seront construits par la suite (i.e. arbre des genes,` arbres de modules).
Construction de l’arbre phylogenetique des genes
Dans le but de pouvoir realiser´ une reconciliation´ phylogen´etique´ DGS (Domain-Gene-Species), il est necessaire´ d’avoir un arbre phylogen´etique´ des genes`.
L’arbre phylogen´etique´ des genes` a et´e´ realis´e´ (Figure 6 et 7) en effectuant dans une premiere` etape,´ un alignement multiple des sequences´ proteiques´ completes` en utilisant MUSCLE44 (multiple
sequence comparison by log-expectation, utilise´ avec les parametres` par defauts)´. L’outil trimAl45 (a tool for automated alignment trimming in large-scale phylogenetic analyses) a ensuite et´e´ utilise´ pour selectionner´ les sites communs a` toutes les sequences´ ADAMTS / ADAMTSL (Figure 1), et ainsi se focaliser sur l’histoire evolutive´ communes des sequences´. Les parametres` retenus sont -gt 0.9 -cons 05. TrimAl selectionne´ les colonnes de l’alignement ou` sont presentes´ au minimum 90% des sequences,´ si le nombre de colonnes selectionn´ees´ est inferieur´ a 5% de l’alignement, l’outil selectionne´ les 5% des colonnes les plus conservees´ (c’est a` dire les colonnes partagees´ par le plus grand nombre de sequences)´. A partir des regions´ selectionn´ees´ par l’outil trimAl, un premier arbre phylogen´etique´ a et´e´ realis´e´ avec le logiciel PhyML46 (maximum-likelihood phyloge-netic program). Cet arbre a ensuite et´e´ corrige´ par le logiciel TREEFIX47, qui utilise l’arbre issu de PhyML, l’alignement de sortis de trimAl ainsi que l’arbre phylogen´etique´ des especes`. TREEFIX utilise la topologie de l’arbre des especes` pour orienter la reconstruction de l’arbre phylogen´etique´ des genes` en equilibrant´ le poids des informations issus des sequences´ (alignement des genes)` et de l’arbre de especes` (e.g. divergences avec les orthologues attendus), graceˆ a` un framework de test d’hypotheses` statistiques. Toutes les informations disponibles sont ainsi utilisees´ pour construire l’arbre phylogen´etique´ des genes` le plus probable. Cette correction de l’arbre est recommandee´ dans le cadre d’une reconciliation´ phylogen´etique,´ elle constitue une premiere` reconciliation´ avec l’arbre des especes` en amont (i.e. reconciliation´ de l’histoire des especes` avec l’histoire des ortho-logues attendue), tout en utilisant l’alignement multiple.
Recherche de modules conserves
Nous cherchons les differents´ modules conserves´ au sein de nos sequences´ ADAMTS / ADAMTSL, puis pour chacun de ces modules, nous reconstruisons un arbre phylogen´etique´ pour representer´ son histoire evolutive´. L’obtention d’un arbre phylogen´etique´ par module est necessaire´ pour la reconciliation´ phylogen´etique´ DGS.
Segmentation de sequences en utilisant paloma
Le logiciel d’alignement Partiel Local multiple paloma22 a et´e´ utilise´ afin de rechercher sans a priori les regions´ conservees´ au sein de nos sequences´. Paloma va rechercher des blocs de regions´ localement conservees´ par plusieurs sequences´. Ces ”blocs” obtenus sont caracteristiques´ d’au mi-nimum 2 sequences´ (parametre` Q), et d’au maximum toutes les sequences´. La totalite´ des blocs obtenus forme un alignement multiple partiel local, ou PLMA (Partial Local Multiple Alignment).
Suite a` plusieurs tests, paloma a et´e´ utilise´ avec les parametres` suivants :
-Q 2 : Il faut au minimum 2 sequences´ par blocs (default).
-m 25 : Les segments d’un alignement local doivent etreˆ au minimum d’une taille de 25 acides amines´.
-M 40 : Les segments d’alignements locaux utilises´ pour rechercher les blocs de regions´ conservees,´ sont au maximum d’une taille de 40 acides amines´ (maximum).
-t 20 : Poids minimum pour considerer´ un alignement local (seuil).
-c : Recherche les blocs de faibles consensus (composants connectes)´.
Paloma permet d’obtenir un decoupage´ de nos sequences´ en petit blocs conserves´. C’est neanmoins´ encore un prototype de recherche peu optimise´ ne permettant pas de traiter simul-tanement´ l’ensemble de nos sequences´ d’inter´etsˆ en temps raisonnable.
Methode d’acceleration de paloma basée sur la redondance
Dans le but de reduire´ le temps de creation´ des blocs tout en minimisant la quantite´ d’infor-mation perdue, une strategie´ basee´ sur l’elimination´ de la redondance a et´e´ mise en place (Fi-gure 8). Cette methode´ consiste a` construire avec MMseq48 un jeu de sequences´ non redondantes. Pour chaque groupe de sequences´ partageant au minimum 90% d’identite,´ une seule sequence´ est conservee´ dans le jeu non redondant. Cette sequence´ representera´ toutes les autres. En utilisant MMseq sur les 341 sequences,´ il n’en reste que 42 representatives´ de toutes les autres. Le but de l’etude´ est la caracterisation´ des proteines´ humaines, c’est pourquoi les 26 paralogues humains ont et´e´ ajoutes´ aux 42 sequences´ representatives,´ ce qui permet de constituer un jeu de 68 sequences´ representatif,´ en terme de diversite,´ de structures, de fonctions, de compositions en domaines, de l’ensemble du jeu de donnees´ (Figure 8A).
Un alignement partiel local multiple (PLMA) de ce jeu non redondant de sequences´ (68 sequences)´
a ensuite et´e´ realis´e,´ ce qui permet d’obtenir un decoupage´ en blocs base´ sur les sequences´ les plus representatives´ du jeu de donnees´ (Figure 8B). La presence´ de ces blocs a ensuite et´e´ detect´e´ par un algorithme na¨ıf de recherche de sous-chaˆıne, chez les autres proteines´ (i.e. proteines´ absentes du PLMA). Si la sequence´ consensus du bloc est retrouvee´ chez une proteine´ (a` 90% d’identite),´ cette proteine´ est consider´ee´ comme ayant le bloc (Figure 8C).
Regroupement des blocs en modules conserves
Plusieurs blocs trouves´ par paloma peuvent etreˆ adjacents, nous cherchons a` les regrouper afin de caracteriser´ des regions´ conservees´ de taille plus consequente´ que celle des blocs. Un algorithme d’Union-Find49 a et´e´ utilise´ pour regrouper les blocs adjacents. Les blocs sont consider´es´ adjacents si, et seulement si, ils partagent un nombre minimum de sequences´ ou` les blocs sont directement contigus. Sur le jeu de donnees´ utilise,´ il a et´e´ choisi de considerer´ adjacents 2 blocs si ils possedent` 6 sequences´ contigues¨ d’un bloc a` l’autre. Les blocs adjacents sont ensuite regroupes´ jusqu’a` que cela ne soit plus possible (i.e. jusqu’a` qu’on ne trouve plus de blocs adjacents non regroupes)´. Le regroupement des blocs va representer´ un module.
Formatage des modules en alignements multiple
Dans le but de pouvoir realiser´ un arbre phylogen´etique´ par module, il est necessaire´ de representer´ chaque module sous la forme d’un alignement multiple. Les sequences´ au sein d’un bloc sont dej´a` alignees´. Chaque bloc du module peut etreˆ present´ chez des sequences´ differentes´ et chaque sequence´ presente´ dans le module n’est pas necessairement´ presente´ chez tous les blocs du module. Pour chaque bloc du module, si la sequence´ est presente´ dans le bloc, la sequence´ est notee´ dans l’alignement multiple du module. Si une sequence´ est presente´ dans le module mais absente dans le bloc, des gaps de la taille du bloc sont notes´ dans l’alignement multiple. Un alignement multiple (.fasta) de chaque module est ainsi construit en se basant sur sa composition en blocs.
De plus tous les headers des fasta de nos modules suivent le format suivant : moduleIDjstartjstopj proteinName (ex : MB66j54j85j musmusculusadamts1).
Ce formatage est necessaire´ pour l’approche de reconciliation´ phylogen´etique´ utilisee´ par la suite.
|
Table des matières
1 Introduction
1.1 La famille des Adamalysines
1.2 Les proteines ADAMTS/TSL et la progression tumorale
1.3 Methodes de pr ´ ediction de fonctions prot ´ eiques
1.3.1 Conservation de residus et identification de modules fonctionnels
1.3.2 Utilisation de la phylogenie mol ´ eculaire pour la pr ´ ediction de fonctions prot ´ eiques
1.3.3 Phylogenie mol ´ eculaire, ´ evolution et cancer
1.4 Reconciliation phylog ´ en ´ etique Domaines-G ´ enes-Esp ` eces
1.5 Prediction de fonction par phylog ´ enie mol ´ eculaire et conservation de s ´ equences
2 Materiels et methodes
2.1 Strategie et ´ pipeline de caracterisation en modules fonctionnels
2.2 Construction du jeu de sequences
2.3 Construction de l’arbre phylogen ´ etique des esp ´ eces
2.4 Construction de l’arbre phylogen ´ etique des g ´ enes
2.5 Recherche de modules conserves
2.5.1 Segmentation de sequences en utilisant ´ paloma
2.5.2 Methode d’acc ´ el ´ eration de ´ paloma basee sur la redondance
2.5.3 Regroupement des blocs en modules conserves
2.5.4 Formatage des modules en alignements multiple
2.5.5 Creation des arbres phylog ´ en ´ etiques des modules
2.6 Reconciliation phylog ´ en ´ etique DGS (Domain-Gene-Species)
2.7 Integration de donn ´ ees fonctionnelles ´ a l’histoire phylogenetique
2.7.1 Integration des donn ´ ees de prot ´ eines
2.7.2 Integration des donn ´ ees de r ´ egions de s ´ equences
2.7.3 Integration des donn ´ ees d’acides amin ´ es
2.8 Representation de l’histoire phylogenetique et des donn ees fonctionnelles
3 Resultats
3.1 Jeu de donnees utilis ´ e
3.2 Arbres phylogen ´ etiques
3.3 Modularite des paralogues humains
3.4 Histoire des paralogues et orthologues
3.5 Histoire des paralogues humains
3.6 Co-occurence de modules et d’interactions
4 Discussion
5 Conclusion et perspectives
Télécharger le rapport complet