Evolution des génomes de procaryotes
Intérêts de la comparaison de génome complets
La disponibilité de génomes complets d’organismes procaryotes et eucaryotes constitue une source d’information sans précédent pour la compréhension de la biologie de ces organismes. Cependant, ces énormes masses de données n’ont réellement d’intérêt qu’une fois comparées entre elles. La comparaison du répertoire de gènes de génomes différents est basé sur l’identification des gènes homologues. Par définition, ces gènes dérivent de la séquence d’un même gène. Il est important de différencier ces deux types d’homologie que sont l’orthologie et la paralogie (Fitch 1970). Les gènes orthologues se forment par transmission verticale à la descendance .
Ainsi lors d’un événement de spéciation, une copie de chaque gène du génome d’une espèce « parent » se retrouve dans le génome de chaque espèce « fille » issue de cette dernière. En l’absence de duplication et tant qu’ils demeurent essentiels, les gènes orthologues conservent la même fonction. L’évolution des gènes orthologues reflètent la phylogénie des organismes et par conséquent, l’identification de ces gènes est primordiale pour la validité des analyses phylogénétiques. A l’inverse, les gènes paralogues sont issus de la duplication d’une séquence de gène au sein d’un génome . Contrairement aux gènes orthologues, ces gènes peuvent diverger suffisamment pour acquérir de nouvelles fonctions (voir § Duplication génique et formation de familles multigéniques).
On peut distinguer également deux types de gènes paralogues (Fig. I-8). La formation de gènes paralogues peut avoir eu lieu dans le génome de l’ancêtre commun (avant la spéciation) à un groupes d’espèces. Les différentes copies créées (out-paralogues) sont transmises à tous les descendants. Inversement, la formation de gènes paralogues peut aussi intervenir après la différentiation en espèces séparées. Dans ce cas, les gènes paralogues (inparalogues) ne sont présents que dans le génome d’une espèce. La distinction entre inparalogues et out-paralogues n’est pas fixe mais dépend entièrement du niveau taxonomique auquel on se place.
Génome minimal et remplacement non-orthologue
L’identification du génome minimal est l’une des possibilités les plus intéressantes offertes par la comparaison de génomes. Elle consiste à déterminer la nature et le nombre de gènes essentiels qui seraient suffisants pour permettre le fonctionnement autonome d’un organisme le plus simple possible et présentant des caractéristiques modernes (Mushegian 1999). En d’autres termes, il s’agit de trouver les gènes qui constituent les bases mêmes de la vie. Le concept de génome minimal, et a fortiori de gène essentiel, ne se comprend qu’en fonction des caractéristiques du milieu au sein duquel un organisme théorique possédant un tel génome se développerait. Ainsi, il semble évident que la majorité des gènes ne sont essentiels que dans certaines conditions de milieu bien définies. Dans la plupart des cas, le génome minimal a été déterminé en partant de l’hypothèse d’un organisme se développant dans un milieu stable, riche en éléments nutritifs et sans compétition. Ces conditions sont logiquement les seules qui permettraient le fonctionnement d’un organisme réellement minimal. Elles se rencontrent, aujourd’hui, essentiellement dans le cas des bactéries pathogènes, parasites et symbiotiques qui vivent en association plus ou moins obligatoire avec d’autres organismes généralement eucaryotes. Il est intéressant de noter que les plus petits génomes connus appartiennent à des bactéries pathogènes ou symbiotiques. Néanmoins, même s’ils s’en approchent, ces génomes ont une taille bien supérieure à celle d’un génome réellement minimal. En comparant les deux premiers génomes disponibles, ceux de la bactérie Grampositive Haemophilus influenza (Fleischmann et al. 1995) et de la bactérie Gram-négative Mycoplasma génitalium (Fraser et al. 1995), Mushegian et Koonin (Mushegian and Koonin 1996) ont estimé que le génome minimal devait contenir 256 gènes. Ces deux organismes pathogènes appartiennent à deux lignées de bactéries ayant divergé il y a environ 1,6 milliard d’années et ont tous les deux subit un processus d’évolution réductive. Les deux auteurs ont donc émis l’hypothèse que les gènes orthologues conservés dans ces deux génomes étaient probablement essentiels et devaient être inclus dans le génome minimal. Le génome défini par Mushegian et Koonin, bien que basé sur la comparaison de deux génomes bactériens, contenait en majorité des gènes ayant des homologues à la fois chez les eucaryotes et les archées. Ainsi, il constituait une approximation correcte du génome minimal pour les trois domaines du vivant. Dans un but similaire à celui des deux auteurs précédents, Gil et collaborateurs ont comparé les génomes de cinq bactéries endocellulaires vivant en symbiose avec différents insectes (Gil et al. 2003). Ces bactéries ont perdu un nombre très important de gènes au cours de leur co-évolution avec leurs hôtes et possèdent toutes des génomes inférieurs à un Mb. Ces comparaisons ont abouti à l’identification de 277 gènes codant pour des protéines et de 36 gènes spécifiant des ARNs, soit 313 gènes orthologues communs aux cinq génomes. Si l’on ne prend en compte que les gènes codant pour des protéines, ce nombre est assez proche de celui estimé par Mushegian et Koonin. Différentes approches expérimentales ont également été utilisées dans le but d’identifier les gènes essentiels formant le génome minimal. Une des premières tentatives fut réalisée par Itaya (Itaya 1995). Ce dernier a construit aléatoirement 79 mutants « knockout » chez Bacillus subtilis. Seulement 6 se révélèrent létaux, et par extrapolation, l’auteur conclut que le génome de B. subtilis contenait environ 300 gènes essentiels. Ce résultat, à nouveau très proche de celui de Mushegian et Koonin, est d’autant plus remarquable qu’au moment de cette étude, le génome de B. subtilis n’était pas encore disponible. Par la suite, de nombreuses techniques, telles que l’inactivation par insertion de transposons ou l’utilisation d’ARN anti-sens, ont été employées sur différents organismes procaryotes ou eucaryotes et ont donné des estimations assez différentes du nombre de gènes essentiels . Le répertoire de gènes essentiels identifiés avec les deux types d’approches (in-silico ou expérimentale) contient surtout des gènes impliqués dans les mécanismes de réplication de transcription et de traduction. Les gènes codant pour les enzymes des voies métaboliques sont logiquement peu représentés étant donné la richesse en composés organiques du milieu considéré. Enfin, très peu de gènes ont une fonction inconnue.
Les deux approches présentent des biais responsables d’une mésestimation du nombre de gènes essentiels:
– l’approche expérimentale entraîne une surestimation du nombre de gènes essentiels puisqu’elle ne prend en compte que les gènes dont l’inactivation se révèle létale mais pas ceux dont l’inactivation ralentit la croissance, donc diminue la valeur sélective du mutant. De plus, certaines mutations ne sont létales que dans le cas de mutations multiples sur d’autres gènes (mutations synthétiques) et ne sont pas considérées dans ce type d’études.
– les estimations obtenues par comparaison de génomes sont aussi probablement sousestimées puisque, par définition, ce type d’approche ne prend en compte que les gènes orthologues et est fortement dépendante du degré de conservation de ces gènes. Si le niveau de similarité est trop faible, par exemple dans le cas de gènes ayant évolué très rapidement, la relation d’orthologie risque de ne pas être détectée et ces gènes ne seront pas inclus dans le jeu minimal de gènes. Cependant l’une des principales difficultés rencontrées avec cette approche vient du fait qu’une même fonction biologique peut être réalisée par des protéines nonorthologues (non orthologous gene displacement), voire non-homologues, c’est-à-dire ne présentant aucune similarité de séquence ni de structure (Koonin et al. 1996).
Ainsi parmi les 256 gènes essentiels proposés par Mushegian et Koonin, seuls 240 correspondaient à des orthologues véritables entre les deux génomes. En effet, l’analyse des fonctions de ces orthologues a montré qu’ils étaient insuffisants pour assurer toutes les fonctions biologiques nécessaires à un organisme. Les deux auteurs ont identifié plusieurs cas de remplacement non-orthologue et ont ajouté 16 gènes aux 240 précédemment identifiés afin d’obtenir un jeu de gènes suffisant pour le métabolisme d’une cellule moderne. De même, seuls 179 gènes identifiés par Gil et collaborateurs avaient un orthologue dans le génome de Mycoplasma genitalium. Il est assez probable que ces différences proviennent également de la présence dans ces génomes de gènes différents réalisant des fonctions identiques. Le nombre de gènes orthologues tombe à 156 lorsque les génomes de Rickettsia Prowazekii et de Chlamidya trachomotis sont inclus dans l’analyse (Klasson and Andersson 2004).
Ainsi, plus le nombre de génomes utilisés dans les comparaisons augmente et plus le nombre de gènes orthologues communs diminue. On estime que le nombre de gènes orthologues universellement conservés dans tous les génomes est inférieur à 80 gènes (Koonin 2000). Ce nombre est très inférieur au nombre estimé de fonctions essentielles et il semble maintenant évident que, dans de nombreux cas, plusieurs solutions ont été trouvées indépendamment au cours de l’évolution pour réaliser une même fonction (Galperin et al. 1998). Ainsi, il semble plus intéressant d’envisager le concept de génome et d’organisme minimal en terme de fonctions primordiales et non pas par rapport à la présence ou à l’absence de gènes essentiels. La recherche du jeu de gènes essentiels dans les génomes de différents organismes devrait offrir la possibilité de révéler la diversité des mécanismes inventés pour réaliser des fonctions identiques.
|
Table des matières
Chapitre I : Introduction
I.1 Présentation des modèles d’étude: Prochlorococcus et Synechococcus
I.1.2 Distribution géographique et abondance
I.1.3 Caractéristiques générales
I.1.4 Pigmentation
I.1.5 Appareil photosynthétique
I.1.6 Diversité génétique et écotypes
I.3 Evolution des génomes de procaryotes
I.3.1 Intérêts de la comparaison de génome complets
I.3.1.1 Génome minimal et remplacement non-orthologue
I.3.1.2 Adaptation à la niche écologique
I.3.2 Mécanismes d’évolution du répertoire de gènes
I.3.2.1 Duplication génique et formation de familles multigéniques
I.3.2.2 Transferts horizontaux
I.3.2.3 Pertes différentielles de gènes
I.4 Contexte scientifique et démarche adoptée au cours de la thèse
Chapitre II : Annotation des génomes de picocyanobactéries marines
II.1 Résumé des résultats obtenus
II-2 Article
Chapitre III : comparaison des répertoires de gènes adaptation à la niche écologique
III.1 Introduction
III.2 Méthodes d’analyse
III.3 Résultats et Discussion
III.3.1 Classification en clusters de protéines
III.3.2 Distribution des gènes dans les cinq génomes
III.3.3 Gènes de la niche de forte lumière
III.3.4 Gènes de la niche de faible lumière
III.4 Conclusions
Chapitre IV: Evolution réductive chez Prochlorococcus
IV.1 Résumé des résultats obtenus
IV.2 Article
Chapitre V: Conclusions et perspectives
V.1 Différenciation écotypique chez Prochlorococcus
V.2 Conséquences de la réduction du génome chez Prochlorococcus
V.3 Evolution de Prochlorococcus et de Synechococcus: deux stratégies différentes ?
Bibliographie