Détection de recombinaisons génomiques et protéomiques homologues par alignement multiple local et partiel

Les bactériophages 

Les bactériophages (également appelés phages) sont des virus qui infectent spécifiquement les bactéries. Ils contiennent de l’acide nucléique (sous forme d’ADN ou d’ARN, selon le type du phage) et des protéines. Ils se distinguent des autres groupes viraux par leur vaste diversité morphologique et génomique. Cependant, on retrouve une structure de base chez la grande majorité des phages observés au microscope à ce jour.  les phages les plus répandus possèdent une structure appelée tête ou capside, composée de nombreuses copies d’une ou plusieurs protéines. Son rôle primaire est de contenir et protéger le génome viral. Sous la capside se trouve une queue rigide ou contractile, en forme de tube. Elle est terminée par un plateau auquel sont ancrées des fibres de queue, qui permettront le contact avec l’hôte. La plupart des phages ont une structure (tête + queue) ayant une taille se situant entre 24 et 200 nm de diamètre.

Un phage va d’abord entrer en contact avec son hôte. Le phage adhère puis interagit alors avec des récepteurs spécifiques, exprimés à la surface cellulaire. Les fibres de queue sont en charge de cette reconnaissance. Si le phage reconnaît les récepteurs, il s’attache ensuite irréversiblement. Une fois le lien établi, le phage utilise sa queue, pour traverser la paroi bactérienne. Certains phages ont développé des enzymes de digestion pour affaiblir localement la paroi cellulaire, afin de mieux la transpercer sans endommager la cellule. Enfin, le phage injecte son matériel génétique dans la cellule, ne laissant qu’une capside vide à l’extérieur de la cellule.

On peut diviser les phages en deux grands groupes :
— Les phages virulents ne s’intègrent pas au génome bactérien et se contentent d’entrer dans la bactérie pour se multiplier en utilisant les ressources de son hôte en sa faveur. Après prolifération, ils ressortent de la bactérie en la tuant, et peuvent entamer un nouveau cycle d’infection. On parle de cycle lytique.
— Les phages tempérés ont un comportement plus évolué que les virulents. Lors de l’infection de leur hôte, si les conditions physiologiques pour réaliser un cycle lytique ne sont pas réunies, ils peuvent entrer en état d’hibernation au sein de leur hôte en intégrant le génome de la cellule infectée (état prophage) en attendant un moment plus propice pour se répliquer. La cellule, lors de sa division, dupliquera également le génome du phage. Cette cohabitation peut perdurer pendant plusieurs générations. On parle de cycle lysogénique. Le cycle lysogénique peut apporter des avantages à la bactérie et contribue ainsi à l’évolution bactérienne.

Du point de vue évolutif, l’intégration de prophages et leur préservation dans le génome bactérien ont plusieurs conséquences. D’une part, les phages constituent un danger permanent pour la bactérie et menacent de réaliser un cycle lytique (lyser) dans l’hôte. D’autre part, la bactérie peut tirer avantage du prophage qui l’infecte. En effet, le génome des phages peut apporter à l’hôte des gènes non essentiels qui augmentent sa capacité à s’adapter et à survivre dans son environnement. Ces fonctions confèrent un avantage sélectif favorisant le maintien du prophage. Il existe donc un lien chez les bactéries entre l’acquisition de prophages et l’émergence de nouveaux pathogènes.

Présentation du sujet 

Les phages ont une évolution rapide de par la structure unique de leur génome. Une théorie modulaire de l’évolution des phages a été proposée pour la première fois il y a de nombreuses années [1]. Elle stipule que des ensembles de gènes proches spatialement peuvent être considérés comme des modules fonctionnels qui sont mélangés par recombinaison, un échange de matériel génétique entre deux brins d’ADN. Ces recombinaisons donnent lieu à de nouvelles combinaisons de modules et donc à des phages potentiellement nouveaux et viables. C’est pour cette raison qu’on qualifie de mosaïques la grande majorité des génomes de phages séquencés à ce jour. Bien que ce phénomène ait été largement étudié, il reste difficile de prédire une recombinaison et d’en comprendre les causes à l’échelle nucléotidique. En 2014, De Paepe et al. démontrent que les mosaïques sont principalement générées par des mécanismes basés sur l’homologie [2]. En d’autres termes, les régions génomiques avec un fort taux de similarité pourraient être plus fréquemment sujettes aux recombinaisons.

La structure en mosaïque du génome des phages rend également difficile l’annotation de leurs protéines. Le nombre en constante augmentation de séquences de protéines disponibles grâce aux technologies de séquençage, a favorisé l’apparition de méthodes in-silico pour annoter fonctionnellement des protéines. L’approche la plus largement utilisée consiste à transférer les annotations des homologues identifiés, susceptibles de partager des structures similaires. La détection de l’homologie est rendue possible par le fait que le maintien de la fonction et de la structure contraint l’évolution des séquences protéiques, ce qui implique que les séquences homologues partagent des caractéristiques communes. Pour détecter ces caractéristiques communes, l’alignement multiple est une des méthodes les plus largement utilisées. Elle consiste à aligner collectivement un ensemble de séquences homologues suivant un algorithme. Cependant, il reste aujourd’hui compliqué d’aligner des séquences nucléotidiques ou protéiques de phages à cause du fort taux de mutations et de recombinaisons dont elles font l’objet. Les algorithmes d’alignement multiple classiques comme ClustalW [3] ou MUSCLE [4] ne parviennent pas à gérer ces recombinaisons, ce qui rend leur utilisation limitée dans le cadre de l’annotation de protéines de phages. Il convient donc de concevoir de nouveaux algorithmes ou d’en modifier d’actuels pour améliorer la détection de recombinaisons homologues. Dans le cadre de ce stage, nous testerons un algorithme, Paloma, qui repose sur le principe d’alignement multiple partiel et local [5][6]. Ce principe permet d’aligner une portion des séquences (alignement local), pour des sous-ensembles de séquences (alignement partiel). De plus, un mode expérimental de Paloma lui permet de représenter l’alignement des régions répétées. La combinaison de ces trois points font de Paloma un outil potentiellement adéquat pour représenter à travers un alignement la structure en mosaïque des génomes des phages. Le but de ce stage est de déterminer d’éventuelles recombinaisons entre les protéines de fibres de queue de plusieurs phages, et le cas échéant, d’essayer d’expliquer les occurrences de ce phénomène chez ces phages .

Paloma

Paloma est un outil bio-informatique développé en 2008 dans le cadre d’une thèse [6]. Initialement créé pour l’apprentissage d’automate afin de modéliser des familles de séquences protéiques. Il a ensuite servi dans le cadre de plusieurs travaux scientifiques pour détecter des régions de conservation protéique [8] [9] [10]. Cette partie présente globalement l’approche des créateurs de Paloma [5][6]. L’outil est disponible sur la plateforme bio-informatique Genouest.

Alignement multiple partiel et local (PLMA)

L’un des objectifs principaux de l’alignement multiple est de mettre en valeur les caractéristiques communes d’un ensemble de séquences (protéiques dans le cadre de ce stage). Ce sont ces spécificités partagées qui font de ces séquences une famille. Si certaines familles embrassent une forte similarité, il est possible de les caractériser à l’aide d’un alignement global des séquences. Cependant, les phages échangent sans cesse du matériel génétique, si bien que ce type d’alignement n’est pas approprié. Pour une structure en mosaïque comme chez les phages, les domaines sont plus espacés, et plus court, sans pour autant que l’ordre des domaines soit conservé.

Paloma permet d’obtenir un alignement multiple local et partiel d’un ensemble de séquences. Chaque alignement local partiel ( ou PLA pour Partial Local Alignment) correspond à un bloc de conservation qui est :
— Partiel : relâchant la contrainte que toutes les séquences doivent être alignées
— Local : relâchant la contrainte que toutes les positions doivent être alignées pour permettre d’aligner seulement des fragments de séquences.

Un ensemble de PLA compatibles constituent un alignement multiple local et partiel (ou PLMA pour Partial Local Multiple Alignment).

Approche de l’outil

Nous allons maintenant expliquer comment Paloma aboutit à la production d’un PLMA. La première étape est une recherche de fragments (définition 1) similaires parmi toutes les séquences à disposition. Il est alors nécessaire d’introduire une mesure de similarité correspondant à des associations de fragments. Ces associations se font dans un premier temps par deux, puis par blocs de fragments dans un second temps. L’algorithme utilise le programme Dialign2 [11]. Ce programme, initialement employé pour obtenir des alignements multiples globaux, dispose d’une option permettant d’obtenir un ensemble de paires de fragments significativement similaires. Pour chaque paire, une similarité et un score de similarité sont ensuite calculés et seuls les SFPs (définition 3) sont conservés. Le calcul de la similarité d’une paire se base sur la somme des scores d’une matrice de substitution (BLOSUM par exemple). Le calcul de la significativité de cette similarité est présenté dans la définition 2

Définition 1. Soit une séquence S = p1…pn. Un fragment F de S est un sous ensemble de positions contiguës pi…pj de S.

Définition 2. Etant donné une paire de fragments (F1,F2) de même longueur l, la significativité de similarité w(F1,F2) est égale à -logP(s,l) tel que :

— P(s,l) : la probabilité pour une paire de fragments aléatoire de longueur l d’avoir une similarité supérieure à s
— s : la similarité de (F1,F2)

Définition 3 (SFP (Significantly Similar Fragment Pair). Une paire de fragments (F1,F2) est significativement similaire pour un seuil t si w((F1,F2)) > t.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Les bactériophages
1.2 Présentation du sujet
1.3 Postulat de base
2 Matériel et méthodes
2.1 Paloma
2.1.1 Alignement multiple partiel et local (PLMA)
2.1.2 Approche de l’outil
2.2 PHROGs
2.3 Constitution des jeux de données
2.3.1 Jeu de contrôle
2.3.2 Jeu avec concaténation verticale
2.3.3 Jeu avec concaténation horizontale
3 Analyses et résultats
3.1 Paramétrage sur jeu de contrôle
3.2 Présence de régions répétées
3.3 Présence de recombinaisons chez 3 phages
3.4 Étude à l’échelle protéique des 33 paires de protéines de fibres
3.5 Étude à l’échelle nucléotidique des répétitions
4 Conclusion
5 Bibliographie
6 Résumé / Abstract

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *