Caractéristiques du site de liaison à la PTBP1

Télécharger le fichier pdf d’un mémoire de fin d’études

Caractéristiques du site de liaison à la PTBP1
Expérience CLIP-Seq : localisation du site de fixation
En 2009, une première étude à haut débit reposant sur la technique du CLIP-Seq (CrossLinking and ImmunoPrecipitation) a permis d’identifier les régions ciblées et régulées par PTBP1 dans les cellules HeLa (Xue ET AL. 2009). Cette méthode a été développée dans l’objectif d’identifier exhaustivement IN VIVO l’ensemble des sites de contacts entre une protéine de liaison à l’ARN et ses cibles ARN (Ule ET AL. 2005). Le CLIP débute par la formation de liaisons covalentes entre les ribonucléotides de l’ARN et les acides aminés des protéines en exposant la cellule à des UV de type C (254 nm). Les complexes ARN/protéines sont alors immunoprécipités à l’aide d’anti-corps ed la protéine d’intérêt. Après action de la protéinaseK, les ARNs sont ensuite rétrotranscritspour être séquencés. Les données brutes du CLIP-Seq obtenues dans cette étude sont un grand nombre de petits fragments d’ADNc d’une taille entre 30 et 50 nucléotides.
L’étude a montré que la protéine se lie à près de50% des transcrits codant des protéines chez l’homme et qu’environ 30% des sitesde liaison sont retrouvés dans des régions soumises à l’épissage alternatif, soulignant l’effet majeur de cette protéine dans la régulation de l’épissage. Elle a également montré que les sitede liaison à la PTBP1 sont le plus souvent présents en plusieurs copies dans les introns qui jouxtent l’exon régulé et dans une moindre proportion dans l’exon alternatif (Xue et al. 2009).

Analyse structurale du site de fixation

Les analyses structurales du site de liaison à la PTBP1 ont montré qu’il devait s’étendre au minimum sur une trentaine de nucléotides (Amir-Ahmady et al. 2005). De plus, la distance minimale entre les RRM3 et 4 est approximativement de 15 nucléotides (Oberstrass et al. 2005).

Motifs consensuels déjà identifiés

Plusieurs études réaliséesin vitro et in vivo ont permis de préciser des motifs consensuels riches en pyrimidine c’est à dire avec des successions de C et U pour la liaison de PTBP1 (Figure 2). Plus récemment, il a également été montré que BP1PT peut se lier à des motifs présentantquelques insertions de résidus G(Han et al. 2014).t
Cependant ces motifs consensuels ne se sont pas révélés suffisants ou puissants pour prédire bio-informatiquement les sites réellement tilisésuin vivo.

Objectifs du stage

Bien que l’arrivée des nouvelles technologies de séquençage à haut débit ait permis d’augmenter les connaissances sur le rôle de PTBP1 dans un type cellulaire donné, beaucoup de progrès reste à faire en ce qui concerne la prédiction bio-informatique de son rôle dans un autre type cellulaire ou chez une autre espèce.
Durant ce stage, nous avons souhaité mettre au point une nouvelle méthodologie bio-informatique d‘identification de sites fonctionnels de PTBP1 à partir des données de CLIP-Seq de la protéine (Xueet al. 2009). La recherche des sites de liaison fonctionnels peut être appréhendée par l’utilisation d’outils informatiques dits de découverte de motif (pattern discovery en anglais). Cette technique permet de détecter lesmotifs représentatifs (fréquents) d‘un jeu de données. Dans cette étude, les analysesont été réalisées par l’intermédiaire d’une suite logicielle très complèteRSAT (Regulatory Sequence Analysis Tools, cf Méthode) (van Helden 2003) qui est actuellement centrée sur l’identification des sites de liaison des protéines à l’ADN à partir de données CHIP-Seq.
Plus précisément, le stage vise deux objectifs complémentaires.
Le premier objectif est biologique. Il s’agit de réexploiter les données publiques de CLIP-Seq de PTBP1 en utilisant de méthodes d’analyses récentes afin d’affiner la connaissance des motifs de fixation PTBP1. La finalité étant d’aboutir à la prédictionin silico de la fixation de la PTBP1 sur des génomes entiers annotés. Une partie critique de ce travail repose sur la constitution de jeux de données pertinents. Ainsi, de nouveaux jeux de données positifs ont été produits, par réassemblage des données brutes publiées (les reads). Par ailleurs, plusieurs jeux de données négatifs ont également été générés car ils sont déterminants pour s’assurer que les motifs prédits soient bien représentatifs des données positives, et qu’ils permettent ainsi la prédictionin silico de la fixation de la PTBP1.
Le deuxième objectif du stage est méthodologique.Il s’agit de mettre au point une méthodologie adaptée aux données de CLIP-Seq dans a l suite logicielle RSAT en collaboration avec l’auteur de cet outil. En particulier, il s’agit d’explorer l’outil «Peak-motifs» de RSAT, dédié actuellement à la découverte de motifs sur des données CHIP-Seq (fixation de protéines à l’ADN). Dans le cas du CHIP-Seq, il s’agit de rechercher des sites de fixation principalement dans les zones non codantes alors que dans le cas du CLIP-Seq, les sites de fixation sont recherchés principalement dans les parties transcrites des génomes. De telles spécificités peuvent amener à adapter les procédures (paramétrage des outils, types de jeux de données de contrôle). Une démarche exploratoire sur les données PTBP1 permet de faire cette étude d’impact.
Jeu de données positif initial : « Pics_publi »
Le jeu de séquences positif initial a été réaliséàpartir de deux expériences de CLIP-Seq en tant que monomères et deux expériences de CLIP-Seq en tant que dimères de PTBP1 (car la protéine a la capacité de se dimériser). Ilen résulte l’identification de51 394 pics fusionnésqui sont des régions contenant une haute densité dereads assemblés sur le génome humain de référence (hg18) (Xueet al. 2009). Ces données sont contenues dans un unique fichier au format .bed qui donne les coordonnées chromosomiques et le sens des pics fusionnés.
Jeux de données positifs générés à partir des données brutes de séquençage
Le but de cette étude étant de maîtriser le pipeline complet d’analyse de données de CLIP-Seq afin d’en extraire les motifs le plus discriminant possible, nous sommes repartis de données brutes de séquençage (les reads) afin de générer nos propres jeux de pics fusionnés. Cela nous a permis d’utiliser des outils développésrécemment pour les analyses de séquençage à haut débit (Galaxy : http://galaxy.nbic.nl/) mais aussi de faire une analyse plus fine des données en séparant les données de CLIP-Seq de PTBP1 en tant que monomère ou dimère.
Lors de cette réanalyse, les reads ont été filtréspar rapport à leur qualité moyenne > 20 (outil Sickle), puis les adaptateurs de séquençage aux extrémités 3’ et 5’ des reads ainsi que les séquences polyC ont été coupés (outil Cutadapt).Les reads ont alors été alignés sur le génome humain de référence hg19 (outil Tophat). Laposition des reads sur le génome a alors permis de déterminer les régions géniques des picsgrâce à un logiciel de peak-calling (outil MACS : http://liulab.dfci.harvard.edu/MACS/). Trois nouveaux jeux positifs ont ainsi été générés.
« pics_new_monomères » : Jeu positif réalisé à partir des expériences de CLIP-Seq pour les protéines PTBP1 monomères. Il en résulte l’identification de 2339 pics.
« pics_new_dimères » : Jeu positif réalisé à partir des expériences deCLIP-Seq pour les protéines PTBP1 dimères. Il en résulte l’identification de 298 pics.
« pics_new_all » : Jeu qui fusionne les deux jeux précédents. Il contient au total 2637 pics.
Jeux de données négatifs
Afin de discriminer avec précision les motifs présents uniquement dans nos jeux positifs, nous avons besoin de mettre en place des jeux négatifs de contrôle contre lesquels tester nos séquences positives. Dans cet objectif,quatre jeux négatifs ont été construits.
Jeux négatifs de séquences artificielles
« Jeu_négatif_shuffleseq »: Shuffle des données positives (outil Shuffleseq de la suite EMBOSS : http://emboss.bioinformatics.nl/cgi-bin/emboss/shuffleseq). La redistribution aléatoire des nucléotides permet devérifier qu’un motif rencontré n’est pas dû au hasard de la distribution intrinsèque des nucléotides.
« Jeu_négatif_randomseq » : Séquences artificielles mimant la composition nucléotidique de l’organisme de référence (outilRandom_sequence de la suite RSAT : http://rsat.ulb.ac.be/random-seq_form.cgi, option « Organism-specific Markov model »). Ces séquences sont obtenues par un processus de chaîne de Markov où les probabilités des nucléotides varient à chaque position. Par exemple, un ordre de Markov égal à 5 signifie qu’à chaque position le nucléotide va dépendre de la position des 5 nucléotides précédents. L’utilisation de ce jeu négatif a pour but de vérifier si les outils de RSAT permettant la fabrication de jeux négatifs sont adaptés aux données CLIP-Seq. Avec un ordre de Markov égal à 5, le jeu sera différent d’un simple Shuffle et commencera à mimer des séquences biologiques même s’il reste aléatoire.
Jeux négatifs issus de séquences réelles
« Jeu_négatif_Random_genome_fragments » : Fragments génomiques réels ayant la même distribution de taille que le jeu positif outil( Random_genome_fragments de la suite RSAT : http://rsat.ulb.ac.be/random-genome-fragments_form.cgi). L’outil va piocher au hasard ces fragments n’importe où dans un génome donné (ici hg19) sans contrôle possible des régions ciblées. Ce jeu, composé de vraies séquences biologiques quelconques, est utilisé dans les analyses de CHIP-Seq. Nous voulions tester la pertinence d’un tel jeu sur du CLIP-Seq.
« Jeu_négatif_Hela_genic_fragments » : Fragments géniques réels ayant la même distribution de taille que le jeu positif. Les fragments sont issus des séquences géniques de gènes exprimés dans Hela et non représentés dans lejeu positif de pics (outil BEDTools : http://bedtools.readthedocs.org/ en/latest/content/tools/intersect.html). BEDTools permet d’associer les coordonnées contenues dans un fichier bed (ici le fichier positif des pics) avec des annotations d’un génome contenue dans un fichier GFF (ici génome humain d’UCSC Genome Browser : http://genome.ucsc.edu/). On obtient ainsi la liste des gènes représentés dans le jeu positif. On établit alors la liste complémentaire, contenant les gènes exprimés dans les cellules Hela mais négatifs vis-à-vis de PTBP1, convertie en fichier fasta sous Biomart (http://www.ensembl.org/biomart/martview/). À parti r des séquences de « ces gènes négatifs», le jeu négatif est alors constitué en y prélevantléatoirement des fragments d’une distribution de taille similaire à celle des pics fusionnés. Ce jeu a été imaginé pour se conformer aux données CLIP-Seq, qui concernent des données transcrites.
La suite logicielle RSAT (van Helden 2003) a été éveloppéed pour rechercher des motifs surreprésentés dans un jeu de séquences en mployante des méthodes statistiques fiables. Bien que RSAT ait été originellement développé pour l’analyse CHIP-Seq, son concepteur, avec qui nous collaborons pour ce stage, vise à la rendre utilisable pour des analyses de CLIP-Seq.
L’outil « Peak-motifs » de RSAT est un pipeline utilisé pour la découverte de motifs dans un ensemble de séquences. Il combine de nombreuses approches puissantes pour extraire les motifs surreprésentés dans le jeu de séquences«. Peak-motifs » fournit pour un jeu de données : le meilleur motif trouvé, sa séquence consensus, les 3 meilleurs mots/dyads avec leur index de significativité (Sig) qui est positif quand un mot est surreprésenté (exemple : Sig > 10 signifie un 1 faux-positif toutes les 1010 analyses). Un Sig très significatif apparaît en gras et rouge quand il est très significatif dans le tableau de résultat (= valeur entre 75 et 350). Peak-motif teste également chaque motif trouvé contre la base de données de facteurs de transcription (FT) « JASPAR Core Vertebrate » par un test de corrélation de Pearson (le match est considéré comme significatif à partir d’une valeur de 0,9), l’objectif étant d’identifier des liens potentiels avec des facteurs déjà connus (comme les FT). Les pics d’entrées et les sites prédits sont visualisables dans leur contexte biologiques par l’UCSC Genome Browser (Fujita & al. 2010). Trois des différents algorithmes sur lesquels Peak-motifs s’appuie sont présentés ci-dessous.
Oligo-analysis (van Helden et al. 1998)
Il s’agit d’une méthode rapide et efficace pour extraire les mots (= oligonucléotides entre 5-10pb avec un certain niveau de substitutions accepté à certaines positions) exceptionnels dans les séquences nucléotidiques. Son principe se résume en quatre principales étapes qui sont similaires dans les autres algorithmes.
a- Pour chaque mot de taille définie (ex : hexanucléotide, k=6) est estimé uneprobabilitéa priori (= la probabilité de trouver un mot en particulier dans une position donnée) à partir de la fréquence observée du même mot dans un jeu de ntrôleco. Celui-ci est, par défaut, un modèle de Markov dont l’ordre de transition des nucléotides est estimé à partir des séquences elles-mêmes. Il est également possible d’utiliser nu jeu de contrôle personnalisé.
b- La p-value du mot (= la probabilité d’observer au moins x occurrences de ce mot) est ensuite calculée par une loi binomiale. Elle permetde donner une estimation du risque de faux positif = FP (risque de considérer un mot comme significatif alors qu’il ne l’est pas).
c- Plusieurs milliers de tests sont alors effectuéspour déterminer les mots surreprésentés. Si le seuil de la p-value n’est pas assez restrictif, le risque d’accepter des FP est plus élevé. Pour corriger ce problème, il est nécessaire de calculerla e-value (= nombre attendu de FP correspondant à cette p-value).
e-value = p-value * nombre de mots
d- Au final, le Sig calculé par la transformation en log de la e-value : Sig = -log10(e-value).
Les mots découverts sont classés selon leurs score en p-value, e-value et Sig. Les premiers mots sont les meilleurs trouvés par l’algorithme et vont servir de graine pour construire une description probable du motif. Ils sont assemblés (outil ‘pattern-assembly’ : http://rsat.ulb.ac.be/pattern-assembly) puis convertis en une matrice poids position (outil‘ convert matrice’ : http://rsat.ulb.ac.be/convert-matrix) pour indiquer la variabilité des résidus à chaque position du motif.
Dyad-analysis (van Helden et al. 2000b)
Il a été développé pour des études spécifiquesCHIPde-Seq concernant la recherche de motifs de fixation de FT. En effet, certains FT dimériques reconnaissent desdyads, c’est-à-dire des paires de petits oligonucléotides (3-4pb)séparés par un espace de largeur fixe mais de contenu variable (par exemple : CTAn{10}TGG). Le principe du dyad-analysis est le même que celui de l’oligo-analysis sauf qu’il détecte les dyads surreprésentés dans un jeu de séquences.
Position-analysis (van Helden et al. 2000a)
Ce programme permet de calculer la distribution positionnelle des oligonucléotides dans le jeu de séquence et de repérer lesquels s’éloignent significativement d’une distribution homogène. Il peut être utile pour détecter les motifs avec un biais positionnel dans de larges jeux de données (par exemple, plus de mille séquences par exemple). Nous nous sommes rendu compte au cours du stage que cet algorithme n’était pas adapté pour des données CLIP-Seq car il prend en référence le milieu des pics fusionnés, ce qui propre aux analyses CHIP-Seq.
Une fois les motifs obtenus, Peak-motifs va les comparer avec des bases de données publiques (bd) contenant des motifs de fixation associés avec des FTs connus. Pour notre analyse, la base de données JASPAR associée aux vertébrés (Mathelieret al. 2013) a été choisie.
Résultats
L’outil « Peak-motifs » de RSAT nous a permis d’obtenir une description statistique et nucléotidique des jeux d’entrée Figure( 3 et 4), ainsi que de découvrir les principaux motifs présents dans les jeux de données Tableau( 1, 2 et 3). Les résultats de l’oligo et du dyad-analysis obtenus entre les différents jeux ont étécomparés afin de déterminer les meilleures associations de jeux dans la découverte de motif. Ainsi, trois comparaisons ont été réalisées :
• Jeux positifs sans jeux négatifs.
• Jeux positifs Pics_publi et Pics_new_all testés contre les quatre jeux négatifs.
• Jeux positifs Pics_new_monomères et Pics_new_dimères testés contre les quatre jeux négatifs.
Analyse et comparaison des jeux positifs
• Nombre et longueur des pics
Nous constatons tout d’abord que le nombre de pics du jeu pics_publi par rapport aux nouveaux jeux de données positifs générés à partirdes données brutes de séquençage (pics_new_monomère, pics_new_dimère et pics_new_all) est totalement différent (environ 50000 contre quelques milliers) (Figure 3). Cette différence peut être dû au fait que le filtre de qualité utilisé (qualité des reads >20) a eu come incidence d’éliminer une grande partie des reads. Cependant si les pics sont moins nombreux dans les nouveaux jeux positifs, ils sont plus longs : en moyenne 191 à 567 nucléotides contre 27 nucléotides. Cette augmentation de la taille des pics est plutôt rassurante sachant qu e d’après les analyses structurales du site de liaison de PTBP1 au moins 30 nucléotides sont nécessaire à la fixation de la protéine. Par ailleurs, la taille des pics correspondant à la pro téine PTBP1 fixée sur l’ARN en tant que dimère est trois fois supérieure à ceux de la protéine PTBP1 monomère (566 nucléotides contre 191), ce qui semble cohérent d’un point de vue biologique.
• Composition nucléotidiques des pics
Nous constatons que Pics_publi possède en majoritédes résidus T et C alors que les nouveaux jeux positifs ont des compositions plus équilibrées avec une majorité de T et de A (Figure 4). Comme les reads de départ sont les mêmes, cettedifférence de composition est due aux différentes méthodes de peak-calling. Pour les données de pic_publi aucune information n’est donnée sur la méthodologie employée.
• Motifs présents dans les jeux positifs analysés sanjeu de contrôle négatifs
L’algorithme « oligo-analysis » sur les jeux positifs donne des scores de significativité médiocre (Sig<10) chez tous les jeux positifs et des motifs peu ressemblant à ceux proposés dans la littérature.
En revanche, l’algorithme « dyad-analysis » donne des scores de significativité très élevés notamment à partir du jeu de données pic_publi. Globalement, pour les deux algorithmes, il donc apparaît utile d’utiliser des jeux de contrôle négatifs pour augmenter la significativité des motifs produits.
Analyse des jeux négatifs
Afin de vérifier que les jeux de données négatifsn’ont pas de biais de composition, Peak-motif a été testé sur chacun de ces jeux (cfAnnexes). Comme aucun motif n’apparait, ils sont donc considérés comme statistiquement valides(neutres).
Analyse des jeux positifs à l’aide de jeux de contr ôle négatifs
Il s’agit ici de tester l’influence des différentsjeux de contrôle négatifs. Seuls les jeux pics_publi et pics_new_all ont été utilisés afin depouvoir comparer les scores et les motifs obtenus. La première évidence est que les scores de significativité ont considérablement augmenté avec l’utilisation de jeux contrôle négatifs.
Avec le jeu pic_publi, dans les 2 analyses, les scores de significativité sont au maximum quelque soient les jeux négatifs sauf pour le jeu négatif shuffle qui a des scores légèrement moins bons. Avec le jeu pics_new_all, les scores sont moins bons dans les deux analyses sauf avec le jeu négatif random_sequence qui donne un motif dyadavec une significativité maximale. Le choix du jeu négatif a donc un impact fort sur la spécificité du motif.
Si l’on compare les motifs fréquents trouvés, lesmots trouvés en fonctions des jeux positifs ne sont pas les mêmes sur les deux jeux. lsI sont globalement plus diversifiés avec pics_publi alors qu’avec les nouveaux jeux, on trouve fortement le dyad tct{n}tct et des mots de type ttctct conforme au motif UYUYU (tytyt) de la littérature.
Les dyads trouvés avec pic_publi sont globalement de type ttc{n}ttc, alors que ceux trouvés avec pics_new_all sont majoritairement de type tct{n}tct. Par rapport à ceux de la littérature, les motifs trouvés avec l’algorithme ligo-analysis pour pics_new_all semblent mieux correspondre à une alternance de tytyt que ce ux de pics_publi.
Au vue de cette première analyse, il n’apparait pas qu’un jeu de contrôle négatif soit plus pertinent que les autres.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1) La protéine de liaison à l’ARN PTBP1
2) Caractéristiques du site de liaison à la PTBP1
a) Expérience CLIP-Seq : localisation du site de fixation
b) Analyse structurale du site de fixation
c) Motifs consensuels déjà identifiés
3) Objectifs du stage
Matériels et Méthodes.
Matériels
1) Jeu de données positif initial
2) Jeux de données positifs générés à partir des données brutes de séquençage
3) Jeux de données négatifs
a) Jeux négatifs de séquences artificielles
b) Jeux négatifs issus de séquences réelles
Méthodes
1) Oligo-analysis
2) Dyad-analysis
3) Position-analysis
Résultats
1) Analyse et comparaison des jeux positifs
2) Analyse des jeux négatifs
3) Analyse des jeux positifs à l’aide de jeux de contrôle négatifs
4) Pertinence de l’affinement des jeux négatifs
5) Comparaison des jeux monomères et dimères
Discussion
Conclusion
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *