L’épissage : étape clé dans la maturation des ARN pré-messagers

L’épissage

L’épissage : étape clé dans la maturation des ARN pré-messagers

Les acides ribonucléiques (ARN), aussi appelés ribonucleic acids (RNA), jouent de nombreux rôles cruciaux chez les eucaryotes. Les molécules d’ARN peuvent être regroupées en deux grands types : les ARN codants ou ARN messagers (ARNm), messenger RNA (mRNA), et les ARN non codants (ARNnc). Bien que les ARNm ne représentent en moyenne que 1 % des molécules d’ARN, les ARNm constituent le support de l’information entre la séquence génique et protéique lors de l’étape de traduction (Figure 1). Parmi les ARNnc, les ARN ribosomaux et de transferts jouent principalement un rôle de partenaire dans la traduction protéique et sont synthétisés par les ARN polymérases I. Les petits ARN nucléaires, ou snRNA, sont impliqués dans la régulation des modifications post-transcriptionnelles de l’ARNm dont l’épissage [1]. D’autres ARNnc participent à la régulation de l’expression génique. Parmi eux, les micro ARN ciblent la dégradation des ARNm en se liant spécifiquement à la partie 3’ non traduite des ARNm [2]. Les longs ARN non codants régulent eux de manière plus complexe cette expression [3].

Depuis leur synthèse par les ARN polymérases II, les ARNm subissent plusieurs étapes de maturation pour pouvoir être éligibles à la traduction en protéine : l’ajout d’une coiffe 7-methylguanosine en 5’, la polyadénylation en 3’ et enfin l’épissage. Si les deux premières étapes sont indépendantes de la séquence de l’ARN pré messager (pré-ARNm), dans leur processus, l’épissage est étroitement lié à la séquence de la molécule. L’épissage a été décrit pour la première fois en 1977 par l’équipe de Richard J. Roberts en utilisant l’adénovirus comme modèle [4]. Il consiste en l’assemblage des séquences codantes du préARNm, les séquences non codantes, entre celles codantes, étant excisées de la molécule. Les séquences codantes et non codantes sont nommées respectivement exons et introns [5]. Les exons ont une longueur médiane de 133 nucléotides (nt) tandis que les introns ont une taille médiane de 1 851 nt, calculée à partir de la base de données RefSeq [6]. Ceci illustre que moins de 10 % de la molécule pré-ARNm est codante. En conséquence l’épissage est une étape majeure de la maturation des ARNm.

La machinerie d’épissage : le splicéosome 

L’épissage des ARNm est assuré par un complexe protéique nommé splicéosome. Le splicéosome est composé de complexes ribo-nucléoprotéiniques (RNPs). Les principales RNPs sont les U1, U2, U4, U5 et U6 [8]. En complément, le splicéosome est assisté par un ensemble d’autres RNPs dont SAP155, U2AF65, U2AF35, et des protéines riches en sérine et arginine Serin-Arginin rich protein (protéines SR). La principale fonction de ces dernières est la reconnaissance des motifs d’épissage présents dans le préARNm. En effet le splicéosome utilise des motifs hautement conservés, dits canoniques, pour définir les jonctions exons/introns. Ces motifs sont situés dans les introns en partie 5’ et 3’ et sont au nombre de trois. En partie 5’ de l’intron est observé majoritairement le site donneur caractérisé majoritairement par un motif canonique GT. Dans 0,82 % des sites donneurs humains le motif est GC [9]. En partie 3’ deux motifs participent à l’épissage, le site accepteur pourvu d’un motif canonique AG et en amont de ce site le point de branchement identifié par une adénosine.

Pour procéder à l’épissage de l’intron, le splicéosome découpe le pré-ARNm au niveau du site donneur. La partie libre 5’ de l’intron subit une trans-estherification avec le point de branchement. Cette étape conduit à la formation d’un ARN lasso. Le splicéosome tronque le pré-ARNm à hauteur du site accepteur et associe les deux séquences exoniques qui bordaient l’intron. Le reliquat d’intron, devenu un ARN lasso, est libéré par le splicéosome pour être ensuite dégradé .

Un second splicéosome composé des protéines U11, U12, U4, U5 et U6 participe également à l’épissage. Il est nommé le splicéosome U12 mineur par opposition au précèdent splicéosome appelé le splicéosome U2 majeur. En effet, seulement 0.1 % des introns humains sont épissés par ce splicéosome U12 mineur [11]. Si le processus d’épissage est similaire entre les deux splicéosomes, ils différent par les motifs canoniques reconnus du pré-ARNm. Le site donneur est défini par le motif canonique AT et le site accepteur par le motif canonique AC.

Les motifs canoniques présents sur la séquence du pré-ARNm guident le splicéosome pour épisser les introns. Or la séquence de ces motifs étant courte, un problème mathématique se pose rapidement. En effet, à titre d’exemple, le gène RAD51B contient une séquence d’environ 776 000 nt. En supposant que la probabilité de trouver un motif canonique donneur ou accepteur soit de ⅟₁₆ (6,25 %), l’espérance mathématique du nombre de sites d’épissage est de 48 515 sites. Mais RAD51B ne comprend que 11 exons (NM_133509), soit 20 sites d’épissage. Dès lors il apparait que le splicéosome et les motifs canoniques ne sont pas les seuls acteurs de l’épissage.

Les motifs d’épissage

Très tôt après la découverte de l’épissage en 1977, l’équipe de Chambon a montré que la séquence du pré-ARNm autour des sites canoniques joue un rôle majeur dans la reconnaissance des sites d’épissage [12]. Dès lors plusieurs études ont commencé à aligner les séquences des sites canoniques pour définir une séquence consensuelle observée autour de ces sites. L’ensemble de ces résultats a été résumé par l’équipe de Phillip A. Sharp en 1999, aboutissant à le définition des trois séquences consensuelles retrouvées autour des sites canoniques (Figure 3). La séquence des sites donneurs d’épissage implique les six premières bases de l’intron et les trois dernières bases de l’exon. Le motif consensus est VAG|GTRAGT, où | est la jonction exon/intron et GT le motif canonique. La séquence du site accepteur inclus les deux premières bases de l’exon et les 12 dernières bases de l’intron. La séquence consensus du site accepteur se caractérise aussi par un enrichissement en pyrimidine à partir du 5ème nucléotide dans l’intron, appelé tract polypyrimidique. Tandis que le 4ème nucléotide dans l’intron n’est pas conservé. La séquence retrouvée est YYYYYYYYNCAG|GD, où | est la jonction intron/exon et AG le site canonique.

Le point de branchement est représenté par la plus courte séquence consensus (6 nt) avec seulement l’adénosine du point de branchement et une thymidine, deux bases en amont, hautement conservées (CTRAYY). La difficulté majeure concernant les points de branchement est de connaître leur position exacte en amont du site accepteur. La courte taille des motifs et le fait que l’ARN lasso soit rapidement dégradé a limité l’étude in vitro des points de branchement à de la mutagénèse dirigée en amont des sites accepteurs, intron par intron (ex : [14]). Il faudra attendre près de 40 ans depuis la découverte du mécanisme d’épissage en 1977 pour obtenir la première étude à large échelle décrivant expérimentalement les points de branchement [15]. Les auteurs de cette étude ont proposé une approche originale consistant à séquencer à haut débit l’ARN lasso par une reverse-transcription spécifique de la jonction site donneur/point de branchement combinée avec une dégradation de l’ARN linéaire. Cette cartographie a notamment permis de montrer que plus de 95 % des points de branchement humain sont situés entre 44 et 18 nt en amont des sites accepteurs.

Si la séquence consensus des sites d’épissage a été largement étudiée et décrite, il faudra attendre le début des années 2000 pour prouver qu’elles ne sont pas suffisantes pour définir les jonctions exon/intron [16]. En effet, il a été identifié par la suite des motifs autour des sites d’épissage capables de favoriser ou d’inhiber l’utilisation de ces sites. Pour les motifs introniques, ils sont habituellement nommés Intronic Splicing Enhancers (ISEs) ou Silencers (ISSs). Les motifs exoniques sont eux nommés Exonic Splicing Enhancers (ESEs) ou Silencers (ESSs). L’ensemble de ces motifs sont regroupés sous l’appellation Splicing Regulatory Elements (SREs), et Exonic Splicing Regulators (ESRs) pour les motifs exoniques. Ces motifs de taille moyenne comprise entre 4 et 8 nt sont des sites de fixation de complexes RNPs associées au splicéosome.

Les motifs enhancers sont associés aux protéines SR, par exemple SC35 et SF2/ASF [17]. Les motifs silencers sont identifiés par la classe des protéines hnRNP, incluant entre autre hnRNP I et hnRNP A1 [18]. Si la séquence des sites d’épissage peut-être facilement étudiée par alignement des jonctions intron/exons, l’étude des SREs s’avèrent plus complexe. De nombreuses études par différentes approches in silico, in vivo ou combinant des analyses à haut débit in vitro ont permis d’étudier la séquence de ces SREs et leur impact sur l’épissage [19]–[25]. Par une approche à haut débit, l’équipe de Ronsenberg a étudié l’influence des 4096 motifs hexamèriques possibles sur la reconnaissance des sites d’épissage [25]. Il en a résulté que 82.9 % des (3 396/4 096) motifs possibles étaient significativement associés à l’utilisation des sites d’épissage, leur association étant plus importante au niveau exonique. Il en résulte que c’est autant un environnement de SREs plutôt qu’un seul motif qui permet la reconnaissance des sites d’épissage [26].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
I. L’épissage
L’épissage : étape clé dans la maturation des ARN pré-messagers
a. La machinerie d’épissage : le splicéosome
b. Les motifs d’épissage
L’épissage alternatif
Des variants génétiques aux défauts d’épissage
II. Tests fonctionnels dédiés aux défauts d’épissage
Les analyses in vitro à partir d’ARN naturel
a. Tests fonctionnels à bas débit
b. Tests fonctionnels à haut débit
Les analyses in vitro à partir d’ARN artificiel
a. Tests fonctionnels à bas débit
b. Tests fonctionnels à haut débit
III. Les outils bioinformatiques et biostatistiques dédiés au RNA-seq
Les outils bioinformatiques
a. Format des principaux fichiers utilisés en bioinformatique
b. Alignement des données RNA-seq
c. Identification des transcrits
d. Comptage des reads
Les outils biostatistiques
a. Visualisation des données brutes
b. Normalisation du comptage de reads
c. Modélisation du comptage de reads
IV. Prédiction des défauts d’épissage
Outils de prédiction dédiés aux sites d’épissage consensus
Outils combinant plusieurs motifs d’épissage
Meta-scores
Evaluation des outils de prédiction
V. Prédisposition aux cancers du sein et de l’ovaire : un modèle d’étude des variants
splicéogéniques
Gènes impliqués dans le syndrome HBOC
a. Gènes BRCA1 et BRCA2
b. Les gènes non-BRCA impliqués dans le syndrome HBOC
Interprétation des variants
Altération de l’épissage et pathogénicité : une histoire complexe
OBJECTIFS DES TRAVAUX DE THESE
RESULTATS
I. Nouvel outil diagnostique pour la prédiction de variants splicéogéniques situés dans les sites
consensus : Article I
ABSTRACT
INTRODUCTION
MATERIALS AND METHODS
a. Nomenclature
b. Definition of consensus splice site regions
c. Datasets
d. In silico tools
e. Logistic regression and model definition
f. In silico predictions using previously published guidelines
RESULTS
a. BRCA1/BRCA2 training set
b. BRCA1/BRCA2 validation set
c. Non-BRCA validation set
d. Descriptive analyses of bioinformatics prediction score
e. Model definition of SPiCE
f. SPiCE performances on the BRCA1 and BRCA2 validation set
g. SPiCE performances on the non-BRCA validation set
h. SPiCE performances with previous published guideline
i. Further quantitative aspects
DISCUSSION
a. General considerations
b. Recommendations for routine analyses
DEDICATION
AVAILABILITY
SUPPLEMENTARY METHODS AND DATA
FUNDING
ACKNOWLEDGMENTS
CONFLICT OF INTEREST
II. Évaluation des outils de prédiction des points de branchement pour prédire la présence de point de branchement et leur altération par des variants : Article II
ABSTRACT
BACKGROUND
RESULTS
a. Bioinformatic detection of branch points among the physiological and alternative splice acceptor sites
b. Bioinformatic prediction of splicing effect for variants in the branch point area
DISCUSSION
CONCLUSION
METHODS
a. Sets of data
b. Assessment of bioinformatics tools
c. Evaluation of the score combination
ADDITIONAL FILES
DECLARATION
a. Ethics approval and consent to participate
b. Consent for publication
c. Availability of data and material
d. Competing Interests
e. Funding
f. Authors’ contributions
g. Acknowledgements
III. SPiP : un nouvel outil pour adresser à la diversité des altérations de l’épissage
IV. SpliceLauncher, un outil pour la détection, l’annotation et la quantification des jonctions alternatives à partir de données de RNA-seq : Article III
CONCLUSION

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *