Télécharger le fichier pdf d’un mémoire de fin d’études
Les microARNs : des régulateurs de la production de protéines
Il existe aussi dans notre génome des séquences d’ADN qui ne codent pas pour des protéines mais qui sont toutefois transcrites en ARN. Parmi ces ARNs, on trouve les ARN ribosomiques (ARNr), les ARN de transfert (ARNt), les petits ARN nucléolaires (snoARN), les petits ARN nucléaires (ARNsn) ou encore, ceux qui vont nous intéresser par la suite, les microARNs. Les microARNs sont une importante famille de petits ARNs, longs de 18 à 25 nucléotides, simple brin qui régulent l’expression des gènes après la transcription, en orientant la fixation d’un complexe protéique appelé RISC (RNA-induces silencing complex) vers une séquence d’ARN d’un gène codant qui est complètement ou partiellement complémentaire à la séquence du microARN. Le plus souvent, la séquence d’ARN ciblée par le microARN se situe dans la région 3’UTR de cet ARN cible, mais parfois elle peut aussi se trouver dans sa partie 5’UTR ou dans sa phase ouverte de lecture (ou ORF pour Open Reading Frame), c’est-à-dire dans des séquences potentiellement codantes pour des protéines. Si la complémentarité entre le microARN et l’ARN cible est parfaite, la fixation du complexe donne lieu à un clivage endonucléolytique ayant en général pour conséquence de dégrader fortement l’ARN ciblé. Si la complémentarité est partielle, le complexe RISC n’a tendance à dégrader que partiellement l’ARN, par une réaction exonucléolytique, mais permet en général d’empêcher la traduction de l’ARN en protéine. Dans les deux cas, la production de la protéine est réduite par l’action du microARN.
Importance des microARNs
Le premier microARN identifié, lin-4, a été découvert en 1993 chez le ver Caenorhabditis elegans [66]. Depuis, on a trouvé des microARNs chez la plupart des eucaryotes [8] et notamment chez l’homme où ils forment une des classes de petits ARNs inhibiteurs les plus importantes avec 1600 membres identifiés au moment de l’écriture de ce document, d’après miRBase, la base de registre des microARNs [43]. L’influence globale des microARNs sur notre organisme n’est pas encore bien connue, mais grâce à des algorithmes de prédictions (miRanda [56], TargetScan [70], Diana MicroT [76], PicTar [63]), on pense que la plupart des microARNs pourraient cibler des centaines de gènes et qu’inversement, chacun de ces gènes serait susceptible d’avoir des sites de fixation pour plusieurs microARNs. Au final, on estime que 50 % de nos gènes seraient sujets à une régulation par les microARNs [8, 38, 64], ce qui ferait de ces derniers les éléments régulateurs clés de la vie de la cellule.
Processus de maturation du microARN
Depuis quelques années, notre compréhension de la biogenèse des microARNs a beaucoup progressé. On sait désormais que les microARNs proviennent de petites gènes non codants situées soit à l’extérieur des gènes codants, soit dans leur partie intronique. La séquence du microARN est d’abord transcrite en pri-microARN qui, après avoir pris la forme d’une tête d’épingle, est coupé par le complexe protéique Microprocessor, notamment composé de l’enzyme Drosha et de la protéine DGCR8, pour former une séquence de nucléotides double brins que l’on nomme pre-microARN. Notons qu’il n’est pas rare que la séquence du microARN serve en fait à la maturation de plusieurs microARNs. Dans un tel cas, la séquence est transcrite en un seul pri-microARN qui est par la suite divisé en plusieurs pre-microARNs par l’action des protéines Drosha et DGCR8. Le pre-microARN est alors exporté à l’extérieur du noyau dans le cytoplasme par les protéines Exportin-5 et RAN, puis coupé de nouveau, par l’enzyme Dicer et la protéine TRBP en le duplexe microARN/microARN* composé de deux séquences de nucléotides complémentaires d’environ 20 bases chacune. Un des deux brins du duplex interagit ensuite avec une protéine de la famille Argonaute, pour former le complexe RISC dans lequel le microARN désormais mature peut orienter la fixation du complexe vers une séquence d’ARN d’un gène codant qui lui est complémentaire (cf. figure 1.5). Il arrive que les deux brins du duplex microARN/microARN* puissent cibler des séquences d’ARNs, aussi on les distingue généralement en étoilant le nom de la version la moins couramment rencontrée 1. Le microARN, lorsqu’il est intégré dans le complexe RISC, va cibler des séquences d’ARN qui sont complémentaires avec les nucléotides 2 à 7 de son extrémité 5’, appelée région « seed ». Après hybridation du microARN sur la séquence cible, le complexe RISC va alors participer au processus de régulation de la production de protéines dans la cellule, en dégradant la séquence d’ARN messager, en particulier lors d’une complémentarité parfaite, ou en empêchant sa traduction en protéine.
Ce que renferme notre ADN
Notre génome en chiffres
Notre génome est constitué d’environ 23 000 gènes longs de quelques centaines à plusieurs centaines de milliers de paires de bases [53] codant pour un nombre probablement bien plus important de protéines grâce aux épissages alternatifs. Mais au final, la partie codante de tous ces gènes ne représente qu’environ 1.5 % du génome, le reste de notre séquence étant composé d’introns (ce qui est supprimé par l’épissage), de séquences qui codent pour des ARNs non traduits comme les microARNs, de séquences participants au recrutement des différents acteurs du processus de fabrication et de régulation des protéines et enfin d’ADN, constitué majoritairement de séquences répétitives, qui étaient il y a peu appelées « poubelle » mais qui semblent finalement avoir bien des fonctions [118].
Les dernières nouvelles du génome
Très récemment, en septembre 2012, les chercheurs du projet Encode (pour Encyclopedia of DNA Elements), dont l’objectif est de trouver et déterminer la fonction de tous les éléments fonctionnels du génome humain, ont publié une série d’articles donnant un meilleur aperçu global de notre génome. L’une de leurs découvertes est qu’au-delà des séquences codantes pour des protéines, près de 80 % du génome humain serait finalement fonctionnel, notamment en participant à la régulation différentielle des quantités de protéines produites selon le type cellulaire [13]. D’après les résultats de leurs recherches, des séquences régulatrices pour un gène dans un type cellulaire, pourraient chevaucher des séquences régulatrices pour un autre gène dans un autre type cellulaire, ce qui les amène à proposer une redéfinition du concept de gène [30].
La régulation de la production de protéines dépend du type cellulaire
Les résultats du projet Encode ne sont pas si surprenants que ça. En effet, l’ADN est le même dans chaque cellule d’un individu mais, à certains endroits du corps, nous avons des doigts, à d’autres le c 12 ur ou le cerveau et ceux-ci ne se ressemblent pas du tout. Ceci est dû au fait qu’avec le temps et au contact d’environnements cellulaires et extérieurs différents, nos cellules se sont différenciées. Aussi, certains types cellulaires régulent l’expression de certains gènes permettant de fabriquer un grand nombre de certaines protéines, alors que d’autres types au contraire inhibent leur expression permettant de mieux répondre aux besoins de la cellule et de son environnement (cf. figure 1.6). Cette régulation différentielle selon les types cellulaires n’est pas encore bien comprise mais il est probable qu’au-delà des gènes et des microARNs, une grande partie du génome y soit sollicitée, de même que certains phénomènes épigénétiques, c’est-à-dire des événements qui ne sont pas codés par la séquence d’ADN mais qui peuvent cependant se transmettre. Le principal exemple est celui la méthylation consistant en des modifications de conformation de la molécule d’ADN lorsque des groupements méthyles se fixent sur certaines bases azotées de type cystéine.
Le mécanisme de l’évolution
Lorsque plusieurs populations éloignées sont soumises à des environnements différents, les mutations et recombinaisons qui donnent à certaines populations un avantage en termes de survie ont tendance à se conserver plus que dans une autre population où elles peuvent s’avérer néfastes. L’accumulation au cours de milliers d’années de ces modifications aboutit à une différentiation importante du génome entre les populations allant jusqu’à l’incompatibilité sexuelle et la création de nouvelles espèces. C’est le principe de l’évolution introduit par Charles Darwin dans On the Origin of Species[27]. Notre classification des espèces vivantes passe d’ailleurs depuis la seconde moitié du XXeme siècle par une analyse dite « phylogénétique » de reconstruction de la différenciation des gènes ou des expressions 1 des gènes [68] au cours du temps.
Substitution d’une base par une autre
Le plus souvent, une variation génétique consiste en la simple substitution d’un nucléotide par un autre. Lorsqu’une variation de ce type est présent au sein d’une population, les individus de cette population se retrouvent à avoir plusieurs formes possibles (parmi A, C, G ou T) pour le nucléotide situé au locus de la variation. Comme les mutations sont un phénomène très peu fréquent 1, il est extrêmement rare que deux mutations surviennent exactement à la même position. Les polymorphismes les plus couramment rencontrés sont donc des variations d’une seule paire de bases ne prenant que deux formes et appelées SNP (pour Single Nucleotide Polymorphism).
Insertions, délétions et répétitions de bases nucléotidiques.
Parfois, une variation génétique peut consister en la suppression ou l’addition d’un ou de plusieurs nucléotides. On parlera alors d’insertion et de délétion. Lors de la recombinaison chromosomique, l’échange du matériel génétique entre les deux chromosomes d’une même paire s’effectue au niveau de séquences similaires. Aussi, il n’est pas rare qu’en des endroits du génome constitués de séquences répétées, les recombinaisons ne s’effectuent pas exactement aux mêmes locus sur les deux chromosomes résultant en des insertions et délétions des séquences répétées. Il en résulte des variations du nombre de copies de ces séquences répétées au sein de la population. On appelle CNV (pour Copy Number Variation) ce type de polymorphisme.
Les possibles causes de cette héritabilité manquante
Des polymorphismes plus difficiles à trouver que Charlie Où est Charlie ? « Où est Charlie ? » est une série de jeux/bandes dessinées créée par Martin Handford en 1987 et diffusée en France à partir de 1989 [45], dans laquelle le lecteur doit retrouver le personnage de Charlie, un jeune homme portant des lunettes et habillé d’un bonnet et d’un pull à rayures horizontales rouges et blanches. La difficulté du jeu réside dans le fait que sur chaque page où l’on doit trouver Charlie, celui-ci se retrouve entouré de centaines d’autres personnages et objets. On peut voir un exemple d’imitation de la série dans la figure 3.8. Si vous n’y trouvez pas Charlie, vous pouvez trouver la solution à la fin de cette thèse [155]. À première vue, la recherche de polymorphismes impliqués dans un phénotype parmi l’ensemble des polymorphismes d’une étude génome entier peut sembler un peu similaire à la recherche de Charlie parmi tous les personnages présents sur une même image. Cependant, comme nous allons le voir, la quantité de données et la complexité d’une recherche de polymorphismes dans une GWAS est bien supérieure à ce qui peut se trouver dans un tel jeu et c’est peut-être l’une des raisons pour lesquelles nous sommes encore très loin d’avoir trouvé tous les facteurs génétiques des maladies complexes.
Les modèles utilisés et l’estimation de leurs paramètres
Après cet aperçu des différentes façons de tester une hypothèse, je vais maintenant présenter les modèles et les tests utilisés dans mes travaux de recherches.
Le modèle linéaire est un modèle liant linéairement un caractère quantitatif, tel que le niveau d’expression d’un gène, à des variables explicatives telles que le nombre de copies d’un allèle d’un SNP (cf. figure 4.3). On l’explicite par une équation mathématique du type y = a0 + a1 x1 + a2 x2 + + ap xp + où y est la variable à expliquer, x1, x2, … xp sont les variables dites explicatives, qui influencent de manière linéaire y, représente une variable aléatoire que l’on suppose normale et de moyenne nulle. Elle englobe le caractère aléatoire de toute mesure qui n’est pas due aux autres variables. Enfin, a0, a1, a2, … ,ap sont les paramètres du modèle, représentant la magnitude moyenne globale de y et les magnitudes des liens entre y et x1, x2, …, xp, respectivement.
Le modèle linéaire est le modèle le plus utilisé lorsque l’on souhaite modéliser un phénotype quantitatif. C’est aussi celui utilisé dans ce document pour tenter d’expliquer les niveaux d’expression des gènes et quelques autres caractéristiques biologiques.
|
Table des matières
1 Le fonctionnement du vivant
1.1 L’ADN est à la base de chaque cellule vivante
1.2 Des gènes aux protéines
1.3 Les microARNs : des régulateurs de la production de protéines
1.4 Ce que renferme notre ADN
2 La variabilité génétique
2.1 Les sources de variabilité génétique
2.2 Les conséquences de cette variabilité génétique
2.3 Définitions et caractéristiques liées à la variabilité génétique
3 L’épidémiologie génétique
3.1 Rappel historique
3.2 La recherche d’interactions pour tenter d’expliquer l’héritabilité manquante
4 Les tests statistiques
4.1 Introduction
4.2 Les différentes approches
4.3 Les modèles utilisés et l’estimation de leurs paramètres
4.4 Distribution de la statistique
4.5 Quelques tests qui ne sont pas basés sur des modèles
5 La gestion des tests multiples
5.1 Les corrections pour tests multiples
5.2 Comment augmenter la puissance de détection d’un test ?
6 Les données épidémiologiques utilisées
6.1 Les études EOVT et MARTHA
6.2 Les études GHS et Cardiogenics
7 À la recherche de phénomènes d’interactions dans la maladie thromboembolique veineuse
7.1 Motivations et stratégie de recherche
7.2 Une puissance trop faible dans EOVT
7.3 Associations dans l’étude MARTHA – méta-analyse
7.4 Associations avec certains biomarqueurs de la maladie
7.5 Pondérations et combinaisons
8 Cap sur la recherche de polymorphismes liés aux microARNs
8.1 Motivations et stratégie de recherche
8.2 Identification des polymorphismes
8.3 L’association de ces SNPs sur l’expression des gènes
8.4 Recherche d’interactions SNP-SNP impliquées dans la variabilité de l’expression des gènes
9 Discussions et perspectives
9.1 Sur la recherche d’interactions entre polymorphismes dans la thrombose veineuse
9.2 Sur la recherche de polymorphismes liés aux microARNs et leurs impacts sur l’expression des gènes
Télécharger le rapport complet