Annotation et hiérarchisation de variants non-codants dans le contexte de maladies humaines

Le défi de l’annotation du génome humain

Déchiffrer le code de la vie : tel était l’objectif du projet ”Génome Humain” (Human Genome project), collaboration mondiale visant à décoder la séquence nucléotidique composant notre ADN. Ce projet, né à la fin des années 80 (Dulbecco, 1986, Sinsheimer, 1989) devait permettre de résoudre deux problématiques :
— avoir la séquence la plus complète possible du génome humain, représentant plus de 3 milliards de positions, réparties dans 22 paires de chromosomes ”autosomaux” ainsi qu’une paire de chromosomes sexuels ;
— localiser et définir les unités fonctionnelles de ce génome, et plus particulièrement les gènes. Les gènes étaient définis comme des séquences nucléotidiques portant les instructions qui, après transcription de la séquence ADN en un intermédiaire ARN, permettaient la synthèse d’une protéine, produit fonctionnel pouvant intervenir dans différents cycles biochimiques nécessaires au maintien de la cellule (Epp, 1997). Les deux points du projet apparaissaient donc comme des défis majeurs, dont la résolution permettrait de grandes avancées sur la compréhension et l’exploration de la diversité des produits protéiques encodés par les gènes, mais aussi sur l’évaluation de leur implication dans les maladies génétiques. C’est en 2001 que les premiers résultats du projet ”Génome Humain” ont été publiés (« Initial sequencing and analysis of the human genome » 2001) ; en 2003, le séquençage du génome humain était annoncé comme achevé (International Human Genome Sequencing Consortium, 2004), bien qu’il ait fallu attendre 2006 pour avoir la séquence complète du chromosome 1 (chromosome le plus large, Gregory et al., 2006). Cette séquence du génome a permis de caractériser plus finement des propriétés précédemment observées : par exemple, la confirmation de variations le long des chromosomes des taux de compositions en Guanine et Cytosine (nucléotides G et C), la confirmation des variations de taux de recombinaison de l’ADN en fonction de différentes régions génomiques, ou encore l’exploration des propriétés de différentes familles de séquences répétées .

C’est également grâce à ces travaux que la composition génique du génome humain a pu être évaluée en détails. Une partie des analyses a concerné certains gènes non codants, dont le rôle est bien établi (par exemples : les ARN de transfert ou les ARN ribosomaux) ; leurs nombres et localisations ont pu être déterminés plus précisément. Cependant la question des gènes codants était la plus importante à résoudre, avec notamment le défi de donner un nombre exact pour ces gènes, et ainsi conclure sur les différentes estimations proposées auparavant. En effet, certaines estimations proposaient des nombres entre 50 000 et 100 000 gènes (Pertea et al., 2010). Ces estimations ont été largement diminuées par une comparaison des premières ébauches de la séquence du génome humain avec celle du Tétraodon, et ramenées à un intervalle de 28 000 à 34 000 gènes (Crollius et al., 2000). Et finalement, à l’issue du projet Génome humain, le nombre de gènes codants détectés dans les séquences a été réduit à un intervalle entre 20 000 et 24000 (International Human Genome Sequencing Consortium, 2004). En plus de cette réduction importante par rapport aux précédentes observations, ces analyses ont permis d’observer que tous les gènes présentent des transcrits alternatifs (environs 3 par gène), et que ces gènes présentent de très larges introns, tandis que la séquence codante représente une très faible partie du génome (environs 1.5%).

Le séquençage du génome complet de la souris, obtenu peu de temps après (« Initial sequencing and comparative analysis of the mouse genome » 2002), a été l’occasion d’explorer la conservation de l’architecture et de la séquence du génome humain avec un autre représentant des mammifères. Cette comparaison a permis d’identifier qu’au total, 5% de la séquence du génome humain est conservée chez la souris (Guénet, 2005). Ainsi, le génome non-codant contient certaines régions qui sont sous pression de sélection négative, indiquant que leur séquence joue un rôle potentiellement important dans la cellule. Etant donnée la complexité observée dans le nombre de transcrits identifiables, ainsi que dans la diversité des types cellulaires composant l’organisme, cette identification de régions noncodantes conservées a invité à l’exploration d’une hypothèse sur le génome non-codant : des régions régulatrices de l’expression des gènes y sont potentiellement localisées, leur importance conduisant à une pression de sélection négative sur leur séquence.

La régulation de l’expression des gènes

A la suite des résultats obtenus sur l’étude de la séquence du génome humain, de larges consortiums se sont constitués pour explorer les propriétés biochimiques associées au génome, et notamment au génome non-codant. Des projets comme le projet ENCODE (The ENCODE Project Consortium, 2012), le projet Roadmap Epigenomics (Kundaje et al., 2015), ou encore le projet FANTOM (Andersson et al., 2014) ont ainsi permis d’ouvrir la voie vers une meilleure compréhension des signaux biochimiques associés au potentiel régulateur du génome. Dans cette section, je présente tout d’abord quelques définitions concernant la régulation de l’expression des gènes et ses différents acteurs. Par la suite, je présenterai les signaux principaux identifiés et associés à un potentiel régulateur ; j’aborderai également la question de la prédiction des régions régulatrices. Les associations entre ces régions et les gènes cibles sous leur contrôle seront abordées dans une troisième sous-section.

Les acteurs de la régulation de l’expression des gènes

L’expression d’un gène correspond à la génération depuis sa séquence d’ADN d’un transcrit ARN, composé de différentes sous-régions suivant la nature du gène. Dans le cadre d’un gène codant pour une protéine, on peut identifier les exons et les introns ; une étape d’épissage conduit à l’inclusion d’une partie des exons dans un produit final appelé ARN messager (ou ARNm). Cet ARN messager sera transporté depuis le noyau de la cellule vers le cytoplasme, pour potentiellement conduire à sa traduction en une séquence protéique. D’autres gènes voient également leur séquence transcrite en ARN, mais les étapes intermédiaires de génération et maturation du transcrit ne sont pas toutes partagées avec les transcrits des gènes codants (par exemples : les long non-coding RNA, les ARN de transfert, etc).

L’ensemble des cellules composant les tissus du corps humain partagent le même génome ; l’expression spatio-temporelle spécifique des gènes, qui permet de définir l’identité de chaque cellule, est donc contrôlée par différentes régions : les régions régulatrices de l’expression des gènes.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Le génome humain : gènes, expression, et régions régulatrices
1.1 Le défi de l’annotation du génome humain
1.2 La régulation de l’expression des gènes
1.2.1 Les acteurs de la régulation de l’expression des gènes
1.2.2 Méthodes expérimentales d’identification des régions régulatrices
1.2.3 Prédictions d’association entre régions régulatrices et gènes cibles
1.2.4 Résumé
2 Le Génome : entre variations et contraintes
2.1 Introduction
2.2 Détection et associations fonctionnelles des variations
2.2.1 Puce de génotypage
2.2.2 Séquençages exome- et génome-complets
2.2.3 Associations fonctionnelles des variants rares
2.3 Le challenge des variants non-codants
2.3.1 Exemple d’application : étude des causes génétiques de l’autisme
3 Génome non-codant et intégration de données
3.1 Méthodes de prédiction de fonctionnalité des variants
3.1.1 Méthodes pour les variants codants
3.1.2 Méthodes pour les variants non-codants
3.2 L’algorithme des forêts aléatoires
3.2.1 Arbre de décision
3.2.2 Critère de choix des seuils
3.2.3 Construire la forêt aléatoire depuis les arbres
4 Problématique
Matériel et Méthodes
5 Origine des données
5.1 Annotations génomiques
5.1.1 Scores de conservation
5.1.2 Données experimentales de fonctionalité
5.1.3 Séquences et caractérisations des régions
5.1.4 Prédictions d’associations entre régions régulatrices et gènes cibles
5.1.5 Divers
5.2 Jeux de variants
5.2.1 Variants pour l’entraînement et évaluation des modèles de prédiction
5.2.2 Variations pour l’application du modèle
5.3 Jeux de gènes
5.3.1 Standardisation des noms de gènes
5.3.2 Relations de régulation entre gènes
5.3.3 Annotations de gènes
5.4 Scores de fonctionnalité
6 Méthodes
Conclusion