L’approche génomique
En génomique, un biomarqueur est une séquence d’ADN polymorphe, facilement détectable, dont un allèle est associé à un phénotype spécifique ou à la susceptibilité à une maladie. Les biomarqueurs génomiques les plus couramment utilisés sont les SNP. Il s’agit de polymorphismes d’un seul nucléotide qui peuvent se trouver aussi bien dans les régions codantes que non codantes des gènes ou dans les régions intergéniques. Les SNP sont également utilisés en génétique des populations, où ils contribuent à la construction des arbres phylogénétiques. Les biomarqueurs génomiques peuvent être mis en évidence directement par les techniques de séquençage. En fait, beaucoup d’entre eux sont déjà bien documentés. Le projet international HapMap fournit des informations sur les fréquences alléliques (de plus d’un million de SNPs) dans différentes populations, et sur le déséquilibre de liaison entre les SNP (The International HapMap consortium, 2005). Les données sur les SNP ont permis de concevoir des puces à SNP, une technique basée sur l’hybridation de l’ADN. Le principe des puces à SNP consiste à fixer sur un support en verre des sondes de 25 nucléotides qui portent un SNP en leur milieu. Sur une puce, il y a de nombreuses sondes portant des SNP différents, chacune représentée par plusieurs copies identiques, ce qui permet de rendre le résultat fiable. Une fois la puce préparée, elle peut être hybridée avec l’échantillon d’ADN que l’on souhaite étudier. L’ADN analysé est fragmenté et biotinylé sur l’extrémité avant d’être mis en contact avec la puce. Les fragments complémentaires aux sondes situées sur la puce vont alors s’hybrider. Grâce à la biotine, des molécules de streptavidine fluorescentes peuvent se fixer sur les ADN hybridés sur la puce. La puce est ensuite scannée pour identification des allèles présents dans l’échantillon d’ADN analysé. Les puces à SNP, le projet international HapMap, qui documente le profil de variation du génome entier, et un nombre important d’échantillons cliniques, pour de nombreuses maladies communes bien caractérisées, ont permis de réaliser des études d’association sur l’ensemble du génome (Figure 1). Pour effectuer une étude GWAS on compare les variations génomiques entre un groupe de « cas » et un groupe de témoins. Les allèles significativement sur représentés chez les « cas » sont associés au locus causal du phénotype observé. Les premières études d’association ont été effectuées au milieu des années 2000. Relativement peu de SNP (11560 SNP par puce) étaient placés sur chaque puce et les échantillons étaient regroupés pour diminuer le nombre de puces (Butcher et al., 2005). Depuis 2007, les GWAS sont utilisées pour l’analyse à grande échelle des facteurs génétiques associés à des maladies humaines (The Wellcome Trust Case Control Consortium, 2007). Cette approche consiste en l’étude de la variabilité du génome entier, dans une population d’individus donnée. Dans une population britannique composée d’environ deux mille individus examinés pour sept maladies majeures, et une série de trois mille contrôles, une étude GWAS (The Wellcome Trust Case Control Consortium, 2007) a été effectuée. La comparaison cas-témoins a permis d’identifier 24 associations indépendantes : une pour les troubles bipolaires, une pour la maladie coronarienne, neuf pour la maladie de Crohn, trois pour la polyarthrite rhumatoïde, sept pour le diabète de type 1 et trois pour le diabète de type 2. Chaque échantillon d’ADN a été hybridé sur deux puces, chacune étant capable de génotyper en moyenne 250.000 SNP. Depuis, les études GWAS ont été élargies à plus d’un millier de phénotypes différents (Manolio, 2010).
Inactivation à grande échelle
Compte tenu de la puissance des études fonctionnelles par inactivation de gène chez la souris, des programmes de mutagénèse à grande échelle ont été initiés. Un premier projet basé sur la mutagénèse aléatoire par un agent chimique (l’ENU ; voir ci-dessous) (Masuya et al., 2004) a été suivi par d’autres grands projets internationaux. Les membres de l’« International Knockout Mouse Consortium » (IKMC) ont entrepris d’invalider tous les gènes codant desprotéines chez la souris en utilisant des approches aléatoires (piégeage de gènes) ou ciblées (knock-out) dans les cellules souches embryonnaires. L’« International Mouse Phenotyping Consortium » (IMPC) envisage d’étudier systématiquement le phénotype des souris générées à partir des cellules souches embryonnaires développées par l’IKMC. Chaque lignée de souris va être soumise à une batterie de tests à haut débit pour l’identification de phénotypes développementaux, anatomiques, physiologiques, comportementaux et pathologiques. Quinze mille lignées de souris devraient être phénotypées d’ici 2020.
Surexpression
Au contraire des techniques évoquées dans les chapitres précédents, on peut étudier la fonction d’un gène en examinant l’effet de sa surexpression (ou réexpression dans le cas de gènes inactivés par knock-out ou knock-down). Pour exprimer un gène dans une cellule eucaryote, deux paramètres doivent être pris en compte : la nature du vecteur et le promoteur. Les promoteurs utilisés peuvent être d’origine virale (par exemple CMV (cytomegalovirus immediate-early promoter) ou SV40 (simian virus 40 early promoter)) ou d’origine eucaryote (par exemple EF1A (human elongation factor 1α promoter) ou PGK (mouse phosphoglycerate kinase 1 promoter)). Le choix du promoteur dépend surtout du niveau d’expression désiré. Il a été montré que certains promoteurs sont forts indépendamment du type cellulaire, comme EF1A ou SV40, et que d’autres sont constamment faibles, comme PGK. En revanche, il existe des promoteurs dont la puissance dépend du couple cellule/promoteur, comme CMV (Qin et al., 2010). Il est parfois difficile de transfecter efficacement des cellules en culture. Ces difficultés peuvent être dues à la toxicité du vecteur ou du gène surexprimé dans la cellule. Dans ce cas, on peut être amené à trouver un compromis entre la toxicité et l’efficacité de la transfection. De plus, la plupart des plasmides ne sont pas répliqués de façon épisomale chez les eucaryotes : après transfection, l’expression décline. On parle d’expression transitoire. Pour circonvenir cette difficulté, on peut chercher à établir une lignée dans laquelle le transgène sera exprimé de façon stable. Pour obtenir l’expression stable du transgène, on sélectionne une cellule ayant intégré le plasmide dans son génome (le vecteur doit posséder un marqueur de sélection eucaryote) et l’on procède à une étape de clonage. Pour exprimer un gène dans une cellule eucaryote on peut aussi utiliser un vecteur viral (lentivirus ou adénovirus). Cette technique peut être employée in vivo. On choisit le virus selon son tropisme, et suivant que l’on vise ou non à intégrer le transgène dans le génome de la cellule ciblée. Leur utilisation impose des normes strictes de sécurité : on utilise des virus rendus incapables de se répliquer après infection de leur cellule cible. Les adénovirus peuvent être utilisés dans différents types cellulaires. Leur ADN ne s’intègre pas dans le génome de la cellule cible. Ils sont capables d’incorporer des transgènes de grande taille (≤ 8 kb) avec un haut niveau d’expression, et sont faciles à produire. En revanche les réponses immunitaires contre l’adénovirus peuvent limiter leur emploi en thérapie génique (Nayak et Herzog, 2010). Les vecteurs lentiviraux limitent la taille du transgène à 5kb. Ils s’intègrent de façon stable dans le génome de la cellule hôte. Ils permettent l’expression de transgènes à long terme dans des cellules non mitotiques tels que les neurones (Naldini et al., 1996).
Analyse bioinformatique
De nos jours une quantité très importante de données de génomique, transcriptomique et protéomique est accessible. De nombreux outils de bioinformatique ont été développés pour analyser ces informations et aider à la caractérisation fonctionnelle des gènes. Ces analyses bioinformatiques peuvent être effectuées à deux niveaux, analyses des séquences en ellesmêmes, et analyse de réseaux de gènes. L’analyse de la séquence nucléique et protéique permet parfois d’émettre une hypothèse sur la fonction de la protéine codée par le gène d’intérêt. En effet, grâce à la séquence, on peut trouver des homologies avec d’autres gènes ou protéines dont la fonction est potentiellement connue, identifier des motifs ou domaines conservés sur la protéine étudiée et prédire sa structure. Les recherches d’homologies consistent à comparer la séquence d’intérêt à différentes banques de séquences en utilisant un logiciel d’alignement tel que BLAST (Altschul et al., 1990). On peut effectuer un alignement entre espèces (recherche d’orthologues) ou au sein d’une même espèce (recherche de paralogues). Les principales banques de séquences utilisées sont GenBank pour les acides nucléiques et UniProt pour les protéines. GenBank est une base de données de séquences nucléiques qui contient une collection annotée de presque 200 million de séquences génomiques, d’ADNc et d’EST pour plus de 350000 organismes (Benson et al., 2011). GenBank est entretenue par le NCBI et fait partie, avec la DNA DataBank du Japon et l’EMBL Nucleotide Sequence Database, de l’ « International Nucleotide Sequence Database Collaboration ». UniProt est une ressource exhaustive de séquences de protéines de haute qualité annotées manuellement ou automatiquement entre les espèces (UniProt Consortium, 2011). UniProt est le fruit d’une collaboration entre l’« European Bioinformatics Institute » (EBI), le « Swiss Institute of Bioinformatics » (SIB) et le « Protein Information Resource » (PIR). L’identification de motifs ou de domaines connus sur une protéine peuvent fournir des informations sur sa fonction (domaines de liaison, domaine catalytique s’il s’agit d’une enzyme, etc.) ou sur sa localisation dans la cellule (domaine transmembranaire, séquence d’adressage vers la mitochondrie, signal de localisation nucléaire (NLS) etc.). PROSITE est une base de données contenant environ 1600 entées (familles protéiques, domaines et sites fonctionnels). La base de données Pfam répertorie des familles de protéines (~12000), chacune représentée par des alignements multiples de séquences (Finn et al., 2010). La recherche de domaines protéiques est facilitée par des outils comme SMART (Simple Modular Architecture Research Tool) où plus de 500 domaines trouvés dans des protéines de signalisation, des protéines extracellulaires et des protéines associées à la chromatine sont recensés (Schultz et al., 2000). La prédiction de la structure secondaire, voire tertiaire, de la protéine peut aussi être informative. Aujourd’hui il existe des programmes comme Phyre qui permettent de prédire la structure secondaire de façon fiable (régions avec des hélices α ou des feuillets β, régions transmembranaires ou régions hydrophiles, qui ont des chances d’être accessibles au solvant et sont donc vraisemblablement situées à la surface de la protéine) (Kelley et Sternberg, 2009). La prédiction de structure tertiaire n’est possible que lorsqu’il existe une protéine homologue dont la conformation est connue (Wass et al., 2010). Un réseau de régulation génétique est un système de contrôle qui régule l’expression d’un grand nombre de gènes dans un processus physiopathologique donné (Carter et al., 2010). Des outils statistiques comme GeneNetwork (Rosen et al., 2007), permettent d’analyser ces réseaux en identifiant les gènes dont l’expression varie de façon similaire et spécifique dans certains tissus, et dans certaines conditions données.
|
Table des matières
I. Contexte au sein du laboratoire
II. Introduction générale
1. Biomarqueurs
1.1. Différentes approches technologiques pour la découverte de nouveaux biomarqueurs moléculaires
1.1.1. L’approche génomique
1.1.2. L’approche épigénomique
1.1.3. L’approche transcriptomique
1.1.4. Approche protéomique
1.1.5. Approche métabolomique
1.1.5.1. Profilage
1.1.5.1.1. Ionisation
1.1.5.1.2. Chromatographie
1.1.5.1.3. Analyseurs de masse
1.1.5.1.4. Analyse des données
1.1.5.2 Spectrométrie de masse en tandem
1.1.5.3 Applications
2. Caractérisation fonctionnelle des biomarqueurs
2.1. Invalidation/surexpression
2.1.1. Invalidation génique chez la souris
2.1.1.1. La souris comme organisme modèle
2.1.1.1.1. Histoire de l’utilisation de la souris en génétique
2.1.1.1.2. Intérêt de ce modèle pour la recherche
2.1.1.2. Production de souris génétiquement modifiées
2.1.1.3. Méthodes d’inactivation génique chez la souris
2.1.1.3.1. Knock-out et knock-in
2.1.1.3.2. Knock-out conditionnel
2.1.1.3.2.1. Contrôle dans l’espace
2.1.1.3.2.2. Contrôle dans le temps
2.1.1.3.3. Inactivation à grande échelle
2.1.1.3.3.1. Mutagénèse par l’ENU
2.1.1.3.3.2. Approche Genetrap
2.1.1.4. Lignées congéniques
2.1.2. Knock-down
2.1.3. Surexpression
2.2. Analyse spatio-temporelle de l’expression d’un gène
2.2.1. Approches moléculaires et biochimiques
2.2.1.1. A l’échelle de l’ARN
2.2.1.2. A l’échelle de la protéine
2.2.2. Analyses histologiques
2.2.2.1. A l’échelle de l’ARN
2.2.2.2. A l’échelle de la protéine
2.2.2.3. Marquage Xgal
2.3 Autres approches
2.3.1 Analyse bioinformatique
2.3.2. Recherche d’interactants
2.3.2.1. Double hybride
2.3.2.2. Autres techniques
3. Récapitulation
III. Etude fonctionnelle de la Capucine
1. Le striatum
1.1. Structure
1.2. Fonction
1.2.1. Fonction du striatum au sein des ganglions de la base
1.2.2. Les différents circuits striataux des ganglions de la base
2. La maladie de Huntington
2.1. Symptômes
2.2. Neuropathologie
2.3. Génétique
2.4. Physiopathologie
2.5. Traitement de la maladie
2.6. Modèles de la maladie de Huntington
2.6.1. Souris transgéniques
2.6.2. Les modèles lentiviraux
3. Article N° 1
4. Production d’anticorps contre la Capucine
5. Discussion
IV. Etude fonctionnelle d’AGPAT4
1. Métabolisme des glycérophospholipides
1.1. Fonction des glycérophospholipides
1.2. Biosynthèse des glycérophospholipides
1.2.1. La voie de Kennedy
1.2.2. Le Cycle de Land
1.3. Les membres de la famille Agpat
1.3.1. Fonctions des différents membres de la famille Agpat
1.3.1.1. Membres les mieux caractérisés
1.3.1.2. Membres présentant les homologies les plus fortes avec Agpat4
1.3.2. Profil d’expression des Agpats 1 à 5 et 8
2. Catécholamines
2.1. Sites de synthèse et principales fonctions
2.1.1. La dopamine
2.1.1.1. Système nigrostrié
2.1.1.2. Système mésolimbique
2.1.1.3. Système mésocortical
2.1.2. La noradrénaline et l’adrénaline
2.2. Métabolisme des catécholamines
2.2.1. Biosynthèse
2.2.2. Dégradation
3. Article N°2
4. Discussion
BIBLIOGRAPHIE
Télécharger le rapport complet