Dynamique des génomes
Clonage et purification de plasmides
Pour réaliser le clonage, des bactéries Escherichia coli DH5α sont multipliées au laboratoire, stockées et utilisées selon les protocoles décrits par Sambrook & Russell (2001). Le plasmide (aussi appelé vecteur) et la ligase sont fournis par la société Promega:pGEM-T Vector Systems etpGEM-T Easy Vector Systems. Laligation sefait à4°C grâce à l’enzyme T4 (Aslanidis & Jong, 1990), pendant au moins 12 heures. À noter que pour les produits de PCR destinés au clonage, porter le temps d’élongation finale à au moins 60 minutes augmenterait l’efficacité de la ligation (Q.-B. Li & Guy, 1996). Un culot de bactéries DH5α de 50 µl est mélangé à 2 µl de produit de ligation. La transformation se fait par électroporation à 1800 V suivie d’une mise en culture sur Lysogeny Broth (LB) à 37 °C, pendant 2 heures. Entre 50 et 200 µl de milieu de culture sont ensuite étalés sur du LB agar (20 g/l) contenant 10 µg/ml d’ampicilline, 80 µg/mlde5-bromo-4-chloro-3-indolyl-β-D-galactopyranoside (X-Gal) et120 µg/ml d’isopropyl-β-D-thiogalactopyranoside (IPTG). Après24à36heuresd’incubation à37 °C,lescoloniesblanches sontrepiquéessur une nouvelle plaque de LB agar et la présence de l’insert est testée par PCR (amplification utilisant les amorces spécifiques de l’insert). En cas de signal positif, les clones sont mis en culture liquide pendant 12 heures dans environ 5 ml de LB.Les plasmides sont purifiés via les kits BioBasic EZ10 Plasmid DNA ou Macherey-Nagel NucleoSpin Plasmid. À l’issue du clonage, les purifiats sont séquencés à l’aide des amorces T7 et SP6, spécifiquesdu plasmide (voir amorces p. 185).
Qualitédes séquences et déconvolution
Les séquençages ont été réalisés par les sociétés Macrogen (Corée), Agowa (Allemagne) et MWG (France), toutes équipées de séquenceurs capillaires (méthode Sanger).LesséquenceursABI3730xl fournissent en sortie des chromatogrammes que l’algorithme PHRED17 (Phil Green revised editor) (Ewing et al., 1998; Ewing & Green, 1998) permet de traduire en séquences nucléotidiques et en fichiers de qualité.Lors de la lecture des chromatogrammes, PHRED attribut une valeur de qualité — sur une échelle théoriqueallantde0à60,enpratiqueen-de çà de Q4 le chromatogramme est considéré comme illisible — à chacune des bases de la séquence nucléotidique en la comparant à une prédiction théorique.
Q = −10×log10(probabilité d’erreur)
Des valeurs de PHRED sont déduites les longueurs Q16 et Q20. Il s’agit des plus longues portions de séquences dont les bases ont une valeur de PHRED supérieures à 16 ou à 20 (respectivement 97,5% et 99% de confiance)18. Si les produits séquencés sont hétérogènes en taille (insertion–délétion), la lecture des chromatogrammes peut être très difficile. En effet, un décalage d’une base (ou plus) entraîneun doublementdetouslespics dansle resteduchromatogramme (voir Fig. 4.6) et rend la séquence illisible. Récemment, des algorithmes dédiés à la résolution de ce problème ont été publiés. Schématiquement, le programme tente à partir d’un base calling complet basé sur le code IUPAC19 de «deviner» la taille et la nature de l’insertion pour pouvoir reconstituer les séquences d’origine. C’est sur ce principe qu’est basé INDELLIGENT (Dmitriev & Rakitov, 2008)20.
Filtrage et vérification de la nature des séquences
Cette étape, à la fois primordiale et gourmande en ressources humaines, a été automatisée dans le cadre des premiers grands projets de séquençage. Le logiciel LUCY (Chou&Holmes,2001;S.Li&Chou,2004)sebasesurlalecturedechromatogrammes etsurlesvaleursde PHRED pouréliminer lesportionsdeséquencesdontlalectureest douteuse. Les portions restantes sont ensuite comparées à une banque de séquences devecteurspouréliminer d’éventuelles contaminations. À l’issuedu processus de filtrage, jusqu’à50% du nombre total de bases peut-êtrerejeté. Une fois les séquences nettoyées, il s’agit de vérifier qu’elles correspondent à la portion de génome ciblée. Pour ce faire, les séquences sont soumises à BLAST21 (Altschul et al., 1990) : variantes BLASTN ou BLASTX en fonction du degré de divergence des séquences traitées. Plusieurs informations peuvent en être tirées : le pourcentage d’identité entre la séquence soumise et la séquence-cible, la longueur de recouvrement et surtout, l’orientation de la séquence soumise par rapport à la séquence de référence(plus/moins). Ce dernier point permet de repérer et de traiter les séquences à inverser-complémenter. Pour les régions de grande taille, comme le SymRK, il est nécessaire d’amplifier et de séquencer le gène par fragments (walking PCR), ces fragments sont ensuite assemblés par CAP3 (Huang & Madan, 1999). Avant de procéder à l’alignement des séquences obtenues, il est possible d’éliminer les outliers, c’est-à-dire les séquences présentant moins de 40% d’identité avec les autres séquences de la matrice. En effet, en-deçà de ce seuil, l’alignement multiple est fortement perturbé et peut conduire à de fausses interprétations. Ces différentes étapes de préparation de séquencesont été automatiséeset intégréesdans une sériede scripts (disponibles sur demande).
|
Table des matières
Introduction
I Dynamique des génomes, rôle des éléments transposables et présentation du modèle biologique
1 Dynamique des génomes
1.1 Variation de la taille du génome chez les angiospermes
1.2 Influence et causes des variations de taille de génome
1.2.1 Relation entre taille de génome et traits d’histoire de vie
1.2.2 Causes et nature des variations de taille de génome
2 Rôle des éléments transposables
2.1 Classification et nomenclature
2.2 Augmentations de taille de génomes liées aux éléments transposables
2.3 Dynamique des éléments transposables
2.4 Changements phénotypiques liées aux éléments transposables
2.5 Domestication des éléments transposables
3 Le genre Lupinus (Tourn.)L. 1753
3.1 Position systématique
3.2 Distribution géographiquenaturelle
3.2.1 Lupinsdu Nouveau Monde
3.2.2 Lupinsde l’Ancien Monde
3.3 Apportsrécentssur la phylogéniedeslupins
3.4 Des multiples intérêtsdu lupin
II Méthodologie
4 De la mise en culture au séquençage
4.1 Matériel végétalet mise en culture
4.2 Cytogénétiquemoléculaire
4.3 Cytométrie en flux
4.4 Extraction d’ADN
4.5 Gènes étudiés,amorces et amplification
4.5.1 Les régionsITS et ETSde l’ARN ribosomique nucléaire
4.5.2 Les régionschloroplastiques rbcL et trnL-trnF
4.5.3 Le gèneLEGCYC1A
4.5.4 Le gèneSymRK
4.5.5 La transcriptase inverse
4.6 Clonage et purification de plasmides
4.7 Qualité desséquenceset déconvolution
4.8 Filtrage et vérification de la nature desséquences
5 Analyse phylogénétique et annotation de séquences
5.1 Reconstruction phylogénétique
5.1.1 Alignement multiple
5.1.2 Méthodesnon-paramétriques
5.1.3 Méthodesparamétriques
5.1.3.1 Modèlesd’évolution
5.1.3.2 Maximum de vraisemblance
5.1.3.3 Probabilités bayésiennes
5.1.3.4 Estimation de la contrainte sélective
5.1.3.5 Perspectivesen phylogénie
5.1.4 Visualisation etanalyse desarbres phylogénétiques
5.2 Annotation de BACet génomique comparative
5.2.1 Criblage de la banque .
5.2.2 Processusd’annotation
5.2.2.1 Détection et annotation des régionscodantes
5.2.2.2 Détection de séquencesrépétées
5.2.3 Recherche de régionshomologues
III Résultats
6 Phylogénie moléculaire du genre Lupinus 95 6.1 Variabilité desséquencesutilisées
6.2 Phylogéniesdes espaceurstranscrits de l’ARNr, régionsITS et ETS
6.2.1 Phylogénie desITS
6.2.2 Phylogénie desETS
6.2.3 Phylogéniescombinées des ITS etETS
6.3 Phylogéniedu gèneSymRK
6.4 Phylogéniescombinées desrégionsITS, ETS et SymRK
6.5 Conclusion
7 Diversité des rétrotransposons et variations de la taille des génomes dans le genre Lupinus
8 Analyse génomiquede la région SymRK
8.1 Annotationdu BAC
8.2 Comparaison avec des régions génomiques homologues
IV Discussion générale et conclusion
9 Bilan et perspectives
Annexes
A L’énigmatique Lupinus mariae-josephi
B Code génétique
C Liste des amorces
D Liste des taxa
Bibliographie & références
Table des figures 235
Table des tableaux
Télécharger le rapport complet