La stratégie de détection des outliers est perfectible
Extraction des ARN et séquençage
L’ARN issu des grains en cours de maturation, des feuilles et des fleurs (prélèvement des inflorescences au stade mi-anthèse) a été extrait grâce aux protocoles qui figurent en annexes 3-5 pour l’ensemble des individus. Des analyses à large échelle ont été effectuées chez d’autres espèces végétales (Sato, Antonio et al., 2011) indiquant que ces trois tissus sont susceptibles de fournir un échantillonnage relativement complet du transcriptome. Les ARN ont été séquencés en paired-end (annexe 6 à l’aide de la technologie Genome Analyser de Solexa (HiSeq2000). Les mRNA des deux compartiments ont été séquencés en une ligne chacun et ceux de l’outgroup en une demie ligne. Les séquences de chaque génotype ont été marquées grâce à un adaptateur spécifique (annexe 7).
Nettoyage des séquences et mapping
Une vérification de la qualité a eu lieu sur les séquences brutes (format fastq) puis en fin de nettoyage à l’aide du programme FastqC Babraham, 2012). Le nettoyage des séquences s’est déroulé en trois étapes : suppression des adaptateurs, filtration sur la qualité des bases (score phred min. 30) et la longueur des reads (min. 35) et comparaison des brins « forward » et « reverse » deux à deux. Les détails des paramètres se trouvent en annexe 8. Une fois les séquences nettoyées et filtrées, le mapping consiste à positionner les séquences sur une référence grâce à l’homologie qui existe entre les deux séries de bases.
Il est réalisé sur le génome et le transcriptome de Btx6232 . Un nouveau nettoyage postmapping a lieu lors duquel les doublons optiques*, les duplicatas de PCR (Rmdup_arcad) et séquences multi mappées Cleaner sont éliminés avant l’identification des polymorphismes (annexe 9).
Détection et sélection des polymorphismes pour les analyses évolutives
Suite à la détection des polymorphismes via UnifiedGenotyper, le VariantFiltrationWalker caractérise les polymorphismes en fonction de leur qualité (PASS, SnpCluster, LowQual, Hard to validate). Ces caractéristiques sont explicitées dans le tableau 2. Certains d’entre eux cumulent différentes caractéristiques (exemple : Hard_to_validate;SnpCluster). Seulsles polymorphismes annotés « PASS » feront partie de la pré-sélection, à laquelle de nouveaux filtres, ont été appliqués pour la mise au point du jeu définitif
Sélection des polymorphismes et « recalibration »
Pour obtenir un set de polymorphismes contenant un minimum de faux positifs (artéfacts, problèmes d’alignement, présence de paralogues) nous avons appliqué les filtres suivants. Le premier consistait à recalibrer le jeu de polymorphismes obtenu sur la base de paramètres modulables propres à chaque polymorphisme et utilisés pour déterminer un score appelé VQSLOD (annexe 10), cette étape de recalibration correspondant à une évaluation de la qualité des polymorphismes détectés dans notre étude sur la base de jeux de polymorphismes déjà disponibles (dont la qualité est connue au préalable). Deux programmes implémentés dans GATK ont été utilisés pour la recalibration qui se base sur un jeu de SNP référence souvent issu de la littérature. Le VariantRecalibrator qui attribue le score de VQSLOD et ApplyRecalibration qui ne conserve que la tranche de SNP la plus pertinente en fonction de la distribution globale. Pour la mettre en œuvre, 4 jeux de SNP sources ont été utilisés (tab. 3).
La seconde méthode, inspirée de la recalibration, se base sur la similitude des Ti/Tv* avec un jeu de SNP. Il s’agit d’estimer la qualité d’un jeu de SNP en fonction de la valeur du ratio Ti/Tv. On se base sur l’hypothèse que les SNP faux positifs font diverger le Ti/Tv de sa vraie valeur (estimée à partir du jeu de SNP connus).
Mise au point du jeu de polymorphismes destinés aux analyses évolutives
Dans un premier temps, seuls les polymorphismes au niveau desquels une couverture de 8X chez au moins 8 individus a été observé ont été considérés. Dans un second temps, les polymorphismes hétérozygotes chez tous les individus (filtre 1), les polymorphismes hétérozygotes chez plus de 50% des individus cultivés (filtre 2) et les polymorphismes hétérozygotes chez plus de 70% des individus sauvages (filtre 3) ont été éliminés. Une estimation des taux de faux positifs et de faux négatifs a été tentée sur la base de données acquises par séquençage Sanger de 48 gènes dans 8 individus cultivés commun à ceux utilisées dans ce projet.
Enfin, préalablement aux analyses évolutives, seuls les alignements pour lesquels les informations de 6 accessions cultivées et 6 accessions sauvages ont été retenues soit 12 séquences de chaque population. Il est en outre important de mentionner que le faible effectif de génotypes analysé n’a pas permis d’avoir accès de façon précise à l’information haplotypique.
|
Table des matières
INTRODUCTION
1 L’ETUDE DE L’HISTOIRE DES PLANTES POUR MIEUX UTILISER ET CONSERVER LES RESSOURCES GENETIQUES
2 L’ETUDE DE LA DOMESTICATION POUR MIEUX COMPRENDRE L’EVOLUTION DES GENOMES ET IDENTIFIER DES GENES D’INTERET AGRONOMIQUE ET ADAPTATIF
3 LE SORGHO (SORGHUM BICOLOR SSP BICOLOR), UNE CEREALE MULTI-USAGE
3.1 DIVERSITE, DOMESTICATION ET EVOLUTION DU SORGHO
3.1.1 Les sorgho sauvages
3.1.2 Les sorghos cultivés
3.2 UNE HISTOIRE DE VIE COMPLEXE
3.3 IDENTIFICATION DES GENES D’INTERET A L’AIDE DE SCENARIOS NEUTRES
4 MATERIEL ET METHODES
4.1 IDENTIFICATION ET CARACTERISATION DE POLYMORPHISMES SUR LE GENOME DU SORGHO
4.1.1 Sélection des génotypes
4.1.1 Extraction des ARN et séquençage
4.1.2 Nettoyage des séquences et mapping
4.1.3 Détection et sélection des polymorphismes pour les analyses évolutives
4.1.4 Mise au point du jeu de polymorphismes destinés aux analyses évolutives
4.1.5 Analyse des séquences non mappées
4.2 ANALYSE DES PATRONS DE DIVERSITE NUCLEOTIDIQUES ET IDENTIFICATION DES GENES AFFECTES PAR LES PROCESSUS DE SELECTION
4.2.1 Statistiques calculées sur les alignements
4.2.2 Définition du scénario le plus probable d’évolution du sorgho
4.2.3 Identification des gènes s’écartant du modèle neutre d’évolution
5. RESULTATS
5.1 IDENTIFICATION DES POLYMORPHISMES
5.1.1 Mapping sur les références « génome » et « transcriptome »
5.1.2 Analyse des séquences non mappées
5.1.3 Sélection du set de polymorphismes destinés aux analyses évolutives
5.1.4 Définition du jeu de séquences utilisé pour les analyses évolutives
5.1.5 Estimateurs de la diversité nucléotidique et tests de neutralité sélective sur les compartiments cultivés et sauvages
5.1.6 Définition du scénario d’évolution
5.1.7 Identification des outliers
6.DISCUSSION
6.1 IDENTIFICATION ET SELECTION DES POLYMORPHISMES UTILISES POUR LES ANALYSES EVOLUTIVES
6.1.1 Un échantillonnage pertinent et améliorable
6.1.2 Une couverture du transcriptome satisfaisante et optimisable
6.2 LA DEFINITION DU MODELE D’EVOLUTION DU SORGHO
6.3 IDENTIFICATION DES GENES IMPLIQUES DANS LA DOMESTICATION OU D’INTERET ADAPTATIFS
6.3.1 La stratégie de détection des outliers est perfectible
6.3.2 Une détection pertinente à partir d’une distribution soumise au modèle neutre
6.3.3 Une seconde stratégie exploratoire
CONCLUSION
BIBLIOGRAPHIE
SITOGRAPHIE
ANNEXES.
Télécharger le rapport complet