Etude des paramètres génétiques des caractères liés aux lignines chez l’eucalyptus

Etude des paramètres génétiques des caractères liés aux lignines chez l’eucalyptus

Méthodes de séquençage nouvelle-génération, une révolution ?

Aujourd’hui, les attentes en matière d’identification de SNP à haut débit sont focalisées sur les technologies de séquençage nouvelle-génération. Capables de générer l’information de plusieurs centaines de millions de paires de bases en une seule expérimentation, ces méthodes devraient permettre d’identifier de grandes quantités de SNP chez de nombreuses espèces et à moindre coût (Mardis, 2007). Cette méthode a été utilisée pour le reséquençage complet du premier génome d’Arabidopsis (Ossowsky et al., 2008) mais son utilisation chez des espèces non modèles, dont le génome n’a pas été séquencé, n’est encore qu’à ses débuts. Les premières études indiquent qu’au-delà du nombre de paires de base séquencées dans une expérimentation, c’est le nombre de copies associé à une redondance technique (Ueno et al., en préparation) qui sont limitantes pour la détection de « vrais » SNP. Barbazuk et al. (2007) ont utilisé cette méthode de séquençage pour la mise en évidence de SNP chez deux lignées de maïs. Les auteurs se sont focalisés sur l’analyse du transcriptome de méristèmes apicaux (plus de 250000 EST) et ont pu identifier 7000 SNP au sein de 2400 gènes avec un taux de faux positifs estimé à 15%. Chez l’eucalyptus, Novaes et al. (2008) ont également utilisé cette méthode pour séquencer des ADNc obtenus à partir de multiples tissus sur 21 génotypes d’E. grandis. Les auteurs ont pu identifier, en trois expérimentations, près de 24000 SNP avec un taux de faux positifs estimé à 17%. Plus récemment, Kulheim et al. (2009) ont utilisé la même méthode pour séquencer 23 gènes impliqués dans la synthèse de métabolites secondaires chez 1764 individus représentant 4 espèces d’eucalyptus. Les auteurs ont ainsi identifié plus de 8600 SNP qu’ils ont utilisé pour étudier la diversité nucléotidique de ces espèces. Ces premiers résultats sont prometteurs et ces nouvelles méthodes devraient bientôt devenir des standards en matière de découverte de SNP. Cependant, ce séquençage « nouvelle génération » pose le problème de la gestion des grandes quantités de données générées par ce type d’approche. Les nouveaux défis de la bioinformatique s’orientent vers la mise au point d’outils d’analyse adaptés à ces données (Parkhill et al., 2010).

Echantillonnage pour la détection de SNP

Le développement des marqueurs SNP reste pour le moment encore coûteux, il est souvent limité à un sous échantillon d’une population, représentatif de la variabilité génétique de la population étudiée. Cet échantillon est appelé panel de détection de SNP. La taille et la représentativité de ce panel déterminent la possibilité de mettre en évidence des SNP fréquents ou des SNP rares dans les populations de l’espèce étudiée. On parle de fréquence de D’après Vignal et al. (2002). l’allèle minoritaire (MAF pour Minor Allele Frequency) pour désigner, la fréquence de l’allèle d’un SNP qui apparait le moins souvent dans l’échantillon. Selon la taille de l’échantillon, on parle de SNP rare si la MAF est inférieure à 1%, 5 % ou 10 %. Sur la base de ces données, tout ou partie des SNP identifiés peuvent être sélectionnés pour être mis en évidence au sein de populations plus larges par l’utilisation de méthodes de génotypage. On peut envisager raisonnablement que dans les années à venir, les contraintes liées à l’échantillon utilisé pour la mise en évidence des SNP seront contournées par un séquençage direct de tous les individus de la population étudiée.

Génotypage de SNP

Les méthodes de génotypage permettent d’obtenir le génotype d’un individu pour un SNP ou un ensemble de SNP connus. Il existe aujourd’hui un grand nombre de méthodes (Figure 17) qui se distinguent par leur « débit » d’analyse (nombre d’échantillons et d’individus dont le génotype peut être déterminé en même temps), leur coût d’analyse et leur facilité d’accès en termes d’équipements.

Les méthodes de génotypage bas et moyens débits

Les méthodes de génotypage bas et moyens débits font partie des premières méthodes utilisées pour le génotypage. Ces méthodes sont basées essentiellement sur la mise en évidence de différents types de polymorphismes : polymorphisme de taille après utilisation d’enzymes de restriction (RFLP, Botstein et al., 1980 et CAPS, Konieczny et Ausubel, 1993), polymorphisme de conformation de l’ADN (simple ou double brin) dans un gradient de température ou dans un gradient chimique (D/TGGE, Myers et al., 1988 ; SSCP, Orita et al., 1989 ; dHPLC, Kota et al., 2001 ; HRM, Wittwer et al., 2003). Ces méthodes présentent l’avantage d’être facilement accessibles et des coûts de mise en œuvre généralement bas. Au départ limitées à un faible débit d’analyses, certaines de ces méthodes se sont développées notamment par l’utilisation de l’électrophorèse capillaire pour la séparation des molécules d’ADN (Hebenbrock et al., 1995) et des marqueurs fluorescents pour leur visualisation et permettent aujourd’hui de génotyper quelques dizaines de SNP sur des échantillons de quelques centaines d’individus (Hsia et al., 2005 ; Kuhn et al., 2005 ; Krypuy et al., 2006).

Les méthodes de génotypage haut débit

Avec l’accumulation des données de séquence, qui devrait s’accroître par l’utilisation des méthodes de séquençage nouvelle-génération, le nombre de marqueurs SNP disponible chez certaines espèces de plantes permet aujourd’hui de réaliser des études à grande échelle notamment dans le domaine de la génétique d’association. Ce type d’étude nécessite l’utilisation d’outils de génotypage à haut débit, adaptés à la mise en évidence d’un grand nombre de SNP sur un grand nombre d’individus. Il existe aujourd’hui plusieurs méthodes de génotypage à haut débit. Ces méthodes sont basées sur différents principes dont l’extension d’amorces et l’hybridation de sondes allèle spécifiques.
Les méthodes d’extension d’amorces (Syvänen et al., 1990 ; Syvänen, 1999) sont basées sur la conception d’une amorce de détection capables de s’hybrider sur une séquence cible directement en amont du SNP à génotyper. L’extension d’amorce est ensuite réalisée en 3’ par une ADN polymérase utilisant des nucléotides marqués (quatre marquages différents pour les quatre nucléotides). Elle permet le génotypage simultané de plusieurs SNP en mélange (multiplex) et a été adaptée à différents types de plateformes de détection (microarray, électrophorèse capillaire, spectrométrie de masse, lecteur de fluorescence). Elle est aujourd’hui l’une des méthodes de génotypage à haut débit les plus utilisées et regroupe notamment les technologies Illumina GoldenGate, Sequenom MassARRAY (adaptées au génotypage d’échantillons de l’ordre de quelques centaines de SNP sur quelques centaines d’individus) et la technologie Illumina GoldenGate et infinium (permettant de génotyper de 1536 SNP à des centaines de millier) (Edenberg et Liu, 2009). Ces méthodes bien que très puissantes présentent quelques contraintes : le mélange d’amorces dans la réaction nécessite de minimiser les interactions entre amorces et ne permet pas toujours de génotyper les SNP souhaités. De plus, ces méthodes ne permettent pas de génotyper les SNP pour lesquels la zone de fixation des amorces présente une variabilité. La réussite de l’expérience de génotypage est donc largement conditionnée par une phase de conception reposant sur le choix des SNP qui seront génotypés.
Il existe aujourd’hui des méthodes de génotypage plus puissantes basées sur le principe d’hybridation de sondes spécifiques. Ces technologies utilisent l’interaction entre des oligonucléotides fixés sur support solide (lame) et la matrice d’ADN à génotyper. La différence de stabilité thermique entre la sonde et la matrice d’ADN testée est conditionnée par l’existence de mésappariements et permet de différencier les allèles d’un SNP considéré. La détection des SNP se fait par lecture de fluorescence. Cette méthode est cependant réservée aux espèces pour lesquelles des ressources importantes de marqueurs SNP ont été développées. Pour le moment, elle permet chez l’humain, de génotyper plusieurs centaines de milliers de SNP sur des milliers d’individus (Zeggini et al., 2009). Nul doute que cette méthode sera bientôt accessible aux espèces d’arbres forestiers, et notamment les espèces à fort intérêt commercial comme l’eucalyptus.

Caractérisation de la diversité génétique

La connaissance de la diversité génétique d’une espèce est primordiale pour conserver, gérer et valoriser les ressources génétiques. Différents types de marqueurs moléculaires, dominants ou codominants, ont été utilisés pour caractériser cette variabilité génétique, au cours des deux dernières décennies. Aujourd’hui, les marqueurs SNP sont aussi largement utilisés pour caractériser la diversité génétique des arbres forestiers (Neale et Savolainen, 2004 ; Savolainen et Pyjähärvi, 2007). L’étude de la diversité génétique en utilisant des SNP passe par la détermination i/ de leur densité pour la région du génome considérée, et ii/ de la diversité nucléotidique (θ) qui permet d’appréhender l’histoire de groupes d’individus (espèces, populations) ainsi que les mécanismes évolutifs qui déterminent leur variabilité génétique.

Densité des SNP

La densité de SNP se mesure par le nombre de paires de bases moyen qui doit être séquencé pour détecter un SNP. Elle est la mesure la plus simple pour quantifier le polymorphisme au sein d’une séquence ou d’une région du génome. Même si les SNP sont reconnus pour être abondants au sein des génomes, leur densité varie significativement selon les espèces, les populations et les régions du génome étudiées. Chez l’Homme par exemple, la densité moyenne de SNP le long du génome est de l’ordre de 1/1200 pb avec des variations entre zones géniques et intergéniques (Zhao et al., 2003). Chez plusieurs espèces de plantes, Edwards et al. (2007) rapportent une densité moyenne de SNP de l’ordre de 1 SNP tous les 100 à 300 pb. La majorité des donnés proviennent d’études menées sur des plantes modèles ou de grande culture pour lesquelles des quantités importantes de données de séquences sont disponibles permettant d’estimer la densité globale moyenne de SNP avec plus de précision. Par exemple, chez le soja, Zhu et al., (2003) rapportent une densité de SNP de 1/273 pb, basée sur l’étude de 76 kpb pour 25 génotypes. Chez le riz, les densité moyennes rapportées varient entre 1/170 pb et 1/248 pb selon les études (Yu et al., 2002 ; Hayashi et al., 2004). L’étude de Hayashi et al. (2004) montre également une variation de cette densité selon les cultivars comparés. Chez le maïs, Ching et al. (2002) rapportent une densité de SNP de 1/31 pb dans les régions non codantes et 1/124 pb dans les régions codantes pour 18 gènes étudiés au sein de 36 lignées élites.
La taille des populations, le taux de mutation, les flux de gènes entre populations, la sélection naturelle sont autant de paramètres qui influent sur le niveau de polymorphisme présent au sein des espèces ou des populations et entre les différentes régions du génome (Buckler et Thornsberry, 2002 ; Rafalski et Morgante, 2004 ; Ingvarsson et al., 2008). Dans le cas des arbres, la majorité des données disponibles ont été obtenues sur la base de l’étude de quelques régions géniques. Chez le chêne, des niveaux de variabilité importants ont été rapportés pour 11 gènes, avec une densité moyenne de 1/25 pb (Quang et al., 2008). Chez le peuplier les niveaux de variabilité détectés sont également importants avec une densité de SNP moyenne pour 9 gènes de 1/26 pb Chu et al., 2009), 1/60 pb pour 5 gènes selon Ingvarsson et al. (2005) et 1/130 pb au sein de 9 gènes pour Gilchrist et al. (2006). Une étude menée récemment chez l’eucalyptus, compare les niveaux de polymorphismes détectés par pyroséquençage sur 23 gènes impliqués dans la synthèse des métabolites secondaires chez 1764 individus représentant 4 espèces. Cette étude rapporte des densités de SNP variant de 1/33 pb à 1/16 pb selon l’espèce avec des variations entre zones introniques et exoniques (Külheim et al., 2009). Novaes et al. (2008) rapportent une densité moyenne du génome exprimé d’un pool de 21 génotypes d’E. grandis à 1/192. De façon générale, ces résultats sont cohérents avec les caractéristiques énoncés précédemment des génomes forestiers : ils présentent un fort niveau d’hétérozygotie et une diversité génétique importante.

Estimation de la diversité nucléotidique θ

Même si de nombreux facteurs influencent les niveaux de polymorphismes (Buckler et Thornsberry, 2002), la théorie neutre de l’évolution suggère que la diversité nucléotidique θ est égale au produit de la taille efficace de la population Ne et du taux de mutation µ (θ=4Neµ ; Kimura, 1969). Le modèle neutre standard considère des populations non subdivisées, de tailles finies, dans lesquelles les croisements se font au hasard et les individus ont la même chance de survivre et de se reproduire. Les sites de mutation synonymes sont supposés suivre ce modèle d’évolution. Ainsi pour ces sites, la dérive génétique (relative à la taille des populations) et le taux de mutation sont les processus qui déterminent la quantité de polymorphisme observée dans un échantillon. Toutes conditions étant égales par ailleurs, on espère des quantités de polymorphisme plus importantes dans les populations de grande taille
espèces de plantes : en blanc chez les arbres angiospermes, en gris chez les conifères et en noir chez les autres espèces de plantes (d’après P. Garnier-Géré, publié dans Savolainen et Pyhajarvi, 2007). au sein desquelles l’effet de la dérive génétique est moins important (Savolainen et Pyhäjärvi, 2007). Les taux de mutations et la taille efficace des populations n’étant généralement pas connus, la diversité génétique θ peut être estimée de différentes manières sur la base de données de séquences. Un des estimateurs « θπ » (Nei, 1987) est obtenu par la différence moyenne entre séquences prises deux à deux. Il dépend donc à la fois de la quantité de polymorphisme et de la fréquence des allèles (MAF) de ces polymorphismes. Un autre estimateur « θw » (Watterson, 1975) considère le nombre de sites polymorphes dans l’échantillon au lieu des fréquences. Ces deux estimateurs sont utilisés pour comparer les niveaux de diversité nucléotidique entre espèces, populations ou régions du génome. Ils se distinguent par l’importance accordée aux variants rares et ceux en fréquence intermédiaire dans l’estimation de θ. Différents tests permettent de comparer ces deux estimateurs dont le D de Tajima (Tajima, 1989) et le Fs de Fu (Fu, 1997). La différence entre θπ et θw mise en évidence par ces tests permet par exemple de détecter un excès de variants rares (ou de variants en fréquence intermédiaire) au sein d’un échantillon traduisant un écart au modèle neutre d’évolution. Ils permettent d’identifier des régions du génome soumises aux effets de la sélection, mais sont sensibles aux effets démographiques (changement de taille des populations ou structuration de la population en sous populations).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Liste des figures
Liste des tableaux
Liste des abréviations
Préambule
Chapitre 1 : La qualité du bois : une nouvelle cible de l’amélioration génétique des arbres
1. Le bois une ressource pour l’industrie
2. Le bois un matériau biologique complexe
3. L’amélioration génétique des propriétés du bois
4. La lignine : un caractère de choix pour la SAM chez l’eucalyptus
5. La génétique d’association pour la recherche des polymorphismes contrôlant la variation des
caractères liés aux lignines chez l’eucalyptus
6. Les objectifs de ce travail de thèse
Chapitre 2 : Matériel et méthodes
1. Les espèces étudiées
2. Dispositifs expérimentaux
2.1. Plan de croisement factoriel E. urophylla x E. urophylla
2.2. Autres dispositifs de terrain
3. Mesure des caractères phénotypiques
3.1. Croissance
3.2. Densité du bois
3.3. Teneur en lignines et rapport S/G
4. Méthodes statistiques pour l’estimation des paramètres génétiques des caractères
4.1. Estimation des paramètres génétiques
4.2. Calcul de gains génétiques
5. Sélection des gènes candidats
6. Mise en évidence de la variabilité nucléotidique des gènes candidats
7. Méthodes statistiques pour l’étude de la diversité nucléotidique et du déséquilibre de liaison
7.1. Diversité nucléotidique et écart à la neutralité
7.2. Déséquilibre de liaison
8. Génotypage des gènes chez les descendants
9. Méthodes statistiques pour l’étude d’association
Chapitre 3 : Etude des paramètres génétiques des caractères liés aux lignines chez l’eucalyptus
1. Résultats
1.1. Qualité des prédictions par SPIR
1.2. Variabilité phénotypique des caractères
1.3. Estimation des paramètres génétiques
1.3.1. Croissance et densité du bois
1.3.2. Quantité et Qualité des lignines 1.3.3. Corrélations entre les caractères relatifs aux lignines, caractères de croissance et densité du
bois
1.3.4. Impact d’une sélection dirigée sur la hauteur et la densité sur les caractères relatifs aux lignines
2. Discussion
Chapitre 4 : Diversité nucléotidique, étendue du déséquilibre de liaison chez E. urophylla et comparaison
avec d’autres espèces d’Eucalyptus
1. Résultats
2. Discussion
2.1. La méthode de séquençage utilisée
2.2. Diversité nucléotidique, haplotypique et déséquilibre de liaison chez E. urophylla
2.2.1. Variabilité des gènes : densité de SNP et diversité nucléotidique
2.2.2. Ecart à la neutralité sélective et à l’équilibre démographique
2.2.3. Diversité haplotypique et étendue du DL
2.3. Comparaison avec d’autres espèces d’Eucalyptus : cas du gène CCR chez E. urophylla,
2.4. Diversité génétique, DL et études d’association chez l’eucalyptus
Chapitre 5 : Association entre variabilité des gènes de la lignification et variation de caractères d’intérêt
agronomique chez E. urophylla
1. Résultats
2. Discussion
2.1. Variabilité fonctionnelle des gènes candidats de la lignification
2.2. L’effet des autres gènes candidats de la lignification
2.3. Le dispositif expérimental utilisé
Conclusion générale
1. Les principaux résultats
1.1. Déterminisme génétique de la quantité et de la qualité des lignines
1.2. Diversité nucléotidique et étendue du déséquilibre de liaison au sein de gènes candidats de la
lignification
1.3. Génotypage de la variabilité nucléotidique dans des descendances de plans de croisement
factoriels
1.4. Etude de la variabilité fonctionnelle de gènes de la lignification chez E. urophylla.
3. La sélection génomique : une nouvelle approche en cours d’évaluation chez les arbres
Bibliographie
ANNEXE 1: A candidate gene for lignin composition in Eucalyptus: Cinnamoyl-CoA Reductase (CCR) . 160