L’EVALUATION GENOMIQUE : PRINCIPE ET METHODES
Principe général
La variabilité génétique d’un caractère est déterminée par un nombre inconnu de gènes existant sous plusieurs formes (appelées « allèles »), répartis sur le génome des individus. Certains de ces allèles ont un effet favorable sur le phénotype du caractère, d’autres ont un effet défavorable. En supposant que les allèles d’un gène ou de plusieurs gènes n’interagissent pas entre eux (absence de dominance et d’épistasie, respectivement), la valeur génétique d’un individu pour un caractère donné est donc égale à la somme des effets sur ce caractère de chacun des allèles portés par son génome. Si tous les gènes affectant un caractère étaient identifiés, il suffirait de génotyper pour l’ensemble des mutations causales un échantillon d’individus phénotypés, et d’estimer l’effet des différents génotypes à ces mutations pour pouvoir ensuite calculer la valeur génétique de n’importe quel animal de la population connaissant son génotype. En pratique cependant, les plupart des gènes responsables de la variabilité génétique d’un caractère restent aujourd’hui encore inconnus. Plusieurs auteurs (Lande et Thompson, 1990 ; Haley et Visscher, 1998) ont proposé de contourner ce problème en s’appuyant sur l’association entre le génotype (connu) des individus à des marqueurs moléculaires et leur génotype (inconnu) aux mutations causales pour les caractères d’intérêt.
Pour expliquer l’origine de cette association, considérons un individu fondateur mis à la reproduction il y a plusieurs générations qui a eu de nombreux descendants dans une population de taille finie .
Cet individu a transmis à ses produits des gamètes issus de ses chromosomes et modelés par des évènements de recombinaison a priori aléatoires. Au fur et à mesure des générations et au gré des évènements de recombinaison, des segments de taille décroissante du chromosome ancestral ont été conservés et sont actuellement portés par un grand nombre d’individus de la population. En conséquence, les allèles aux loci présents dans cette région du génome hérités de cet individu ancestral sont statistiquement associés dans la population ; autrement dit, le génotype à un locus de la région est corrélé au génotype à un autre locus de la région. Cette association préférentielle entre allèles à différents loci est appelée « déséquilibre de liaison » (DL).
En moyenne, le DL sera élevé pour deux loci très proches, puisque la probabilité qu’une recombinaison génétique intervienne sur un intervalle très petit est faible. A l’inverse, plus les loci sont distants, plus la probabilité que des évènements de recombinaison se produisent au fur et à mesure des générations sur cet intervalle est élevée, et plus le DL est faible dans une population panmictique de grande taille. Toutefois, un DL élevé peut exister entre loci distants ou même non liés, dans le cas par exemple de l’existence d’une structuration de la population.
L’étendue du DL dans une population fermée, autrement dit la force de l’association entre les génotypes à des loci éloignés d’une certaine distance, dépend de l’effectif génétique (ܰNe ) actuel et passé de la population considérée. Cet effectif théorique ܰNe , défini par Wright (1931), correspond au nombre efficace de reproducteurs d’une population fictive idéale (en situation d’accouplements panmictiques et de distribution équilibrée des effectifs de descendants) dans laquelle l’augmentation de consanguinité (ou le taux d’évolution des fréquences des gènes) se fait au même rythme que dans la population réelle considérée.
Dans une population de faible ܰNe , un reproducteur va transmettre en espérance des fragments de son génome à une proportion importante de la population, résultant en une faible variété d’haplotypes. Les recombinaisons entre segments identiques seront sans effet sur le DL. On observera donc un DL de niveau plus élevé à longue distance que dans une population de plus grand effectif génétique. Etant donné que le DL entre loci distants tend à décroître rapidement au cours des générations, le DL entre 2 loci éloignés rend compte de l’effectif génétique de la population dans un passé proche. A l’inverse, le DL entre 2 loci proches rend compte du ܰNe de la population il y a un grand nombre de générations. Hayes et al. (2003) ont estimé que la valeur de ܰNe estimée à l’aide de la formule de Sved (1971) pour deux loci éloignés d’une distance de c Morgan correspondait à l’effectif génétique de la population il y a approximativement 1/2c générations.
Le génome des individus d’une population peut donc être considéré comme un ensemble de segments chromosomiques issus de reproducteurs ancestraux et conservés au cours des générations car transmis sans recombinaison. Si un de ces segments porte un gène et un ou plusieurs marqueurs moléculaires, la connaissance du génotype des individus à ce(s) marqueur(s) renseigne donc de façon indirecte sur leur génotype au gène d’intérêt, la qualité de cette information déduite étant d’autant meilleure que le DL entre marqueur(s) et gène est élevé.
C’est sur cette association entre marqueurs moléculaires (connus) et gènes (inconnus) que s’appuie la sélection assistée par marqueurs et l’évaluation génomique, dont l’objectif est d’utiliser les marqueurs pour prédire la valeur génétique des candidats à la sélection. Le principe de base – établi par Lande et Thompson (1990) pour les régions QTL, puis étendu par Haley et Visscher (1998) à l’ensemble du génome – est de « découper » le génome en un grand nombre de segments chromosomiques déterminés par un ou plusieurs marqueurs moléculaires en déséquilibre de liaison avec les gènes impactant le phénotype au caractère considéré, d’estimer l’effet de chacun de ces segments dans une population de référence, puis de prédire, à partir des effets précédemment estimés, la valeur génétique des animaux qui ne font pas partie de cette population de référence, tels que de jeunes candidats à la sélection.
Constitution de la population de référence
Concrètement, l’étape d’estimation des effets chromosomiques nécessite la constitution d’un groupe d’individus – la « population de référence » (PR) – pour lesquels on dispose à la fois du génotype pour un très grand nombre de marqueurs et du phénotype pour les caractères pour lesquels on souhaite réaliser une sélection. La densité de marqueurs doit être suffisamment grande pour que tous les loci contribuant à la variabilité génétique d’un caractère présentent un déséquilibre de liaison suffisant avec les marqueurs qui leur sont proches (ou avec une combinaison de ces marqueurs). En pratique, dans les populations animales, plusieurs dizaines de milliers de marqueurs répartis sur l’ensemble du génome semblent nécessaires. Cette PR doit être représentative de la population que l’on souhaite sélectionner (dans l’idéal, l’ensemble des allèles des différents loci ségrégeant dans la population doivent y être représentés), et d’effectif suffisamment grand pour permettre une estimation précise de l’effet des segments chromosomiques, car de celle-ci dépendra la précision de la prédiction des valeurs génomiques des candidats.
Les segments chromosomiques dont on estime l’effet peuvent être déterminés chacun par le génotype à un marqueur unique ou par un haplotype à plusieurs marqueurs adjacents. Pour des raisons de simplicité de mise en œuvre, la plupart des applications d’évaluation génomiques actuelles s’appuient sur des marqueurs individuels. Toutefois, afin de conserver un caractère général, on parlera dans les paragraphes suivants de « segments chromosomiques » pouvant correspondre à l’un ou l’autre cas.
|
Table des matières
INTRODUCTION
PARTIE 1 : SYNTHESE BIBLIOGRAPHIQUE
1. L’EVALUATION GENOMIQUE : PRINCIPE ET METHODES
1.1. Principe général
1.2. Constitution de la population de référence
1.3. Estimation des effets des segments chromosomiques
1.3.1. Méthode des moindres carrés
1.3.2. Méthodes de régression pénalisée
1.3.2.1. Le BLUP génomique
1.3.2.2. La Ridge Régression
1.3.2.3. Le LASSO
1.3.2.4. L’Elastic Net
1.3.3. Les méthodes bayésiennes
1.4. Estimation des valeurs génomiques
2. FACTEURS INFLUENÇANT LA PRECISION DE L’EVALUATION GENOMIQUE
2.1. Effet de la taille efficace Ne de la population considérée
2.2. Effet de la taille Np de la population de référence
2.3. Effet de l’héritabilité du caractère considéré
2.4. Effet de la structure de la population de référence et de la distance génétique avec la population évaluée
2.5. Effet de la densité de marqueurs
2.6. Effet de la nature des segments chromosomiques considérés
2.7. Effet de la méthode d’estimation des effets des segments chromosomiques
3. METHODE RETENUE POUR EVALUER L’INTERET DE METTRE EN PLACE
DES EVALUATIONS GENOMIQUES DANS UN PROGRAMME DE SELECTION
PORCIN
3.1. Modèles déterministes
3.2. Modèles stochastiques
3.3. Modèles pseudo-stochastiques
PARTIE 2. Article 1 : Perspectives d’application de la selection genomique dans les schemas d’amelioration genetique porcins
PARTIE 3. Article 2 : Efficiency of genomic selection in a purebred pig male line
PARTIE 4. Article 3 : Economic aspects of implementing genomic evaluations in a pig sire line breeding scheme.
DISCUSSION GENERALE ET PERSPECTIVES
1. RESUME DES PRINCIPAUX RESULTATS
2. LIMITES DE NOTRE MODELE STOCHASTIQUE
2.1. Longueur du génome simulé.
2.2. Génération du DL dans la population de base
2.3. Diminution de la variabilité génétique dans la population.
2.4. Objectif de sélection et caractères considérés.
2.5. Modèle d’évaluation génétique.
3. RENTABILITE ECONOMIQUE DE LA MISE EN PLACE D’EVALUATIONS
GENOMIQUES DANS LA POPULATION PIETRAIN COLLECTIVE FRANCAISE
4. INTERET DE LA SELECTION GENOMIQUE DANS LES POPULATIONS
PORCINES MATERNELLES
5. INTERET DE LA SELECTION GENOMIQUE DANS LES POPULATIONS
PORCINES DE FAIBLE EFFECTIF
6. SELECTION GENOMIQUE POUR LA VALEUR EN CROISEMENT
ANNEXES
Télécharger le rapport complet