Expression génique et structure tridimensionnelle du matériel génétique
Contexte biologique
Information génétique et ADN. L’information génétique d’un être vivant est contenue dans les molécules d’Acide DésoxyriboNucléique (ADN), macromolécules copiées à l’identique dans l’ensemble de ses cellules. Une molécule d’ADN est composée de deux brins antiparallèles associés, formant un filament en double hélice de 2,5 nm de diamètre. C’est la structure linéaire des brins qui permet de coder l’information génétique sous la forme d’une séquence de bases : l’adénine (A), la thymine (T), la cytosine (C) et la guanine (G). La double hélice formée par les deux brins tire sa cohérence du fait que les bases sont associées en paires complémentaires (appariement adénine-thymine ou cytosine guanine). L’ensemble du matériel génétique, commun pour chaque cellule d’un même être vivant, est constitué de plusieurs molécules d’ADN, chacune d’entre elles correspondant à un chromosome. La totalité des séquences associées aux molécules d’ADN d’un organisme constitue son génome. Au sein de ce génome, des intervalles de plusieurs milliers de paires de bases successives en moyenne, sont utilisés d’un seul tenant par les cellules pour contribuer à leur fonctionnement et, plus généralement, à celui de l’organisme entier (Pearson, 2006). On appelle ces intervalles génomiques des gènes.
Expression génique et régulation. La grande majorité des cellules d’un même organisme ont un génome identique et par conséquent, partagent la même information génétique. Pourtant, elles diffèrent par de nombreux aspects (forme, fonction, métabolisme, …), ce qui implique qu’elles n’utilisent pas cette information de la même façon. Les mécanismes biochimiques par lesquels l’information génétique stockée dans les gènes est lue et utilisée par les cellules constituent l’expression génique. Ce sont donc des variations dans l’expression des gènes qui permettent aux cellules, à partir d’un même génome, d’avoir la diversité de formes et de fonctionnements que l’on observe en pratique.
C’est l’environnement, au sens large, qui provoque des modifications d’expression génique. En effet, nos cellules reçoivent continûment des informations provenant de leur environnement qui leur permettent, par exemple, d’ajuster leur métabolisme à une situation donnée ou encore de se spécialiser au cours de leur développement. De nombreux mécanismes permettent de réguler l’expression génique. L’un d’entre eux est caractérisé par la conformation spatiale du génome dans le noyau de la cellule. C’est ce mécanisme qui est l’objet d’étude principal de cette thèse.
Organisation tri-dimensionnelle du génome
Le nombre de bases constituant la séquence complète du génome est grand, souvent plusieurs milliards pour les mammifères par exemple. Ainsi, si on déroulait le génome d’une cellule d’un bout à l’autre, le résultat serait un filament de plusieurs mètres de long. Or, chez les eucaryotes (la plupart des organismes pluricellulaires ou non bactériens), cette information est contenue dans le noyau des cellules, dont le diamètre en moyenne est inférieur à 10 µm. Ainsi, l’organisation spatiale du génome à l’intérieur du noyau des cellules est fondamentale pour permettre à autant d’informations d’être contenues dans un si petit volume.
Compaction du génome. La première étape de la compaction du matériel génétique est rendue possible grâce à l’intervention de protéines, les histones. En se liant à l’ADN, elles permettent sa densification en une fibre plus épaisse appelée fibre chromatinienne qui s’enroule également plusieurs fois pour permettre une compaction du génome dans le noyau cellulaire . La structure tri-dimensionnelle du génome résultant de cette compaction n’est pas aléatoire. Elle fait apparaître des zones plus ou moins denses et ces différences de densités localisées déterminent des niveaux d’accessibilité divers jouant un rôle important dans l’utilisation du matériel génétique par la cellule (Bonev et Cavalli, 2016).
Une organisation multi-niveaux. L’organisation spatiale du génome est donc un sujet d’étude allant de la constitution de base de la fibre chromatinienne jusqu’à la formation des chromosomes et leur positionnement dans le noyau des cellules (Bonev et Cavalli, 2016). Dans cette opération de densification, la fibre chromatinienne met en proximité spatiale des régions du génome qui autrement, seraient distantes les unes des autres. Cette faible distance permet des interactions entre régions génomiques qui peuvent avoir des impacts sur la façon dont le matériel chromosomique est utilisé par la cellule. La conformation du génome peut influer sur le développement d’un organisme ou sur certaines maladies (Zheng et Xie, 2019). Comprendre les mécanismes de régulation associés à cette organisation est donc un enjeu important.
L’organisation spatiale du matériel génétique se met en place à différentes échelles, et ce de façon imbriquée . Au niveau le plus grossier, les différents chromosomes ont tendance à occuper leurs régions propres dans le noyau et définissent ainsi des territoires chromosomiques. Au sein de ces territoires, la chromatine se répartit en zones plus ou moins denses, résultant en une compartimentation en deux classes (appelées A et B) du matériel génétique, qui rend compte de l’état de densité et d’accessibilité du matériel génétique. Si l’on réduit encore l’échelle, on trouve les Topologically Associating Domains (TADs), régions dont la taille est de l’ordre de la mégabase. Ce sont des domaines contigus le long du génome, composés de régions qui interagissent préférentiellement entre elles. Enfin, au niveau le plus fin généralement étudié, se trouvent les boucles de chromatine, structures de base de la fibre chromatinienne : elles sont contigües et permettent le contact physique de deux positions génomiques précises.
Les Topologically Associating Domains (TADs). Dans leurs travaux, Dixon et collab. (2012) ont mis en évidence l’existence de régions génomiques au sein desquelles les interactions entre positions génomiques sont plus intenses, appelées Topologically Associating Domains (TADs). Il s’agit de structures ayant une grande importance dans l’organisation spatiale de la chromatine et qui jouent un rôle important dans la régulation génique. En effet, deux positions génomiques au sein d’un même TAD ont tendance à intéragir plus souvent entre elles qu’avec des positions extérieures au TAD. Les TADs sont séparés par des frontières, caractérisées par des enrichissements en certains types de protéines comme la protéine CTCF ou la cohésine par exemple. Ces domaines ont la particularité d’être, en grande partie, conservés entre certaines espèces (la souris et l’homme par exemple) et entre lignées cellulaires également (Dixon et collab., 2012). Ils constituent les principales unités fonctionnelles intervenant dans l’organisation spatiale du génome. Ainsi, ils jouent un rôle par exemple dans les mécanismes de régulation de la transcription, dans la réplication de l’ADN, ou expliquent la co régulation de certains gènes (voir Dixon et collab. (2016) pour une revue détaillée sur les TADs).
Une organisation imbriquée. Les différents niveaux d’organisation (territoires, compartiments, TADs, boucles) présentés précédemment sont une représentation nécessairement simplifiée de la structure tri-dimensionnelle et multi-échelles du génome. Certains auteurs ont défini d’autres structures, intermédiaires, comme les sous-TADs, zones de compaction très importante à l’intérieur des TADs (Berlivet et collab., 2013), ou les méga-TADs, regroupement de TADs (Fraser et collab., 2015), pour mieux décrire la continuité de l’imbrication existant au niveau même des TADs. Enfin, de plus en plus de travaux, comme ceux de Fraser et collab. (2015) ou Soler-Vila et collab. (2020), s’orientent vers une représentation hiérarchique des chromosomes pour rendre mieux compte des niveaux d’organisation imbriqués (essentiellement sous-TADs, TADs, méga-TADs et leurs interactions).
Modification de la structure tri-dimensionnelle du génome et conséquences. L’organisation spatiale du génome est donc un mécanisme complexe de régulation de l’expression des gènes. Elle influe sur l’accessibilité des gènes concernés à travers l’état de la chromatine mais aussi sur les interactions entre positions génomiques en rapprochant certaines régions génomiques parfois distantes de plusieurs centaines de milliers de bases.
Des changements dans l’organisation spatiale de la chromatine ont des conséquences parfois délétères sur la façon dont les gènes s’expriment (Kaiser et Semple, 2017; Lupiáñez et collab., 2016). Lupiáñez et collab. (2015) ont par exemple montré que la disparition d’une frontière entre deux TADs pouvait être responsable de différentes malformations de la main comme la polydactylie. Des modifications de frontières de TADs semblent aussi impliquées dans l’oncogenèse en favorisant des expressions aberrantes pour certains gènes (Northcott et collab., 2014; Hnisz et collab., 2016).
|
Table des matières
1 Introduction
1.1 Expression génique et structure tridimensionnelle du matériel génétique
1.1.1 Contexte biologique
1.1.2 Organisation tri-dimensionnelle du génome
1.2 Les données Hi-C
1.2.1 Différentes méthodes d’observation de la structure tridimensionnelle du génome
1.2.2 Méthode d’obtention des données Hi-C
1.2.3 Matrice de comptages
1.2.4 Biais
1.3 Analyse différentielle de données Hi-C
1.3.1 Normalisation entre échantillons
1.3.2 État de l’art
1.4 Contributions de la thèse
2 Classification Ascendante Hiérarchique et données Hi-C
2.1 Introduction
2.2 HAC and contiguity-constrained HAC
2.2.1 Hierarchical Agglomerative Clustering
2.2.2 HAC under contiguity constraint
2.3 Validity of HAC in possibly non-Euclidean settings
2.3.1 Extension to dissimilarity data
2.3.2 Extension to kernel data
2.3.3 Extension to similarity data
2.4 Interpretability of dendrograms
2.4.1 Dendrograms
2.4.2 Monotonicity, crossovers and ultrametricity
2.4.3 Monotonicity of Ward’s linkage
2.4.4 Monotonicity of alternative heights
2.5 Simulation
2.5.1 Data and method
2.5.2 Comparison of standard HAC and OCHAC results
2.5.3 Reversals for the different heights
2.6 Conclusion
3 Comparaisons d’arbres
3.1 Distances entre arbres
3.1.1 Généralités sur les distances entre arbres
3.1.2 Propriétés des distances
3.1.3 D’une distance entre arbres vers une statistique de comparaison de deux ensembles d’arbres
3.2 Construction d’une statistique de comparaison
3.2.1 Formalisation du problème
3.2.2 Régularisation de l’estimateur de la matrice de variancecovariance Σˆ
3.2.3 Régularisation des variances individuelles
3.2.4 Approches proposées
3.3 Validation
3.3.1 Données GWAS et procédure de simulation
3.3.2 Résultats
3.3.3 Conclusion
3.4 Applications
3.4.1 Application aux arbres phylogénétiques
3.4.2 Application sur données Hi-C
4 Conclusion
Annexes