Depuis une vingtaine d’années on peut observer une explosion de la quantité des données biologiques disponibles. Cette explosion n’a pas épargné le monde de la biologie, et plus précisément celui de la santé qui depuis une dizaine d’années voit la quantité de données et de connaissances augmenter exponentiellement parallèlement avec l’évolution des technologies. Ainsi, le génome humain et ses plus de 3 milliards de paires de bases qui a pu être séquencé en 2003 après 13 ans de travaux et plus de 3 milliards de dollars, peut aujourd’hui l’être en quelques jours pour moins de 1000 dollars. Pour donner un ordre de grandeur, ces 3 milliards de bases correspondent aux nombre de caractères de 100 Corans ou 1000 bibles. A cela se sont ajoutées de nombreuses découvertes sur les mécanismes de régulation d’expression des gènes, les interactions possibles avec l’environnement ou même l’héritabilité de certains traits épigénétiques acquis.
Cette augmentation de la quantité de données et de connaissances a permis aux chercheurs d’importantes avancées scientifiques, en particulier en cancérologie directement concernée par les questions de régulation de l’expression des gènes. Un cancer peut se définir par un ensemble de cellules à prolifération incontrôlée formant une ou plusieurs tumeurs. Ces cellules cumulent des modifications leur permettant de les rendre insensibles aux signaux dits de « morts cellulaires » (ou apoptose). Aussi la caractérisation des mutations et modifications portées par ces cellules a-t-elle permis d’identifier et de caractériser plus précisément les patients atteints de cette pathologie très hétérogène. Cet objectif d’intégrer le patient dans l’évaluation et les choix cliniques fait partie de l’approche plus générale de la médecine de précision (ou médecine personnalisée). A ces fins, se sont développées de nombreuses méthodes visant à identifier les mécanismes sous-jacents aux comportements aberrants de ces cellules cancéreuses. Ces méthodes se sont très rapidement retrouvées à l’interface entre la médecine et la biologie des systèmes, visant à étudier les comportements des organismes en les considérant par le biais des interactions de leurs composants. Ce chevauchement de domaines de recherches a permis, non seulement d’améliorer la compréhension des mécanismes impliqués dans les cellules cancéreuses, mais aussi de proposer des modèles prédictifs de réactions aux traitements, permettant une meilleure prise en charge des patients.
Données biologiques et évolution des techniques
L’expression de gènes
Un gène est une entité biologique codant pour un ou plusieurs éléments fonctionnels de la cellule. Chez les eucaryotes, les gènes sont transcrits en ARN-pre-messager (ARN-pm), puis après une étape de maturation en ARN-messager (ARN-m). La transcription d’un gène en ARN se fera grâce à une enzyme, l’ARN polymérase qui permettra la synthèse d’un brin d’ARN complémentaire à la séquence d’ADN.
Après maturation, les ARN-m seront traduits en protéines hors du noyau, au niveau du cytoplasme. Cette traduction mettra en jeu de nombreuses protéines, en particulier les ribosomes, protéines fortement conservées au cours de l’évolution qui seront chargées de la lecture de l’ARN-m par série de triplets de nucléotides, ceci afin d’associer à chacun d’eux le peptide (brique élémentaire des protéines) correspondant. D’autres phénomènes ont été mis en évidence plus récemment, montrant le gain en complexité au cours de l’évolution sur ces mécanismes communs à tous les êtres vivants. Lors de la transcription en ARN-pm, celui-ci sera composé d’introns et d’exons. La maturation, aussi appelée « épissage », éliminera les introns et conservera les exons que l’on retrouvera dans l’ARN-m. L’épissage alternatif (Alternative splicing) est un mécanisme permettant à partir d’un simple ARN pm de générer plusieurs ARN-m et donc plusieurs protéines [25]. En effet, lors de la maturation, les exons ne seront pas tous conservés, ni même agencés dans le même ordre.
Si la traduction débute normalement sur un triplet AUG (aussi appelé « codon start »), il a été montré que certaines séquences pouvaient elles aussi initier la traduction en protéine. Ces séquences dites « ATIS » (alternative initiation of translation sites) semblent présenter de par leur repliement une ressemblance avec un codon-start, entraînant la traduction d’une protéine [130]. Ces séquences, qui semblent conservées au cours de l’évolution [10] sont elles aussi à l’origine de la diversité des protéines. Enfin, en plus de ces mécanismes, de nombreux facteurs vont pouvoir réguler l’expression des gènes. En effet, si toutes les cellules d’un organisme possèdent le même patrimoine génétique (en dehors des gamètes), l’expression de celles-ci sera extrêmement différente selon le tissu concerné, ou le contexte de la cellule. Parmi ces régulateurs, on trouve les facteurs de transcription, protéines qui intéragiront avec l’ADN et l’ARN polymérase afin d’induire ou au contraire de bloquer la transcription d’un ou plusieurs gènes. Ces facteurs de transcription, eux-mêmes issus de la transcription puis traduction de gènes, sont extrêmement nombreux [141] et un sujet de recherche très important afin de mieux intégrer les mécanismes de régulation des gènes. Il existe d’autres phénomènes tels que les ARN-interférents (ARN-i) [42], brin d’ARN capables de se fixer sur un brin complémentaire d’ARN-m, amenant à la dégradation du complexe ainsi formé et donc l’inhibition de l’expression du gène associé en empêchant sa traduction. Beaucoup de ces ARN-i proviennent d’introns, ce qui a permis de comprendre un peu plus le rôle régulateur de ces ARN non codants (ne produisant pas directement de protéines). Enfin, certains de ces ARN-i ont été identifiés comme pouvant circuler dans le milieu extra-cellulaire chez l’humain. Ces ARN extra-cellulaires semblent avoir des fonctions biologiques associées à des processus d’exportation très précis bien qu’encore très peu connus [145]. Certains semblent impliqués dans certaines pathologies et ont été caractérisés à des fins diagnostiques, sans pour autant qu’un lien de causalité ait pu être établi [106].
Enfin, ont été mis en avant les phénomènes de régulation dits d’épigénétique. Ces mécanismes s’appliquent sur le génome, et vont, sans modifier sa séquence, rendre accessible ou non des parties de celui-ci pour la transcription. Ce phénomène est un des moteurs principaux de la différenciation cellulaire [51] . Parmi les nombreux processus existants, les 2 plus connus sont le repliement de l’ADN autour des histones et la méthylation de l’ADN. Ces processus semblent intervenir lors de la différenciation cellulaire, ou en réponse à l’environnement. Des corrélations entre certaines pathologies ont aussi été identifiées [31]. Nous pouvons aussi noter que de récentes études tendent à montrer qu’une partie de ces modifications épigénétiques seraient héritables, et donc que les descendants pourraient hériter d’une partie de l’histoire vécue et non juste génétique de leurs parents [123]. C’est grâce à tous ces mécanismes, et très certainement bien d’autres encore inconnus, que l’on peut observer une telle diversité dans le vivant. Ainsi si on estime le nombre de gènes entre 20.000 et 25.000 gènes chez l’humain [58], le protéome actuellement connu est d’environ 50.000 protéines et cette quantité augmente encore.
Données expression gène : historique
L’analyse des expressions de gènes est un domaine qui a énormément évolué au cours des 40 dernières années. La mise au point en 1977 du Northern blot, permettant de caractériser l’abondance relative d’une séquence d’ARN, a amené aux premières analyses d’expression de gènes par la mesure de la quantité d’ARN-messager. Cette méthode, simple à mettre en place et peu coûteuse reste encore très utilisée aujourd’hui [104], et a pu voir de nombreuses améliorations concomitantes à l’évolution des connaissances biologiques et à l’automatisation de l’analyse [105]. C’est néanmoins avec l’apparition des premières puces à ADN en 1991 [121] que l’analyse de l’expression des gènes prend une nouvelle ampleur. Celle-ci se base sur la propriété de complémentarité de l’ADN, c’est à dire la faculté qu’un simple brin d’ADN a de s’apparier avec la séquence complémentaire (l’adénine avec la thymine et la guanine avec la cytosine). Une puce consiste en un support (souvent verre ou silicium) sur lequel sera fixé un ensemble de brins courts d’ADN, appelés sondes dont les séquences ont été contrôlées durant leurs synthèse. Lors d’une analyse d’un échantillon , l’ARN-m sera généralement amplifié par PCR (polymerase chain reaction) afin d’augmenter la quantité de matériel transcriptomique, puis converti en ADN-complémentaire (ADN-c) par transcription inverse. Ces ADN-c seront ensuite marqués par une fluorochrome (molécule organique capable d’émettre de la lumière). Enfin, ils seront mis au contact des sondes de la puce afin que les ADN-c se fixent sur celles ayant une séquence complémentaire correspondant au gène étudié. Après nettoyage, seuls les brins d’ADN-c non-fixés seront ôtés de la plaque. Il sera alors possible d’identifier les sondes ayant fixé un ADN-c par l’analyse de la fluorescence de ceux-ci. Une puce peut contenir jusqu’à plusieurs dizaines de milliers de sondes [65], permettant ainsi de couvrir de manière efficace le champs des gènes (et leurs variations) tout en garantissant une qualité d’évaluation de ces niveaux d’expression (en utilisant des sondes redondantes ou spécifiques à des séquences différentes de gènes).
Ainsi, ces puces permettent d’analyser de grandes quantités de gènes en même temps permettant ainsi leur utilisation pour comparer des profils d’expression entre eux [76, 107, 33]. Ces puces vont se développer au cours des 2 décennies, avec une augmentation forte de leurs capacités corrélée à une réduction du coût et du temps nécessaire pour ce type d’analyse. Néanmoins, celles-ci présentent quelques limites. En effet, l’utilisation des sondes nécessite de connaître préalablement les séquences à étudier et donc les gènes associés. Aussi, ce type d’analyses, bien que très efficaces ne permettent de travailler qu’à partir d’une connaissance à priori des gènes et de leur séquences et ne peut amener à identifier de nouveaux gènes. Cependant, dans le cas de l’humain, cette problématique se pose moins depuis la fin du projet « génome humain » qui a permis de séquencer l’intégralité du génome humain en une dizaine d’années [119]. Une nouvelle révolution dans l’analyse de l’expression des gènes aura lieu vers 2008 [99] avec les premiers séquenceurs à haut débit, ou NGS (next-generation sequencing). Celles-ci se basent sur les approches de séquençage haut débit de l’ADN, utilisable après retro-transcription des brins d’ARN-m en ADN-c. Auparavant, les séquençages étaient le plus souvent effectués via la méthode dites de Sanger [118], méthode permettant de séquencer un brin à la fois via 4 amplifications parallèles par PCR contrôlée. Ces amplifications (une par nucléotide) amenaient à obtenir pour un brin d’ADN initial une série de brins complémentaires de taille variable et sur lesquels, le dernier nucléotide modifié (un didésoxyribonucléotide, dont la fixation empêche la poursuite de la synthèse) était connu. Par électrophorèse (migration sur gel), il était alors possible de distinguer les brins sur la base de leurs poids et donc de connaître la position de chaque nucléotide .
Néanmoins, cette méthode restait limitée car ne pouvant analyser qu’un fragment à la fois malgré d’importantes améliorations dont l’automatisation du procédé et l’ajout de fluorophores sur les didésoxyribonucléotides de manière à n’avoir qu’une seule PCR à effectuer. Les séquenceurs à haut débit offrant la possibilité de séquencer l’intégralité des fragments d’ADN présents dans un échantillon, ceux-ci ont permis de séquencer des génomes et transcriptomes entiers, faisant entrer la recherche dans une ère que certains n’hésitent pas à qualifier de méta-omique, en allusion à la racine latine [74]. Cette nouvelle ère de recherche pose néanmoins de nouveaux problèmes dans le monde de la recherche. L’augmentation de la quantité des données (on parlera de méta-omique horizontale) a nécessité de développer de nouvelles méthodes permettant de les stocker, traiter et analyser amenant au développement du champs de la bio informatique analysant les séquences. De la même manière, si le partage des informations et des connaissances entre chercheurs a été facilité avec le développement de bases de données centralisant celles-ci [48], ces données sont devenues bien plus complexes à comprendre car issues d’une série de processus techniques de plus en plus poussés et multidisciplinaires [102]. Ces problématiques risquent de s’accentuer non seulement avec l’accélération des capacités de production de données mais aussi avec l’arrivée plus récente des approches multi-omiques (on parlera ici de méta-omique verticale), proposant de combiner l’information à plusieurs échelles (génome, transcriptome, protéome, épigénome, population, microbiome, etc.) .
|
Table des matières
1 Introduction
1.1 Contexte & Motivation
1.2 Données biologiques et évolution des techniques
1.2.1 L’expression de gènes
1.2.2 Données expression gène : historique
1.2.3 Bases de données biologiques : historique
1.3 Contributions
1.4 Organisation du manuscrit
1.5 Notions et méthodes
1.5.1 Normalisation de l’expression d’un gène
1.5.2 Fouille de données
2 État de l’art
2.1 Programmation logique
2.1.1 Histoire de la programmation logique
2.1.2 Answer set Programming
2.2 Analyse de l’expression des gènes
2.2.1 Introduction
2.2.2 Identification de gènes
2.2.3 Discrétisation des gènes
2.3 Myélome multiple
2.3.1 Différenciation normale du plasmocyte
2.3.2 Aspect clinique et épidémiologie
2.3.3 Évolution et facteurs pronostiques
2.4 Des gènes à la fonction : les Pathway Analysis
2.4.1 Introduction
2.4.2 Over-Representation Analysis (ORA)
2.4.3 Functional Class Scoring (FCS)
2.4.4 Pathway Topology (PT)
2.5 Méthode de coloration cohérente des graphes
2.5.1 Introduction
2.5.2 Coloration d’un graphe
2.5.3 Règles de cohérence des signes
2.5.4 Observations
2.5.5 Réparations
2.5.6 Prédictions et projections
3 Modèle de coloration des graphes pour le myélome multiple
3.1 Introduction
3.2 Traitement des données
3.2.1 Discrétisation des données
3.2.2 Génération du graphe
3.3 Analyse des prédictions
3.3.1 Mise en forme des prédictions
3.3.2 Validation des prédictions
3.3.3 Analyse des prédictions : MM vs NPC
3.3.4 Analyse du lien entre survie et prédictions
3.3.5 Outils et logiciels
3.4 Simulation de l’effet d’un perturbateur
3.4.1 Méthode
3.4.2 Implémentation
3.4.3 Impact des perturbations sur les profils d’expression
3.5 Conclusion
4 Exploration des colorations parfaites
4.1 Introduction
4.1.1 Vers la coloration fréquentielle
4.1.2 L’énumération des solutions
4.1.3 Vers l’identification de sous-solutions par ajout de contraintes
4.1.4 Les solutions parfaites
4.2 Méthode
4.2.1 Modélisation des colorations parfaites en ASP
4.2.2 Identification de composants
4.2.3 La similarité maximale
4.2.4 Réduction de l’espace des solutions
4.2.5 Implémentation
4.3 Exemple
4.3.1 Réduction du graphe
4.3.2 Colorations parfaites et identification des composants
4.3.3 Calcul de la similarité maximale
4.4 Application
4.4.1 Données et graphe
4.4.2 Colorations parfaites
4.4.3 Identification des composants
4.4.4 Validation des composants
4.4.5 Spécification des composants
4.4.6 Analyse biologique des résultats
4.5 Comparaison avec d’autres méthodes de classification
4.6 Améliorations mises en place
4.6.1 Identification des nœuds corrélés en ASP
4.6.2 Réduction de l’espace mémoire
4.6.3 Amélioration de la réduction du graphe
4.7 Conclusion
5 Conclusion