La théorie des graphes, comment exploiter les réseaux métaboliques

Télécharger le fichier pdf d’un mémoire de fin d’études

Représentation du métabolisme sous forme de réseau

Le formalisme choisi pour modéliser le métabolisme est la représentation sous forme de réseau[160][207]. Un réseau est défini par un ensemble de composants et les relations au sein de cet ensemble. Cette représentation du métabolisme est donc centrée sur les liens qui existent entre les métabolites (au travers des réactions biochimiques), plutôt que sur les métabolites eux-mêmes. De ce fait, les informa-tions relatives à leur structure et leurs propriétés physicochimiques sont rarement intégrées dans ces réseaux. Les liens quant à eux sont issus des informations sur les réactions. Les relations au sein de ces réseaux sont donc orientées, en fonction du sens des réactions.
Certaines réactions étant réversibles, deux orientations d’une même relation peuvent coexister. Théoriquement, toutes les réactions sont réversibles. Néan-moins, certaines directions présentent un coût énergétique prohibitif, ou d’autres encore peuvent impliquer des substrats non disponibles en conditions physiolo-giques. Le dioxyde de carbone par exemple, ne reste que de manière très transi-toire à l’état gazeux dans les cellules, il est donc cantonné à être essentiellement produit, et rarement consommé dans cet état[159].
“Le savant doit ordonner ; on fait la science avec des faits comme une maison avec des pierres, mais une accumulation de faits n’est pas plus une science qu’un tas de pierres n’est une maison.” Henri Poincaré
La création des réseaux métaboliques est couramment nommée « reconstruction » par la communauté. Bien qu’il soit diﬃcile d’attribuer la paternité de cette ap-pellation, l’un des travaux pionniers dans ce domaine est celui de Gaasterland et Selkov, publié en 1995 dans l’article « Reconstruction of Metabolic Networks Using Incomplete Information »[96]. Une reconstruction peut être définie par l’action de « rétablir dans sa forme première », et les reconstructions métaboliques visent à définir le métabolisme en tant que tout, plutôt qu’en une collection de mécanismes isolés. Les réseaux métaboliques sont ainsi créés à partir du regroupement et du réarrangement de fragments d’informations hétérogènes préexistants. Ces informations sont issues de diverses sources, en particulier de l’annotation de génome et de la description d’activités enzymatiques. Des travaux plus récents ont tenté de créer des réseaux métaboliques à par-tir d’observations directes du métabolisme. Ces approches seront décrites dans la section suivante, et sont regroupées sous l’appellation de « reconstruction ab initio »[44]. Le terme reconstruction souligne le caractère incomplet des réseaux métaboliques. Ils sont le reflet d’une connaissance imparfaite du métabolisme, et il est fréquent d’observer en métabolomique des métabolites absents de ces réseaux. Le terme de « modèle » est également fréquemment employé au sein de la commu-nauté pour désigner les réseaux « globaux », particulièrement dans le contexte des simulations de flux. Le terme genome-scale est fréquemment apposé à celui de réseau métabolique lorsque ce dernier est réalisé à l’échelle de l’ensemble des réactions d’un organisme (c.-à-d. catalysées par les produits de ses gènes). Ce qualificatif permet de faire la distinction entre ces réseaux et ceux réalisés à l’échelle d’une voie. Pour plus de concision, le terme de réseau métabolique réfèrera dans cette thèse aux réseaux métaboliques « genome-scale ». Toute partie de ces réseaux sera référée sous le terme de « sous-réseau ».

Reconstruction à partir du génome

La plupart des réseaux métaboliques d’un organisme sont reconstruits à partir de la séquence complète de son génome[255]. Un prérequis à l’utilisation de ce génome est son annotation, qui permet d’attribuer une fonction aux diﬀérents ensembles qui constituent sa séquence. Elle repose en premier lieu sur la détection de ces ensembles, les unités fonctionnelles, qui seront ici réduites aux gènes codants, seuls à être considérés pour la reconstruction des réseaux. Cette détection constitue l’annotation dite « structurelle ». Elle peut être réalisée au travers de l’analyse de fréquence des codons, plus conservés dans le cas d’une partie codante (qui aurait un intérêt pour la survie de l’organisme), et également par la recherche de motifs. En eﬀet, certains motifs sont caractéristiques des « bornes » des gènes, tels que des séquences promotrices où se fixent les facteurs de transcription, ou des sites de fixation des ribosomes.
La seconde étape consiste à réaliser l’annotation fonctionnelle des gènes. Elle repose sur tout un historique de découvertes scientifiques issues de la génétique, de la biochimie ou de la biologie moléculaire, allant de l’association de phénotypes à des mutations aux tests in vitro d’activité. Cette méthodologie manuelle ne pouvant être appliquée à l’échelle d’un génome entier, les fonctions sont en règle générale inférées à partir de l’homologie d’une séquence de fonction inconnue avec celle d’un gène déjà annoté dans un autre organisme.
Une fois l’étape d’annotation fonctionnelle réalisée, le réseau métabolique peut être reconstruit par agrégation de toutes les réactions catalysées par les enzymes dont les gènes ont été identifiés dans le génome de l’organisme.
L’hypothèse que deux enzymes homologues issues de deux organismes diﬀé-rents catalysent les mêmes réactions constitue une hypothèse forte. Il est à noter que la notion d’homologie est une interprétation de la similarité, elle demeure de ce fait une notion partiale. La propagation des annotations entre les génomes peut donc conduire à la propagation des erreurs d’annotations, cumulées à chaque transfert. Ainsi, en l’absence de validation expérimentale, les annotations des gé-nomes restent putatives, et donc la reconstruction du réseau métabolique qui en découle tout autant.
Un réseau obtenu par reconstruction automatique est considéré comme incomplet[100][191], et la présence de faux positifs probable, s’en suivent alors les étapes de raﬃnements et de validations (Fig 2.1). La partie raﬃnement va consister en des modifications manuelles du réseau sur la base de résultats expérimentaux ou à partir de la littérature spécialisée. Ces modifications peuvent être des suppressions liées à des annotations erronées, mais également des ajouts. En eﬀet, il est envisageable que des gènes n’aient pas encore été annotés chez l’organisme considéré. Il est également possible que l’organisme considéré puisse eﬀectuer des fonctions métaboliques qui lui sont spécifiques, et qui par définition ne peuvent être propagées depuis les annotations d’un autre organisme. Enfin, certaines réactions s’opèrent de manière spontanée, sans catalyse enzymatique, et ne peuvent donc être inférées depuis le génome. Des méthodes automatiques visant à assister ce processus sont également utilisées, notamment les méthodes de gap-filling[23][158][106]. L’étape de validation consiste ensuite à réaliser des simulations à partir du modèle obtenu, afin de vérifier certaines conditions observées expérimentalement ou certaines propriétés théoriques. Ces validations sont généralement réalisées par simulation de flux grâce à des méthodes d’optimisation linéaire[110]. Vérifier la production de métabolites particuliers sachant la composition du milieu, ou encore l’adéquation entre le taux de production de biomasse théorique et le taux de croissance observé chez des organismes unicellulaires, font partie des options qui peuvent être employées pour la validation.
Les incohérences entre les prédictions du modèle et les observations expéri-mentales, identifiées lors de l’étape de validation, conduiront à un nouveau cycle de raﬃnement manuel, et ce processus va continuer de manière itérative. Les nou-veaux résultats expérimentaux présentant des écarts au modèle vont également entretenir cette boucle simulation-correction. Ainsi, les réseaux métaboliques sont soumis à une constante évolution. À titre d’exemple, la base de connaissances EcoCyc[146] dédiée à l’organisme Escherichia coli, dont la première version date du 4 octobre 1995, continue de voir son contenu modifié (dernière mise à jour en date : 28 avril 2017, version no 21). Un résumé sur la dernière décennie montre que c’est le nombre de réactions qui présente le plus grand diﬀérentiel, avec une hausse de plus de 50% (Figure 2.2). Cette évolution dénote une certaine incons-tance des réseaux métaboliques. Peu d’attention a été portée sur la validité des résultats inférés depuis des versions antérieures de ces réseaux ni sur la robus-tesse des méthodes qui leur sont appliquées, vis-à-vis des ajouts et suppressions de nœuds.

Reconstruction ab initio

Une autre approche consiste à construire ces réseaux à partir d’observations du métabolome. La spectrométrie de masse à haute résolution permet une dé-tection des métabolites avec une précision de l’ordre du ppm (partie par million, soit 1 mg/kg). Grâce à cette méthode, il est possible d’obtenir les compositions atomiques des molécules. La reconstruction ab initio consiste à inférer les liens qui existent entre les molécules détectées par ce biais[44]. Les réactions biochimiques peuvent être considérées comme des créations de produits à partir d’événements d’ajouts et de suppressions d’atomes d’un substrat. À partir d’une énumération de ces événements et des diﬀérences de masse qu’ils induisent, il est possible de postuler des réactions putatives faisant intervenir des molécules dont la diﬀérence de masse correspond à celui de l’un de ces événements, et éventuellement de lever certaines ambiguïtés d’identifications[271] . Par exemple, une diﬀérence de masse de 18,01056 Da peut indiquer le gain ou la perte d’une molécule d’eau. Cette mé-thode souﬀre des limitations inhérentes aux méthodes de spectrométrie décrites précédemment. Notamment, l’absence de certains intermédiaires va conduire à l’omission de certaines voies, et l’absence d’information de localisation cellulaire peut conduire à des liens aberrants entre molécules qui ne sont jamais présentes simultanément dans un même compartiment. En revanche, contrairement à la re-construction basée sur le génome, elle permet de proposer des interconversions non enzymatiques. Elle permet également de prendre en compte la promiscuité enzymatique, qui conduit à la transformation par une enzyme de substrats dis-tincts, mais chimiquement proches, des substrats pour lesquelles elle est le plus spécifique. L’usage des réseaux issus de reconstruction purement ab initio est bien moins répandu que celui des réseaux issus du génome.

Utilisation des réseaux métaboliques

Caractérisation topologique du métabolisme

“Welcome to the real world, Neo” Morpheus, The Matrix
Deux grandes approches se dégagent de ces réseaux. La première est l’approche qui sera ici nommée « macro », qui permet de postuler des caractéristiques fonda-mentales du métabolisme par rapport aux propriétés générales du réseau[136]. La seconde est l’approche nommée ici « micro », centrée sur les constituants de ces réseaux, qui permet de définir le « rôle » d’un ou plusieurs métabolites par rapport à leurs liens avec le reste du réseau.
L’aspect macro a été popularisé dans les années 2000, où ce type d’analyses ont été conduites sur de nombreux réseaux dits « real world », terme utilisé pour distinguer les réseaux construits à partir d’observations, par opposition aux ré-seaux générés aléatoirement. Des travaux ont mesuré des caractéristiques topolo-giques sur des réseaux real-world, tels que le Web, les réseaux de co-citations dans des communautés scientifiques[19] ou des réseaux biologiques[136]. Des proprié-tés topologiques ont ensuite été proposées par comparaison de ces mesures avec les valeurs obtenues à partir de réseaux construits aléatoirement selon diﬀérents modèles. Ces analyses ont tenté de dégager des lois universelles qui régissent la formation des interconnexions dans la nature.
Parmi les plus notables figure la notion d’invariance d’échelle (scale-freeness)[19], qui stipule que certaines propriétés du réseau sont conservées lorsque l’on ne considère qu’un sous ensemble de ce réseau, ce qui se rapproche d’une conception « fractale » des réseaux biologiques.
La seconde est la nature supposée « petit monde » (small world) des réseaux[85]. Cette propriété traduit le fait qu’en moyenne, les distances qui séparent deux métabolites, exprimées en nombre de réactions enchaînées pour passer de l’un à l’autre, sont courtes.
Ces propriétés, déjà observées dans de nombreux réseaux « real world », ont conduit à l’hypothèse que le métabolisme était robuste aux suppressions aléatoires de nœuds, et sensible à la suppression de quelques nœuds fortement connectés[263].
Ces analyses ont été très critiquées par une partie de la communauté pour la faiblesse de certaines hypothèses, quand soumises à des tests statistiques, et pour l’inadéquation entre les prédictions issus de ces modèles et les observations[172]. Par exemple, la propriété de petit monde décrite dans les réseaux biologiques a été mise à mal par l’article de Arita sobrement intitulé « The world of Escherichia Coli is not so small »[13]. En eﬀet, une inspection détaillée des liens représen-tés dans ces réseaux révèle la présence de nombreux composés ubiquitaires tels que l’eau, à la fois produite et consommée par de nombreuses réactions, tendant ainsi à réduire de manière peu pertinente les distances entre métabolites. Ainsi les analyses « macro » ont conduit à ce que certains considèrent comme les premiers « mythes» du domaine de l’analyse de réseau en biologie[172]. Ces conceptions erronées ont pu perdurer notamment à cause de l’incertitude présente dans les réseaux, fréquemment évoquée pour expliquer l’écart entre les observations et les caractéristiques attendues. Ainsi les écarts au modèle ont été imputés à la qualité des données plutôt qu’au modèle. Il est également à noter que la confusion a pu être confortée par le fait que certaines de ces propriétés « macro » ont eﬀective-ment été corroborées expérimentalement dans d’autres réseaux. C’est le cas par exemple de l’étude de Jeong et collaborateurs qui a mis en évidence le fait que les protéines « hubs » dans les réseaux d’interaction protéines-protéines étaient codées par des gènes essentiels[135]. Cette observation est en adéquation avec la théorie d’invariance d’échelle, qui suppose une robustesse générale des réseaux face aux délétions aléatoires, mais une vulnérabilité face aux délétions ciblant les quelques hubs.
Au-delà du piège de la sacralisation des modèles au détriment des données expérimentales, ces événements ont souligné les limites de l’analyse des réseaux biologiques à un niveau purement abstrait, c’est-à-dire lorsque seules leurs topo-logies sont considérées. La prise en compte de critères biologiques dans l’analyse de ces réseaux a permis de remettre en cause certains de ces mythes, soulignant ainsi l’importance de la contextualisation des réseaux. Ainsi, les méthodologies qui s’appliquent à des réseaux tels que les réseaux d’interactions de protéines ne s’appliquent pas nécessairement de manière directe aux réseaux métaboliques. Des règles spécifiques des contextes qu’ils décrivent doivent s’appliquer afin de garantir la pertinence et la validité des résultats obtenus. Les méthodologies proposées dans cette thèse ont été construites sur la base de ce constat, et seront focalisées sur la prise en compte des spécificités des réseaux métaboliques dans leurs analyses, et plus particulièrement l’intégration de critères biologiques et chimiques dans les calculs.
Les analyses « macro » ont donc progressivement laissé la place à des ana-lyses centrées autour des éléments constituants ces réseaux. Dans le contexte de la métabolomique, les réseaux sont essentiellement employés afin de fournir des hypothèses sur les chaînes causales pouvant expliquer les perturbations observées sur certains métabolites. Comme mentionné précédemment, certains de ces der-niers ne sont présents que de manière très transitoire et sont consommés presque instantanément après leur production. Les techniques actuelles ne permettant pas de capturer la dynamique du métabolisme à cette échelle de temps, elles oﬀrent une vue statique des processus impliqués. Il convient d’étendre cette vue en pro-posant des enchaînements d’événements pouvant relier les observations obtenues sur certains métabolites.

Approche par segmentation en voies métaboliques

“rationality is bounded when it falls short of omniscience. And the failures of omniscience are largely failures of knowing all the alternatives, uncertainty about relevant exogenous events, and inability to calculate consequences.”
Une approche commune pour représenter le métabolisme consiste à le diviser en voies métaboliques (ou pathways). Ces voies représentent une portion du réseau métabolique, habituellement centrée sur un ou quelques composés. Une définition communément admise de voie métabolique est la succession de réactions biochi-miques, pouvant s’opérer dans une cellule vivante, et conduisant à la modification ou la production d’un composé principal (voire d’un groupe de composés). On peut citer par exemple la voie de biosynthèse du mannitol ou la voie de dégradation du benzoate. Ces voies peuvent être principalement catégorisées en voies anaboliques ou cataboliques suivant qu’elles conduisent à la synthèse ou à la dégradation, consommation ou assimilation du composé principal.
Bien que cette définition puisse paraître intuitive, elle ne couvre pas de nombreux cas particuliers. Ainsi, d’autres voies métaboliques viennent enrichir cette classification : les voies conduisant à la conjugaison d’un composé pour sa détoxi-fication, les voies métaboliques dédiées au maintien de l’homéostasie, ou encore l’interconversion entre diﬀérents métabolites, la bioluminescence ou la production d’énergie. Pour ces derniers cas, il devient moins aisé, voire impossible, de définir un composé principal qui permettrait de borner une voie métabolique. On peut citer par exemple le cycle de Krebs ou la photosynthèse.
Des ensembles de voies métaboliques peuvent également participer communé-ment à l’élaboration de mécanismes plus complexes, et dès lors être regroupées en voies métaboliques plus générales parfois appelées super-voies.
D’un point de vue topologique, les voies ne sont pas nécessairement linéaires, mais peuvent être branchées ou cycliques. Elles peuvent aussi contenir des struc-tures bien plus complexes du fait des nombreuses redondances et shunts métabo-liques, dont il est laissé aux curateurs le soin de statuer sur leur incorporation aux voies originellement définies ou la création de nouvelle voies alternatives, condui-sant à des définitions variables selon les sources.
Il est également à noter que ces voies métaboliques sont fortement interconnec-tées par leurs métabolites d’entrées et de sorties et peuvent parfois partager des réactions et des métabolites intermédiaires et donc se chevaucher partiellement. C’est le cas par exemple de la glycolyse avec la Rubisco shunt, la voie d’Entner-Doudoroﬀ et la voie des pentoses phosphates, ou encore le chevauchement entre le cycle de Krebs et le cycle du glyoxylate.
La notion de voie métabolique est motivée par la complexité du métabolisme, impliquant plusieurs milliers de composés et de réactions, qui constitue un frein à l’interprétation. Le partitionnement du métabolisme en voies métaboliques, cen-trées autour de composés ou de processus, oﬀre l’avantage d’une convention de nommage qui permet de se situer dans ce réseau, et ainsi contextualiser les résul-tats de métabolomique.
Le désavantage principal est la diﬃculté pour la communauté de s’accorder sur les bornes de ces voies ainsi que sur leur centrage[49], conduisant à l’absence de consensus. Par conséquent, les principales bases de connaissances qui compilent des voies métaboliques diﬀèrent grandement dans leurs contenus[249], y compris quant à des voies très étudiées comme le cycle de Krebs[250].
La base de données KEGG[141][142], préférant la notion de map et de module à celle de voie, définit ses entrées par l’ensemble des réactions en lien avec des concepts généraux tels que le métabolisme des acides aminés ou la synthèse des acides gras. La notion de disponibilité enzymatique est également omise puisque l’ensemble de ces réactions peuvent s’opérer dans diﬀérents organismes. 1 De ces choix résultent des maps de tailles importantes comparées aux voies contenues dans d’autres bases de connaissances.
C’est le cas de la base de données MetaCyc[48], qui propose des ressources spécifiques à chaque organisme, ainsi qu’un niveau de granularité plus fin dans sa définition des voies métaboliques. Ainsi, la map KEGG de la glycolyse et de la gluconéogenèse (considérée ici comme un seul et même processus) regroupe les pathways HumanCyc de la glycolyse, la gluconéogenèse, la décarboxylation du py-ruvate en acétyl-CoA, la dégradation de l’éthanol en acetyl-CoA, la fermentation du pyruvate en lactate et la shunt glycolytique du 3—phospho glycerate (Figure 2.3). Un autre cas extrême est celui de la base de données UniPathway[193] qui référence de courtes séquences linéaires de réactions nommées « linear subpath-way ».

Vers une approche holistique : utilisation des réseaux globaux

L’utilisation des modèles métaboliques à l’échelle du génome permet de consi-dérer l’ensemble des connaissances liées au métabolisme. S’aﬀranchir de la par-tition en voies métaboliques s’avère approprié pour l’étude des mécanismes im-pliquant plusieurs processus biologiques. En eﬀet, l’interdépendance entre les mé-tabolites au travers des réactions qui les consomment et les produisent, et qui conduit de facto à la représentation du métabolisme sous forme d’un ou plusieurs réseaux, implique la propagation des perturbations. Ainsi, la carence d’un méta-bolite peut conduire à la perturbation de l’abondance des métabolites produits à partir de ce dernier. Ces perturbations vont à leur tour aﬀecter l’abondance des métabolites produits à partir des précédents et ainsi de suite, par eﬀet domino de substrats en produits. La raréfaction d’un métabolite peut également impliquer l’accumulation d’un co-substrat faute de disponibilité de l’ensemble des substrats nécessaires à la réaction enzymatique le consommant, entraînant une propagation « longitudinale » de la perturbation, de co-substrat en co-substrat. Il est aisé de se figurer que les propagations de ces perturbations ne sont pas bornées à une voie métabolique unique. Par conséquent, l’utilisation des réseaux à grande échelle s’avère être un outil puissant pour l’étude de la propagation des perturbations observées expérimentalement.
En revanche, leur exploitation est bien moins aisée. Elle se fait communé-ment par l’intermédiaire de leurs représentations graphiques sous forme de réseau. Une des principales limites de leur utilisation est liée à leur taille (généralement plusieurs milliers de composés et de réactions) qui rend une exploration visuelle diﬃcile[229]. Il est important de noter à ce stade la distinction qui existe entre la topologie d’un réseau et son dessin. L’analyse visuelle d’un réseau se fait au travers de sa représentation graphique (dessin), qui peut être créée de diﬀérentes manières à partir d’une même topologie (Figure 2.4), et dont le choix va conditionner sa facilité d’utilisation.
La question de la représentation des réseaux de grande taille est une probléma-tique de longue date dans le domaine de la visualisation d’information[126][162]. De nombreuses manières de les représenter ont été proposées, tentant de faci-liter l’accès visuel de l’information. Parmi les plus notoires on peut citer l’ap-proche « Force-directed » de Fruchterman et Reingold[94], qui est basée sur la si-mulation d’un système physique avec répulsion/attraction des nœuds en fonction de la présence de lien entre eux. Bien que moins rependues, l’approche hiérar-chique de Sugiyama[252] ou encore la représentation orthogonale de Fößmeier et Kaufmann[88] sont également utilisées.

Les graphes métaboliques

La section suivante définit les diﬀérents moyens de représenter le réseau méta-bolique sous forme de graphe.

Graphe des composés

Le graphe des composés est un graphe orienté dans lequel les nœuds repré-sentent les métabolites et un arc relie 2 métabolites s’il existe une réaction qui consomme l’un et produit l’autre (3.2 A)[68]. Il est possible de référencer explici-tement cette réaction en attribuant des labels aux arcs. Étant donné que plusieurs réactions peuvent partager des couples substrats-produits, il peut exister dans ce graphe des arcs reliant les mêmes nœuds. Un tel graphe est nommé multigraphe, et ces arcs sont dits parallèles. L’ensemble des arcs reliant les mêmes nœuds constituent un multi arc. Il est à noter que ce graphe des composés, tout comme les autres graphes métaboliques, n’est pas nécessairement connexe.

Graphe des réactions

Le graphe des réactions est un graphe orienté dans lequel les nœuds repré-sentent des réactions, et un arc relie 2 réactions si l’une produit un métabolite qui est consommé par l’autre (3.2 B)[68]. Ses propriétés sont similaires à celles du graphe des composés, les métabolites reliant les réactions peuvent être explicités via les labels des arcs, auquel cas il peut alors devenir nécessaire de construire un multigraphe si plusieurs produits d’une réaction sont consommés par une même réaction. Étant donnée la nature des résultats de métabolomique, cette représentation où les métabolites figurent de manière implicite est peu utilisée pour leur interprétation. Les implications des choix méthodologiques décrits dans les parties suivantes sur l’utilisation du graphe des réactions ne seront donc pas discutées.

Graphe biparti

Un graphe biparti (bipartite graph) est un graphe dans lequel les nœuds peuvent être séparés en 2 groupes, tel que toutes les arêtes du graphe relient des nœuds appartenant à des groupes distincts. Le graphe biparti permet de repré-senter à la fois les métabolites et les réactions sous forme de nœuds. Un nœud métabolite est prédécesseur d’un nœud réaction s’il est substrat de cette réac-tion, et il est successeur d’un nœud réaction s’il est produit par cette dernière (3.2 C)[68]. Ainsi il n’existe pas d’arcs reliant 2 métabolites ni d’arcs reliant 2 réactions, créant ainsi un graphe biparti. Outre cette propriété, ce qui le distingue du graphe des composés est qu’un graphe métabolique biparti n’est pas un multigraphe, et qu’un chemin simple dans le graphe biparti ne peut emprunter deux fois la même réaction. On remarque également qu’il est impossible de mapper un attribut rela-tif à un couple substrat-produits dans le graphe biparti, contrairement au graphe des composés. En eﬀet, dans ce dernier des liens entre couples de métabolites sont représentés explicitement, ce qui permet de faire figurer des informations relatives à une transition substrat-produit (par exemple le nombre d’atomes échangés) en tant qu’attribut des arcs.
L’ordre du graphe, qui correspond au nombre de ses nœuds, est bien plus important pour le graphe bipartie que pour le graphe des composés, puisqu’il cor-respond à la somme du nombre de métabolites et de réactions dans le réseau, contre le nombre de métabolites seul dans le graphe des composés. En revanche, sa taille, qui correspond au nombre d’arcs, est bien plus réduite. Pour l’ajout d’une réaction irréversible donnée, le nombre d’arcs correspondant est la somme du nombre de substrats et de produits, alors que, dans le cas du graphe des com-posés, c’est le produit de ces deux nombres. Cette diﬀérence d’ordre et de taille va avoir des conséquences sur le nombre d’étapes nécessaires pour résoudre certains problèmes de manière algorithmique.
En théorie de la complexité, cette notion de nombre d’étapes nécessaires à la résolution d’un problème est appelée complexité en temps. Elle est définie pour un problème donné, en fonction de la taille de la donnée d’entrée. Résoudre une tâche donnée dans le graphe des composés et dans le graphe biparti ne consti-tue pas nécessairement des problèmes diﬀérents (par exemple, une recherche de plus court chemin), on va plutôt distinguer deux instances du même problème, ayant chacune une taille diﬀérente. Pour les problèmes de théorie des graphes, la taille du problème est généralement exprimée en termes de nombre de nœuds (ordre du graphe, usuellement noté n). Le nombre d’arêtes y est parfois mentionné explicitement, et parfois exprimé en termes de nombre de nœuds lorsque l’on se place dans le pire cas. Le pire cas dépend du problème considéré, mais il corres-pond généralement au cas où toutes les arêtes possibles existent (le graphe est dès lors un graphe complet), ramenant le nombre d’arêtes au nombre de nœuds au carré. Il est à noter qu’en pratique les instances considérées, quel que soit le type de graphe choisi, sont bien loin de ce cas. L’ensemble des graphes métaboliques sont dits creux (sparse), ce qui signifie, par opposition aux graphes denses, que leurs nombres d’arêtes sont relativement faibles par rapport au nombre maximal d’arêtes possibles.

Représentation sous forme matricielle

Depuis le début de cette thèse, les graphes mentionnés sont représentés de ma-nière graphique sous forme sagittale, diagrammes composés de flèches. Le graphe à proprement parlé est la structure de donnée sous-jacente à cette représentation graphique, qui correspond usuellement à des listes d’adjacence, c’est à dire une table où chaque index correspond à un sommet, et où l’élément correspondant contient la table des sommets adjacents. Il est toutefois également possible de les représenter sous forme matricielle. La représentation la plus utilisée est la matrice d’adjacence. Pour un graphe G(V, E) avec un nombre de sommets n = |V |, tel que chaque sommet de V soit numéroté de 1 à n, la matrice d’adjacence est une matrice carrée A = (aij) de taille n x n, tel que aij = 1 si (i, j) ∈ E, et aij = 0 dans le cas contraire (exemple Figure 3.3). Ainsi dans le cas non orienté, cette matrice est symétrique. Les graphes métaboliques étant à de rares exceptions près orientés, ce ne sera donc pas le cas des matrices d’adjacences traitées dans cette thèse. Dans le cas des multigraphes, la matrice n’est plus binaire et la valeur de aij correspond au nombre d’arcs reliant i à j. Étant donné que les arcs reliant un composé à lui-même, nommés boucles (loop), sont généralement omis dans les réseaux métaboliques, les éléments de la diagonale sont égaux à 0. Le carac-tère creux des graphes métaboliques signifie que la majorité des éléments de la matrice ont pour valeur 0. Cette caractéristique permet d’exploiter des encodages minimisant l’espace nécessaire à leur stockage.

Bilan : Diﬀérents formalismes, diﬀérents traitements

Diﬀérents formalismes sont donc disponibles pour représenter le réseau méta-bolique sous forme de graphe. Tous ces graphes métaboliques ont des propriétés communes : ils sont orientés, attribués, creux, et ne possèdent pas de boucles. Ils présentent également des propriétés qui leur sont spécifiques : biparti, multigraphe ou hypergraphe, avec des ordres et des tailles diﬀérents, qui vont conditionner leurs utilisations en fonction des limites des méthodes appliquées. La deuxième partie de cette thèse proposera ainsi des éléments pour motiver la sélection de l’une de ces représentations qui soit appropriée à notre problématique.

Objectif : Déchiﬀrer les relations indirectes dans les réseaux

La théorie des graphes oﬀre de nombreux outils pour l’étude des réseaux biologiques[5] dont les réseaux métaboliques. Elle a notamment été employée pour l’identification de motifs répétés au sein d’un réseau ou conservés entre des ré-seaux issus de diﬀérents organismes[222][185][161]. L’autre aspect, qui sera dé-taillé dans cette thèse, est l’utilisation de la théorie des graphes pour élucider les relations entre les métabolites, notamment au travers de la notion de proximité. Considérer uniquement les interactions directes entre les éléments du réseau re-vient à sous-estimer la propagation de certains phénomènes dans ce réseau, tels qu’un changement de concentration dans un réseau métabolique. Il convient dès lors d’étendre la notion de connectivité à celle de proximité, qui peut s’appré-cier au travers de connexions indirectes. Cette proximité permet d’extraire des sous-réseaux de tailles interprétables dont les membres partagent des liens forts (une proximité) avec un ou plusieurs métabolites d’intérêt, tels que des méta-bolites discriminants deux conditions, obtenus par analyse métabolomique. Elle permet également d’identifier des regroupements de métabolites « proches », nom-més communauté, qui peuvent s’apparenter à la notion de cluster appliquée aux réseaux. La proximité, quand elle est généralisée à l’ensemble du réseau, ouvre sur la notion d’importance d’un sommet. Un sommet « important » peut alors être caractérisé par une proximité générale à tout autre sommet du réseau, ou à un ensemble de sommets d’intérêt. De nombreuses interprétations biologiques peuvent être postulées à partir de ces notions de groupes, d’importance et plus généralement de proximité dans les réseaux métaboliques.
Les sections suivantes ont pour but de formaliser ces notions au travers de mesures issues de la théorie des graphes. Certaines de ces mesures seront détaillées dans les parties suivantes lors de leur application aux réseaux métaboliques.

Distances et problème du plus court chemin

La proximité repose sur l’interprétation d’une distance entre des éléments. La représentation des réseaux sous forme de graphes oﬀre une définition intuitive de la distance au travers de la longueur du chemin le plus court entre deux sommets[69]. Ce problème est très étudié en théorie des graphes, avec de nombreuses applica-tions telles que la recherche d’itinéraire routier ou la planification. Pour son appli-cation aux graphes « real-world » il est souvent nécessaire de prendre en compte diﬀérents paramètres afin d’obtenir une distance réaliste. Il est par exemple utile dans le cas de la recherche de chemins dans les réseaux routiers de prendre en compte la longueur des routes ou une estimation du temps nécessaire pour les traverser en voiture. Ces paramètres peuvent être formulés sous forme de poids dans un graphe attribué. Ce poids peut être vu comme un « coût de passage » pour l’emprunt d’un arc ou d’un sommet, la problématique de recherche de chemin avec un nombre « d’étapes » minimal devient alors une problématique de recherche de chemin de poids cumulé minimal. On parle parfois du chemin le plus léger (lightest path).

Notions de centralité et de métriques d’influence

La centralité est un indicateur permettant de classer les éléments d’un graphe (usuellement les sommets), en fonction de leur importance dans le réseau. L’im-portance est un concept relatif qui se définit par rapport à un rôle donné, ainsi la centralité peut être définie de nombreuses manières. La centralité peut par exemple estimer l’influence d’un sommet sur le reste du réseau, en mettant en exergue ceux possédant un plus grand nombre de connexions (centralité de de-grés) ou ceux dont la distance moyenne avec tout autre sommet est la plus faible (centralité de proximité, ou closeness). Ce type de centralité a été notamment appliqué aux réseaux sociaux pour identifier des personnes d’influence au sein d’un groupe, ou en épidémiologie pour identifier des vecteurs de transmission. Les indices de centralité permettent de classer les nœuds d’un réseau pour identifier les éléments « exceptionnels », en revanche elles ne permettent pas de comparer les nœuds deux à deux ni de capturer les rôles des nœuds qui ne sont pas par-ticulièrement importants[165]. Ce constat a conduit à la création de métriques d’influences. L’une des plus connues, intrinsèquement liée à la notion de proxi-mité, est celle d’accessibilité qui mesure le nombre de nœuds atteignables depuis le nœud considéré, étant donnée une distance maximale (exprimée en longueur de chemin). De manière générale, la centralité peut être vue comme une extension du concept de proximité entre deux nœuds à celui de proximité relative d’un nœud avec un ensemble d’autres nœuds, voir avec la totalité des nœuds du réseau.

Notion de Network flow

Les relations indirectes peuvent donc être représentées sous forme de chemins (au sens large de successions de nœuds adjacents). Il a été postulé que les quali-tés représentatives des concepts précédemment cités, en particulier la centralité, reposent sur une définition adéquate des échanges qui conduisent à ces relations indirectes. En d’autres termes, l’importance d’un acteur dans un réseau dépend de la manière dont l’information circule dans ce réseau. Il devient donc essentiel de définir des contraintes sur les chemins qui vont servir à définir la centralité, et plus généralement la proximité. Dans ce contexte, Borgatti conceptualise la notion de flow[37], au travers d’une série d’exemples : le premier est la livraison d’un colis, qui va transiter d’une personne à une autre jusqu’à atteindre son destinataire. Le parcours du colis en question est soumis à un objectif précis, la réception par le destinataire, et a vocation à remplir cette tâche de manière optimale. Ainsi le colis n’a pas de raison de transiter plusieurs fois par la même personne, et aura ten-dance à circuler via un nombre d’acteurs le plus petit possible. Il est dans ce cas raisonnable de considérer des chemins élémentaires, et de surcroît géodésiques, c’est-à-dire les plus courts chemins, pour définir la centralité des acteurs du réseau.
Un des autres exemples fourni par Borgatti est celui de la diﬀusion d’une ru-meur au sein d’un réseau social. Contrairement au colis, la rumeur n’a pas d’existence physique propre et peut être présente en plusieurs endroits du réseau à la fois, car elle n’est pas « perdue » par l’émetteur, lorsque partagée avec son voisin. Elle circule ainsi dans le réseau par duplication plutôt que par transmission. Sa diﬀusion n’est pas motivée par un destinataire à atteindre, et un acteur peut recevoir plusieurs fois la rumeur, ce qui peut rendre l’utilisation des plus courts chemins moins appropriée dans ce contexte. L’auteur note également que, hors cas de perte de mémoire, un acteur ne diﬀuse pas la rumeur à une personne qu’il a lui-même informée précédemment, et inversement. Ainsi, la diﬀusion de la rumeur ne va pas emprunter la même arête plus d’une fois, et sera par conséquent mieux modélisée par des chemins simples (trials). Borgatti définit ainsi diﬀérentes topo-logies circulatoires[37] : les processus de transmission via des chemins géodésiques, simples, élémentaires ou non (marches) et les processus de duplication, parallèles ou en série selon que la diﬀusion aux voisins se fait de manière simultanée ou non, et via des chemins simples, élémentaires ou des marches.

Conclusion et objectifs de la thèse

Cette partie a permis d’introduire la nature des données utilisées dans cette thèse, les réseaux métaboliques et les données de métabolomique, ainsi que les concepts de bases de la théorie des graphes, dont certaines méthodes présentent un fort potentiel pour l’interprétations de ces données. Il a été proposé que ces méthodes soient intimement liées à la notion de proximité dans les réseaux mé-taboliques, et que les erreurs d’interprétations qui ont marqué les débuts de leur analyse topologique ont montré l’importance d’intégrer des informations domaine-spécifiques afin de proposer des distances réalistes prenant en compte la nature des relations entre éléments d’un réseau. Cette première partie met en avant deux axes principaux pour garantir cette pertinence : une pondération porteuse de sens et une topologie adéquate des chemins considérés. La partie suivante est dédiée aux travaux de cette thèse portant sur ces deux axes dans le contexte des réseaux métaboliques. Elle s’appuie notamment sur des caractéristiques fondamentales de ces réseaux et leurs implications sur la pertinence des résultats obtenus via leurs usages. Ces travaux permettent l’émergence de recommandations génériques sur l’utilisation des réseaux métaboliques, au travers de la notion de proximité, sous-jacente à de nombreuses méthodes. En revanche, comme mentionnée précé-demment, une application pertinente des méthodes de la théorie des graphes aux réseaux métaboliques va être dépendante de la question posée. La partie iii pro-pose une nouvelle méthode d’interprétation de résultats de métabolomique. Elle est basée sur la notion de centralité et sur les ajustements proposés dans cette thèse pour prendre en compte au mieux la nature des données présentées, en particulier les limites de l’observation et de la modélisation du métabolisme.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

I Contexte : Observer, modéliser et comprendre le métabolisme
1 La métabolomique, comment observer le métabolisme
1.1 Définition
1.2 Acquisition des données
1.2.1 La Spectrométrie de Masse
1.2.2 La Résonance Magnétique Nucléaire
1.3 Bilan : une vue partielle du métabolome
2 Les réseaux métaboliques, comment modéliser le métabolisme
2.1 Définitions
2.1.1 Notion de modèle
2.1.2 Représentation du métabolisme sous forme de réseau
2.2 Reconstruction des réseaux métaboliques
2.2.1 Reconstruction à partir du génome
2.2.2 Reconstruction ab initio
2.3 Utilisation des réseaux métaboliques
2.3.1 Caractérisation topologique du métabolisme
2.3.2 Approche par segmentation en voies métaboliques
2.3.3 Vers une approche holistique : utilisation des réseaux globaux
3 La théorie des graphes, comment exploiter les réseaux métaboliques
3.1 La théorie des graphes
3.1.1 Introduction
3.1.2 Définitions et Notations
3.2 Les graphes métaboliques
3.2.1 Graphe des composés
3.2.2 Graphe des réactions
3.2.3 Graphe biparti
3.2.4 Représentation sous forme matricielle
3.2.5 Hypergraphes métaboliques
3.2.6 Bilan : Différents formalismes, différents traitements
3.3 Objectif : Déchiffrer les relations indirectes dans les réseaux
3.3.1 Distances et problème du plus court chemin
3.3.2 Notions de centralité et de métriques d’influence
3.3.3 Notion de Network flow
3.4 Conclusion et objectifs de la thèse
II Garantir la pertinence des applications de la théorie des graphes aux réseaux métaboliques
4 Problème des composés auxiliaires
4.1 Introduction
4.2 Méthodes de recherche de chemins métaboliques
4.3 Discussion
5 Gestion des réactions réversibles dans les graphes métaboliques
5.1 Introduction
5.2 Proposition d’un algorithme de recherche de chemins métaboliques valides
5.3 Discussion
6 Discussion sur la pertinence des chemins métaboliques
6.1 Limite des plus courts chemins
6.2 Limite topologique des chemins
6.3 Disponibilités enzymatiques
6.4 Disponibilités des co-substrats
6.4.1 Analyse sous contrainte : une approche alternative
6.4.2 Applicabilité du modèle choisi
6.5 Dépendance par rapport à la qualité des données
III Interpréter des résultats de métabolomique grâce aux réseaux
7 Systèmes de recommandation et centralité dans les réseaux
7.1 Introduction
7.2 Types de systèmes de recommandation
7.3 Centralités
7.3.1 Centralités de proximité
7.3.2 Centralités d’intermédiarité
7.3.3 Mesures de vitalité
7.3.4 Centralités de feedback
7.3.5 PageRank
7.4 Bilan
8 Application aux réseaux métaboliques
8.1 Choix d’une mesure appropriée
8.2 Application à la signature métabolique de l’encéphalopathie hépatique
8.3 Discussion
8.3.1 Pertinence des recommandations
8.3.2 Spécificité des recommandations
8.3.3 Stabilité des résultats face aux variations dans le réseau et les données d’entrée
8.3.4 Alternatives au PageRank
8.3.5 Limite : La nécessité d’informations structurales
8.3.6 Limite : Correspondance partielle entre données et modèles
8.3.7 Validation
8.4 Implémentation
9 Conclusion et perspectives
9.1 Conclusion
9.2 Perspectives
9.2.1 Comprendre les liens qui unissent signatures et recommandations
9.2.2 Contextualiser les recommandations à partir de la littérature scientifique
9.2.3 Comparer des listes de métabolites au travers de leurs implications mécanistiques
9.2.4 Vers une approche dynamique de l’étude du métabolisme