Application des centralités aux réseaux d’interactions protéine-protéine

Télécharger le fichier pdf d’un mémoire de fin d’études

Les réseaux d’interactions protéine-protéine

Les réseaux constituent des ensembles d’éléments (n÷uds) interconnectés par des relations particulières (arêtes). Des réseaux existent dans n’importe quel domaine. Un ré- seau informatique par exemple est un ensemble de machines connectées échangeant des informations entre elles, comme Internet. Un réseau social est un ensemble d’individus entretenant des relations les uns avec les autres, comme un groupe d’amis. En biologie aussi, l’ensemble des interactions intermoléculaires qui s’opèrent dans un organisme est souvent représenté comme un réseau. Dans le cas du réseau modélisant les PPI, les protéines constituent les n÷uds du réseau et les liens physiques ou fonctionnels forment les arêtes du réseau.
Les premiers réseaux PPI générés étaient relativement restreints et n’incluaient qu’un certain type de protéines. Par exemple Richter propose en 1975 de modéliser en ré- seau les PPI impliqués dans la reconnaissance des antigènes par des anticorps (Richter, 1975). Cette modélisation simpliée des réalités expérimentales lui permet de comprendrequelques phénomènes basiques, à une échelle locale, de la réponse immunitaire. Des ré- seaux PPI à plus large échelle ont ensuite été développés sur des organismes modèles.
Schwikowski et al. (Schwikowski et al., 2000) ont ainsi construit un réseau chez la levure comprenant 2358 interactions entre 1548 protéines. Ce n’est qu’en 2005 que des réseaux PPI se focalisant sur l’homme ont vu le jour (Rual et al., 2005; Stelzl et al., 2005). Ces réseaux ont bénécié des progrès générés dans le domaine des bases de données (Costanzo, 2000; Mewes et al., 2000) et ils fournissent désormais un modèle mathématique de l’interactome humain permettant aux scientiques de formuler des hypothèses et de les vérier (Sevimoglu et Arga, 2014). Arthur D Lander (Lander, 2010) estime d’ailleurs que le réseau de l’interactome humain, qu’il représente à l’image d’une pelote de laine (Figure I.1.2), est la nouvelle icône de la biologie du 21ème siècle compte tenu de l’énorme masse de connaissances qu’il renferme et des avancées scientiques nécessaires à sa construction. Les réseaux PPI d’aujourd’hui contiennent des milliers de protéines et d’interactions (Tableau I.1.3) et leur visualisation est un véritable challenge (Gehlenborg et al., 2010; Suderman et Hallett, 2007). La plupart des bases de données ont leur propre système d’interrogation permettant la visualisation de réseaux PPI. Certaines sont facilement accessibles aux biologistes. C’est par exemple le cas pour l’interface KUPNetViz adossée à Identication de marqueurs moléculaires des maladies rénales dans les uides biologiques 15 Réseaux d’interactions protéine-protéine et centralités pour l’identication des acteurs clés des maladies l’interactome humain à une pelote de laine, car les interactions entre les molécules sont aussi intriquées que les ls d’une pelote de laine (Lander, 2010). Les PPI sont une formidable source d’informations mais sa visualisation et son analyse nécessitent des méthodes et des connaissances particulières. la base de données KUPKB 2 (Klein et al., 2012) ou celle de STRING qui ore la possibilit é de visualiser un réseau de 2000 protéines. D’autres en revanche sont populaires chez les bioinformaticiens, mais peu utilisés par les biologistes, du fait de leur complexité.
Le logiciel Cytoscape par exemple permet la visualisation de nombreux réseaux, notamment ceux issus de STRING (Doncheva et al., 2018), mais la représentation graphique qu’il donne de la totalité des PPI actuellement connus est très dense et peu informative (Keskin et al., 2016) (Figure I.1.2). L’exploitation des réseaux PPI passera donc par une amélioration des logiciels de visualisation associée à la réduction du fossé qui existe entre biologistes et informaticiens.
Les réseaux PPI constituent un point de départ des recherches en biologie des systèmes. C’est en eet par l’étude de leur organisation et de leur comportement qu’il sera possible de mieux comprendre le fonctionnement des systèmes biologiques.

Structures des réseaux d’interactions protéine-protéine

Les recherches décrivant la structure des réseaux posent les bases de l’analyse moderne de réseaux biologiques. D’une manière générale, tous les réseaux biologiques sont gouver-

Réseaux d’interactions protéine-protéine

nés par des lois universelles communes (Barabási et Oltvai, 2004). Les 3 principales lois sont : l’eet petit monde, l’invariance d’échelle et la transitivité.
L’eet petit monde (small world eect ) (Watts et Strogatz, 1998) est connu des réseaux sociaux sous le nom de la théorie des 6 poignées de main (Karinthy, 1929). Appliqué aux PPI, cela signie que deux protéines sont toujours reliées par un chemin comprenant au maximum 6 interactions. Cet eet petit monde explique pourquoi un organisme ou une cellule sont capables de réagir rapidement et ecacement à une perturbation (Albert, 2005).
L’invariance d’échelle (scale-free network ) a été dénie en 2005 pour exprimer l’idée selon laquelle seulement quelques protéines, appelés hubs , possèdent beaucoup d’interactions avec d’autres protéines alors qu’inversement, la majorité des protéines n’en possède qu’un nombre réduit (Albert, 2005) (Figure I.1.3). Cette propriété est due au fait que les réseaux grandissent par l’ajout successif de nouveaux n÷uds qui se xent préférentiellement à des n÷uds ayant déjà beaucoup d’interactions (Barabasi et Albert, 1999). Deux principales conséquences découlent d’une telle structure. En premier, les ré- seaux biologiques sont très stables, insensibles à la délétion aléatoire de leurs n÷uds. En eet, un réseau restera quasi-entier malgré la suppression aléatoire de 80% de ses n÷uds (Albert et al., 2000) puisque cette suppression aectera principalement les n÷uds ayant un petit nombre de relations. En revanche, la structure des réseaux est très vulnérable à la suppression ciblée de ses n÷uds essentiels, les hubs. Il a été démontré que la majorité des protéines hubs joue un rôle important dans la survie cellulaire (Jeong et al., 2001) ; on comprend donc aisément que la désorganisation du réseau induite par l’altération de ces hubs sera lourde de conséquences pour les cellules, au point de mettre en péril leur survie. Enn, la notion de transitivité, étudiée depuis longtemps dans les réseaux sociaux, peut se résumer à l’adage l’ami de mon ami est mon ami (Holland et Leinhardt, 1971).
Transposée aux réseaux de PPI, cette notion signie que deux protéines qui interagissent avec une même troisième, ont de fortes chances d’interagir entre elles. Ces agrégations de protéines en interaction constituent des petits groupes appelés modules (Yeger-Lotem et al., 2004; Gavin et al., 2002) (Figure I.1.4). Les protéines de ces modules forment généralement un groupe fonctionnellement cohérent (Hartwell et al., 1999). La réciproque est également vraie puisqu’il a été observé qu’un ensemble de protéines ayant une fonction commune appartiennent à un même bloc de modules dans le réseau (Yook et al., 2004).
Ces modules peuvent adopter des formes particulières en fonction du nombre de protéines impliquées et du nombre de relations qui lient ces protéines. Ainsi, un module carré par exemple est constitué de 4 protéines, chacune étant liée à seulement 2 autres protéines du module . Un module dans lequel les protéines, quel que soit leur nombre, sont toutes connectées entre elles est un module particulier appelé clique (Giot, 2003; Albert, 2005).
L’existence de ces diérentes formes de modules repose sur des phénomènes biologiques particuliers (Yeger-Lotem et al., 2004). Par exemple, la duplication du gène codant une protéine A interagissant avec B et C conduira à la production d’une protéine A’, proche de A, qui elle aussi interagit avec B et C; il se formera de fait le module carré ABA’C dans le réseau (Force et al., 1999). De même, les protéines interagissant les unes avec les autres au sein des complexes macromoléculaires expliquent les cliques.

Application des centralités aux réseaux d’interactions protéine-protéine

Toutes les centralités précédemment énoncées peuvent être utilisées seules pour évaluer l’importance relative d’une protéine au sein des réseaux PPI. En eet, toutes ont prouvé leur ecacité puisque les protéines qu’elles placent au centre du réseau sont des protéines essentielles, c’est-à-dire dont la présence est indispensable à la survie de l’organisme (Jeong et al., 2001; Estrada, 2006; Estrada et Rodríguez-Velázquez, 2005; Zotenko et al., 2008).
Les centralités peuvent également être utilisées en association pour obtenir de meilleures performances (Jalili et al., 2016). Par exemple, Mistry et collègues combinent l’équation mesurant la centralité de degré avec celle mesurant la centralité de vecteur propre pour générer une nouvelle équation encore plus performante dans l’identication de protéines essentielles (Mistry et al., 2017). Wang et al. quant à eux considèrent que les protéines importantes sont celles qui possèdent une centralité élevée quelle que soit la méthode de mesure utilisée (Wang et al., 2014).
Il est donc dicile de préconiser à l’avance l’application d’une centralité plutôt que d’une autre, de manière isolée ou combinée tout dépend du contexte. Premièrement, les performances des diérents types de centralité sont dépendantes du réseau étudié. Zotenko et al. calculent les centralités (dont celles de degré, de sous-graphe, de vecteur-propre et d’intermédiarité) sur 6 réseaux PPI diérents pour identier les protéines essentielles à la survie cellulaire. Même si elles sont toujours meilleures qu’une sélection aléatoire, les centralités présentent des performances relatives qui dièrent suivant les réseaux. Deuxiè- mement, les centralités ont des liens entre elles, mais ces derniers évoluent en fonction du réseau étudié (Figure I.1.7) (Wuchty et Stadler, 2003; Estrada et Rodríguez-Velázquez, 2005; Koschutzki et Schreiber, 2004; Ashtiani et al., 2018). De manière générale, les centralit és n’ont pas de corrélation négative entre elles (Estrada et Ross, 2018), ce qui sugg ère qu’elles ne sont jamais fondamentalement opposées. De plus, des corrélations élevées existent entre la centralité de degré et celle de proximité (Estrada et Rodríguez-Velázquez, 2005), ce qui signie que les protéines avec une haute centralité de degré sont situées à une faible distance des autres n÷uds du réseau. En revanche, des liens peuvent exister dans un réseau donné alors qu’ils n’existent pas dans un autre : par exemple, une forte corrélation entre la centralité de vecteur propre et la centralité de degré a été observée dans le réseau PPI humain (Ashtiani et al., 2018) mais pas dans le réseau PPI de levure (Koschutzki et Schreiber, 2004).
Ainsi, en pratique, lorsqu’on veut analyser un réseau particulier, il est recommandé de tester dans un premier temps l’ensemble des centralités à disposition, seules puis en association, puis de comparer dans un second temps ces méthodes, à l’aide par exemple d’une analyse ACP, an de choisir la méthodologie la plus appropriée au réseau considéré (Ashtiani et al., 2018).

Identication des acteurs clés des maladies rénales

Les maladies rénales se manifestent par une perte progressive de la fonction rénale (Romagnani et al., 2017). Les mécanismes biologiques à l’origine de ces maladies et de leur progression ne sont pas toujours bien compris (Cijiang He et al., 2012; Brosius et Ju, 2018; Nicoll et al., 2018). Il est donc important d’identier de nouveaux acteurs moléculaires des maladies rénales. Dans ce but, 5 types d’approches sont actuellement utilisées : (i) une approche simple basée uniquement sur l’expérience, et 4 approches plus complexes, qui associent les résultats expérimentaux à (ii) l’utilisation d’un logiciel commercial (Ingenuity Pathway Analysis) ou l’analyse de réseaux PPI (iii) focalisés sur les molécules diérentiel- Identication de marqueurs moléculaires des maladies rénales dans les uides biologiques 27 Réseaux d’interactions protéine-protéine et centralités pour l’identication des acteurs clés des maladies lement exprimées, (iv) spéciques au tissu rénal ou (v) prenant en compte l’interactome dans sa globalité.

Méthodes basées sur l’expérimentation

Les études expérimentales demeurent de nos jours les approches les plus utilisées pour décortiquer les mécanismes des maladies, que ce soit dans un contexte de maladies rénales ou dans un contexte plus général (Cijiang He et al., 2012). La majorité de ces études compare l’expression de molécules entre une population d’individus malades et un groupe d’individus sains en considérant que les molécules les plus diérentiellement exprimées (DE) constituent des acteurs importants de la maladie. Grâce au développement des analyses omiques qui permettent de mesurer simultanément l’abondance de milliers de composés dans un échantillon donné, un grand nombre d’acteurs clés des maladies rénales a ainsi pu être mis en évidence. Ces études expérimentales se limitent cependant souvent à l’étude d’un seul niveau moléculaire (ARNm, protéines, . . . ). De plus elles identient les molécules clés uniquement sur la base de leur expression alors qu’une molécule peut avoir un rôle clé dans la pathologie sans modication de son expression, via par exemple ses propriétés de liaison avec d’autres partenaires ou son activité enzymatique. Enn, certains acteurs clés peuvent être absents de l’échantillon dans lequel les mesures sont réalisées (par exemple certaines protéines du tissu rénal ne seront jamais excrétées dans l’urine).

Méthodes utilisant Ingenuity Pathway Analysis (IPA)

Le logiciel commercial Ingenuity Pathway Analysis (IPA) est souvent utilisé pour analyser les données omiques issues de plusieurs niveaux moléculaires. IPA propose par exemple l’analyse Canonical Pathway qui permet de mettre en avant les voies métaboliques auxquelles appartiennent les molécules diérentiellement exprimées. Cette approche descriptive identie donc des fonctions pathologiques importantes et les molécules clés qui leur sont associées. Largement utilisée dans l’étude génomique du tissu rénal (Parikh et al., 2015) et dans l’étude protéomique de l’urine (Hogan et al., 2014; Davalieva et al., 2015), cette méthode est toutefois restreinte aux molécules présentes dans l’échantillon analysé et dont l’expression varie au cours de la pathologie.
IPA propose également un deuxième type d’analyse (Causal analysis approaches (Krä- mer et al., 2013)) dont l’objectif est de comprendre quelles sont les origines biologiques des eets observés expérimentalement. L’algorithme principal, Upstream regulator analysis, est particulièrement intéressant dans la recherche d’acteurs clés des maladies. En eet il permet de prédire les molécules qui peuvent potentiellement expliquer la perturbation des molécules DE en cherchant les partenaires les plus directs de ces molécules DE (Figure I.1.9). La force de cet algorithme réside donc dans sa capacité à mettre en avant des composés non-DE ou encore non mesurés dans l’échantillon. C’est grâce à ce type d’analyse que Nair et al. ont identié IL1b comme une protéine clé de l’inammation dans la néphropathie diabétique alors même que son expression n’était pas modiée dans le tissu rénal des patients (Nair et al., 2018). A part dans le travail de Nair, cette méthodologie a été cependant peu utilisée pour la découverte de nouvelles molécules clés dans le contexte des maladies rénales. De plus, le fonctionnement du logiciel IPA repose sur une large base de données, Ingenuity Knowledge Base, qui intègre les relations entre les gènes, les protéines et les métabolites, mais dont l’accessibilité n’est pas ouverte.

Analyse des fonctions biologiques des nouveaux gènes pathologiques

La cohérence biologique des gènes pathologiques prédits est ensuite évaluée grâce à des sources d’annotations qui permettent de faire le lien entre un gène et ses fonctions biologiques. La Gene Ontology (GO) est utilisée pour annoter les gènes selon 3 caté- gories : fonction moléculaire, processus biologique et compartiment cellulaire. La Kyoto Encyclopedia of Gene and Genomes (KEGG) répertorie quant à elle des gènes et les voies métaboliques (pathway) qui leur sont associées. L’annotation des fonctions liées aux gènes pathologiques met en évidence un enrichissement pour certaines voies métaboliques qui constituent de potentiels nouveaux processus contribuant aux maladies. Par exemple, l’étude de Ma et al. a identié un module enrichi en gènes liés au système immunitaire, ce dernier ayant été associé à la néphropathie diabétique par des études antérieures (Ma et al., 2017). De manière intéressante, les résultats d’Abedi et al. et de Rabieian et al. montrent qu’il est plus informatif d’étudier les voies associées uniquement aux gènes centraux (hubs / modules) plutôt que celles liées à l’ensemble des gènes DE (Abedi et Gheisari, 2015;
Rabieian et al., 2017). Par exemple, dans le travail de Rabieian et al., l’analyse des gènes centraux conduit à l’identication d’un ensemble de 78 pathways en accord les uns avec les autres alors que la prise en compte additionnelle des gènes DE réduit le nombre de voies mises en avant (34), celles-ci étant de surcroît seulement faiblement liées sur le plan fonctionnel.
L’analyse du réseau PPI basée sur les molécules DE, telle que nous l’avons décrite, est une méthode à fort potentiel ; elle n’a toutefois pas encore porté ses fruits en recherche mé- dicale pour la compréhension des maladies, notamment rénales. Premièrement, l’approche ne s’est développée que récemment (2015-2019) grâce à la disponibilité des données, rendue possible par STRING et GEO par exemple, et celle des outils notamment Cytoscape. Son utilisation est à ce jour encore très limitée aux (bio)informaticiens si bien que la validation expérimentale des nouveaux gènes et processus pathologiques que la méthode a prédit n’a, mise à part une exception (Chen et al., 2018), jamais été réalisée. Deuxièmement, dans le domaine des maladies rénales, la méthodologie n’a exploité que des données génomiques.
Or il serait judicieux de l’étendre aux données issues de la protéomique, comme cela a été fait pour d’autres contextes pathologiques, dans la mesure où les protéines sont plus proches du phénotype que ne sont les gènes. Chen et al. par exemple ont identié deux protéines cibles (SLC2A4 et TUBB2C) pour le traitement du cancer de la prostate (Chen et al., 2016) grâce au calcul des centralités de proximité et d’intermédiarité sur un réseau PPI construit à partir des protéines DE dans le tissu prostatique cancéreux. Enn, même si les hubs et modules constituent une liste intéressante de molécules pathologiques servant de point de départ pour des études complémentaires, l’approche limite la possibilité de détecter de nouveaux acteurs car elle se restreint aux molécules dont l’expression est mesurable dans l’échantillon étudié, ou au mieux à leurs interacteurs directs dans le réseau si celui-ci a été enrichi.

Méthodes basées sur l’utilisation du réseau d’interactions protéineprot éine global

Pour nir, la dernière approche actuellement utilisée pour identier de nouveaux acteurs moléculaires des maladies rénales se base sur l’exploration de l’interactome dans son intégralité. Il s’agit dans ce cas de repérer des gènes prometteurs dans le réseau PPI global puis de les classer en fonction de leur potentiel. Les nouveaux candidats ainsi hiérarchisés pourront alors servir de point de départ pour des expériences futures (Bromberg, 2013). Cette stratégie relève d’une problématique de priorisation (Tranchevent et al., 2011).

Méthodes de priorisation

Pour prédire de nouveaux gènes pathologiques, les méthodes de priorisation utilisent soit les gènes pathologiques déjà connus soit les gènes DE dans le réseau PPI. L’hypothèse dite guilt by association (coupable par association) en est le point de départ (Oliver, 2000; Uetz et al., 2000) et les centralités occupent une place importante dans la méthodologie.
Il existe principalement 4 types de méthodes de priorisation qui dièrent les unes des autres par le type de centralité qu’elles utilisent : degré, vecteur propre, proximité et intermédiarité (Tableau I.1.5).

Faciliter l’accès aux biologistes

L’objectif principal de cet outil est d’être pris en main directement par les biologistes.
Son utilisation ne devrait donc pas nécessiter de connaissance en programmation. Je l’ai développé grâce au package R Shiny (Chang et al., 2019), permettant de créer une interface simple. Le script de cette application est disponible sur Github 1. L’outil est adapté aux besoins et aux habitudes de ce domaine d’application. De ce fait de nombreux choix dans le développement de cet outil ont été faits pour se rapprocher des routines en biologie. Par exemple l’importation des données et le téléchargement des résultats peuvent être faits par des formats communément utilisé comme Excel. De plus il est important de pouvoir s’assurer de la bonne compréhension et utilisation de chaque étape du pipeline. Il m’a paru donc important que chaque étape soit pourvue de sortie graphique et que les résultats (intermédiaires ou naux) soient téléchargeables par l’utilisateur de l’application.
L’une des préoccupations principales dans son développement est de créer un outil adaptable à diérentes études. Il n’existe pas de traitement de référence avec ce type de données, en termes de normalisation, de sélection, ou même de modélisation. La conception de cet outil a donc été faite avec la perspective de s’adapter à toutes les utilisations par la mise à disposition de tous les paramètres, réglables directement par l’utilisateur.

Identication et validation des biomarqueurs

Les données de départ utilisé par La Boize sont deux jeux de données décrivant les abondances des molécules, chez des individus sains (controls ) et malades (cases) (Figure II.1.2). Les données omiques, en particulier les résultats obtenus par spectrométrie de masse, sont de données d’abondance relatives à un grand nombre de molécules qu’il est dicile de gérer avec des outils conventionnels, du type tableur. L’utilisation des outils statistiques comme R est souvent indispensable.
L’association observée entre la maladie et les molécules peut être très spécique aux individus sélectionnés. Pour éviter ce biais les études d’identication de biomarqueurs sé- parent souvent les individus en 2 groupes qui formeront la cohorte d’apprentissage et celle de validation. La cohorte d’apprentissage permettra d’identier les biomarqueurs et de créer le modèle et les performances sont ensuite évaluées sur la cohorte de validation indé- pendante. Ce procédé permet de s’assurer de la généralisation de l’observation (Mischak et al., 2010a; Moons et al., 2012).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
I Sélection de protéines importantes dans les maladies rénales 
1 Réseaux d’interactions protéine-protéine et centralités pour l’identication des acteurs clés des maladies 
1.1 Réseaux d’interactions protéine-protéine
1.1.1 Interactions protéine-protéine
1.1.2 Identication des interactions protéine-protéine
1.1.3 Base de données d’interactions protéine-protéine
1.1.4 Les réseaux d’interactions protéine-protéine
1.1.5 Structures des réseaux d’interactions protéine-protéine
1.2 Centralités
1.2.1 Diérents type de centralités
1.2.2 Application des centralités aux réseaux d’interactions protéine-protéine
1.2.3 Propriétés des centralités des protéines pathologiques
1.3 Identication des acteurs clés des maladies rénales
1.3.1 Méthodes basées sur l’expérimentation
1.3.2 Méthodes utilisant Ingenuity Pathway Analysis (IPA)
1.3.3 Méthodes basées sur les réseaux des gènes diérentiellement exprimés
1.3.4 Méthodes basées sur des réseaux spéciques au tissu rénal
1.3.5 Méthodes basées sur l’utilisation du réseau d’interactions protéine-protéine global
2 PRYNT, une méthode de priorisation du protéome urinaire au service des maladies rénales – Résultats
Results
Discussion
Conclusion
II Identication de nouveaux biomarqueurs des maladies rénales dans les uides biologiques 
Introduction
1 La Boize, développement d’un outil de diagnostic à partir de données omiques
1.1 Faciliter l’accès aux biologistes
1.2 Les données
1.3 Identication et validation des biomarqueurs
1.3.1 Identication statistique des biomarqueurs
1.3.2 Construction d’un modèle de prédiction
1.4 Application du modèle à de nouvelles données
2 Analyse du métabolome urinaire de l’obstruction de la jonction pyélo-uretérale – Résultats 
3 Analyse du peptidome du liquide amniotique des anomalies congénitales du rein – Résultats 
Introduction
Results
Discussion
Material and methods
Conclusion
Conclusion générale
Comment identier de nouveaux acteurs clés dans le développement des maladies rénales à partir de l’analyse de la composition moléculaire de l’urine ?
Comment détecter la présence d’une maladie rénale ou prédire son évolution à partir de l’analyse de la composition moléculaire de l’urine ?
La multidiciplinarité : une complexité nécessaire.
Glossaire
Bibliographie 

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *