Comparaison de termes et d’ensembles de termes d’une ontologie

Télécharger le fichier pdf d’un mémoire de fin d’études

PARTICULARITES´ DU METABOLISME´ DES LIPIDES CHEZ LES OISEAUX

Nous avons vu les grandes lignes du metabolisme´ des lipides tracees´ a` partir de connaissances obtenues essentiellement chez les mammiferes`. D’autres especes,` les oi-seaux notamment et le poulet en particulier, presentent´ cependant des differences´ par rapport au schema´ que nous venons de decrire´.
Les oiseaux n’ont pas de vaisseaux lymphatiques intestinaux. Apres` leur absorption dans l’intestin grele,ˆ les lipides alimentaires sont assembles´ dans les enterocytes´ sous forme de portomicrons (equivalents´ aux chylomicrons des mammiferes)` et liber´es´ dans la circulation porte. Les portomicrons vont donc etreˆ captes´ en partie par le foie avant de rejoindre la circulation gen´erale´ [Fraser et al., 1986].
La lipogenese` est tres` limitee´ dans les tissus adipeux ; elle a principalement lieu dans le foie [Hermier, 1997]. Le stockage des triglycerides´ depend´ du substrat lipidique plas-matique issu de l’alimentation et de la synthese` hepatique´. L’accumulation excessive et non valorisable de lipides dans les tissus adipeux des poulets de chair est actuellement un probleme` majeur pour les producteurs [Bourneuf et al., 2006; Daval et al., 2000]. Dans les jeunes poulets de chair approchant leur poids commercial, entre 80 et 85% des acides gras accumules´ dans les tissus adipeux sont deriv´es´ de lipides plasmatiques [Griffin et al., 1992]. L’alimentation de ces poulets est pauvre en graisses (moins de 10%) constituees´ principalement de triglycerides´.
Tous les autres triglycerides´ sont synthetis´es´ dans le foie, dependant´ comme chez les mammiferes` de la disponibilite´ de glucose alimentaire qui permet d’obtenir de l’acetyl´-CoA [Bergen et Mersmann, 2005]. Les triglycerides´ ne sont pas les seuls lipides a` etreˆ synthetis´es´ dans le foie, qui est aussi le principal site de synthese` du cholesterol´ et des phospholipides. Ces lipides, associes´ a` des apolipoproteines,´ sont les principaux consti-tuants des lipoproteines´ [Hermier, 1997].
Les deux principales classes de particules lipoproteiques´ (HDL et VLDL) sont synthetis´ees´ et secr´et´ees´ par le foie, a` destination des tissus de stockage lipidique.
Leur partie proteique´ (apolipoproteines)´ y est aussi synthetis´ee´. L’apolipoproteine´ B (APOB) et l’apolipoproteine´ A-1 (APOA1) sont les deux principales apolipoproteines´ chez le poulet [Brown et Dower, 1990]. A la difference´ des mammiferes,` la poule n’a pas d’apolipoproteine´ E (APOE), mais sa fonction est portee´ par APOA1 [Daval et al., 2000]. Les triglycerides,´ le cholesterol,´ les phospholipides et APOB sont assembles´ en VLDL secret´es´ dans la circulation sanguine. Il en va de memeˆ pour la formation des HDL avec APOA1. Les triglycerides´ s’associent pref´erentiellement´ avec APOB pour former des VLDL tandis que les phospholipides et le cholesterol´ s’associent plutotˆ avec APOA1 pour former des HDL [Hermier, 1997]. Chez la poule, les triglycerides´ sont stockees´ principalement dans les tissus periph´eriques´ abdominaux. A la difference´ des mammiferes,` ces tissus adipeux ne secretent` pas de leptine, l’hormone de satiet´e,´ qui n’existe pas chez la poule [Pitel et al., 2010].
Le transfert des triglycerides´ depuis les VLDL et les portomicrons dans les tissus adi-peux implique leur catabolisme par la lipoproteine´ lipase (LPL). La LPL est synthetis´ee´ dans les tissus adipeux, les muscles et autres types cellulaires, mais seules les LPL secr´et´ees´ et captees´ a` la surface des capillaires sont actives Hermier [1997]. La LPL est l’enzyme dont le taux est limitant pour l’hydrolyse des lipoproteines´ plasmatiques riches en triglycerides´. L’activite´ LPL diminue avec une nutrition riche en acides gras insatures´ des series´ ω3 et ω6.
Un oiseau dont la lipogenese` excede` la capacite´ de synthese` et de secr´etion´ hepatique´ de lipoproteines´ developpe´ un foie gras. Dans le cas des poules pondeuses, chez les-quelles la stimulation de la lipogenese` par les estrogenes` peut conduire au depassement´ de la capacite´ de secr´etion´ des VLDL, cela peut provoquer une maladie metabolique´ : le syndrome de foie gras hemorragique,´ qui reduit´ la ponte et augmente la mortalite´ [Hansen et Walzem, 1993]. Les palmipedes` sauvages subissent un engraissement gen´eral´ avant leur migration, leur foie gras servant d’organe de stockage d’energie´. Cette capacite´ na-turelle est utilisee´ pour la production de foie gras par gavage avec un regime´ alimentaire riche en glucides. Dans ces conditions, la lipogenese` hepatique´ augmente radicalement, et le poids du foie peut passer de 100 g a` 1 kg en 2 semaines. La steatose´ hepatique´ est due a` une accumulation de triglycerides´ dans les cellules du parenchyme hepatique´. Chez l’oie, cela provoque une importante augmentation des concentrations de HDL et VLDL. En outre, ces VLDL contiennent moins de triglycerides,´ temoignant´ d’un defaut´ d’incorpora-tion des triglycerides´ dans les VLDL, a` l’origine de leur accumulation dans le foie chez ces especes`. Chez les poulets, une grande quantite´ de triglycerides´ est stockee´ tempo-rairement dans le foie, mais necessite´ ensuite une hydrolyse et une re´-esterification´ avant d’etreˆ secr´et´ee´. Chez les palmipedes` gaves,´ la regulation´ hormonale ne permet pas au foie d’evacuer´ cet exces` de lipides, qui s’accumule [Hermier, 1997].
On le voit, ces quelques exemples suffisent a` illustrer des differences´ qui existent entre un oiseau (la poule) et un mammifere`. Ils soulevent` aussi la question de l’analyse des ressemblances et differences´ dans un cadre plus global.

COMPARAISON INTER-ESPECES` : DE L’AP-PROCHE STRUCTURELLE A` L’APPROCHE FONC-TIONNELLE

L’integralit´e´ des reactions´ biochimiques qui ont lieu dans un organisme sont liees,´ comme le montre la figure 6 issue de la base de donnees´ KEGG. Il est cependant possible de considerer´ des segments de suites de reactions,´ qui constituent une voie metabolique´. Ces differentes´ voies metaboliques´ sont symbolisees´ par les differentes´ couleurs de la figure 6.
Entre deux especes,` une voie metabolique´ peut etreˆ parfaitement identique, differer´ par quelques reactions´ chimiques, voire etreˆ presente´ chez une espece` et absente chez une autre. Ainsi, si on considere` Homo sapiens et Gallus gallus, la synthese` de l’acide palmitique se deroule´ de la memeˆ fac¸on, alors le phenom´ene` de satiet´e´ fait intervenir des agents differents´ (absence de leptine chez Gallus gallus) et que la lactation est totalement absente chez Gallus gallus. La conservation de voies metaboliques´ entre especes` est liee´ a` leur proximite´ taxonomique. Il est possible d’evaluer´ la similarite´ d’une voie metabolique´ analogue entre deux especes` en comparant les reactions´ presentes´ chez chacune des especes`.
L’enchaˆınement des reactions´ au sein des voies metaboliques´ des especes` proches, comme les vertebr´es,´ sont souvent rigoureusement identiques. Cela signifie qu’une voie metabolique´ identique ou tres` similaire entre deux especes` au niveau de sa structure peut etreˆ finalement assez differente´ au niveau des fonctions biologiques qui dependent´ d’elle. On peut ainsi parler de voies metaboliques´ structurellement identiques ou similaires mais fonctionnellement differentes´. On peut egalement´ envisager le cas inverse de voies metaboliques´ dont la structure est differente´ mais dont les fonctions sont similaires.
Il faut etudier´ plus en detail´ les intervenants des reactions´ pour mieux comprendre ce qui provoque les differences´ constatees´ entre especes`. Les reactions´ des voies metaboliques´ sont gen´eralement´ catalysees´ par des enzymes. Lorsqu’une memeˆ reaction´ est presente´ chez deux especes,` l’enzyme impliquee´ peut etreˆ codee´ par un gene` homologue. On parle d’homologie quand un gene` existe en plusieurs versions derivant´ d’une memeˆ version originelle a` travers un processus d’evolution´. Si ces differentes´ versions appartiennent a` des especes` differentes,´ on parle d’orthologie. Si ces versions co-existent au sein d’une memeˆ especes,` on parle de paralogie. Il est egalement´ possible qu’une enzyme qui catalyse une memeˆ reaction´ chez deux especes` ne soit pas le produit de l’evolution´ d’un memeˆ gene` originel. On parle alors de genes` ayant des fonctions analogues, mais n’ayant aucun lien dans l’evolution´.
L’etude´ des fonctions des genes` a permis d’annoter fonctionnellement ceux-ci, c’est-a`-dire d’associer a` chaque gene` des mots-cles´ resumant´ leur fonction. Le vocabulaire employe´ lors de ce processus d’annotation est formalise´ au sein d’une structure appelee´ Gene Ontology present´ee´ dans le chapitre suivant.

KEGG

KEGG est une base de donnees´ de voies metaboliques,´ revues manuellement, qui concerne plusieurs especes` et qui a et´e´ developp´ee´ pour l’analyse des fonctionnalites´ des cellules, des organismes et des ecosyst´emes` [Kanehisa et Goto, 2000]. Elle se base sur l’information moleculaire´ issue de technologies experimentales´ a` haut-debit´ telles que le sequenc´¸age de genomes´. KEGG repertorie´ 2793 especes,` dont 192 eukaryotes. Parmi ceux-ci, on compte 26 vertebr´es´ dont l’Humain, la Souris et la Poule.
Depuis 2011, le tel´echargement´ des donnees´ de KEGG demande de souscrire une licence payante. Ces donnees´ sont dans un format propre developp´e´ par KEGG, le format KGML. Ces deux derniers points nous ont tres` rapidement incite´ a` abandonner l’utilisation de KEGG.
WIKIPATHWAY
Wikipathway est un projet collaboratif visant a` elaborer´ une base de donnees´ de voies metabolique´ multi-especes` [Pico et al., 2008]. Wikipathway reprend d’une part les schemas´ de voies metaboliques´ disponibles dans d’autres bases de donnees´ telles que Reactome ou KEGG, et d’autre part propose des schemas´ cre´es´ par les utilisateurs a` l’aide d’un outil d’edition´ graphique. Les donnees´ sont librement tel´echargeables´ sous differents´ formats, dont BioPAX. En raison de sa nature collaborative, Wikipathway a une composition plus het´erog´ene` (dans les representations´ et formalismes adoptes)´ que les autres bases de donnees´ disponibles. Par consequent,´ Wikipathway n’a et´e´ utilise´ dans cette these` qu’a` des fins de recherche d’exemples et de verifications´ croisees´ ponctuelles.
INGENUITY
Ingenuity Pathway Analysis (IPA) est un outil developp´e´ par Ingenuity Systems pour l’etude´ des voies metaboliques´ et reseaux´ biologiques 2. Il fonctionne selon un modele` non libre payant. L’export de donnees´ gen´er´ees´ par IPA est tres` limite´ et ne se preteˆ pas a` leur inclusion dans une etude´ a` grande echelle´. L’inter´etˆ d’IPA dans le cadre d’une telle etude´ reside´ en la possibilite´ de confirmer manuellement une hypothese` particuliere` obtenue avec un autre outil.
BASES DE CONNAISSANCES ET ONTOLOGIES
En complement´ des bases de donnees,´ il existe des bases de connaissances et ontologies qui repertorient´ et structurent les informations relatives aux domaines qui nous interessent´. Elles constituent une ressource essentielle pour l’annotation des connaissances. Elles permettent l’application de raisonnements afin de faire apparaˆıtre des connaissances implicites a` partir de celles disponibles dans les grandes bases de donnees´.
DEFINITION´ ET PROPRIET´ES´ D’UNE ONTOLOGIE
Une ontologie est une representation´ formelle des connaissances symboliques dans laquelle les concepts (classes) sont decrits´ a` la fois par leur signification et par leurs re-lations [Bard et Rhee, 2004]. Une ontologie se presente´ sous la forme d’un graphe dans lequel chaque nœud est une classe relative au domaine decrit´ par l’ontologie. Ces nœuds peuvent etreˆ relies´ par differents´ liens, le lien le plus frequent´ etant´ la relation “Is a”, qui relie une classe a` une super-classe.
Le graphe d’une ontologie est oriente,´ c’est-a`-dire que les relations entre les nœud ont un sens. Cela permet la description de la connaissance formalisee´ en allant des concepts les plus gen´eraux´ aux plus precis´. Dans une ontologie, une ≪ classe ≫ (ou ≪ concept ≫, ou ≪ terme ≫) est un nœud du graphe. Les termes situes´ en amont d’un nœud sont ses ≪ ancetresˆ ≫ et ceux situes´ en aval sont ses ≪ descendants ≫. Parmi les ancetresˆ d’un terme, ceux qui ne sont separ´es´ de ce terme que par une relation sont ses ≪ parents ≫. De meme,ˆ parmi les descendants d’un terme, ceux qui ne sont separ´es´ de ce terme que par une relation sont ses ≪ enfants ≫. Le concept le plus gen´eral´ d’une ontologie n’a pas de parent ; il s’agit de la ≪ racine ≫.
MATERIEL ET METHODES
Les concepts qui constituent les nœuds d’une ontologie peuvent etreˆ utilises´ pour decrire´ des donnees´ par un processus d’annotation. L’inter´etˆ d’une ontologie reside´ en trois propriet´es´ importantes :
– Une ontologie est gen´erique´, c’est-a`-dire que la connaissance qui y est formalisee´ est vraie tout le temps, par opposition aux donnees´ annotees,´ qui sont anecdoc-tiques. Ainsi, ≪ Wallace est un chien ≫ est une annotation anecdotique, alors que ≪ les chiens sont des mammiferes` ≫ est une connaissance universelle.
–  Une ontologie permet le partage et la reutilisation´ des connaissances. En effet, une memeˆ ontologie peut servir a` annoter differents´ jeux de donnees´. Ainsi, la taxonomie des especes` 4 basee´ sur celle de Carl von Linne´ sert de ref´erence´ a` des travaux de nombreux domaines. Les principales ontologies biomedicales´ sont disponibles sur bioportal [Whetzel et al., 2011] ou obofoundry 5.
– Il est possible de proceder´ a` du raisonnement sur une ontologie [Eiter et al., 2006]. Plusieurs types de raisonnements peuvent etreˆ appliques,´ voire combines´ comme la gen´eralisation´ ou l’abstraction, la classification, la mesure de distance ou de si-milarite´ entre concepts ou ensembles de concepts [Jun et al., 2002; Shahar et al., 1999; Zhao et al., 2009; Wolstencroft et al., 2006; Kulik et al., 2005].
Une ontologie permet une meilleure exploitation des donnees´ stockees´ dans les bases de donnees´. Cela recouvre deux types d’amelioration,´ qui ne sont pas exclusives. Une ontologie permet d’enrichir les requetesˆ afin de reduire´ le bruit et le silence. Une ontologie permet aussi d’interpreter´ les resultats´ d’une requeteˆ afin d’en tirer des connaissances implicites au premier abord.
Dans une ontologie, certaines relations, telle la relation “is a”, sont transitives, permet-tant l’heritage´ des ancetresˆ. Cela signifie que si un terme C est relie´ a` un terme B par une relation “is a” et que B est egalement´ relie´ relie´ a` A par un “is a”, alors on pourra dire que C is a A. Cette regle` est vrai quelque soit le nombre de termes ≪ intermediaires´ ≫. Ainsi, dans l’ontologie donnee´ en exemple, Homo sapiens et Mus musculus sont tous deux des placentaires mais egalement´ des mammiferes`. Macropus rufus (le kangourou roux) est aussi un mammifere,` mais par contre il n’est pas placentaire mais marsupial.
En plus de la relation “is a” qui definit´ une hierarchie´ de classes, une ontologie peut comporter des propriet´es´ affectees´ a` certaines classes. Dans la Figure 3, des propriet´es´ sont associees´ a` certaines classes. Par exemple, on peut affecter la propriet´e´ ”a la ca-pacite´ de nager” a` la classe ≪ poisson ≫. Cette propriet´e´ s’applique alors a` toutes les instances de la classes ≪ poisson ≫, qu’elles soient directes ou indirectes, c’est-a`-dire instances d’une sous-classe de ≪ poisson ≫. Puisque Salmo salar est une sous-classe de ≪ poisson ≫, on en deduit´ que les saumons ont la capacite´ de nager. Il faut remarquer qu’il s’agit ici d’une condition necessaire´ (tous les poissons ont necessairement´ la capacite´ de nager) mais pas suffisante (des animaux qui ne sont pas des poissons peuvent aussi avoir cette capacite)´.
Il est egalement´ possible d’affecter une propriet´e´ necessaire´ et suffisante a` une classe, qui agit alors comme une definition´. Par exemple, on peut definir´ la classe ≪ mammifere` ≫ comme l’ensemble des animaux possedant´ des glandes mammaires et allaitant leurs petits. Puisqu’il s’agit d’une condition necessaire,´ cette definition´ s’applique naturellement a` toutes les instances de mammifere`. Le fait que ce soit egalement´ une condition suffisante permet de deduire´ que si un animal possede` des glandes mammaires et allaite ses petits, alors c’est une instance de mammifere`. Si on avait (de fac¸on erronee)´ fait de la capacite´ de nager une definition´ de la classe poisson, on aurait pu en deduire´ que les dauphins sont des poissons. A l’inverse, la respiration exclusivement branchiale est propre aux poissons, faisant de cette propriet´e´ une condition necessaire´ et suffisante (le terme ≪ exclusivement ≫ ayant son importance pour ne pas classer les amphibiens parmi les poissons en raison des branchies qu’ils ne possedent` qu’au stade larvaire).
Ici, 7 classes sont decrites´ chacune par une propriet´e´.
Il est important d’etreˆ exhaustif dans la definition´ des classes afin de ne pas faire d’er-reur. Ainsi, si on ajoute une classe ≪ Oiseau ≫ a` notre exemple, simplement decrite´ par les propriet´es´ ≪ possede` un bec ≫ et ≪ est ovipare ≫, il sera possible de classer Ornithorhyn-chus anatinus (l’ornithorynque) a` la fois dans les mammiferes` (parce qu’il allaite ses petits) et dans les oiseaux (parce qu’il a un bec et pond des œufs). Pour eviter´ ce genre d’erreurs, il est possible d’utiliser la disjonction. Ainsi, dans la taxonomie des vertebr´es,´ toutes les classes sont disjointes : il est impossible d’appartenir a` plusieurs classes a` la fois. Ajouter suffisamment de propriet´es´ dans la description des classes et utiliser la disjonction a` bon escient permet d’eviter´ les erreur.
Toutes les classes d’une ontologie ne sont pas reparties´ de fac¸on homogene`. On parle de differences´ de granularite´. La figure 4 ajoute la classe ≪ Oiseau ≫ a` notre exemple d’ontologie des vertebr´es´. Or cette classe n’est pas subdvisee´ en groupes. Les especes` qui respectent les propriet´es´ de la classe ≪ Oiseau ≫ y sont directement rattachees´. Seuls deux liens separent´ ainsi ≪ Gallus gallus ≫ de la racine de l’ontologie, contre trois pour Homo sapiens : il y a une difference´ de granularite´.
Enfin, une propriet´e´ importante des ontologies est present´ee´ dans la Figure 5 : l’heritage´ multiple. A partir du moment ou` deux classes ne sont pas disjointes, plusieurs sous-classes peuvent s’y rattacher. Dans cette ontologie qui classifie les animaux en fonction de leur cadre de vie, on peut voir que certains animaux peuvent se trouver dans plusieurs cadres de vie differents´. Ainsi, Oryctolagus cuniculus (le lapin) peut vivre a` l’etat´ sauvage comme etreˆ domestique´ ou elev´e´ pour sa viande ou dans un laboratoire. Dans cet exemple, les cadres de vie ne sont pas disjoints, alors que les especes` qui y vivent le sont.
GENE ONTOLOGY
Gene Ontology (GO) est un projet visant a` standardiser la representation´ des connais-sances concernant les genes` et produits de genes` [Ashburner et al., 2000]. GO propose un vocabulaire controlˆe,´ compose´ de termes hierarchises´ et permettant de decrire´ les caracteristiques´ d’un produit de gene`. Ce vocabulaire est commun a` tous les produits de genes,` quels que soient les genes` et les especes` consider´es´. GO est divise´ en trois sec-tions principales independantes´ relatives aux processus biologiques (biological process, BP), aux fonctions moleculaires´ (molecular functions, MF) et aux composants cellulaires (cellular component, CC).
Les nœuds de Gene Ontology sont des termes decrivant´ les caracteristiques´ d’un produit de gene`. Ils sont appeles´ “Termes GO”. Ces termes GO sont lies´ par cinq relations differentes´ :
– “Is a” est une relation simple de type classe/sous-classe. A is a B signifie que A est une sous-classe de B, c’est-a`-dire que toutes les instances de A sont des instances de B. Si A is a B is a C, on peut inferer´ que A is a C.
– “Part of” est une relation de composition partielle. C part of D signifie que chaque instance de C est toujours une partie d’au moins une instance de D. Cela n’implique pas que toutes les instances de D aient au moins une partie qui soit une instance de C. Si A part of B part of C, alors A part of C.
– La relation “Regulates” et ses 2 sous-relations “Positively Regulates” et “Negatively Regulates” decrivent´ une interaction entre un processus biologique et un autre. A Regulates B signifie que chaque instance de A regule´ B, mais que toutes les ins-tances de B ne sont pas forcement´ regul´ees´ par A. Si A regulates B is a C, ou bien si A is a B regulates C, alors A regulates C. Il en va de memeˆ pour les relations Positively et Negatively Regulates.
GENE ONTOLOGY ANNOTATION
Gene Ontology Annotation (GOA) est un projet du European Bioinformatics Institute (EBI) ayant pour but l’annotation de produits de genes` de differentes´ especes` par des termes GO [Camon et al., 2003]. Il se base sur plusieurs bases de donnees´ comme Uni-Prot ou Ensembl, chaque entree´ restant unique. GOA est donc un trait d’union entre ces bases de donnees´ et Gene Ontology [Hill et al., 2008]. Chaque produit de gene` est iden-tifie´ dans GOA par son symbole et son numero´ de taxon, ainsi que par un id propre a` chaque base de donnees´ de genes`. C’est par le biais de cette identification que chaque produit de gene` est associe´ a` un ou plusieurs termes GO.
La base de donnees´ GOA propose des tables separ´ees´ pour les annotations de pro-duits de genes` de 7 especes` modeles` (Humain, Souris, Rat, Arabidopsis, Poule, Vache et Poisson Zebre)` ainsi que celles de produits de genes` repertori´es´ dans diverses bases de donnees´ inter-especes` (PDB, UniProt, Proteomes…).
La fac¸on dont un terme GO a et´e´ associe´ a` un produit de gene` au cours du processus d’annotation est precis´ee´ par un “Evidence Code” (EC). Il en existe actuel-lement 21 differents´. Ces EC sont separ´es´ en 5 categories´ principales de niveau de preuve : experimental´ (Experimental EC), computationnel (Computational Analysis EC), declaration´ d’auteur (Author Statement EC), declaration´ de correcteur (Curator Statement EC) et annotation automatique (Automatically-assigned EC). Tous ces niveaux sont subdivises´ en EC plus precis´ sauf le dernier qui ne contient que le code Inferred from Electronic Annotation (IEA), qui est le seul code qui qualifie une annotation non verifi´ee´ par un correcteur. La Figure 7 presente´ les evidence codes de GO organises´ dans une ontologie. Nous avons ajoute´ des categories´ intermediaires´ (en bleu) pour construire cette ontologie que nous avons utilisee´ par la suite.
Gene Ontology precise´ que les Evidence Codes ne sont pas des indicateurs de la qualite´ des annotations, et ne doivent par consequent´ pas etreˆ utilises´ comme une me-sure de cette qualite´. Cependant, il est aussi precis´e´ que dans chaque categorie´ de codes, les methodes´ utilisees´ produisent des annotations de plus ou moins haut niveau de confiance et specificit´e´. Il resulte´ de ce point de vue que les annotations associees´ a` un EC experimental´ sont gen´eralement´ consider´ees´ comme etant´ de meilleure fiabilite´ que les autres, bien que cela n’ait pas et´e´ demontr´e´ [Rhee et al., 2008]. Il faut de plus souligner que l’annotation automatique (code IEA) represente´ 93.67% de la totalite´ des annotations presentes´ dans la table multi-especes` de GOA basee´ sur les identifiants UniProt. Ce taux d’annotations inferr´ees´ automatiquement varie entre les especes`. Les Figures 8, 9 et 10 montrent la repartition´ des evidence codes dans l’annotation respective de la poule, de la souris et de l’humain.
METHODES´ DE COMPARAISON DE TERMES ET D’ENSEMBLES DE TERMES D’UNE ONTOLOGIE
Notre objectif etait´ de developper´ une methode´ pour comparer fonctionnellement les voies metaboliques´ entre especes` sur la base des annotations des produits de genes` qui y interviennent. Ces annotations sont disponibles dans Gene Ontology Annotation. Chaque gene` peut etreˆ annote´ par plusieurs termes de Gene Ontology. Il nous fallait donc utiliser une approche permettant de comparer des ensembles de termes d’une ontologie afin de quantifier la similarite´ entre ces ensembles.
METRIQUES´ SIMPLES : JACCARD ET DICE
L’index de Jaccard est le rapport entre la taille de l’intersection des ensembles consider´es´ et la taille de l’union des ensembles. L’equation´ 1 permet de calculer l’index de Jaccard des ensembles A et B. J(A, B) = |A∩B| (1)
Le cœfficient de Dice est le rapport entre le double de la taille de l’intersection des ensembles consider´es´ et la taille de l’union des ensembles. L’equation´ 2 permet de calculer le cœfficient de Dice des ensembles A et B. D(A, B) = 2|A ∩ B| (2)
Il est possible de convertir ces deux metriques´ a` l’aide de la formule 3 : D = 2 × J (3) 1+ J
Ces deux metriques´ ensemblistes sont bien adaptees´ pour calculer des similarites´ entre des el´ements´ independants´ les uns des autres et equiprobables´. Ce n’est pas le cas des annotations GO, qui ne verifient´ aucun de ces deux principes. En effet, les termes GO ne sont pas independants´ puisque chaque terme herite´ de l’information contenue dans ses ancetresˆ. Ils ne sont pas non plus equiprobables,´ parce que certains termes GO annotent plus de produits de genes` que d’autres termes GO de memeˆ precision´ [Mazandu et Mulder, 2012].
MESURES DE DISTANCES ET SIMILARITES´ SEMANTIQUES´
Afin de prendre en compte les propriet´es´ d’une ontologie, des mesures plus complexes ont et´e´ developp´ees´ pour comparer des termes et des ensembles de termes. On parle de mesures de distances et de similarites´ semantiques´. Pesquita et al. [2009] ont proced´e´ a` une revue de ces mesures, qui se declinent´ en trois categories´ selon qu’elles sont basees´ sur un comptage d’aretes,ˆ sur une valeur attribuee´ aux nœuds, ou sur une combinaison des deux. La plupart des mesures present´ees´ ci-apres` ne concernent que la similarite´ entre deux termes, et non entre deux ensembles de termes. Or lorsqu’on souhaite obtenir la similarite´ semantique´ entre deux genes,` on a besoin de comparer les deux ensembles X et Y constitues´ par les termes qui les annotent. Lors d’une comparaison d’ensembles de termes, il faut donc calculer la similarite´ de chaque terme du premier ensemble avec chaque terme du deuxieme`. La similarite´ des ensembles peut ensuite etreˆ obtenue de trois fac¸ons :
– En calculant la moyenne des resultats´ de toutes ces comparaisons entre termes [Lord et al., 2003].
– En calculant cette memeˆ moyenne en ne considerant´ pour chaque terme que sa plus haute valeur de similarite´ lorsqu’on le compare a` l’autre ensemble [Couto et al., 2007; Azuaje et al., 2006; Wang et al., 2007]. Un exemple de ce mode de calcul est donne´ dans les equations´ 13 et 14 plus loin dans ce document.
– En prenant le maximum de tous les resultats´ des comparaisons entre termes [Sevilla et al., 2005].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Avant-propos
I Etat de l’art 
1 Introduction
1 Contexte biologique
1.1 Gen ´ eralit ´ es sur le m ´ etabolisme des lipides
1.2 Particularites du m ´ etabolisme des lipides chez les oiseaux
2 Comparaison : de l’approche structurelle a l’approche fonctionnelle
3 Objectif
2 Materiel et m ´ ethodes
1 Ressources disponibles
1.1 Bases de donnees de voies m ´ etaboliques
1.1.1 Reactome
1.1.2 BioCyc et MetaCyc
1.1.3 Kegg
1.1.4 Wikipathway
1.1.5 Ingenuity
1.2 Bases de connaissances et ontologies
1.2.1 Definition et propri ´ et ´ es d’une ontologie ´
1.2.2 Gene Ontology
1.2.3 Gene Ontology Annotation
2 Comparaison de termes et d’ensembles de termes d’une ontologie
2.1 Metriques simples : Jaccard et Dice ´
2.2 Mesures de distances et similarites s ´ emantiques ´
2.2.1 Methodes bas ´ ees sur les ar ´ etes ˆ
2.2.2 Methodes bas ´ ees sur les nœuds ´
2.2.3 Methodes hybrides ´
3 Synthese `
II Resultats 
3 Particularite semantique
1 Introduction
2 Article
2.1 Introduction
2.1.1 Semantic similarity
2.1.2 Limitations of semantic similarity
2.2 Method
2.2.1 Definition of semantic particularity
2.2.2 Formal properties
2.2.3 Measure of semantic particularity
2.3 Results
2.3.1 Case 1 : S. cerevisiae tryptophan degradation
2.3.2 Case 2 : Homo sapiens aquaporin-mediated transport
2.3.3 Case 3 : Homologs comparison
2.4 Discussion
2.4.1 Semantic particularity
2.4.2 Case studies : benefits of the semantic particularity
2.4.3 Interpretation of similarity and particularity values
2.4.4 Synthesis
2.5 References
3 Synthese `
4 Interpretation des r ´ esultats d’une mesure s ´ emantique ´ 79
1 Introduction
2 Article
2.1 Introduction
2.2 Method
2.2.1 Metrics
2.2.2 Similarity threshold determination
2.2.3 Particularity threshold
2.2.4 Threshold stability study
2.2.5 Evaluation
2.3 Results and Discussion
2.3.1 Determination of a threshold range
2.3.2 Threshold value optimization
2.3.3 Evaluation
2.4 Conclusion
2.5 References
3 Synthese `
5 Comparaison inter-especes du m ` etabolisme des lipides ´ 109
1 Comparaison structurelle
2 Comparaison fonctionnelle
2.1 Comparaison entre Homo sapiens et Mus musculus
2.1.1 Vue gen ´ erale ´
2.1.2 Extrait des resultats ´
2.2 Comparaison entre Homo sapiens et Gallus gallus
2.2.1 Vue gen ´ erale ´
2.2.2 Extrait des resultats ´
2.3 Interpretation ´
3 Biais et limites de la comparaison
3.1 Structure des voies metaboliques ´
3.2 Annotations
3.2.1 Evidence codes
3.2.2 Exhaustivite des annotations ´
3.3 Comparaison de genes par paires `
4 Conclusion
III Autres applications 
6 Application des methodes s ´ emantiques ´ a d’autres probl ` ematiques
1 Developpement d’une m ´ ethode et d’un outil de recherche bibliographique ´ utilisant GO : GO2PUB
1.1 Background
1.2 Results
1.3 Discussion
1.4 Resources and methods
2 Apport de la similarite s ´ emantique dans la comparaison de genes dupliques
2.1 Introduction
2.2 Results
2.3 Discussion
2.4 Materials and methods
3 Etude de l’ ´ evolution de la complexit ´ e de Gene Ontology ´
3.1 Introduction
3.2 Resources and methods
3.3 Results
3.4 Discussion
3.5 Conclusion
Conclusion gen ´ erale ´
Liste des travaux
Bibliographie 

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *