De la génomique vers la protéomique
La compréhension du fonctionnement d‘une cellule vivante suppose celle des mécanismes moléculaires complexes qui sous-entendent les diverses activités cellulaires. Tous les gènes d‘un organisme, ou son génome, constituent une base de données statique et spécifique de l‘être vivant. A partir d‘un génome unique, chaque type cellulaire d‘un organisme exprimera un ensemble de protéines (voir Figure 1.1), ou protéome, qui variera en fonction de l‘environnement des cellules. La synthèse des protéines comprend deux étapes
– La transcription permet de copier l‘ADN en ARN messager (ARNm), elle se déroule dans le noyau
– La traduction correspond au décodage de l‘information portée par l‘ARNm en polypeptidesreliésen protéines
La génomique et la protéomique sont intrinsèquement « globales », dans le sens où des centaines, si ce n‘est des milliers de bases de données, de bases de connaissances, de programmes informatiques et de bibliothèques de documents sont disponibles via Internet et sont utilisés par des chercheurs et des développeurs à travers le monde dans le cadre de leurs travaux. Comme les protéines sont les principaux acteurs finaux des processus biologiques, leurs études peuvent offrir la vision la plus pertinente du fonctionnement d‘une cellule vivante [DZI 10]. La protéomique désigne la science qui étudie les protéomes, c’est-à-dire l’ensemble des protéines d’une cellule, organite, tissu, organe ou organisme à un moment donné et sous des conditions données. Dans la pratique, la protéomique s’attache à identifier les protéines extraites d’une culture cellulaire, d’un tissu ou d’un fluide biologique, leur localisation dans les compartiments cellulaires, leurs modifications post-traductionnelles ainsi que leur quantité. Elle peut également permettre de quantifier les variations de leur taux d’expression en fonction du temps, de leur environnement, de leur état de développement, de leur état physiologique et pathologique, de l’espèce d’origine. Elle étudie aussi les interactions que les protéines ont avec d’autres protéines, avec l’ADN ou l’ARN ainsi que les fonctions de chaque protéine [BER 07].
Les objectifs de la bioinformatique
Le rôle de la bioinformatique est d‘aider les biologistes dans la collecte et le traitement des données génomiques afin d‘étudier la fonction des gènes et des protéines. Un autre rôle important de la bioinformatique est d‘aider les chercheurs des compagnies pharmaceutiques à élaborer des études détaillées des fonctions des protéines (voir Figure 1.5) afin de faciliter la conception de médicaments [COH 04, RAO 08]. Les objectifs de la bioinformatique peuvent se résumer dans ce qui suit :
Collecter et stocker des informations dans des bases de données, accessibles en ligne.
– Explosion de la quantité de données biologiques nécessitant des outils de stockage adaptés.
Fournir des outils de comparaison de séquences protéiques et nucléotidiques.
– Identifier une séquence en la comparant aux séquences d‘une base de données.
– Déterminer le degré de similitude entre deux séquences.
– Repérer des motifs structuraux.
Fournir des outils de traduction de séquences.
– Simplifier les tâches de traduction.
– Proposer plusieurs possibilités de protéines pour une même séquence.
– Repérer les exons/introns.
Fournir des outils de prédiction physiologique et fonctionnelle et de prédiction expérimentale.
La recherche de similarité est au centre de la bioinformatique. Quand une séquence est donnée (nucléotides ou d’acides aminés), on effectue généralement une recherche de similitude avec les bases de données qui comprennent tous les génomes disponibles et les protéines connues. Habituellement, la recherche donne de nombreuses séquences avec des degrés variés de similitudes. Il appartient à l’utilisateur de sélectionner celles qui pourraient bien se révéler être homologues. La bioinformatique a ainsi rendu possible la cartographie complète du génome humain et des génomes de nombreux autres organismes en un peu plus d‘une décennie. Ces découvertes, ainsi que les efforts actuels pour déterminer les fonctions des gènes et des protéines ont amélioré les capacités de comprendre les maladies animales, végétales et humaines et de trouver de nombreux traitements [RAO 08].
Les concepts et techniques de la bioinformatique
La tâche majeure de la bioinformatique est de permettre d‘identifier les fonctions d‘un gène ou d‘une protéine à partir de données existantes. Puisque les données sont variées, incomplètes, bruyantes et couvrent une variété d‘organismes, il y a un recours constant aux principes biologiques afin de filtrer les informations utiles [COH 04]. Il y a différentes techniques qui conduisent à une meilleure compréhension de la fonction des gènes et des protéines, telles que :
La construction évolutive d’arbre phylogénétique : ces arbres sont souvent construits après comparaison de séquences appartenant à différents organismes d‘une même espèce. Les arbres regroupent les séquences selon leur degré de similitude. Ils servent de guide pour le raisonnement sur la façon dont les séquences ont été transformées au courant de l‘évolution. Par exemple : ils déduisent l‘homologie de la similitude et peuvent écarter des hypothèses erronées qui sont en contradiction avec le processus connu de l‘évolution.
Détection de motifs dans les séquences : il y a certaines parties de séquences de nucléotides et des séquences d‘acides aminés qui doivent être détectées. Il y a deux exemples principaux qui sont la recherche de gènes dans l‘ADN et la détermination des sous-composants de séquences d‘acides aminés (structure secondaire). Il existe plusieurs moyens pour effectuer ces tâches, un grand nombre d‘entre eux sont basés sur l‘apprentissage automatique et incluent les grammaires probabilistes ou les réseaux neuronaux.
Déterminer des structures 3D à partir de séquences : les problèmes, en bioinformatique, qui se rapportent aux structures tridimensionnelles impliquent des calculs difficiles à réaliser. La détermination de la forme d’ARN à partir de séquences nécessite des algorithmes de complexité cubique. L’inférence des formes de protéines à partir de séquences d’acides aminés reste, à ce jour, un problème non résolu.
Déduction de la régulation cellulaire : la fonction d‘un gène ou d‘une protéine est mieux décrite par son rôle. Les gènes interagissent les uns avec les autres, les protéines peuvent également prévenir ou aider à la production d‘autres protéines. Les modèles disponibles de la régulation cellulaire peuvent être discrets ou continus. Il y a habituellement une distinction entre la simulation et la modélisation cellulaire.
Déterminer la fonction de protéine et les voies métaboliques : c‘est l‘un des domaines les plus difficiles de la bioinformatique et pour lequel il n’y a pas beaucoup de données disponibles. L’objectif ici est d’interpréter les annotations humaines pour la fonction des protéines et également de développer des bases de données représentant des graphiques qui peuvent être interrogés pour l’existence de nœuds (les réactions à préciser) et les chemins (en précisant les séquences de réactions).
Assembler les fragments d’ADN : les fragments fournis par séquençage sont assemblées à l’aide d’ordinateurs. La partie la plus délicate de cet assemblage est que l’ADN a de nombreuses régions répétitives et les mêmes fragments peuvent appartenir à différentes régions. Les algorithmes d’assemblage de l’ADN sont surtout utilisés par les grandes entreprises. En plus de ses différentes techniques, la bioinformatique comprend deux concepts clés, les bases de données biologiques et la comparaison de séquences. En effet, les bases de données représentent le point de départ des recherches et à partir de ces bases de données, une comparaison de séquences peut être réalisée en comparant la séquence requête avec l‘ensemble des séquences de la base de données correspondante. Les résultats obtenus peuvent orienter le chercheur ou lui donner une idée de la fonction de la séquence requête.
Prédiction de fonctions de protéines
La prédiction de fonctions de protéines représente un problème de classification où l‘on assigne à chaque protéine, sa classe fonctionnelle correspondante. L‘approche la plus simple est la recherche de séquences similaires à cette protéine dont la fonction est connue dans les bases de données. Cependant, cette méthode a ses limites et il est préférable de concevoir un modèle de classification pour la prédiction de fonctions de protéines [KIH 07]. Chaque protéine est représentée par un ensemble d‘attributs (les acides aminés), et le rôle de l‘algorithme d‘apprentissage est de déterminer la relation la plus importante entre les attributs et les classes présentes dans les bases de données. Comme les fonctions de protéines sont fréquemment organisées hiérarchiquement, l‘utilisation de techniques hiérarchiques pour l‘induction de modèles de classification dans la bioinformatique est un domaine de recherche prometteur. Weston et al. [WES 05] ont utilisé les méthodes à noyaux (Kernel Methods) pour l’intégration des données non étiquetés dans la représentation de séquences de protéines et pour leurs classification dans leur contexte fonctionnel et structurel. Ils ont sélectionné deux algorithmes Neignborhood Mismatch Kernel, en utilisant les mesures de similarité locale des séquences et Bagged Mismatch Kernel, en utilisant le clustering sur l‘ensemble de séquences pour modifier la base du noyau. Holden et al. [HOL 06] ont été les premiers à utiliser les approches de la swarm intelligence, plus précisément, l‘algorithme hybride PSO/ACO (Particle Swarm Optimisation et Ant Colony Optimisation) pour la prédiction de la fonction des récepteurs couplés aux protéines G (RCPGs) qui forment une grande famille de protéines membranaires responsables de la communication cellulaire dans le génome humain. Ils ont pris également en considération la nature hiérarchique des données en utilisant les règles de classification, ce qui représente un élément important. Costa et al. [COS 07] ont comparé deux approches de classification hiérarchique : Top-Down et Big-Bang, pour prédire la fonction de protéines. Afin de valider les performances de leurs classifieurs, ils les ont comparés avec l‘algorithme C4.5 de construction des arbres de décision, les résultats obtenus démontrent que les deux classifieurs (Top-down et Big-bang) sont plus performants que le C4.5. Secker et al. [SEC 07] ont également exploité l‘approche Top-Down en la combinant avec différents autres algorithmes tels que les réseaux bayésiens, les SVM, les arbres de décision avec un classifieur de type Bayes Naïf à chaque nœud, les réseaux de neurones multicouches avec une rétro-propagation, etc. Ils ont comparé ces combinaisons avec une nouvelle méthode appelée l‘approche top-down sélective (Selective top-down approach) qui représente une version améliorée de l‘approche top-down standard et c‘est cette dernière qui a fourni les meilleurs résultats. Secker et al. [SEC 08, 09] ont proposé les systèmes immunitaires artificiels (AIS) inspirés par les systèmes immunitaires biologiques, plus précisément, un nouvel algorithme immunitaire appelé opt-aiNet-AA-Clust (variante de l‘algorithme connu opt-aiNet). Ce dernier crée une nouvelle représentation des protéines afin de maximiser la valeur prédictive de l‘algorithme de clustering, appliqué au problème de prédiction de fonctions de protéines. Les annotations de fonctions des protéines peuvent bénéficier de connaissances sur les processus enzymatiques, l‘utilisation de l‘homologie de séquence seule n‘est pas une bonne approche pour dériver cette connaissance, là où il n‘y a que quelques séquences homologues qui peuvent être annotés. L‘alternative est d‘utiliser les motifs. De ce fait, Dos Santas et al. [DOS 09] ont proposé une approche d‘apprentissage automatique symbolique qui dérive des règles pour la classification des enzymes en utilisant les motifs. En général, un modèle de motifs est nécessaire pour classer une protéine dans une certaine famille de protéines. En résumé, les motifs sont très discriminants pour prédire les fonctions des protéines. La plupart des problèmes de classification décrits dans la littérature se réfèrent au problème d‘un seul étiquetage, c‘est-à-dire qu‘un exemple n‘appartient qu‘à une seule classe. Cependant, il y a le cas où un exemple peut appartenir à plus d‘une classe en même temps. Ce problème est nommé problème de classification multi-étiquettes (multi-label). Cerri et al, [CER 09] ont présenté une comparaison entre quelques méthodes de classification multiétiquettes en utilisant des ensembles de données de protéines relatives à l’organisme de la levure et des familles structurelles. Ces méthodes comprennent des algorithmes spécifiques pour le problème multi-étiquettes grâce à des modifications sur les mécanismes internes des algorithmes de classification traditionnelle ou le développement de nouveaux algorithmes. Dans certains cas, lors de l‘analyse de données biologiques telles que les séquences protéiques, il est possible que la classification (apprentissage supervisé) ainsi que le clustering (apprentissage non-supervisé) n‘apportent pas de solutions aux problèmes. Dans ce cas, on a recours à un apprentissage semi-supervisé, Jiang [JIA 11] a proposé un nouvel algorithme semi-supervisé appelé MCSL (Multi-label Correlated Semi-Supervised Learning). L‘avantage de cette méthode est que les protéines reçoivent l‘étiquette des informations non seulement auprès de leurs voisins annotés avec la même classe dans la connexion réseau fonctionnelle, mais aussi des partenaires avec d‘autres classes annotées étroitement liées. Borges et Nievola [BOR 12] ont proposé une nouvelle méthode pour la classification hiérarchique de fonctions de protéines, appelé classification hiérarchique multi-étiquettes utilisant un réseau de neurone compétitif (Hierarchical Classification using a Competitive Neural Network – MHC-CNN). Cette méthode a l‘avantage de faire face à la nature hiérarchique des données biologiques. Saini et Hou [SAI 13] ont mis en œuvre une nouvelle méthode de clustering progressif et novateur pour la prédiction de fonction des protéines. Avec cette méthode, en plus de considérer les clusters finaux obtenus au cours de la prédiction de fonctions, ils suivent aussi l‘apparition de fonctions dans tous les clusters générés qui sont pertinents pour les protéines non-annotées et sélectionnent ces fonctions comme les fonctions prédites qui ont une grande stabilité dans le processus de clustering récursif. Chowdhury et al. [CHO 14] ont proposé un algorithme immunitaire métaheuristique, l‘algorithme de sélection clonale (Clonal Selection Algorithm – CSA), qui associe aléatoirement des fonctions à des protéines non-annotées et optimise ensuite la fonction de score qui intègre la mesure de similarité entre l‘ensemble de fonctions des protéines non-annotées et les protéines annotées. Trivodaliev et al. [TRI 15] se sont basés sur les informations des réseaux d‘interactions protéiques pour prédire les fonctions de protéines. Ils ont proposé pour cela une nouvelle méthode de distance métrique pour le clustering des réseaux d‘interactions protéiques. Comme les réseaux d‘interactions protéiques sont sous forme de graphe, ils ont utilisé l‘approche de similarité de sémantique de « Gene Ontology (GO) » pour dériver les poids du graphe. En exploitant ces deux approches (la distance métrique et la Gene Ontology), ils ont effectué une prédiction de fonctions de protéines via un clustering basé sur les informations des réseaux d‘interactions protéiques.
Prédiction des interactions protéine-protéine
Les interactions protéine-protéine sont indispensables à presque tous les niveaux de la fonction cellulaire. La détection de la fonction des protéines via la prédiction des interactions protéine-protéine (Protein – Protein Interaction, PPI) a émergé comme une nouvelle tendance, dans les deux voies de recherche in vivo et in silico. Lu et al. [LU 05] ont proposé les arbres de décision et Bayes naïf pour la prédiction des interactions protéine – protéine, ils ont combiné plusieurs sources d‘information probabilistes pour prédire les interactions entre protéines. Park et al. [PAR 06] ont énuméré les techniques les plus utilisées dans la détection d‘interaction protéine – protéine, qui sont, « yeast two-hybrid assay », « phage display », purification d‘affinité et « microarray protein » qui sont utilisées seulement dans la détection d‘interactions. La deuxième étape de leur approche a consisté en la prédiction des sites d‘interface, effectuées par les méthodes les plus utilisées de l‘apprentissage automatique comme les réseaux de neurones artificiels et les machines à vecteurs de support. La troisième et dernière étape était la prédiction des interactions protéine-protéine. Nafar et Golshani [NAF 06] ont présenté un Survey de diverses techniques de la fouille de données et de leurs applications dans l‘analyse des données d‘interaction protéine-protéine. Les auteurs ont ensuite proposé l‘utilisation de techniques qui n‘ont pas été beaucoup exploitées pour les interactions protéine-protéine, comme la prédiction et le profilage au lieu des techniques de la fouille de données utilisées habituellement (classification et clustering).
|
Table des matières
Introduction Générale
1. Problématique et objectifs
2. Contenu du document
Chapitre 1 : Introduction à la Bioinformatique
1.1. Introduction
1.2. Les fondements biologiques de la Bioinformatique
1.2.1. De la génomique vers la protéomique
1.2.2. Les protéines
1.2.3. Les acides aminés
1.3. Généralités sur la bioinformatique
1.3.1. Historique de la bioinformatique
1.3.2. Les objectifs de la bioinformatique
1.3.3. Les concepts et techniques de la bioinformatique
1.3.3.1. Les bases de données biologiques
1.3.3.2. La comparaison de séquences
1.4. La fouille de données en bioinformatique
1.4.1. Les tâches de la fouille de données en Bioinformatique
1.4.1.1. Classification et règles de classification
1.4.1.2. Clustering
1.4.2. Synthèse de travaux de la fouille de données en Protéomique
1.4.2.1. Prédiction de fonctions de protéines
1.4.2.2. Prédiction de structures de protéines
1.4.2.3. Prédiction de localisations de protéines
1.4.2.4. Prédiction des interactions protéine-protéine
1.5. Conclusion
Chapitre 2: Systèmes Immunitaires Artificiels et Swarm Intelligence : Concepts et Méthodes
2.1. Introduction
2.2. Les systèmes immunitaires artificiels
2.2.1. Algorithme de sélection clonale
2.2.1.1. Inspiration biologique
2.2.1.2. Description
2.2.1.3. Les variantes de l‘algorithme de la sélection clonale
2.2.2. Algorithme de sélection négative
2.2.2.1 . Inspiration biologique
2.2.2.2 . Description
2.2.2.3 . Variantes de l‘algorithme de la sélection négative
2.2.3. Algorithme des réseaux immunitaires artificiels
2.2.3.1. Inspiration biologique
2.2.3.2. Description
2.2.3.3. Variantes des réseaux immunitaires artificiels
2.2.4. La théorie du danger
2.2.4.1. Inspiration biologique
2.2.4.2. Description
2.3. Les approches de la Swarm Intelligence
2.3.1. Optimisation par colonies de fourmis (ACO)
2.3.1.1. Les fourmis dans la nature
2.3.1.2. Les colonies de fourmis artificielles
2.3.1.3. Les variantes de Ant-Miner
2.3.2. Optimisation par essaim de particules (PSO)
2.3.2.1. Principe général
2.3.2.2. Formalisation
2.3.2.3. Les variantes de PSO
2.3.3. Les colonies d‘abeilles artificielles (ABC)
2.3.3.1. Les abeilles dans la nature
2.3.3.2. Les abeilles artificielles
2.3.3.3. Les variantes de l‘ABC
2.4. Conclusion
Chapitre 3 : Les Récepteurs Couplés aux Protéines G et leur Classification
3.1. Introduction
3.2. Généralités sur les RCPGs
3.2.1. Structure des RCPGs
3.2.2. Mécanisme des RCPGs
3.2.2.1. Les protéines G
3.2.2.2. Transduction du signal par activation des protéines G
3.2.3. Processus physiologiques des RCPGs
3.3. Classification des RCPGs
3.4. Les bases de données RCPGs
3.5. Les RCPGs comme cibles de médicaments
3.6. Synthèse de travaux sur l‘identification des RCPGs
3.6.1. Serveurs web d‘identification de RCPGs
3.6.2. Méthodes basées sur les machines à vecteurs de support
3.6.3. Méthodes basées sur les k-plus proches voisins
3.6.4. Méthodes basées sur les arbres de décision
3.6.5. Méthodes basées sur les réseaux de neurones artificiels
3.6.6. Méthodes basées sur les approches de la swarm intelligence
3.6.7. Méthodes basées sur les algorithmes immunitaires artificiels
3.7. Conclusion
Chapitre 4 : Approches Immunologiques pour la Prédiction de Fonctions des RCPGs
4.1. Introduction
4.2. Prédiction de fonctions de protéines par les AIS
4.3. Algorithme immunitaire artificiel de reconnaissance (AIRS)
4.3.1. Initialisation
4.3.2. Identification des cellules mémoires et génération des ARBs
4.3.3. Compétition pour les ressources et développement des cellules mémoires candidates
4.3.4. Introduction des cellules mémoires
4.3.5. Classification
4.3.6. La version améliorée d‘AIRS : AIRS2
4.4. Algorithme de sélection clonale (CLONALG)
4.5. Algorithme de classification de sélection clonale (CSCA)
4.6. Ensemble de données et prétraitement
4.6.1. Ensemble de données GDS
4.6.2. Prétraitement
4.6.2.1. La composition en pseudo acides aminés (PseAAC)
4.6.2.2. La normalisation moyenne / variance
4.7. Expérimentations et résultats
4.7.1. Résultats des classifieurs immunologiques proposés
4.7.2. Comparaison avec d‘autres classifieurs
4.7.3. Comparaison avec des méthodes publiées
4.8. Conclusion
Chapitre 5 : Approches de la Swarm Intelligence pour la Prédiction de Fonction des RCPGs
5.1. Introduction
5.2. Approches de Swarm Intelligence pour la prédiction de fonctions de protéines
5.3. Les colonies de fourmis pour la classification : cAnt-Miner
5.3.1. Ant-Miner
5.3.2. Ant-Miner pour les attributs continus : cAnt-Miner
5.3.2.1. Construction du graphe
5.3.2.2. Mesure d‘entropie
5.3.2.3. Construction de la règle
5.3.2.4. Mise à jour des phéromones
5.4. Les essaims particulaires pour la classification : CPSO
5.4.1. Représentation de la règle
5.4.2. Découverte des règles
5.4.3. Evaluation de la règle
5.4.4. Algorithme de couverture pour la construction de l‘ensemble de règles
5.4.5. Elagage d‘une règle et nettoyage de l‘ensemble de règles
5.5. Classification basée sur l‘hybridation PSO/ACO
5.5.1. Formalisation
5.5.2. Version améliorée de l‘hybridation PSO/ACO : PSO/ACO2
5.6. Ensemble de données et Prétraitement
5.7. Outils pour les expérimentations
5.7.1. Myra 3.6.1
5.7.2. KEEL-GPLv3
5.7.3. PSO/ACO2
5.7.4. PseAAC server
5.8. Jeux de paramètres et résultats
5.8.1. Jeux de paramètres
5.8.2. Résultats
5.8.2.1. Comparaison avec les classifieurs immunitaires
5.8.2.2. Comparaison avec des méthodes publiées
5.9. Conclusion
Conclusion et Perspectives
1. Résumé des contributions
2. Perspectives de recherche
Références Bibliographiques
Télécharger le rapport complet