Recherche de domaines protéiques divergents à l’aide de modèles de Markov cachés

Mécanismes évolutifs recombinants

L’existence de groupes de domaines conservés par l’évolution, a conduit à l’étude des mécanismes de recombinaison des domaines protéiques. Björklund et al. (2005) proposent une classification des types de réarrangement en différenciant 3 évènements élémentaires :
– la substitution de domaine correspond à l’échange d’un domaine par un autre ;
– l’indel désigne l’insertion ou la délétion d’un domaine différent des domaines adjacents au point d’insertion dans l’architecture en domaines 4;
– la répétition représente l’addition d’un domaine identique à l’un des domaines adjacents au point d’addition dans l’architecture en domaines. Les réarrangement les plus complexes peuvent donc être décrit par une combinaison de ces réarrangements élémentaires. Ils définissent alors une mesure d’évolution définie comme le nombre de domaines sans correspondance dans un alignement de deux architectures en domaines et appelée distance en domaines. Leurs résultats ont montré que les indels sont plus fréquents que les répétitions internes, et que les substitutions de domaines sont rares. De plus, les indels et les répétitions sont plus souvent observés aux extrémités N et C-terminales des protéines, tandis qu’ils sont rares entre les domaines. Enfin, selon eux, l’évolution de la majorité des protéines multidomaines pourrait s’expliquer par des insertions de domaines seuls, à l’exception des répétitions de domaines qui réalisent parfois la duplication de plusieurs domaines en tandem. Certaine de ces conclusions sont confirmées par Pasek et al. (2006a) dans les architectures multidomaines chez les bactéries. Ces travaux ont mis en évidence qu’un mécanisme majeur à l’origine de la création de nouvelles combinaisons de domaines est fortement lié au jeu des fusions/fissions de gènes. Kummerfeld et Teichmann (2005) ont d’ailleurs estimé qu’il se réalisait 4 fois plus d’évènements de fusion que de fission. Dans une autre publication, Pasek et al. (2006b) abordent la redondance des génomes en domaines et pose l’hypothèse d’un lien avec la robustesse des organismes aux mutations silencieuses. La conservation de plusieurs domaines dans les gènes dupliqués partiels ou leur intégration dans une protéine existante permettrait la conservation de la fonction biologique en cas de délétion de la protéine initiale. Ces travaux ont montré que la redondance en domaines est un mécanisme de compensation moins important que la redondance en gènes mais qui n’est pas négligeable. Par ailleurs, Weiner et al. (2006) ont choisi de s’intéresser plus spécifiquement aux délétions de domaines. Leur résultats montrent que les pertes de domaines peuvent être expliquée par l’introduction de codons start/stop qui rendent la terminaison du domaine non-fonctionnelle et conduisent à sa disparition (n’étant plus soumis à une pression de sélection. . .). Enfin, ils confirment que la perte et la duplication de domaines ont principalement lieu aux extrémités des protéines, et plus fréquemment à l’extrémité C-terminale quand ces évènements impliquent des protéines monodomaines.

La méta-base de données InterPro

InterPro 29 (Apweiler et al., 2001; Mulder et al., 2003, 2007; Hunter et al., 2009) est une base de données maintenue par l’EBI (membre du consortium Uniprot dont les données servent de référence à Interpro) visant à unifier les informations issues des différentes bases de données de modèles de familles protéiques. Chacune des bases participant à InterPro s’appuie sur son propre schéma de l’univers des protéines (bornes des domaines, classification, etc.) et possède souvent ses propres outils.InterPro s’applique donc à intégrer l’ensemble des schémas en créant ses propres familles, ou “entrées InterPro” (Interpro entries). Les entrées regroupent les domaines équivalents des différentes bases et leurs annotations. Interpro présente les liens évolutifs et fonctionnels entre les différentes entrées par des relations hiérarchiques, et propose des statistiques concernant les recouvrements (en terme de protéines et d’acides aminés) entre ces entrées. Le site Web d’Interpro offrent donc un portail d’accès à toutes ces informations ainsi qu’à des références bibliographiques, des annotations fonctionnelles, la couverture taxonomique et des liens vers les différentes bases du consortium et vers les bases de données d’interaction, d’expression, de structure, etc. Une des informations produites par Interpro est l’annotation GO de l’ensemble de ses entrées. Ces annotations sont alors propagées aux familles des différentes bases. La politique d’annotation d’Interpro est qu’un terme GO est attribué à une entrée, si l’ensemble des séquences reconnaissant cette entrée sont annotées par ce terme GO (Mulder et al., 2003). Ainsi, l’identification d’un domaine dans une protéine permet de transférer l’annotation GO du domaine à la protéine.Les bases de données appartenant au consortium Interpro ont été décrites en détail précédemment et sont au nombre de onze : Gene3D, SUPERFAMILY, PANTHER, ProDom,TIGRFAMs, PROSITE, Prints, PIRSF, SMART, HAMAP et Pfam. Interpro ne propose pas de modèles pour ses entrées, mais elle s’est dotée d’un programme nommé InterProScan 30 (Zdobnov et Apweiler, 2001), qui combine en une seule ressource les méthodes de reconnaissances de modèles utilisées par les différentes bases du consortium. Cependant, si InterProScan permet une recherche de l’intégralité des domaines des bases participant au consortium Interpro, toutes les familles de ces bases ne sont pas intégrées dans des entrées Interpro. La composition d’Interpro en terme de modèles et le nombre de protéines d’Uniprot reconnaissant au moins l’un de ces modèles, sont donnés respectivement dans les tableaux 1.2 et 1.3 (dont les chiffres sont extraits du site Web d’Interpro 31).Cette méta-base de données constitue donc la principale ressource lorsque l’on cherche à identifier les domaines composant une protéine, à accéder à l’ensemble des informations concernant ces domaines, et à annoter de manière automatique la fonction de protéines récemment séquencées. Notre méthode de détection de domaines par co-occurrence (cf. Chapitre 4) s’appuie sur l’ensemble des domaines Interpro connus pour découvrir de nouveaux domaines Pfam.

Qu’est-ce qu’un HMM ?

Un HMM se définit comme une structure composée d’un ensemble d’états, de transitions et de distributions de probabilités sur les transitions. De plus, on associe à chaque état générateur une distribution de probabilité sur les symboles d’un alphabet fini (appelées probabilités de génération). Ce type de modèle se différencie d’un automate probabiliste (Cassacuberta, 1990) où les symboles sont générés par les transitions, et où un unique symbole est attaché à chaque transition. Ces modèles sont toutefois fortement apparentés puisqu’on peut simuler tout HMM par un automate probabiliste de même taille (Abe et Warmuth, 1992), la réciproque n’étant pas vraie. Un HMM H peut être vu comme un quadruplet (Q, T , Σ, G) :
– Q est un ensemble d’états dont deux sont dits “muets” c’est à dire qu’ils ne génèrent aucun symbole et n’ont donc pas de probabilités de génération associées. Ces deux états sont appelés Begin et End qui servent respectivement à débuter et conclure une séquence.
– T : Q − {End} × Q − {Begin} → [0, 1], est l’ensemble des probabilités de transitions entre les états. On note P(q → q′) la probabilité de transition de l’état q vers l’état q′ . Pour chaque état q, on a une distribution de probabilités sur l’ensemble des états :Pq′∈Q P(q → q′) = 1. Dans la réalité, seules les transitions de probabilité non-nulle sont considérées et forment un graphe de transitions pondéré par la probabilité associée à chaque arête.
– Σ est un alphabet fini de symboles (par exemple les 20 acides aminés).
– G : Q × Σ → [0, 1], est la matrice des probabilités de génération des symboles de Σ par chacun des états. On note P(s|q) la probabilité de générer le symbole s dans l’état q. On a une distribution de probabilités sur les symboles dans chaque état q, c.-à-d. P s∈Σ P(s|q) = 1. La définition présentée ici n’est pas la définition originale donnée par Baum (Baum et al.,1970), dont elle diffère par l’introduction des états muets Begin et End. Néanmoins, cette définition est celle habituellement utilisée dans la plupart des applications, dont la modélisation de séquences protéiques. On définit la structure d’un HMM comme l’ensemble de ses états, son graphe de transitions et son alphabet.

Comment un HMM génère-t-il une séquence ?

Le processus de génération d’une séquence de symboles à l’aide d’un HMM consiste à débuter de l’état Begin, puis à se déplacer d’états en états en utilisant les probabilités de transition T . Après chaque transition, la distribution de probabilités de génération G associée à l’état d’arrivée est utilisée pour générer un symbole. Le processus se termine lorsque l’on atteint l’état final End. On génère ainsi une séquence de symboles S = s1 . . . sL, suivant une séquence d’états, ou chemin C = q0 . . . qL+1 (où q0 est l’état Begin et qL+1 l’état End). Un HMM définit donc un processus probabiliste non-déterministe, au sens où une même séquence de symboles peut être générée par plusieurs chemins différents. On comprend alors mieux le nom donné à ce modèle. Le processus de génération est un processus :
– markovien, les probabilités de transition et de génération ne dépendent que de l’état actuel et non des états rencontrés précédemment,
– caché, car il est impossible de connaître le processus suivi pour la génération d’une séquence de symboles.

Un HMM dédié aux séquences biologiques : le HMM profil

Les publications d’Haussler et al. (1993) et Krogh et al. (1994) introduisent l’utilisation des “HMM profils”, une spécialisation des HMM dédiée à l’étude des séquences biologiques. Leur utilisation s’inscrit dans le cadre de la modélisation de famille de séquences et la recherche d’homologues. Les HMM profils sont aujourd’hui les modèles de prédilection dans les bases de données de famille de séquences et ils sont devenus des outils standards en bioinformatique (Eddy, 1995; Durbin et al., 1998). Les deux principaux programmes permettant la manipulation de HMM profils pour l’analyse de séquences biologiques sont HMMER (Eddy, 1995, 1998) et SAM (Sequence Alignment and Modeling system) (Hughey et Krogh, 1996; Karplus et al., 1998). L’utilisation de ces programmes s’est largement répandue au sein de la communauté. SAM a été employé pour la construction de la base SUPERFAMILY et HMMER pour celle de Pfam. Au cours de cette thèse nous avons principalement utilisé les modèles de domaines de la base Pfam. C’est pourquoi, après avoir présenté les particularités des HMM profils par rapport aux HMM généraux (section 2.4.1), nous développons dans cette section la manipulation de HMM profil à travers celle du logiciel HMMER (section 2.4.2). Enfin, nous concluons par une comparaison entre les deux programmes concurrents HMMER et SAM (section 2.4.3).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

I Remerciements
II Introduction
III État de l’art
1 Protéines et domaines protéiques
1.1 Protéines
1.1.1 Origines
1.1.2 Synthèse
1.1.3 Différents niveaux de structure
1.2 Famille de séquences
1.3 Domaines protéiques
1.3.1 Définition
1.3.2 Domaine et motif protéique
1.3.3 Conservation de groupes de domaines
1.3.4 Existence d’un répertoire limité de combinaisons
1.3.5 Mécanismes évolutifs recombinants
1.3.6 Une unité d’évolution indépendante
1.3.7 À domaines identiques. . . fonction identique
1.3.8 Interaction Domaine-Domaine
1.4 Les bases de données de familles de protéines
1.4.1 Données génomiques, structurelles et fonctionnelles
1.4.2 Regroupement en familles par séquences primaires
1.4.3 Regroupement en familles par structure 3D
1.4.4 La méta-base de données InterPro
2 Modélisation de familles de protéines
2.1 Expressions Régulières
2.2 Profils — PSSM
2.3 Modèles de Markov cachés
2.3.1 Qu’est-ce qu’un HMM ?
2.3.2 Comment un HMM génère-t-il une séquence ?
2.3.3 Probabilités de génération d’une séquence S étudiée par un HMM H donné
2.3.4 Pour résoudre quels problèmes ?
2.3.5 Avec quels algorithmes ?
2.3.6 Apprentissage des modèles
2.3.7 Le problème des probabilités de génération nulles
2.4 Un HMM dédié aux séquences biologiques : le HMM profil
2.4.1 Structure d’un HMM profil
2.4.2 Le logiciel HMMER
2.4.3 Comparaison SAM/HMMER
2.4.4 HMMER version 3.0
3 Plasmodium falciparum
3.1 Le paludisme
3.1.1 Une histoire ancienne
3.1.2 Une pandémie mondiale
3.1.3 Responsable : le parasite Plasmodium falciparum
3.1.4 Cycle parasitaire et effets de l’infection
3.1.5 Cibles thérapeutiques et résistances
3.2 Publication du génome de P. falciparum
3.3 Atypicités
3.3.1 Biais dans la composition en acides aminés
3.3.2 Insertions de faible complexité
3.4 La question du positionnement phylogénétique
3.5 Difficultés d’annotation
3.5.1 Gènes spécifiques
3.5.2 Gènes cachés ou perdus
3.5.3 Modification des outils d’alignement de séquences
3.6 Détection des domaines protéiques
IV Travaux
4 Certification de domaines par co-occurrence
4.1 Présentation de la méthode
4.1.1 Sélection des CDP
4.1.2 Domaines potentiels et validants
4.2 Estimation du nombre d’erreurs
4.3 Expérimentations
4.3.1 Simulations sur la levure
4.3.2 Impact des paramètres utilisés pour la certification
4.4 Annotations des protéines de P. falciparum
4.4.1 Nouveaux domaines certifiés
4.4.2 Conservation de la fonctionnalité des nouveaux domaines
4.4.3 Nouvelles annotations GO
4.5 Caractérisation des résultats obtenus sur P. falciparum
4.5.1 Protéines précédemment annotées
4.5.2 Protéines précédemment non-annotées (unknown function)
4.5.3 Domaines connus et certifiés les plus abondants
4.6 Consistance avec les orthologues de P. vivax et P. yoelii
4.7 Comparaison aux travaux antérieurs
4.8 Perspectives
4.8.1 Améliorations de la méthode
4.8.2 Extension à d’autres organismes et présentation des résultats
5 Correction des HMM
5.1 À quel niveau intervenir ?
5.2 État de l’art des méthodes de corrections de modèles
5.3 Évaluation des résultats des librairies corrigées
5.4 Correction du modèle nul
5.4.1 Le modèle nul du logiciel HMMER
5.4.2 Une distribution d’acides aminés représentative de P. falciparum
5.4.3 Expérimentations
5.5 Réapprendre grâce aux espèces proches
5.5.1 Sélection des espèces proches
5.5.2 Reconstruction des HMM
5.5.3 Résultats
5.6 Modification des distributions associées aux états Matchs
5.7 Facteurs de correction
5.7.1 Principe
5.7.2 Choix des distributions de départ et cible
5.7.3 Résultats
5.8 Matrices de substitution
5.8.1 Probabilités de substitution entre acides aminés
5.8.2 Matrices de substitution pour Plasmodium falciparum
5.8.3 Résultats
5.9 Former des classes d’états
5.9.1 Principe
5.9.2 K-means
5.9.3 Estimation des distributions associées aux différents classes d’états
5.9.4 Correction des modèles
5.9.5 Modèle nul
5.9.6 Résultats
5.10 Utiliser les k-plus proches états
5.10.1 Principe
5.10.2 Paramètres de la méthode
5.10.3 Optimisation du calcul
5.10.4 Résultats
5.11 Comparaison des différentes approches
5.11.1 Des facultés différentes
5.11.2 Des résultats différents
5.12 La question des domaines “non-certifiés”
5.12.1 Domaines non-certifiés et non-certifiables
5.12.2 Non-certifiés/non-certifiables chez les domaines Pfam connu
5.12.3 Résultats des librairies corrigées à approfondir
V Conclusion