Principales méthodes de reconstruction phylogénétique

Différentes hypothèses sur le transformisme des espèces ont été proposées dès l’antiquité gréco-romaine. La première réelle tentative d’élaborer une théorie de l’évolution est généralement attribuée à Lamarck (1809). Sa théorie s’opposait de manière directe à la théorie dominante de la préformation et du fixisme des espèces. Cette dernière, fortement soutenue par l’ordre religieux mais aussi par la plupart des scientifiques de l’époque et notamment par Cuvier, est restée la théorie dominante jusqu’à la parution de « L’Origine des Espèces » de Darwin (1859). La théorie de l’évolution fournit alors une nouvelle manière d’aborder la classification des espèces. Darwin souligne le lien étroit entre classification et phylogénie : « le lien que nous révèlent partiellement nos classifications, lien déguisé comme il l’est par divers degrés de modifications, n’est autre que la communauté de descendance, la seule cause connue de la similitude des êtres organisés ». Cette vision ajoute une dimension temporelle à la classification et, depuis Darwin, les arbres sont utilisés comme support graphique pour représenter simultanément l’aspect temporel de l’évolution et les groupements d’espèces qui en découlent.

Cette vision évolutionniste change radicalement la manière d’appréhender la classification, il ne s’agit plus d’établir une classification pratique du vivant, mais de retrouver un ordre naturel intrinsèque. Pourtant les méthodes de classification sont longtemps restées basées sur la comparaison de caractères morphologiques, et ce n’est qu’assez récemment que des classifications prenant en compte un modèle d’évolution sont apparues. Dans les années soixante, la biologie moléculaire a donné accès aux génomes des espèces et l’apparition des premiers ordinateurs a fourni des outils capables de traiter ces nouvelles données. Plusieurs publications ont alors montré que les données moléculaires permettent de reconstruire des phylogénies cohérentes avec les classifications antérieures (fondées sur l’étude des fossiles et des caractères morphologiques).

Ces premiers résultats ont montré l’intérêt de disposer de méthodes efficaces pour reconstruire de manière fiable et automatique l’histoire évolutive d’un ensemble de séquences. L’étude et l’amélioration de ces méthodes constituent une discipline (la reconstruction phylogénétique) à la frontière des mathématiques, de la biologie et de l’informatique. Les phylogénies ainsi reconstruites permettent de disposer d’informations jusque là inaccessibles et sont utilisées pour aborder de nombreux problèmes biologiques (Harvey, May et Nee 1996). Les deux exemples suivants, développés dans (Page et Holmes 1998), montrent l’étendue des champs d’application de la reconstruction phylogénétique.

Jusqu’à une période récente, les organismes cellulaires étaient divisés en deux grandes familles, ceux dont les cellules possèdent un noyau (les eucaryotes) et ceux qui n’en possède pas (les procaryotes). En s’appuyant sur la phylogénie de séquences moléculaires évoluant lentement, Woese et Fox (1977) ont montré qu’il existait deux groupes très différents des procariotes : les eubactéries et les archaebactéries. Malgré l’absence de noyau dans leurs cellules, l’étude de la phylogénie moléculaire a montré que les archaebactéries sont, à certains égards, plus proches des eucaryotes que des eubactéries. Ainsi, grâce à la biologie moléculaire, l’arbre universel du vivant s’est enrichi d’une branche supplémentaire, et un des problèmes récurrents aujourd’hui est d’enraciner cet arbre pour décider, in fine, de la position des archaebactéries.

L’analyse de phylogénies moléculaires permet également d’effectuer des études épidémiologiques. Dans ce cas, on utilise des séquences évoluant très rapidement. Par exemple, dans les années 90, le « center for disease control » d’Atlanta, à reçu un rapport surprenant concernant une jeune femme séropositive. En effet, d’après ce rapport, le seul lien entre cette patiente et le virus était d’avoir consulté un dentiste porteur du virus. Après enquête, il s’est avéré que d’autres patients de ce dentiste avaient, eux aussi, contracté le virus du SIDA. Le « center for disease control » a donc réalisé une analyse moléculaire des souches du virus présentes chez le dentiste, chez ses patients, et chez d’autres malades n’ayant jamais consulté ce dentiste. La phylogénie moléculaire de ces souches virales à permis de confirmer que le dentiste avait effectivement contaminé ses patients. Des précautions sanitaires supplémentaires ont donc pu être mises en place pour éviter ce type de contamination.

Ces deux exemples, et il en existe de nombreux autres, notamment en pharmacologie ou pour l’amélioration des plantes, montrent l’importance d’avoir des méthodes permettant d’obtenir des phylogénies moléculaires fiables. La méthode la plus fiable actuellement pour reconstruire une phylogénie à partir de séquences nucléotidiques, semble être la méthode du maximum de vraisemblance. Cette méthode utilise un modèle mathématique du processus d’évolution des séquences pour définir la probabilité qu’une phylogénie puisse produire les séquences observées, et cherche la phylogénie pour laquelle cette probabilité est maximale. Les méthodes classiques pour rechercher la phylogénie de vraisemblance maximale deviennent très coûteuses en temps de calcul lorsque le nombre de séquences augmente. Lorsque l’on souhaite reconstruire la phylogénie d’un grand nombre de séquences, il est donc impossible d’utiliser directement ce type de méthodes. Dans cette thèse, nous cherchons donc à définir des heuristiques efficaces pour reconstruire de grandes phylogénies suivant le principe du maximum de vraisemblance.

Il existe actuellement deux types de méthodes permettant, d’une certaine manière, de reconstruire de grandes phylogénies suivant le principe du maximum de vraisemblance : les méthodes de distances et les méthodes de quadruplets. Toutes deux divisent le problème initial en sous-problèmes contenant peu de séquences. Elles peuvent alors résoudre rapidement chacun de ces sous-problèmes, puis combiner les solutions obtenues pour proposer une phylogénie de l’ensemble des séquences. Les méthodes de quadruplets divisent le problème initial en sous problèmes de quatre séquences, et reconstruisent la phylogénie globale en s’appuyant sur la topologie (strucuture) obtenue pour chaque quadruplet. Les méthodes de distances divisent le problème initial en sous-problèmes ne contenant que deux séquences, et reconstruisent la phylogénie globale en s’appuyant sur les distances obtenues pour chaque paire de séquences.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
Chapitre 1 Notions préliminaires
1.1 Arbres – phylogénies
1.1.1 Définitions
1.1.2 Aspect combinatoire
1.1.3 Phylogénies valuées
1.2 Données moléculaires
1.2.1 Définitions
1.2.2 Vitesses d’évolution des séquences
1.2.3 Phylogénies de séquences et phylogénies de taxons
1.2.4 Alignement des séquences
1.3 Modèles de l’évolution moléculaire
1.3.1 Hypothèses sous-jacentes
1.3.2 Pincipaux modèles d’évolution
1.3.3 Modélisation des séquences codantes
Chapitre 2 Principales méthodes de reconstruction phylogénétique
2.1 Recherche de l’arbre optimum
2.1.1 Processus agglomératif
2.1.2 Processus d’insertion
2.1.3 Ré-arrangement d’arbres
2.2 Méthodes de distances
2.2.1 Distances évolutives
2.2.2 Méthodes agglomératives
2.2.3 FITCH : une méthode d’insertion
2.3 Méthodes de parcimonie
2.3.1 Principe général et définitions
2.3.2 Calcul de la parcimonie d’un arbre
2.3.3 Recherche de l’arbre le plus parcimonieux
2.4 Maximum de vraisemblance
2.4.1 Choix du modèle d’évolution et ajustement de ses paramètres
2.4.2 Vraisemblance d’un arbre valué
2.4.3 Vraisemblance d’un arbre non valué
2.4.4 Recherche de l’arbre de vraisemblance maximale
2.5 Conclusion
2.5.1 Difficultés d’une évaluation objective
2.5.2 Performance du maximum de vraisemblance
2.5.3 Besoin de méthodes intermédiaires
Chapitre 3 Améliorations et limites des méthodes de quadruplets
3.1 Méthodes de quadruplets
3.1.1 Avantages des méthodes de quadruplets
3.1.2 Vraisemblance d’un 4-arbre
3.1.3 Combiner les 4-arbres
3.2 Quartet Puzzling (QP)
3.2.1 Pondération des 4-arbres
3.2.2 Construction de phylogénies à partir des w4-arbres
3.2.3 Consensus
3.3 Faiblesses de Quartet Puzzling
3.3.1 Un critère d’insertion perfectible
3.3.2 Un biais topologique important
3.3.3 Une complexité élevée
3.4 Weight Optimization
3.4.1 Un nouveau critère d’insertion
3.4.2 Un ordre d’insertion défini dynamiquement
3.4.3 Une complexité optimale
Conclusion générale

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *