Le BLAST : Définition

Méthode de maximum de vraisemblance (ML)

BLAST

L’alignement de séquences constitue souvent le premier lien entre l’ADN ou la protéine nouvellement séquencée et les séquences déjà classées dans la base de données. Basic Local Alignment Search Tool (BLAST) est l’un des choix les plus populaires pour la recherche et l’alignement de séquences. Le BLAST compare une séquence de nucléotides ou de protéines comme entrée contre une base de données de séquences de nucléotides ou des séquences de protéines, (Grzegorz M. Boratyn et al., 2013), et calcule la signification statistique des résultats. BLAST peut être utilisé pour déduire les relations fonctionnelles et évolutives entre les séquences ainsi que pour aider à identifier les membres de familles de gènes [http://BLAST .ncbi.nlm.nih.gov/BLAST .cgi#].

L’analyse de notre séquence par le BLAST a pour but de comparer des séquences requêtes (de types nucléiques ou protéiques) à des séquences présentes dans les bases de données afin de trouver des similarités entre ces séquences. (Thomas Le Calvez et al., 2009).

Alignement des séquences
L’alignement permet de mesurer la similarité entre deux séquences génomiques. En général, on associe un score à cette similarité, ce score représentant la somme des coûts d’opérations élémentaires pour passer d’une séquence à l’autre (Van-Hoa Nguyen, 2009). Ainsi, à chaque position dans l’alignement correspond une des trois situations suivantes :
• Un appariement ou match quand le même caractère apparaît dans les deux séquences ; une valeur positive est associée ;
• Une substitution (ou mis-match) lorsqu’il y a deux caractères différents ; une valeur négative est associée ;
• Un gap (Indel), c’est à dire une insertion d’un caractère dans seulement une séquence ou symétriquement une délétion dans une des deux séquences ; une valeur négative est assignée.

Catégories d’alignements

L’alignement de séquences peut se diviser en deux catégories : l’alignement global et l’alignement local. Le premier est utilisé pour calculer la similarité totale entre deux séquences. Les séquences sont alignées sur toute leur longueur. L’algorithme qui effectue cet alignement est appelé algorithme de Needleman-Wunsch et a été introduit en 1970. Le second détecte simplement les régions locales de fortes similarités entre deux séquences. Cet algorithme a été proposé par Smith-Waterman en 1981.

En fonction des problématiques étudiées, on choisira le type d’alignement le mieux adapté. Par exemple, pour des études phylogénétiques qui consistent à déterminer des distances entre séquences de même nature, les alignements globaux seront considérés. Par contre, pour rechercher des zones fonctionnelles identiques entre protéines, les alignements locaux seront mieux appropriés (Van-Hoa Nguyen, 2009).

Le Système de Score
Un système de score est le coût à attribuer aux opérations élémentaires (identité, substitution, délétion et insertion) de comparaisons de séquences (Nadira Benlahrache, 2007).

Les Matrices de Substitution
Le choix d’une matrice de substitution gouverne le système des scores et par conséquent influe sur les résultats obtenus. Il existe deux types de matrices de substitution qui sont utilisées et ceci selon la nature des séquences nucléiques ou protéiques .

Matrices de Scores pour l’ADN :
Cette matrice consiste en l’attribution d’un score 1 en cas d’identité sinon un zéro.
Dans cette matrice on prend en considération l’effet des actions des transitions (A à G, G à A, C à T, et T à C) et transversion (les autres passages entre nucléotides),Identité=3, Transition= 1, Transversion = 0.

Matrices de score BLOSUM 62:
Ces matrices BLOSUM (Blocks Substitutions Matrices) (Henikoff et Henikoff, 1992) sont construites par analyse de séquences de protéines, par exemple la matrice BLOSUM 62 est obtenue à partir de séquences présentant au minimum 62 % d’identité (similitude) entre elles (Nadira Benlahrache, 2007).

Guide du mémoire de fin d’études avec la catégorie Les systèmes de transport membranaire

Étudiant en université, dans une école supérieur ou d’ingénieur, et que vous cherchez des ressources pédagogiques entièrement gratuites, il est jamais trop tard pour commencer à apprendre et consulter une liste des projets proposées cette année, vous trouverez ici des centaines de rapports pfe spécialement conçu pour vous aider à rédiger votre rapport de stage, vous prouvez les télécharger librement en divers formats (DOC, RAR, PDF).. Tout ce que vous devez faire est de télécharger le pfe et ouvrir le fichier PDF ou DOC. Ce rapport complet, pour aider les autres étudiants dans leurs propres travaux, est classé dans la catégorie Analyse des ORF détectés par le programme BLAST P où vous pouvez trouver aussi quelques autres mémoires de fin d’études similaires.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Partie 1 : REVUE BIBLIOGRAPHIE.
Introduction
A. Identification de la séquence
I. Blast
1. Alignement des séquences
2. Catégories d’alignements
3. Le Système de Score
4. Les Matrices de Substitution
a) Matrices de Scores pour l’ADN
i. La matrice Identité
ii. La matrice de Transition/Transversion
b) Matrices de score BLOSUM 62
5. Algorithme du blast
6. Statistique du Blast
II. Utilisation du programme ORF finder
III. Utilisation du programme GeneMark
IV. Recherche de promoteur
B. Etude phylogénétique
1) Phylogénie : Définition
2) Phylogénie moléculaire
3) Reconstruction phylogénétique
a. Méthode de maximum de vraisemblance (ML)
C. Les mycobactéries
1. Classification des mycobactéries
2. La tuberculose
3. La résistance mycobactérienne
4. Les systèmes de transport membranaire
a. Système d’efflux actif
5. La superfamille des MFS
Partie 2 : MATERIELS ET METHODES :
A. Séquences utilisées
1. Séquence de Mycobacterium aurum
B. Méthodes bioinformatiques utilisées
I. Recherche de similarité
a. Les types du BLAST
a. BLAST N
b. BLAST P
c. BLAST X
II. Recherche des cadres de lectures ouverts
1. ORF Finder
2. GeneMark
III. Identification du promoteur
IV. Analyse phylogénétique
a. Analyse phylogénétique des séquences
Partie 3 : RESULTATS ET DISCUSSIONS
I. Analyse de la séquence étudiée avec le programme Blast N
II. Détermination des cadres de lecture ouverts et identfication de la fonction
du (des) gène (s)
1. Etude de la séquence avec ORF Finder et BLAST P
a. Analyse de la séquence étudiée avec le programme ORF Finder
b. Analyse des ORF détectés par le programme BLAST P
2. Etude de la séquence étudiée avec les programmes GeneMark et BLASTP
a. Analyse de la séquence étudiée avec le programme GeneMark
b. Analyse des ORF détectés par le programme BLAST P
III. Localisation des gènes identifiés sur la séquence étudiée
IV. Recherche de promoteur
V. Analyse phylogénétique
Conclusions et perspectives
Références bibliographiques
Webographie
Annexe