Notions de génétique moléculaire
L’ADN
L’acide désoxyribonucléique (ADN) est le support de base de l’information génétique de l’individu. Il est formé d’une suite de monomères appelés nucléotides. Chaque nucléotide, appelé également désoxyriboNucléoside Mono-Phosphate (dNMP), est composé d’un pentose (sucre à cinq atomes de carbone), le désoxyribose, d’un groupement phosphate et d’une base nucléique (Figure 1.1). Les substrats utilisés pour synthétiser l’ADN sont les nucléosides triphosphates (dNTP, désoxyriboNucleoside Tri-Phosphate).
Il existe quatre bases nucléiques différentes dans l’ADN : l’adénine, la guanine, la cytosine et la thymine. Les deux premières forment le groupe des purines, alors que les deux autres font partie du groupe des pyrimidines (Figure 1.2).
Structure de l’ADN
Les nucléotides sont assemblés sous forme d’un polymère par l’intermédiaire de leur sucre (le désoxyribose) et du groupement phosphate. Une molécule de phosphate relie le carbone en position 3’ du premier sucre au carbone en position 5’ du sucre suivant, qui est relié à son tour par son carbone en position 3’ à un autre nucléotide formant un assemblage orienté. Ainsi, le carbone 5’ du premier sucre dans la chaîne (le début de la séquence) reste libre, formant l’extrémité 5’. À l’opposé, le carbone 3’ du dernier sucre (la fin de la séquence) est aussi libre, formant l’extrémité 3’ .
Lors de la synthèse d’une molécule d’ADN, le nucléotide incorporé vient s’ajouter à l’extrémité 3’ de la molécule en cours de synthèse. La synthèse d’une molécule d’ADN se fait donc exclusivement dans le sens 5’→3′ .
Les molécules d’ADN ont une structure de type hélice double brin (Figure 1.4.a). Les deux brins sont liés grâce aux appariements (liaisons hydrogène) entre les paires de bases nucléiques, dites complémentaires (Figure 1.4.b). L’adénine est appariée à la thymine par deux liaisons hydrogène, tandis que la guanine est appariée à la cytosine par trois liaisons hydrogène. Ce type d’appariement entre bases complémentaires est appelé « appariement de Watson-Crick » faisant référence aux deux chercheurs James Watson et Francis Crick qui ont contribué à la mise en évidence de cette structure d’ADN bicaténaire en 1953 [203].
L’extrémité 5’ du premier brin s’apparie à l’extrémité 3’ du brin complémentaire. Les deux brins anti-parallèles sont dits « sens » et « anti-sens ». Le deuxième brin présente la séquence reverse-complémentaire du premier. Étant donnée la nature double brin de l’ADN, sa longueur est comptée en paires de bases (pb). Les molécules d’ADN double brin sont associés à des protéines permettant leur compaction et leur organisation sous forme de chromosomes. Le nombre, la taille et la forme des chromosomes diffèrent d’une espèce à une autre. On compte 46 chromosomes pour l’espèce humaine contenant environ 6,4 milliards de paires de bases.
Les gènes
L’ADN porte l’information génétique de l’individu. Cette information est distribuée sur différentes régions de l’ADN en différentes entités fonctionnelles, appelées gènes, capables de délivrer l’information nécessaire à la production d’une molécule fonctionnelle, acide ribonucléique (ARN) ou protéine. Chaque gène est lui même organisé en deux types de régions : celles contenant l’information à exprimer et les régions régulatrices, dont la région promotrice située en 5’ du gène, qui contrôlent le niveau d’expression du gène. Certains gènes sont traduits sous forme de protéine. La synthèse directe des protéines à partir des séquences d’ADN double brin n’est pas possible et une étape intermédiaire est nécessaire. Cette étape est appelée la transcription. La transcription est le mécanisme qui permet de copier ou transcrire l’information codée dans le gène sous forme d’une autre molécule apparentée mais simple brin appelée acide ribonucléique (ARN) [79].
Un même gène peut exister en différentes versions, distinguées par des variations au sein de leur séquence nucléotidique. Chaque version est appelée allèle. Par exemple, le gène codant le groupe sanguin ABO chez l’humain existe sous forme de plusieurs allèles différents. Si les deux chromosomes d’une même paire portent le même allèle, on dit que le gène est homozygote, tandis que si les deux allèles sont différents, on dit qu’il est hétérozygote.
L’ARN
L’acide ribonucléique (ARN) est un polymère qui est très proche chimiquement de l’ADN. L’ARN diffère principalement de l’ADN par l’absence de la thymine, qui est remplacée par l’uracile, par le sucre du type ribose (désoxyribose pour l’ADN), ainsi que par sa structure monocaténaire (un seul brin). L’ARN est obtenu à partir de l’ADN par le processus de transcription, dans lequel des enzymes appelées ARN polymérases effectuent la copie de l’ADN vers l’ARN.
Familles d’ARN
Il existe différents types d’ARN. Seuls les acteurs principaux intervenant dans le processus de synthèse des protéines à partir de l’ADN sont décrits.
L’ARN messager (ARNm) est le résultat de la transcription d’un gène. C’est une copie du contenu du gène dont il est issu. Cet ARN est produit dans le noyau de la cellule, puis transféré vers le cytoplasme pour être traduit en protéines. Cet ARN messager subit une suite d’étapes de modifications, notamment l’épissage qui consiste à éliminer les introns, avant de devenir un ARNm mature. L’ARNm est un ARN informatif qui sert d’intermédiaire dans le processus de la traduction de l’ADN d’un gène en protéine. Il est le seul ARN à être traduit [79].
Tous les autres types d’ARN décrits par la suite, sont des ARN qui ne sont jamais traduits en protéines.
Les ARN ribosomaux (ARNr) participent à la constitution du ribosome, qui est un complexe ARN-protéines de grande taille. Les ribosomes sont les éléments chargés de lire la séquence d’ARNm et de la traduire en séquence protéique.
Les ARN de transfert (ARNt) sont chargés du transfert des acides aminés (monomères de base d’une protéine) vers le ribosome. Ces ARN ont une structure dite en « feuille de trèfle » avec 3 boucles et un bras accepteur, site d’attachement de l’acide aminé. La séquence d’ARN est lue par triplets de nucléotides, appelés codons. Chaque codon code pour un seul acide aminé (Table 1.5). Il existe un ARN de transfert pour chacun des acides aminés.
Les protéines
Les protéines sont des polymères d’acides aminés obtenus par la traduction des molécules d’ARNm. Les acides aminés sont liés entre eux par une liaison peptidique. Chez l’Homme, il existe 20 acides aminés différents .
Le processus de traduction d’ARNm en protéine nécessite de nombreux acteurs. Brièvement, le ribosome se fixe à l’ARNm et le lit codon par codon (triplet de nucléotides) à partir du codon initiateur qui est très majoritairement AUG et qui code une méthionine. L’acide aminé correspondant à chaque codon est véhiculé par l’ARNt, qui le livre au ribosome, pour y être lié à l’acide aminé précédent par une liaison peptidique. Le processus de lecture continue jusqu’à la rencontre d’un codon stop (UAG, UAA ou UGA) qui marque la fin de la traduction. Plusieurs codons peuvent coder pour le même acide aminé (il existe 64 triplets de nucléotides pour 20 acides aminés) ; on parle de la dégénérescence du code génétique .
Les protéines assurent des fonctions très diverses chez les organismes vivants. Elles ont par exemple un rôle structural (peau, ongles, poils,…), dans la réponse immunitaire (les immunoglobulines), enzymatique, hormonal et autres. Dans le paragraphe suivant de cette thèse, nous nous intéresserons plus spécifiquement à une classe particulière de protéines ayant un rôle dans la régulation de l’expression des gènes, les facteurs de transcription .
|
Table des matières
Introduction
I Contexte général de la thèse
1 Généralités sur la recherche de variants génomiques
1.1 Notions de génétique moléculaire
1.1.1 L’ADN
1.1.2 L’ARN
1.1.3 Les protéines
1.2 Les variants génétiques
1.2.1 Origine des variants
1.2.2 Types de variants et conséquences
1.2.3 Variants germinaux et somatiques
1.2.4 Recherche de variants par séquençage
2 L’inférence de motifs approchés sur-représentés
2.1 Mots et motifs
2.2 Brève perspective historique sur la recherche de motifs
2.2.1 Recherche de mots
2.2.2 Recherche de mots approchée
2.2.3 Structures d’indexation de texte
2.2.4 Modélisation des motifs biologiques
2.3 Modèles de représentation des motifs d’ADN en bioinformatique
2.3.1 Modèles basés sur les chaînes de caractères
2.3.2 Modèles probabilistes
2.4 Modèle de base
2.5 Algorithmes de recherche de motifs sur-représentés
2.5.1 Algorithmes énumératifs
2.5.2 Algorithmes probabilistes
2.6 Conclusions
II Erreurs de séquençage et objectifs de la thèse
3 Le problème des erreurs de séquençage
3.1 Les erreurs de séquençage
3.2 Erreurs de séquençage non aléatoires
3.2.1 SSECF
3.2.2 SysCall
3.2.3 Discovering-cse
3.2.4 GATK/BQSR
3.3 Objectifs de la thèse
III Les contributions de la thèse
4 Développement du logiciel DiN AMO
4.1 L’algorithme
4.1.1 Principe général
4.1.2 Génération des motifs IUPAC et construction du demi-treillis
4.1.3 Simplification du demi-treillis
4.1.4 Détection des motifs secondaires
4.1.5 Regroupement des motifs similaires
4.2 Implementation
5 Évaluation du logiciel DiN AMO
5.1 Évaluation sur des données synthétiques
5.1.1 Génération d’ensembles aléatoires de motifs IUPAC
5.1.2 Implantation des motifs IUPAC dans des séquences aléatoires et
recherche de motifs
5.1.3 Évaluation des résultats
5.1.4 Résultats
5.2 Évaluation sur données de ChIP-seq
5.2.1 Introduction au ChIP-seq
5.2.2 Matériel et méthodes
5.2.3 Résultats
5.3 Conclusion
6 Application aux erreurs de séquençage non aléatoires
6.1 Recherche de motifs liés au SSE avec D iN AMO
6.1.1 Préparation des données
6.1.2 Jeu de données IonTorrent
6.1.3 Jeux de données Illumina
6.2 Application
6.2.1 Fonction de score
6.2.2 Matériels et méthodes – GIAB
6.2.3 Résultats
6.2.4 Comparaison aux outils DREME et Discrover
6.3 Recherche de motifs liés à des mutations naturelles
7 Conclusions
Télécharger le rapport complet