Préambule
Le traitement des données de séquençage à haut débit est un champ d’étude primordial du domaine de la bioinformatique. Ces données sont couramment utilisées dans plusieurs domaines, notamment la génomique et la transcriptomique. Dans la génomique, elles peuvent servir pour la détection des mutations somatiques SNV (Single Nucleotide Variant) ainsi que des variants structuraux CNV (Copy Number Variation), ces variations étant des marqueurs par excellence des maladies génétiques. De plus, elles permettent de reconstruire de nouveaux génomes, pour lesquels des références ne sont toujours pas établies. D’un autre côté, ces données sont particulièrement utiles dans la transcriptomique puisqu’elles peuvent être utilisées pour la quantification de l’expression génique ainsi que la détection des transcrits de fusion, anormalités de l’ARN (Acide RiboNucléique) et souvent marqueurs très forts de certains cancers. Cependant, les séquenceurs utilisés dans ce genre d’expériences ont souvent tendance à introduire des erreurs aléatoirement lors du séquençage ce qui crée des artefacts dans les séquences obtenues. L’ADN polymérase, enzyme permettant l’amplification de l’ADN (Acide DésoxyriboNucléique), elle-aussi représente une source supplémentaire d’artefacts dans les fragments d’ADN séquencés. Ces artefacts sont souvent introduits à très faible fréquence et pourraient être facilement confondus avec des vrais variants somatiques. L’utilisation récente des UMI (Unique Molecular Identifier) servant comme étiquette unique aux fragments séquencés a offert un solution permettant de filtrer les artefacts des données, facilitant ainsi l’analyse bioinformatique et la rendant plus précise. L’objectif de cette thèse est donc d’étudier les méthodes existantes se servant des UMI dans leurs algorithmes, et de proposer des améliorations, voire de nouveaux outils permettant une utilisation plus efficace des UMI dans les différents domaines d’application.
Contexte de travail
Le laboratoire LITIS et l’équipe TIBS
Le LITIS (Laboratoire d’Informatique, du Traitement de l’Information et des Systèmes) est une équipe d’accueil (EA 4108) Université de Rouen Normandie, Université du Havre Normandie et INSA Rouen Normandie et dirigée par le Pr. Laurent HEUTTE. Le LITIS est membre de l’école doctorale MIIS (Mathématiques, Information et Ingénierie des Systèmes) et du réseau d’intérêt normand « Normandie Digitale ». Il est partenaire de la fédération CNRS de recherche NormaSTIC. Il est en association avec le Groupe de Recherche en Informatique, Image, Automatique et Instrumentation (GREYC) de Caen, depuis janvier 2014. Le laboratoire comporte 7 équipes de recherche : l’équipe Apprentissage (App), l’équipe Combinatoire et Algorithmes (C&A), l’équipe Quantification en Imagerie Fonctionnelle (QuantIF), l’équipe Multi-agents, Interaction, Décision (MIND), l’équipe Traitement de l’Information en Biologie Santé (TIBS), l’équipe Réseaux d’Interaction et Intelligence Collective (RI2C) et l’équipe Systèmes de Transport Intelligent (STI). Ainsi, les travaux du laboratoire associent le traitement de l’information bio-médicale, l’intelligence artificielle, l’apprentissage automatique et l’étude combinatoire et algorithmique des modèles. Les travaux menés dans le cadre de cette thèse s’inscrivent dans les thématiques de recherche de l’équipe TIBS, dirigée par le Pr. Thierry LECROQ. Au sein de cette équipe, les thématiques générales sont la modélisation statistique, l’indexation et l’extraction des informations de différents types de données biologiques, en particulier, celles issues des séquenceurs de nouvelle génération à haut débit.
Le Centre Henri Becquerel
Le Centre Henri Becquerel (CHB) est le centre de lutte contre le cancer (CLCC) de Haute-Normandie. Il est situé à Rouen et est actuellement dirigé par le professeur Pierre Vera. Cet établissement privé à but non lucratif assure une triple mission de soins, de recherche et d’enseignement, et constitue avec le CHU de Rouen le pôle de référence régional en cancérologie. Le CHB est particulièrement spécialisé en hématologie et oncologie médicale (sénologie, gynécologie et ORL). Il est de plus centre référent en radiothérapie et médecine nucléaire. Le Centre Henri Becquerel, c’est aujourd’hui :
— plus de 3 500 patients hospitalisés par an;
— 150 lits d’hospitalisation;
— plus de 700 médecins, soignants et techniciens ;
— 35 chercheurs.
Le Centre Henri Becquerel développe aussi des activités de recherche fondamentale dont les principaux axes portent sur l’hématologie et l’imagerie médicale. Il assure également des activités de recherche clinique dans différents domaines.
Unité Inserm 1245
L’unité Inserm 1245 a été créée en janvier 2017 et est composée de quatre équipes. L’une d’elles est hébergée principalement au Centre Henri Becquerel à Rouen et se concentre sur la génétique et la clinique des proliférations lymphoïdes, et en particulier des lymphomes. Cette équipe, dirigée par le Pr. Fabrice JARDIN, est monothématique et de nombreuses compétences y sont représentées. Elle est associée à un département d’hématologie clinique particulièrement spécialisé dans la prise en charge des patients atteints de lymphome, avec un recrutement d’environ 150 nouveaux cas par an. Ce recrutement permet notamment la collecte d’échantillons tumoraux, dans le cadre de protocoles de recherche. Ce département travaille en étroite collaboration avec une unité de recherche clinique, qui assure une actualisation en temps réel du suivi des patients. Un laboratoire de pathologie, qui joue un rôle central dans le diagnostic de ces tumeurs et gère la mise en banque des échantillons. À ce jour, plus de 1 000 biopsies congelées de lymphome y sont disponibles. Ce laboratoire a également développé un réseau pour collecter l’ensemble de ces biopsies au niveau régional. Un laboratoire de génétique dont la compétence est largement reconnue. Ses capacités techniques vont de la cytogénétique conventionnelle et moléculaire à la génomique et à l’analyse d’expression génique. Il dispose d’une plateforme d’analyse performante, qui comporte notamment des séquenceurs capillaires et plusieurs appareils de PCR (Polymerase Chain Reaction) en temps réel. Deux séquenceurs de nouvelle génération ont également été acquis récemment. Ces outils offrent d’excellentes perspectives dans les domaines fondamentaux et translationnels, comme pour la validation des marqueurs tumoraux.
Le lymphome
Les différents types de lymphome représentent des tumeurs hétérogènes du système lymphatique qui se développent aux dépens des lymphocytes B ou T, cellules jouant un rôle essentiel dans les réactions de défense immunitaire. Selon leur nature, les lymphomes sont dits hodgkiniens ou non hodgkinens, et ont des degrés de gravité variables. Ce sont des cancers relativement fréquents puisqu’ils se placent en France au sixième rang en terme d’incidence (4,8 cas pour 100 000 personnes) et au premier rang des cancers chez les adolescents et jeunes adultes (15-25 ans). On distingue principalement deux grands groupes de lymphome : les lymphomes B diffus à grandes cellules (DLBCL) et les lymphomes T (PTCL).
Le traitement des données de séquençage
Aujourd’hui, le séquençage de nouvelle génération NGS (Next Generation Sequencing) est devenu la méthode de référence pour la mesure de l’expression génique ainsi que la détection des anormalités génétiques dans l’ARN (transcrits de fusion) et l’ADN (SNV et CNV) des cellules tumorales. Les années 2000 ont marqué l’apparition des technologies de séquençage de deuxième génération qui produisent des reads de quelques centaines de paires de bases. Ces reads présentent des taux d’erreurs moyens de l’ordre 1% (la plupart sont des substitutions) ce qui les rend bien adaptés à l’analyse des détections des variants. Ensuite, au début des années 2010 ont suivi les technologies de troisième génération offrant la possibilité de séquencer des reads pouvant atteindre des centaines de milliers de paires de bases. Les reads produits par ces séquenceurs affichaient des taux d’erreur beaucoup plus élevés (10-30%) les rendant plus compatibles pour la résolution de problèmes d’assemblage. Ces technologies produisent d’énormes quantités de données sous forme de milliards de séquences lues, appelées reads, et représentant des régions génétiquement intéressantes dans le génome des tumeurs. Ainsi, vu la quantité importante d’information produite par ces séquenceurs, il est devenu primordial de développer des structures de données ainsi que des algorithmes permettant un traitement efficace et rapide des données produites. Dans tous les cas, l’utilisation de ces technologies nécessite une étape d’amplification par PCR suivie d’une étape de séquençage, pendant lesquelles des artefacts sont introduits dans les reads à de très basses fréquences. Ces artefacts sont souvent confondus avec de véritables variants de faible fréquence qui peuvent être trouvés dans les cellules tumorales et dans l’ADN plasmatique. Les UMI sont des séquences nucléotidiques aléatoires et uniques, introduites dans les fragments d’ADN avant l’amplification. L’utilisation récente de ces barcodes moléculaires dans des protocoles de séquençage ciblés a offert une approche fiable pour filtrer les artefacts et appeler avec précision les variants somatiques, même à de très faible fréquences. De plus, l’utilisation des UMI a permis de quantifier avec exactitude l’expression ciblée des gènes ainsi que la détection des anormalités dans l’ARN, sous forme de transcrits de fusion.
L’intégration de l’analyse des UMI dans les différents types d’analyse bioinformatique secondaire et tertiaire a conduit au développement des outils plus gourmands en mémoire que ceux basés sur des reads bruts (sans UMI), augmentant considérablement le temps de l’analyse. De ce fait, le but principal de cette thèse est de développer des outils capables d’intégrer cette analyse des UMI en implémentant des structures de données et des algorithmes spécifiquement conçus pour l’analyse supplémentaire de ces séquences. Ainsi, le premier objectif de la thèse est le développent d’un outil permettant de quantifier la mesure d’expression génique sur un panel de gènes ciblés. De plus, ce même outil devrait être capable de s’adapter à un autre type d’analyse qui est la recherche de transcrits de fusion. Les données seront issues d’une expérience RT-MLPA (Reverse Transcriptase – Multiplex Ligation-dependent Probe Amplification) couplée à un séquenceur NGS. L’outil doit être implémenté dans une interface d’analyse permettant de faciliter et d’automatiser le plus possible le lancement des analyses par les biologistes ainsi que la production de résultats sous forme de fichiers bruts et graphiques facilement interprétables.
Le deuxième objectif de cette thèse est le développement d’un outil pour détecter les variants somatiques de très faible fréquence dans les fragments d’ADN étiquetés par des UMI. En effet, cet outil intégrera des algorithmes spécifiquement conçus pour rendre l’implémentation de l’analyse des UMI le plus efficace possible. L’intégration de cette analyse à l’outil permettra de réduire le taux de faux positifs dans la liste des variants trouvés, surtout pour les variants de très faible fréquence. L’outil doit être comparé à d’autres logiciels actuels pour démontrer son efficacité en termes de temps d’exécution et de consommation mémoire ainsi qu’en termes de sensibilité et spécificité de détection des variants.
La comparaison doit être faite en utilisant des données biologiques réelles mais aussi des données simulées. L’intérêt d’utiliser des données simulées est de pouvoir contrôler exactement la composition et la production des fichiers générés. Ainsi, le troisième objectif de cette thèse est de développer un simulateur de données permettant d’évaluer efficacement différents outils de détection de variants. Les simulateurs de reads avec des barcodes UMI permettront de reproduire le bruit de fond du séquenceur estimé à partir de données réelles et d’insérer des mutations déjà connues dans les fichiers produits ce qui rendra la comparaison entre les outils totalement objective et non biaisée. Plusieurs simulateurs de reads sont publiquement disponibles actuellement mais aucun d’entre eux n’offre la possibilité d’insérer des UMI dans les séquences produites, d’où l’intérêt de développer un tel outil et le rendre disponible aux autres développeurs pour effectuer leurs propres comparaisons.
|
Table des matières
1 Introduction
1.1 Préambule
1.2 Contexte de travail
1.2.1 Le laboratoire LITIS et l’équipe TIBS
1.2.2 Le Centre Henri Becquerel
1.2.3 Unité Inserm 1245
1.2.4 Le lymphome
1.2.5 Le traitement des données de séquençage
1.3 Objectifs
1.4 Organisation du manuscrit
2 Le séquençage de l’ADN
2.1 Introduction
2.2 Codage de l’information dans l’ADN
2.3 Technologies de séquençage
2.3.1 Première génération
2.3.1.1 Sanger
2.3.1.2 Maxam-Gilbert
2.3.2 Deuxième génération
2.3.2.1 Roche/454
2.3.2.2 Illumina/Solexa
2.3.2.3 ABI/SOLiD
2.3.2.4 Ion Torrent
2.3.2.5 Les reads pairés
2.3.3 Troisième génération
2.3.3.1 Pacific Biosciences
2.3.3.1 Oxford Nanopore Technologies
2.3.4 Notations en NGS
2.3.5 Simulation des données
2.3.6 Format des données
2.3.7 Récapitulatif
2.4 Problématiques
2.4.1 Correction des reads
2.4.2 Alignement
2.4.3 Variant Calling
2.5 Synthèse
3 Utilisation des UMI en NGS
3.1 Introduction
3.2 Utilisation
3.2.1 DNA-Seq
3.2.1.1 Détection d’une trisomie 21 par caryotypage digital
3.2.1.2 Détection des mutations de novo dans du cfDNA (cell-free DNA)
3.2.1.3 Comparaison entre différents fabricants de kits NGS avec et sans UMI
3.2.2 RNA-Seq
3.2.2.1 La découverte d’un nouvel artefact de séquençage dans l’analyse de l’expression génique basée sur du RNA-Seq
3.2.2.2 Utilisation des UMI pour éliminer les doublons de PCR en RNA-seq
3.3 Outils
3.3.1 UMI-tools
3.3.2 Gencore
3.3.3 DeepSNVMiner
3.3.4 MAGERI
3.3.5 smCounter2
3.4 Synthèse
4 RT-MLPA et séquençage NGS
4.1 Introduction
4.2 Les lymphomes
4.2.1 Le lymphome B diffus à grandes cellules
4.2.2 Le lymphome B à petites cellules
4.2.3 Le lymphome T
4.3 Analyse par RT-MLPA classique
4.3.1 Principe de la RT-MLPA
4.3.2 Analyse bioinformatique
4.3.2.1 Le fichier FSA
4.3.2.2 Le fichier de configuration
4.3.2.3 Les fichiers résultats
4.4 RT-MLPA couplée à un séquenceur NGS
4.4.1 Principe
4.4.2 Analyse bioinformatique
4.4.2.1 Le fichier d’index
4.4.2.2 Le fichier des marqueurs
4.4.2.3 Le fichier FASTQ
4.4.2.4 Mesure de l’expression génique dans les lymphomes
4.4.2.5 Détection des transcrits de fusion
4.5 Développement de RT-MiS
4.5.1 L’outil RT-MiS
4.5.1.1 Le traitement du fichier FASTQ
4.5.1.2 Le traitement du fichier d’index
4.5.1.3 Le traitement du fichier des marqueurs
4.5.1.4 La recherche des index
4.5.1.5 La recherche des marqueurs
4.5.1.6 La correction des UMI
4.5.1.7 La production des résultats
4.5.1.8 Implémentation
4.5.2 L’interface d’analyse dédiée RT-MiS
4.5.2.1 La gestion des fichiers d’index
4.5.2.2 La gestion des fichiers des marqueurs
4.5.2.3 La gestion des fichiers FASTQ
4.5.2.4 La gestion des analyses
4.5.2.3 L’affichage des résultats
4.6 Synthèse
5 Détection des variants somatiques
6 Conclusion