La conception de sondes oligonucléotidiques pour puces à ADN

La technologie des puces à ADN

   Le terme puce à ADN (ou « DNA microarray » en anglais) désigne une technologie miniaturisée de biologie moléculaire permettant l’analyse d’échantillons biologiques complexes. Son concept repose sur un procédé multidisciplinaire intégrant la biologie, la chimie des acides nucléiques, les nanotechnologies, l’analyse d’images et la bioinformatique. Une puce à ADN est constituée d’un support solide, généralement une lame de verre, sur lequel sont fixés de manière ordonnée des milliers de fragments d’ADN appelées sondes. Ces sondes seront caractéristiques d’un gène donné ou d’une région d’ADN, et constitueront des « étiquettes » ou « codes barres » spécifiques. La position de ces fragments sur la biopuce est connue. Ainsi, par mise en contact de ce support avec un mélange complexe marqué par fluorescence, il est possible de détecter et de quantifier l’ensemble des cibles que contient ce mélange en une seule expérience. La technique de détection d’un fragment d’ADN par hybridation avec son brin complémentaire marqué radioactivement, dite technique du « Southern Blot », était connue depuis les années 70 [Southern 1975]. Mais c’est à la fin des années 90 que ce principe a été étendu en fixant des milliers de dépôts d’ADN sur un support solide miniature, permettant ainsi la détection simultanée d’un très grand nombre de séquences en parallèle. Les premières puces à ADN ont été fabriquées par l’équipe de P. Brown à l’université de Stanford [DeRisi et al 1997], et contenaient le génome de la levure du boulanger (Saccharomyces cerevisae). La technologie des biopuces connaît donc un développement exponentiel depuis la « révolution génomique » avec la capacité de séquencer des génomes complet. La base de données GOLD (Genome OnLine Database1) recense en 2006 plus de 2000 projets de séquençages complets de génomes, parmi lesquels 400 sont achevés et publiés. Les premières puces à ADN étaient fabriquées en déposant les séquences complètes des gènes (ADNc, produits PCR) sur le support solide et servaient le plus souvent à détecter les transcrits d’une cellule (ARNm). Aujourd’hui, la technique a considérablement évoluée [Barrett 2005], et son utilisation est de plus en plus courante dans les laboratoires de biologie. Une simple recherche du mot « microarray » dans la base de données bibliographique PubMed renvoie près de 13000 articles. De nouveaux types de puces sont apparus, la principale évolution étant l’apparition de supports sur lesquels ne sont plus fixés les séquences complètes des gènes, mais des séquences « courtes » de type oligonucléotidique (50 à 70 bases) conçues pour être spécifiques de chaque gène. D’autre part, les applications se sont diversifiées : elles vont de la classique étude de l’expression transcriptionnelle à l’identification des sites d’interaction de protéines avec l’ADN [Ren et al 2000, Buck and Lieb 2004], la détection du nombre de copies d’ADN [Pinkel et al 1998, Snijders et al 2001], la détection de mutations (SNP Single-Nucleotide Polymorphism) [Hirschhorn et al 2000, Kennedy et al 2003, Tebbutt et al 2004], la comparaison de génomes [Behr et al 1999], l’identification de micro-organismes. Le principe des puces à ADN a même été étendu aux proteines puisqu’il existe maintenant des « protein microarrays » sur lesquelles sont fixées non plus des séquences d’ADN mais des protéines. Enfin, en quelques années, le mode de fabrication des puces a évolué : les premières puces étaient la plupart du temps fabriquées « sur-mesure » par le laboratoire voulant réaliser l’expérience. Aujourd’hui, si ce mode de fabrication reste possible, il existe également une forte compétition économique entre des sociétés spécialisées qui commercialisent les puces pour les laboratoires de recherche ou l’industrie pharmaceutique. La Figure 1 illustre le principe de fonctionnement d’une biopuce classique. Il est important denoter le vocabulaire utilisé : le terme sonde (« probe » en anglais) désigne le fragment d’ADN fixé sur le support solide, alors que le terme cible (« target » en anglais) désigne les séquences nucléiques marquées contenues dans l’échantillon à analyser. De même, on appelle « spot » une unité d’hybridation située sur le support solide, dans laquelle est fixée une micro gouttelette d’une sonde donnée.

Méthode de fixation des sondes sur le support solide

   Les puces à ADN peuvent également être distinguées par la méthode de fixation des sondes sur le support solide. Cette fixation peut être opérée par un robot spotteur. C’est la technique qui a été utilisée pour fabriquer les premières puces à la fin des années 90. La fabrication de la puce s’effectue en trois étapes distinctes :
• fabrication des sondes à fixer sur le support solide
• dépôt des sondes sur le support par le robot spotteur
• traitement du support afin d’empêcher tout autre brin d’ADN de se fixer au support. La fixation des sondes au support solide se fait par liaison chimique ou électrostatique. La seconde méthode de fabrication des puces est la synthèse des sondes in situ : dans ce cas,les sondes sont obligatoirement des oligonucléotides, et ces derniers sont synthétisés base par base directement sur la puce. Chaque base ajoutée est munie d’un système de protection chimique qui empêche la fixation de toute autre base à sa suite. Grâce à un système de déprotection sélectif (ou photodéprotection), on peut ainsi synthétiser l’ensemble des oligos de la puce. Il existe ensuite différents mécanismes de photodéprotection, souvent brevetés par des sociétés privées :
• la photodéprotection par masque : c’est la base de la technologie Affymetrix. Avec cette technique, également appelée photolithographie, un masque est placé entre une source de lumière et le support solide à chaque étape de la synthèse, permettant ainsi la déprotection d’un ensemble de spots sélectionnés.
• la photodéprotection sans masque : la lumière est dirigée vers les spots sélectionnés grâce à un système de micro miroirs.
• La synthèse type « jet d’encre » : utilisée notamment par Agilent et Rosetta inpharmaceutics. La déprotection est chimique avec un système de projection des bases sur les spots sélectionnés via un système similaire aux imprimantes à jet d’encre.

L’adressage

   Il s’agit d’identifier la position des spots sur la lame afin de définir pour chaque spot, une région le contenant et contenant uniquement celui-ci. On parle souvent d’appliquer une grille sur l’image, car les régions considérées sont souvent rectangulaires. En effet, les spots sont organisés sur la lame en motifs réguliers : des blocs rectangulaires dans lesquels on trouve un certains nombre de spots espacés régulièrement. Le positionnement de la grille sur l’image est facilité par le fait que la structure de base est connue : elle est déterminée par le robot spotter, ou le cas échéant par la machine effectuant la synthèse in situ. Donc, dans un premier temps, la grille est positionnée approximativement, à partir des paramètres caractéristiques du plan de dépôt : nombre de lignes de blocs, nombre de colonnes de blocs, espacement entre les blocs, nombre de spots par blocs, espacement entre les spots à l’intérieur d’un bloc. Cependant, le processus mécanique de fixation des sondes n’est jamais parfait, et il existe toujours des petites variations dans la position des spots par rapport aux paramètres du plan de dépôt. Il est donc nécessaire d’effectuer un ajustement de la grille en la déformant afin de déterminer correctement les régions contenant chaque spot. Cet ajustement est soit manuel, soit réalisé automatiquement par l’algorithme d’adressage.

Réseaux de Neurones

   Un réseau de neurones est un réseau d’unités élémentaires (les nœuds) interconnectées, à fonctions d’activation linéaires ou non linéaires ([Hertz et al 1991, Haykin 1994], voir également [Anderson and Rosenfeld 1998] pour les articles historiques). Ces nœuds sont regroupés pour les réseaux multicouches en au moins deux sous-ensembles de neurones : un sous-ensemble d’entrée, un autre de sortie et éventuellement un ensemble de neurones cachés (voir Figure 9). De nombreux modèles de réseaux existent (réseaux de Hopfield, perceptrons multicouches,…), les différents nœuds étant complètement ou partiellement interconnectés aux autres. L’ensemble des liens convergeant vers un nœud constitue les connexions entrantes du nœud. Ceux qui divergent vers d’autres nœuds sont les connexions sortantes. A chaque connexion entre des nœuds i et j, est associé un poids wij représentant la force de l’influence du nœud i sur le nœud j. L’ensemble des poids est regroupé dans un vecteur de poids synaptiques w. Les poids des connexions sont éventuellement modifiés au cours d’une phase d’apprentissage. Modifier la sortie des nœuds à partir de leurs entrées consiste tout d’abord à calculer l’activation présente à l’entrée du nœud puis à calculer la sortie du nœud suivant la fonction d’activation qu’elle possède. Un réseau de neurones peut ainsi être défini pour chaque nœud par quatre éléments :
• La nature de ses entrées, qui peuvent être binaires ou réelles ;
• La fonction d’entrée totale e, qui définit le pré-traitement effectué sur les entrées.
• La fonction d’activation f du nœud qui définit son état de sortie en fonction de la valeur de e.
• La nature de ses sorties, qui peuvent être binaires ou réelles.
Deux éléments sont enfin nécessaires au bon fonctionnement du réseau: une fonction de coût et un algorithme d’apprentissage. L’apprentissage consiste en l’adaptation des paramètres du réseau de neurones pour donner une réponse désirée à une entrée donnée. Un des réseaux de neurones les plus utilisés en analyse de données d’expression de gènes est le SOM (Self Organizing Maps), réseau non supervisé d’apprentissage [Kohonen 1997]. On parle également de cartes auto organisatrices de Kohonen. Le but du SOM est de trouver des vecteurs prototypes qui représentent les données d’entrée, tout en réalisant une bijection continue entre l’espace d’entrée et un maillage (ensemble de neurones de dimension donnée, facilement visualisable). Le principe de construction du SOM est itératif : après avoir choisi une géométrie du maillage (par ex. une grille 3*2), les nœuds sont mappés dans un espace à k dimensions, initialement aléatoirement, puis ajustés itérativement. A chaque itération, il y a sélection aléatoire d’un point et déplacement des nœuds dans la direction de ce point. Le nœud le plus proche est celui qui bouge le plus ; ainsi il y a agrégation de points en fonction de relations de voisinage. Cette méthode a été testée sur des données de levure [Tamayo et al, 1999, Toronen et al, 1999] et comparée aux méthodes hiérarchiques classiques [Herrero et al 2001].

Support Vector Machines (SVM)

   Les machines à vecteurs de support (Support Vector Machine ou SVM) représentent une technique d’apprentissage supervisé, elles ont été utilisées avec succès dans de nombreux problèmes de reconnaissance de motifs comme la reconnaissance de texte, la reconnaissance de visage, l’identification vocale… [Burges, 1998]. Le principe général est une séparation d’un ensemble de données labellisées (ensemble de test) par un hyperplan maximisant la distance aux points de test. Dans le cas où aucune séparation par un tel hyperplan n’est possible, il y a possibilité de coopération entre SVM et une technique de noyaux qui réalise une séparation non linéaire. Les données dont on ne connaît pas l’étiquetage sont ensuite testées par rapport à l’hyperplan séparateur, et donc classées (avec un intervalle de confiance dépendant par exemple de la distance à l’hyperplan). Dans le domaine de la biologie moléculaire, la phase d’apprentissage peut se faire avec les profils d’expressions de gènes dont les fonctions sont bien connues. Ensuite, étant donné un gène « inconnu », cette méthode permet de tester si ce gène appartient ou non à une classe donnée. Les SVM commencent à être très utilisées pour classifier les données d’expériences de type microarrays. Dans [Brown et al 1997], les auteurs appliquent cette méthode aux données d’expression de la levure Saccharomyces cerevisiae. Ils comparent les SVM à plusieurs autres méthodes supervisées (Fenêtres de Parzen, discriminant linéaire de Fisher, arbres de décision), et testent différentes fonctions noyau. Dans [Pavlidis et al, 2002], les auteurs testent la capacité des SVM à apprendre sur des données hétérogènes (données d’expression + profil génétique de chaque gène). De nombreux travaux sont également menés dans le domaine de la classification de tissus cancéreux [Furey et al, 2000, Guyon et al, 2002].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
CHAPITRE I – CONTEXTE ET PROBLEMATIQUE BIOLOGIQUE 
1 LA TECHNOLOGIE DES PUCES A ADN
2 LES DIFFERENTS TYPES DE PUCES A ADN
2.1 TYPES DE SONDES UTILISEES
2.2 METHODE DE FIXATION DES SONDES SUR LE SUPPORT SOLIDE
3 LES ETAPES D’UNE EXPERIENCE DE PUCES A ADN
3.1 PREPARATION ET MARQUAGE DE L’ECHANTILLON CIBLE
3.2 HYBRIDATION ET LAVAGE
3.3 ACQUISITION DE L’IMAGE
3.4 ANALYSE DE L’IMAGE
3.4.1 L’adressage
3.4.2 La segmentation des spots
3.4.3 Le calcul des valeurs numériques
3.5 NORMALISATION DES DONNEES
3.5.1 La normalisation par rapport à la moyenne globale des intensités
3.5.2 La normalisation « Lowess »
3.5.3 Autres méthodes de normalisation
3.6 ANALYSE DES DONNEES
3.6.1 Classification
3.6.2 Analyse en composantes principales
3.6.3 Réseaux de Neurones
3.6.4 Support Vector Machines (SVM)
3.6.5 Autres méthodes
4 LES PRINCIPALES APPLICATIONS
4.1 LES ETUDES DE TRANSCRIPTOME
4.2 L’ETUDE DES REARRANGEMENTS GENOMIQUES PAR CGH-ARRAY
4.3 LA DETECTION DES SNP
4.4 LA METHODE DU « CHIP-ON-CHIP »
4.5 LA DETECTION D’ORGANISMES
5 PROBLEMATIQUE BIOLOGIQUE
5.1 CONTEXTE DES TRAVAUX ET OBJECTIFS
5.2 ETUDES DE L’EXPRESSION DES GENES D’UN PARASITE EUCARYOTE INTRACELLULAIRE OBLIGATOIRE
5.2.1 Les microsporidies
5.2.2 Un génome réduit et compact
5.2.3 Conception de puces à ADN spécifiques
5.3 CONCEPTION DE BIOPUCES PHYLOGENETIQUES POUR SUIVRE L’EVOLUTION DE COMMUNAUTES BACTERIENNES LORS D’UN PROCEDE DE BIOREMEDIATION
5.3.1 La bioremediation
5.3.2 Analyse des communautés bactériennes du sol à l’aide du biomarqueur ARNr 16S
5.3.3 Mise au point d’une biopuce à ADN oligonucléotidique
6 CONCLUSION
CHAPITRE II – ETAT DE L’ART : LA CONCEPTION D’OLIGONUCLEOTIDES POUR PUCES A ADN 
1 LE PROBLEME DE LA DETERMINATION DES OLIGONUCLEOTIDES
1.1 INTRODUCTION
1.2 SPECIFICITE DE LA SEQUENCE
1.3 TEMPERATURE DE FUSION
1.4 COMPOSITION EN BASES DE LA SEQUENCE – NOTION DE COMPLEXITE
1.5 STRUCTURE SECONDAIRE D’UN OLIGONUCLEOTIDE
1.6 AUTRES CRITERES
2 ALGORITHMES POUR LA CONCEPTION D’OLIGONUCLEOTIDE POUR PUCES A ADN
2.1 EVALUATION DES DIFFERENTS CRITERES
2.2 RECHERCHE DE LA SPECIFICITE D’UNE SEQUENCE
2.3 CALCUL DE LA STRUCTURE SECONDAIRE D’UNE SEQUENCE NUCLEIQUE
3 LES PRINCIPAUX LOGICIELS DE CONCEPTIONS D’OLIGONUCLEOTIDES POUR PUCES A ADN
3.1 GENERALITES
3.2 LES LOGICIELS DE TYPE CLIENT/SERVEUR
3.2.1 OligoWiz
3.2.2 ROSO
3.2.3 Autres logiciels
3.3 LES LOGICIELS AUTONOMES
3.3.1 OligoArray 1.0
3.3.2 ProbeSelect
3.3.3 Autres logiciels
3.4 COMPARAISONS ET TESTS
4 BILAN
CHAPITRE III – LES PUCES A ADN : ASPECTS GENIE LOGICIEL 
1 INTRODUCTION
2 L’INGENIERIE DES MODELES
2.1 ORIGINE
2.2 ARCHITECTURE GLOBALE DE MDA
2.3 LE PLATFORM INDEPENDANT MODEL (PIM)
2.4 LE PLATFORM SPECIFIC MODEL (PSM)
2.5 UTILISATION DE MDA
2.6 LIEN AVEC LES ONTOLOGIES
3 LES ONTOLOGIES EN INGENIERIE DES CONNAISSANCES
3.1 DEFINITION
3.2 LES ONTOLOGIES EN BIOLOGIE
4 LES TRAVAUX DE LA « MGED SOCIETY » ET DE L’OMG
4.1 INTRODUCTION
4.2 MIAME (MINIMUM INFORMATION ABOUT A MICROARRAY EXPERIMENT)
4.3 MAGE-OM (MICROARRAY GENE EXPRESSION OBJECT MODEL)
4.3.1 Historique
4.3.2 Présentation générale
4.3.3 Position de la conception d’oligonucléotide dans le MAGE-OM
4.3.4 MAGE-ML
4.3.5 MAGE-STK
4.4 L’ONTOLOGIE MGED
5 CONCLUSION
CHAPITRE IV – UNE NOUVELLE APPROCHE POUR LA CONCEPTION DE SONDES PROPOSITION D’UN « PLATFORM INDEPENDANT MODEL » 
1 INTRODUCTION
2 UNE NOUVELLE APPROCHE POUR LA CONCEPTION DE SONDES
2.1 LES LIMITES DES LOGICIELS EXISTANTS
2.1.1 Le problème de la spécificité des sondes
2.1.2 Tests in silico de spécificité des sondes
2.2 UNE NOUVELLE APPROCHE
2.3 VERIFICATION EXPERIMENTALE
2.3.1 Présentation de l’étude
2.3.2 Protocole expérimental
2.3.3 Résultats
2.4 BILAN
3 UN « PLATFORM INDEPENDANT MODEL » POUR LE DESIGN D’OLIGONUCLEOTIDES 
3.1 LES PROBLEMES RENCONTRES AVEC LES LOGICIELS EXISTANTS
3.2 RETRO INGENIERIE DU LOGICIEL OLIGOARRAY
3.3 PROPOSITION D’UN PIM POUR LA CONCEPTION D’OLIGONUCLEOTIDES
3.3.1 Intégration avec MAGE-OM
3.3.2 Le package Oligonucleotide
3.3.3 Le package DesignMethod
4 CONCLUSION
CHAPITRE V – APPLICATION : GOARRAYS, UN LOGICIEL DE CONCEPTION DE SONDES POUR PUCES A ADN. UTILISATION POUR LA CONCEPTION D’UNE BIOPUCE TRANSCRIPTIONNELLE DU PARASITE E. CUNICULI
1 INTRODUCTION
2 LE LOGICIEL GOARRAYS
2.1 PRESENTATION DU LOGICIEL
2.2 EXEMPLE D’EXECUTION
2.3 CONCEPTION
2.3.1 Modèle
2.3.2 Outils externes utilisés
2.3.3 Algorithme
2.3.4 Bilan
3 APPLICATION A L’ETUDE DE L’EXPRESSION TRANSCRIPTIONNELLE DU PARASITE ENCEPHALITOZOON CUNICULI
3.1 CALCUL DES OLIGOS
3.1.1 Calcul des « sondes OligoArray »
3.1.2 Calcul des « sondes GoArrays »
3.2 BASE DE DONNEES ET INTERFACE WEB
4 CONCLUSION
CHAPITRE VI – APPLICATION : PHYLARRAY, UN LOGICIEL DE CONCEPTION DE SONDES POUR PUCES A ADN PHYLOGENETIQUES 
1 LE CAS PARTICULIER DES PUCES PHYLOGENETIQUES
1.1 CONTEXTE BIOLOGIQUE
1.2 LE PROBLEME DE LA CONCEPTION D’OLIGONUCLEOTIDES POUR PUCES PHYLOGENETIQUES
1.3 METHODES ET LOGICIELS EXISTANTS
2 PROBLEME
2.1 INTRODUCTION
2.2 LES DONNEES GENETIQUES DISPONIBLES
2.3 TESTS
2.4 STRATEGIE RETENUE
2.4.1 Pré-traitement des données
2.4.2 Recherche de sondes spécifiques
3 ALGORITHME
3.1 EXTRACTION DES SEQUENCES DU GROUPE D’ORGANISME A IDENTIFIER
3.2 FILTRAGE DES SEQUENCES
3.3 ALIGNEMENT MULTIPLE DES SEQUENCES
3.4 RECHERCHE D’UNE SEQUENCE CONSENSUS
3.5 DETERMINATION DES SONDES
4 LE LOGICIEL PHYLARRAY
4.1 ARCHITECTURE
4.2 EXEMPLE D’EXECUTION
4.3 UTILISATION DU LOGICIEL
5 PARALLELISATION DE L’ALGORITHME
5.1 PRINCIPE
5.2 IMPLEMENTATION SUR UNE ARCHITECTURE DE TYPE CLUSTER
6 REALISATION D’UN PORTAIL WEB POUR LE LANCEMENT DE PHYLARRAY
6.1 PRESENTATION DE L’INTERFACE
6.2 ARCHITECTURE DE L’APPLICATION
7 CONCLUSION
CONCLUSION ET PERSPECTIVES
ANNEXE – INTRODUCTION A LA BIOLOGIE MOLECULAIRE 
1 INTRODUCTION
2 LA CELLULE, ELEMENT DE BASE DE L’ORGANISATION DU VIVANT
2.1 DEFINITIONS
2.2 LE METABOLISME CELLULAIRE
2.3 LA STRUCTURE DE LA MEMBRANE CELLULAIRE
3 LES PROTEINES
3.1 DEFINITION
3.2 LES ACIDES AMINES
3.3 LES DIFFERENTS NIVEAUX DE STRUCTURE DES PROTEINES
3.4 POURQUOI EST-IL INTERESSANT DE CONNAITRE LES SEQUENCES ET STRUCTURES DES PROTEINES ?
4 LES ACIDES NUCLEIQUES
4.1 L’ADN
4.2 L’ARN
5 L’EXPRESSION DES GENES
5.1 LE GENOME
5.2 QU’EST-CE QU’UN GENE ?
5.3 LE CODE GENETIQUE
5.4 LE MECANISME DE LA SYNTHESE PROTEIQUE
6 LES TECHNIQUES UTILISEES POUR L’ANALYSE ET LA COMPREHENSION DES GENOMES
6.1 LA REPLICATION DE L’ADN
6.2 L’HYBRIDATION
6.3 LE SEQUENÇAGE
6.4 LA PCR (POLYMERASE CHAIN REACTION)
BIBLIOGRAPHIE

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *