Les niveaux d’analyse et d’interprétation des données des puces à ADN

Télécharger le fichier pdf d’un mémoire de fin d’études

Le transcriptome:

L’étude de l’expression des gènes fait appel à deux approches : d’une part l’analyse du transcriptome constitué par l’ensemble des ARN messagers (ARNm) présents dans une cellule dans une situation donnée et d’autre part l’analyse du protéome représenté par les protéines que codent ces ARNm. Leur finalité commune est d’identifier et de quantifier les produits de l’expression des gènes d’une cellule ou d’un tissu à un instant et dans un environnement donné, dans un but de comparaison entre différents états biologiques.
Le transcriptome est défini comme la population d’ARNm présents dans les cellules.
Les ARNm sont produits dans le noyau par l’ARN polymérase II à partir d’une matrice d’ADN. Cette transcription est déclenchée par des facteurs de transcription capables d’activer spécifiquement certains gènes. Ces ARNm vont être exportés dans le cytoplasme pour être traduits en protéines. Ces protéines vont constituer d’une part des composants de la cellule (fibres d’actines, pores membranaire, pompe membranaires, etc.), d’autres part des molécules régulatrices (enzymes, facteurs de transcription, etc.).
La quantité d’une protéine et son activité sont régulées à différents niveaux (transcription, localisation des ARNm, traduction, maturation protéique, localisation et conformation de la protéine (figure 02)), mais souvent l’analyse du transcriptome nous donne une assez bonne vision du jeu de protéines présent dans la cellule. L’analyse du transcriptome étant pour des raisons techniques plus aisée que l’analyse du protéome, on dispose le plus souvent de la vision du transcriptome avant celle du protéome. L’approche du transcriptome est aujourd’hui rendue très accessible grâce à des méthodologies bien maîtrisées et au large spectre d’applications. L’analyse du transcriptome à grande échelle est possible grâce à la technique des puces à ADN ou microarrays.

Les puces à ADN:

Récemment, une nouvelle technologie a permis aux chercheurs d’explorer rapidement des patrons d’expression de génomes entiers. Un microarray (ou puce à ADN) est une petite lame de verre d’un centimètre sur centimètre. La surface de cette lame est couverte de plus de 20 000 taches correspondant chacune à un oligonucléiotide (une courte séquence de nucléotides) différent. Des ADNc peuvent également être apposés sur la lame pour servir de sondes. D’autres supports, tels que membranes fines (macro-array) peuvent être utilisées à la place de lames de verre. Le point clé de ce type d’expérimentation réside dans le fait que chaque séquence d’ADN est immobilisée à la surface de la lame par une de ses extrémités. Les puces à ADN ne sont pas conceptuellement différentes des traditionnelles expériences d’hybridation telles le Southern Blot (hybridation d’ADN génomique avec une sonde d’ADN) ou le Northern Blot (hybridation d’ARNm avec une sonde d’ADN), sur une puce à ADN, chaque oligomère peut servir de sonde pour détecter un ADNc cible (ou ARNm). Ces oligomères peuvent être marqués par fluorescence, ce qui permet à la puce d’être analysée grâce à un scanner confocal ou une caméra CCD. La présence ou l’absence de la séquence complémentaire dans un échantillon d’ADN examiné sur une puce à ADN, détermine quelles positions sont « allumées » ou « éteintes » sur le support. Par conséquent, la présence ou l’absence d’environ 20 000 séquences dans un échantillon peut en théorie être démontrée expérimentalement avec une seule expérimentation sur une seule puce. Parmi d’autres avantages, les puces à ADN utilisent des sondes fluorescentes plutôt que des sondes radioactives utilisées dans les techniques traditionnelles peuvent être conçues de façon robotisée. Depuis la conception des puces jusqu’à la quantification des signaux, en passant par l’extraction de groupes de gènes ayant des profils d’expression associés, l’analyse des données de puce à ADN est difficile. Il est donc impensable de concevoir des puces à ADN et leur utilisation sans l’utilisation d’ordinateurs et de bases de données. Pour que les résultats expérimentations soient à la fois clairs et sans ambiguïté, chaque sonde d’ADN déposé doit être unique, de façon à ce qu’un seul gène de la cible puisse s’hybrider avec cette sonde. Si ce n’est pas le cas, la quantité de signal détecté pour chaque tache ne sera pas déterminée correctement. Les résultats d’expérimentations peuvent être difficiles à visualiser. Les expérimentations possèdent généralement au moins quatre dimensions (position X, position Y, intensité de fluorescence et durée). Une lecture directe des taches sur les images extraites de la grille n’est pas très informative. Des outils permettent d’extraire les fonctionnalités d’un ensemble de données d’ordre supérieur et de les présenter de manière intelligente sont par conséquent nécessaires.
Actuellement, la stratégie la plus utilisée pour l’analyse des données de puces à ADN est le regroupement ou classification (clustering) de profils d’expression [5]. Plusieurs méthodes de classification, telles que la classification hiérarchique ou les cartes auto-organisatrices (SOM pour self-organizing maps) fonctionnent plus ou moins bien selon les situations, mais le but générale de chacune de ces méthodes est le même. Plusieurs paquetages logiciels commerciaux, contenant des outils pour la visualisation et l’analyse de données d’expression, sont disponibles. Certains sont spécifiques à des équipements physiques ou à des configurations de grilles particulières. D’autres comme SpotFire et GeneSpring de Silicon Genetics sont plus universels. Ces paquetages logiciels sont souvent relativement coûteux, mais à ce stade du développement de la technologie des puces à ADN, ils sont rentables de par leur relative facilité d’utilisation [6].
Celles-ci sont utilisées pour quantifier l’expression des gènes dans une situation biologique donnée. L’analyse d’une masse suffisante de données d’expériences sur puces peut permettre d’identifier des familles et des réseaux fonctionnels de gènes mis en jeu sous l’effet du stimulus étudié. Ainsi, les puces à ADN nous permettent d’identifier les programmes d’expression génique mis en route dans un type cellulaire donné, après stimulation par un agent (facteur de croissance, cytokine, molécule médicamenteuse, etc.), dans certaines pathologies ou au cours du développement. Notre laboratoire est impliqué dans le domaine des biopuces depuis 1997. Une biopuce est dans sa définition la plus générale un assemblage d’un grand nombre de sites réactifs dans un très petit volume. Ce concept, qui a été élaboré progressivement au cours des années 1980-1990, est passé dans le domaine applicatif de la biologie à la fin des années 1990; depuis, l’utilisation de ce nouvel outil s’est considérablement développée et diversifiée. Les puces à ADN permettent de mesurer et de visualiser très rapidement les différences d’expression entre les gènes et ceci à l’échelle d’un génome complet. Si la mise en œuvre de la technique est assez compliquée, son principe est très simple (figure 03).

La fabrication de la puce :

Une puce à ADN est constituée d’un très grand nombre d’unités d’hybridations (de quelques milliers à plusieurs centaines de milliers) disposées côte à côte sur un substrat plan ou poreux et contenant chacune de l’ordre de un million de sondes identiques. Il existe deux types principaux de puces à ADN. Dans les puces à cDNA, les sondes sont des fragments d’ADN amplifiés par la technique de PCR et déposés sur une lame de microscope préalablement recouverte de polylysine. La polylysine a pour rôle d’assurer la fixation de l’ADN déposé via des interactions électrostatiques. La préparation de la lame est achevée en bloquant la polylysine n’ayant pas encore accroché d’ADN de façon à éviter une fixation non spécifique de la cible. Juste avant l’hybridation, on dénature l’ADN pour qu’il se trouve sous la forme simple brin sur la puce, ce qui lui permettra de s’accrocher au brin complémentaire contenu dans la cible. Les puces à oligonucléotides utilisent comme sonde des oligonucléotides (de 25 bases pour Affymetrix et de 60 à 80 bases pour Agilent), qui sont soit déposés avec une technique similaire à celle des puces à cDNA (puces fabriquées dans les plates-formes académiques), soit synthétisées in situ (puces commerciales Affymetrix, Agilent et NibleGene) [7].

La préparation de la cible :

Les ARN sont extraits de la culture cellulaire ou du tissu dont on veut étudier l’expression. Les ARN messagers sont transformés en ADNc par transcription inverse qui est lui-même re-transcrit en ARN dans une étape finale pendant laquelle un marquage de la cible est effectué (soit marquage fluorescent pour les puces à cDNA, soit marquage indirect à la biotine pour les puces à oligonicléotides. Dans le cas des puces à cDNA on utilise une deuxième source d’ARN qui sert de contrôle et qui est marquée avec un autre fluorochrome [7].

L’hybridation :

L’ADN marqué qui constitue la cible en solution est mis en contact avec les sondes d’ADN (simple brin) déposées sur la puce. La puce est alors incubée une nuit à 60 degrés dans des conditions de salinité adaptées (concentrations variables selon le génome : levure ou souris,…etc.) pour favoriser l’hybridation, c’est-à-dire le processus d’appariement entre les brins d’ADN complémentaires. Au cours de cette étape permissive, de nombreux évènements d’hybridation croisés, plus ou moins spécifiques ont lieu. On rajoute une étape de lavage à basse force ionique qui provoque la séparation des brins les plus instables et améliorent grandement la spécificité du signal [7].

La lecture :

Chaque spot est excité par un laser et on récupère la fluorescence émise via un photomultiplicateur couplé à un système de microscopie confocale.
On obtient alors une image dont le niveau de gris représente l’intensité de la fluorescence lue. Dans le cas de puces à cDNA, la lecture se fait successivement sur deux canaux chacun correspondant à la longueur d’onde d’émission d’un des deux fluorochromes utilisés pour distinguer le premier échantillon test du deuxième échantillon contrôle. On remplace les niveaux de gris de la première image, par des niveaux de vert et par des niveaux de rouge pour la seconde. On obtient en superposant ces deux images, une image dont la couleur indique le sens de variation du niveau d’expression : les spots vont du vert pur (forte induction du gène dans le test par rapport au contrôle) au rouge pur (forte répression du gène dans le test par rapport au contrôle) en passant par le jaune (pas de variation de l’expression entre les deux conditions) [7].

La détection des variations statistiquement significatives :

Cette étape est essentielle car une des caractéristiques des puces à ADN est l’importance du bruit : lorsque l’on compare deux conditions biologiques identiques, une même sonde peut être mesurées avec des valeurs très différentes. Il faut donc mettre en œuvre des méthodes statistiques qui permettent au minimum d’assigner à toute variation une valeur p et au mieux d’estimer pour toute sélection un taux de false discovery rate (FDR), c’est-à-dire une estimation de la fraction de faux positifs présent dans la sélection effectuée. Nous utilisons pour cela une méthode développée au laboratoire que permet d’estimer outre ces deux quantités, la variation totale et la sensibilité d’une sélection (fraction de la variation totale sélectionnée) [7].

Le regroupement en fonction des profils d’expression :

Lorsque l’on considère plusieurs conditions biologiques ou une cinétique, on peut ensuite essayer de regrouper des gènes ayant le même profil d’expression. Ce regroupement ou clustering peut se faire de proche en proche comme pour une phylogénie, ce qui consiste à calculer un critère de similitude entre les réponses et à rassembler les profils les plus similaires. On peut également faire appel à des techniques plus complexes comme l’analyse en composante principale ou les réseaux neuronaux. Au final on représente en général le résultat du clustering sous la forme d’une matrice où chaque colonne correspond à une expérience et chaque ligne correspond à un gène. On normalise en général le signal par rapport à une condition de référence (par exemple le temps 0 dans une cinétique) et l’on représente ce ratio grâce à une échelle de couleur, par exemple du vert (gènes réprimés) au rouge (gènes induits) [7].

Les puces à oligonucléotides:

Comme nous l’avons indiqué, il existe plusieurs types de puces à ADN.
Nous avons restreint notre étude aux données générées par des puces Affymetrix (http://www.affymetrix.com/index.affx) pour deux raisons : la première est qu’il s’agit de la seule technique monocanal. De ce fait chaque résultat est un résultat « absolu » qui peut être comparé à tout autre résultat. Au contraire, les résultats générés par les techniques double canal sont relatifs puisqu’ils dépendent du contrôle utilisé qui sera jamais le même dans des expérimentations provenant de laboratoires différents. Deuxièmement, il s’agit d’une solution industrielle ce qui implique une standardisation des modèles proposés ce qui s’avère bénéfique pour ce type d’études de masse: en effet, toutes les expérimentations effectuées à partir de cette technologie sont facilement comparables et utilisables pour construire un réseau transcriptionnel comprenant un très grand nombre de gènes. Les puces Affymetrix ont une structure bien particulière : un gène est représenté non pas par une seule sonde mais par une ensemble de couple de sondes (en général une vingtaines de couples) qui constituent un probeset. Chaque couple de sondes est constitué d’une sonde ‘perfect match’ qui est exactement complémentaire à la séquence connue de la cible, et d’une sonde ‘mismatch’ identique sauf pour la base du milieu qui est changée. Un algorithme propre à Affymetrix permet d’obtenir à partir de la quarantaine de signaux, une seule valeur représentant le ‘niveau d’expression’ du gène [7].

Importation des données:

Nous avons décidé de traiter les données disponibles sur le serveur du NCBI: Gene Expression Omnibus (GEO : http://www.ncbi.nlm.nih.gov/geo/) qui est à présent le serveur le plus important.
Il a affiché le 05 mai 2005: 38804 résultats groupés en 1258 expériences. Pour donner une idée de la dynamique d’accumulation, signalons que lorsque nous avons effectué notre première importation (Octobre 2003) nous étions à environ 1000 puces.
Nous avons développé un grand nombre d’outils (logiciels), afin d’importer de manière automatique les fichiers provenant de GEO directement dans Arrayon: outil d’analyse et de traitement des données de puces à ADN.

Les niveaux d’analyse et d’interprétation des données des puces à ADN:

En présence de données de transcriptome, on peut envisager plusieurs types d’analyse de complexité croissante selon le nombre de ces données.

Deux conditions biologiques => probesets sur ou sous exprimés :

C’est le niveau le plus simple, déjà décrit précédemment (détection de variations statistiquement significatives (I2). La sélection de probesets sur- ou sous exprimés se fait par estimation du paramètre de FDR. Il est bien évident qu’il existe une relation inverse entre le FDR et la sensibilité. Avec un FDR de 1% les résultats sont très fiables, mais l’on ne sélectionne qu’une fraction de la variation totale. On peut améliorer la sensibilité, mais au détriment de la fiabilité, en prenant par exemple un FDR de 5%. En réalité, c’est le type projeté d’utilisation des données qui permet de choisir le paramètre le mieux adapté. Ainsi si les données sont destinées à être vérifiées expérimentalement, l’on choisira de préférence un FDR de 1%. En revanche pour des analyses in silico, un FDR de 5% pourra très bien être retenu. Pour ce qui est des réseaux, nous avons observés une très grande robustesse de leur structure par rapport à la valeur du FDR (figure 04).

Un petit nombre d’expérimentations => Question(s) biologique(s):

A ce stade, nous pourrons poser une ou plusieurs questions biologiques relatives à des conditions expérimentales plus nombreuses. Par exemple, on s’intéresse à la spermatogenèse et l’ovogenèse, avec l’ambition de mettre en évidence les gènes impliqués dans la recombinaison méiotique.
Cette étape exige d’appliquer une méthode de clustering qui permette de répondre à la question biologique posée. La plupart des biologistes utilisent des méthodes de clustering géométriques qui consistent à représenter les probesets dans un espace multidimensionnel, à mesurer les distances entre tous les couples de probesets et à regrouper les probesets qui sont proches. .Nous avons développé au laboratoire, une méthode alternative basée sur une combinatoire systématique sur toutes les comparaisons effectuées, de tous les résultats possibles. Ainsi si trois comparaisons on été effectuée, nous classons les gènes dans au plus 33 = 27 classes qui sont dénommées par une chaîne de symboles représentant la nature des variations successives. Par exemple la classe IDN indique que les gènes qui appartiennent à cette classe sont surexprimés dans la première comparaison, sous exprimés dans la deuxième et invariant dans la troisième. Les vingt sept classes sont donc NNN, INN, NIN, NNI, IIN, INI, NII, III, DNN, NDN, NND, DDN, DND, NDD, DDD, IDD, DID, DDI, IID, IDI, DII, NID, NDI, IND, DNI, IDN, DIN. Ensuite ne sont retenues que les classes qui sont susceptibles de contenir les gènes recherchés. Ainsi pour la méiose, nous savons que les gènes impliqués dans le phénomène sont exprimés à partir du 14 ième jour post-partum chez le mâle et au 13 ième jour post-coitum chez la femelle.

Un grand nombre d’expérimentations => Régulation de la transcription:

L’approche expliquée précédemment, ne peut pas être utilisée telle quelle lorsque le nombre de conditions biologique est trop important. Nous l’avons cependant conservée et adapté pour traiter ce cas : si on a 150 conditions biologiques différentes, on effectuera toutes les comparaisons possibles, soit 150 * 149 / 2 = 11175 comparaisons. Ensuite on calculera, comme indiqué ci-après pour tout couple de probeset (sur la puce humaine de type U95, il y a environ 12 000 probesets, ce qui va faire de l’ordre de 72 *106 couples) un score de corrélation positive (CORR) et un score de corrélation négative (ANTI) (figure 05).

Gestion des résultats de puces ADN

Arrayon:

Outil de gestion, de représentation graphique, d’analyse statistique et de clustering des données de puces à ADN. Il est composé d’un ensemble de méthodes rigoureuses et puissantes permettant d’analyser à fond une expérimentation aussi complexe soit elle Développé dans Superbase et MATLAB par le Dr. Michel Bellis [8].

Gestionnaire de l’information :

SQL (Structured Query Language) :

SQL (Structured Query Language, traduisez Langage de requêtes structuré) est un langage de définition de données (LDD, ou en anglais DDL Data Definition Language), un langage de manipulation de données (LMD, ou en anglais DML, Data Manipulation Language), et un langage de contrôle de données (LCD, ou en anglais DCL, Data Control Language), pour les bases de données relationnelles [9]. Deux environnements d’interrogation et de programmation ont été utilisés dans l’achèvement de ce travail:

Outils de communication et de transfert :

BlazeFtp:

BlazeFtp est un client FTP multisessions avec la gestion d’un cache et la possibilité de recherche hors ligne. Il est léger et très simple d’utilisation. Son fonctionnement ne nécessite que quelques minutes d’apprentissage.

Outils de recherche et de prédiction:

Conserved Transcription Factor Binding Site Finder (CONFAC):

Outil de cherche des sites de fixation et des facteurs de transcription conservés dans les régions promotrices des gènes de gènes humains donnés et de l’homologue correspondant de souris [10]. Le processus implique quatre étapes. Voir le détail sur le site : (http://morenolab.whitehead.emory.edu/cgi-bin/confac/login.pl)

The Transcription Element Listening System(TELIS):

C’est une base de données contenant les informations concernant la prévalence des motifs de fixation des facteurs de transcription se fixant sur les promoteurs de tout gène de l’homme, de la souris ou du rat existant sur les différents modèles de puces Affymetrix, Agilent ou autres [11]. Telis est un outil spécialisé dans la recherche des motifs de fixation des facteurs de transcription, il contient des nombres entiers indiquant les occurrences de chaque motif de fixation dans chaque promoteur;.Telis utilise une famille de matrices pour chaque facteur de transcription, et génère les données de fréquence après un balayage fait par PromoterScan qui utilise les séquences de nucléotides disponible via RefSeq du NCBI, et qui est conduit à une stringence donnée fixée par MatInspector qui utilise les valeurs de 80, 90 et 95 à travers une taille de promoteurs spécifiques de 300 ou 600 nucléotides en amont du site d’initiation de transcriptions ou une région qui débute de 1000 bases en amont du site d’initiation de transcription et se termine à 200 nucléotides en aval du site d’initiation de transcription. TELIS contient les données de 34622 gènes humains, 24384 gènes murins et 21053 gènes du rat [11]. Les motifs de fixation de facteurs de transcription sont définis par 108 matrices Position-Specific-Weight de la base de données JASPAR 2 (The High Quality transcription factor binding profile database), qui est non redondante ou par 192 matrices représentant tout les facteurs de transcription des vertébrés de la base de données TRANSFAC au choix des utilisateurs. Les motifs de fixation sont détectés par l’algorithme MatInspector. TELIS est développé originalement pour cartographier le control des réseaux transcriptionnels, en conjonction avec PromoterStats (Outils Statistique). Il peut identifier des facteurs de transcription expliquant la dynamique de l’expression de gènes. Les motifs de fixation des facteurs de transcriptions sont importés par FTP à partir de TRANSFAC et de JASPAR. Pour les sites de transcription alternatifs les résultats multiples sont ajustés et arrondis de façon d’avoir un seul enregistrement avec les positions potentielles. La bases de données de TELIS est interrogée par l’identifiant de la base de données Hugo. Pour chacune des trois espèces, la correspondance entre nom des gènes et types de puces est fondamentale. TELIS offre des multiples possibilités d’analyses, des calculs statistiques associés : Analyse d’expression différentielle en utilisant les matrices de la base TRANSFAC : elle trouve les motifs de fixation des facteurs de transcription qui sont sur représentés dans les promoteurs des gènes présentant une variation d’expression [11].
1. Analyse d’expression différentielle en utilisant les matrices de la base JASPAR 2 : Elle trouve les motifs de fixation des facteurs de transcription qui sont sur représentés dans les promoteurs de la variation d’expression de gènes.
2. Trouver le rang d’enregistrement dans la base de données : Elle renvoie le site de fixation du gène interrogé à partir de la base de donnée TELIS.
3. Analyses des fréquences: se fait par défaut par Z-test qui compare le nombre moyen de motif avec le nombre total des gènes
4. Analyses des incidences: c’est avec un test binomial afin de déterminer le motifs les plus représentés suite à la variation d’expression génique.
5. Telis utilise deux tests statistiques pour avoir des résultats statistiquement significatifs.
6. Pour estimer le taux des faux positifs relatifs à plusieurs motifs, nous utilisons le FDR au lieu du p – value relative à un motif particulier pour l’utilisation de cet outil, voici le site :(http://www.telis.ucla.edu/TELiSDifferentialExpression.htm).A

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

REMERCIEMENTS
INTRODUCTION GENERALE:
A. Le transcriptome
B. Les puces à ADN
1. La fabrication de la puce
2. La préparation de la cible
3. L’hybridation
4. La lecture
5. La détection des variations statistiquement significatives
6. Le regroupement en fonction des profils d’expression
7. Les puces à oligonucléotides
C. Importation des données
D. Les niveaux d’analyse et d’interprétation des données des puces à ADN
1. Deux conditions biologiques => probesets sur ou sous exprimés
2. Un petit nombre d’expérimentations => Question(s) biologique(s)
3. Un grand nombre d’expérimentations => Régulation de la transcription
4. La stratégie de la construction
E. Objectifs du travail
1. Calcul d’un index de qualité pour les probesets Affymetrix
2. Etude des séquences promotrices
OUTILS & METHODES
A. Outils
a) Gestion des résultats de puces ADN
(1)Arrayon
b) Gestionnaire de l’information
(1)SQL (Structured Query Language)
(2)SRS
(3)SuperBase
(4)PersonalBrain
c)Outils de communication et de transfert
(1)BlazeFtp
d)Outils de recherche et de prédiction
(1)Conserved Transcription Factor Binding Site Finder (CONFAC)
(2)The Transcription Element Listening System(TELIS)
(3)JASPAR 2
(4)EnsMart (ENSEMBL MartView)
(5)MatInspector
(6)TRANSFAT
e)Bases de Données utilisées (références)
(1)Gene Expression Omnibus (GEO)
(2)Ensembl Genome Browser (ENSEMBL)
(3)The mammalian promoter service (PromoSer)
(4)The Eukaryotic Promoter Database (EPD)
(5)NCBI Reference Sequence (RefSeq)
(6)The UniProt/Swiss-Prot Protein Knowledgebase (UniProt/Swiss-Prot)
(7)Transcription Regulatory Regions Database (TRRD)
(8)The Transcription Factor Database (TRANSFAC)
(9)HUGO Gene Nomenclature Committee (HUGO)
(10)PromoterScan
(11)Pub Med
(12)Affymetrix
(13)Superarray Biosciences Corporation
(14)GALA : Gene Alignement and Annotation Database
B. Méthodes
1. Filtration des probesets
a)Importation des données et création de la base de données relationnelle
b) Traitements et analyse des données
2. Interprétation des modules transcriptionnels présents dans nos réseaux
a)Utilisation des données de prédiction relatives à des ensembles de gènes co-régulés, impliqués dans les mêmes processus biologiques et qui ont des sites consensus communs
(1)L’Algorithme « Ab Initio »
(2)L’outil de prédiction « CONFAC »
(3)La banque de données de sites et de motifs de fixations des facteurs de transcription GALA
b)Utilisation de l’outil Telis spécialisé dans le control de la dynamique de la régulation des réseaux transcriptionnels pour interpréter des modules de régulation
(1)Superarray & TELIS
(2)Modules des réseaux transcriptionnels & TELIS
RESULTATS & DISCUSSIONS
1. VERIFICATION DES ANNOTATIONS DE PROBESETS PROPOSEES PAR AFFYMETRIX
2. INTERPRETATION DES SOUS-ENSEMBLE DE GENES CORRELES DANS LES RESEAUX TRANSCRIPTIONNELS
3. COMPARAISON STATISTIQUE DE NOS RESEAUX AUX DONNEES PREDITES
CONCLUSIONS & PERSPECTIVES
REFERENCES BIBLIOGRAPHIQUES