Du Gène à la fonction

La génomique fonctionnelle se définit en biologie comme un cadre dans lequel plusieurs disciplines et techniques participent à la découverte de la fonction des gènes, de leur profil d’expression, de leur régulation ainsi que de leurs interactions.

Le challenge de ces découvertes est particulièrement important pour l’ensemble de l’humanité. Pour relever celui-ci, les scientifiques doivent faire face à des difficultés diverses. La première de celle-ci réside dans la gestion des volumes importants de données générés. Pour l’instant, force est de constater que les scientifiques gèrent, au coup par coup. Toutefois, l’évolution des technologies de l’information allant vers une simplification de leur utilisation, une grande partie des données produites sont accessibles par le Web dans des systèmes souvent dédiés. La deuxième difficulté est inhérente à la recherche de corrélations pertinentes dans ces masses de données et de traitements. Le contexte de travail est donc à la croisée des domaines d’expertise biologique et informatique.

Qu’attendent les experts biologiques de la mise en place de systèmes informatisés sur leur domaine :
– qu’ils respectent leurs données, leur autonomie et l’origine en termes de propriété intellectuelle,
– qu’ils apportent une valeur ajoutée à leur travail en termes de connaissances, diffusion d’information,
– qu’ils les assistent dans leur travail de recherche (c’est sûrement un des points les plus sensibles) c’est-à-dire qu’ils facilitent et automatisent à terme les recherches, analyses, croisements d’information, etc.

Pour les scientifiques, l’intérêt principal des systèmes d’information biologiques est de pouvoir stocker leurs propres données expérimentales afin d’en réaliser l’analyse (e.g. trier, nettoyer, comparer). Le partage et la diffusion de l’information par le Web est aussi essentiel dans la mesure où la publication de travaux scientifiques, de nos jours, nécessite un tel accès, mais offre également un bon moyen de faire connaître son travail tout en permettant de créer des collaborations scientifiques. En effet, il est difficile pour les scientifiques d’exploiter la totalité des données produites. Pour donner un exemple, l’étude de la fonction d’un gène responsable d’une mutation chez le riz (Oryza sativa) peut prendre jusqu’à 3 à 4 ans. Certaines équipes constituent des collections de mutants dans l’objectif d’interrompre le fonctionnement de l’ensemble des gènes ce qui représente au minimum 34 000 mutants chez le riz. Ces équipes choisissent de ne travailler que sur une partie de ces mutants, généralement dans les domaines où elles excellent, et partagent le reste des ressources avec d’autres équipes. Enfin, ces systèmes informatiques permettent de protéger l’accès aux données. Tout d’abord, dans un cadre légal sur la protection des données et des programmes (par exemple les données diffusées ne peuvent être utilisées qu’avec le consentement du fournisseur). Ensuite, parce qu’une source de données peut être accessible avec différents niveaux de confidentialité, autorisant ainsi une diffusion rapide des données sans pénaliser les scientifiques qui souhaitent valoriser une partie de leur travail.

La détermination de la fonction des gènes requiert souvent l’utilisation séquentielle de plusieurs sources de données. Prenons l’exemple du transfert des connaissances entre deux espèces végétales : le riz (Oryza sativa) et l’arabette des dames (Arabidopsis thaliana). Nous allons, ainsi, pouvoir transférer des connaissances acquises sur l’espèce la plus étudiée, en l’occurrence Arabidopsis thaliana vers l’espèce la moins étudiée, ici Oryza sativa. Plus précisément, le gène ERECTA (Gene id : At2g26330 dans la source TAIR) est connu chez Arabidopsis thaliana pour être impliqué, entre autres, dans les mécanismes de régulation de l’efficience de la transpiration chez Arabidopsis [MGF05]. résistance à un pathogène Ralstonia solanacearum. De nombreuses descriptions phénotypiques sont disponibles dans la base TAIR, avec des liens vers des publications (source PUBMED). En ce qui concerne Oryza sativa, un gène potentiellement orthologue du gène ERECTA (entrée Os06g10230 dans la source OryGenesDB) a été identifié avec pour toute information disponible, sa séquence nucléique annotée. Il va s’agir alors de réutiliser les connaissances acquises en génomique fonctionnelle autour d’ERECTA (caractérisation de la variabilité d’expression, localisation spatiale et temporelle de l’expression du gène, gènes coexprimés, etc), en supposant que ces connaissances sont valides dans le contexte d’Oryza sativa.

La recherche d’information nécessaire pour valider de telles hypothèses nécessite une navigation Web à travers de nombreuses sources. Dans ce contexte, la conception de systèmes intégrant plusieurs sources de données permet de réduire les temps de recherche navigationnelle dans les ressources du Web. De plus, rassembler des données complémentaires, permet d’avoir une vision globale du domaine étudié mais aussi d’effectuer des traitements sur des données regroupées en utilisant un seul langage de manipulation. Dans le même sens, rassembler des données chevauchantes (dont le domaine d’étude est proche, voir l’exemple du gène ERECTA), permet de transférer ou confirmer des résultats expérimentaux (par exemple, si les résultats sont similaires chez l’arabette qui est mieux étudiée ou si d’autres sources spécifiques du riz trouvent des résultats similaires). Enfin, l’intégration permet de générer de nouvelles connaissances grâce aux déductions qui peuvent être établies à partir de l’ensemble des données mises à disposition (par exemple étude et la simulation de systèmes biologiques).

Les propositions actuelles, les plus à même de répondre aux diverses fonctionnalités présentées ci-dessus, relèvent de la thématique du domaine systèmes d’information, bases de données et plus précisément des approches dites intégration et médiation de données. Notre travail s’inscrit donc dans ce contexte. L’hétérogénéité et la complexité des données constituent un des écueils (bien identifié) et celui-ci est de plus augmenté de part l’évolutivité inhérente au domaine de la génomique fonctionnelle.

Du Gène à la fonction 

La naissance de la génétique moderne se situe en 1865, date des publications de Mendel. A l’époque, ses travaux passent inaperçus. Il définit pourtant les règles qui régissent la transmission des caractères héréditaires et définit sans le nommer les propriétés du gène. Les travaux de Mendel vont influencer de nombreux scientifiques au début du 20ieme siècle, notamment Morgan. Ses travaux sur la drosophile conduisent aux théories sur l’hérédité [Mor10, MSMB15], et démontrent que chaque parent contribue pour moitié au patrimoine génétique de la descendance. Dans ses expériences, Morgan montrera que l’arrangement des gènes sur les chromosomes est linéaire. En 1912, l’hypothèse selon laquelle les chromosomes sont le support de l’hérédité est complètement acceptée. Les généticiens s’attachent dès lors à découvrir les caractères génétiquement transmissibles et à les cartographier. Les processus qui conduisent de la mutation du gène au phénotype restent encore une énigme. C’est Garrod qui en travaillant sur des mutants liés au métabolisme de la phénylalanine, émet le premier, l’hypothèse de l’existence d’une relation gène enzyme [Gar08]. Ce sont les expériences de Beadle et Tatum avec le champignon Neurospora crassa, qui confirment cette hypothèse en 1941 [BT41]. Peu de temps après, Avery met en évidence le fait que certains caractères phénotypiques du pneumocoque peuvent être transmis par son ADN, démontrant que l’ADN est effectivement le support moléculaire de la transmission de l’hérédité [AMM44]. D’autres découvertes prennent date dans l’histoire des sciences. En 1953, Watson et Crick découvrent la structure en double hélice de l’ADN (Acide Désoxyribo Nucléique) et suggèrent un mécanisme de réplication de l’ADN [WC53](figure 1.1c) . En 1961, Nirenberg et Mattaei découvrent le code génétique universel [MMJN62, MJMN62], tandis que Jacob, Monod et Lwoff élucident le rôle des ARN messagers et le mécanisme de régulation de l’opéron lactose [JM61].

Deux découvertes techniques, le séquençage et la PCR, ont permis d’entrevoir le décryptage des génomes comme quelque chose de réalisable. Dès la fin des années 70, deux méthodes de séquençage, enzymatique [SNC77] et chimique [MG77] permettaient d’identifier chaque base d’une courte séquence d’ADN de quelques centaines de bases. Moins toxique, la première technique fut utilisée par la suite. En 1984 apparaît la PCR (Polymerase Chain Reaction)([MFS+86], une technique qui va révolutionner la biologie moléculaire . Cette technique d’amplification de l’ADN a été rendue possible grâce à la découverte d’une enzyme polymérase fonctionnant à des températures élevées. Des techniques dérivées de la PCR ont permis de mettre au point et d’utiliser une très grande panoplie de marqueurs moléculaires permettant l’enrichissement des cartes génétiques. Dès lors, il devenait théoriquement envisageable de séquencer un génome en le fragmentant en sous partie ordonnées (i.e. carte physique 1.1d) qui étaient séquencées. Il faudra attendre 1987, et la commercialisation du premier séquenceur automatique analysant 96 échantillons simultanément pour que l’idée soit potentiellement réalisable.

Le projet de séquençage du génome humain débute en 1990 avec la création du HGP (Human Genome Project). Le projet est soutenu et coordonné par le consortium HUGO (Human Genome Organisation) [McK89]. Les premiers génomes séquencés arrivent par la suite. En 1995, l’équipe de Graig Venter au TIGR (The Institute for Genome Research) publie le premier génome complet d’une bactérie Haemophilus influenzae (1,8 Méga Bases MB), réalisé par une technique dite de shotgun, de séquençage aléatoire et reconstitution in silico du génome [FAW+95]. Le génome de la levure (16 Mb) Saccharomyces cerevisiae séquencé par un consortium international sera terminé en 1996 [Gof96] alors que le premier génome d’eucaryote pluricellulaire, le ver nématode Caenorhabditis elegans [eSC98] sera publié un an plus tard. Les génomes de l’insecte Drosophila melanogaster [ACH+00] et la plante Arabidopsis thaliana (130Mb) [Ini00], seront publiés la même année en 2000. C’est en février 2001 que la séquence de 95% du génome humain est publiée conjointement par le HPG [Con] et la société Celera Genomics [VAM+01]. 2004 sera l’année de la publication du génome du riz Oryza sativa variété Niponbarre (430 Mb) [Int05a].

La génomique végétale et le riz

Les caractéristiques agronomiques du riz

Le riz est la deuxième céréale après le maïs en termes de surface cultivée (153 Mha en 2004) et de quantité produite (608 Mt en 2004), avec un rendement moyen de 4,0 t/ha qui masque de très importantes disparités [Sta05]. C’est, en revanche, la première céréale pour l’alimentation humaine avec des consommations annuelles très importantes dépassant dans certains pays en voie de développement les 100 kg/habitant. L’Asie domine l’économie du riz avec 90 % des surfaces et de la production qui y sont concentrées, l’Amérique Latine et l’Afrique se partageant l’essentiel des 10 % restants. Le riz est avant tout une production d’autoconsommation, les grands pays producteurs (Inde, Chine, Indonésie, Bangladesh, Thaïlande, Vietnam) étant également les principaux consommateurs [Cou07].

Le riz est cultivé dans des milieux très variés couvrant une large gamme d’altitudes et de latitudes. Cette plante, d’origine aquatique, et donc assez exigeante en eau par rapport à d’autres céréales, est surtout caractérisée par une grande plasticité vis-à vis de ses conditions d’alimentation hydrique. C’est sur ce point que se fondent la plupart des classifications des types de rizicultures [Cou88] :
– Riziculture irriguée, endiguée, avec parfaite maîtrise de l’eau qui occupe 53 % des surfaces.
– culture inondée, endiguée, sans maîtrise de l’eau. Ce type de riziculture représente 25 % des surfaces.
– Riziculture pluviale dont l’alimentation hydrique dépend uniquement de la pluviométrie ou de la présence d’une nappe éventuelle. Ce type de riziculture représente 13 % des surfaces en Asie mais respectivement 60 et 75 en Afrique et en Amérique Latine.
– Riziculture flottante, qui suit la crue des grands fleuves, occupant 9 % des surfaces.

Les rendements augmentent avec le degré de maîtrise de l’eau. En revanche, l’aménagement des rizières pour permettre l’irrigation, augmente les coûts de productions. La riziculture irriguée permet une intensification de la culture (double voire triple culture annuelle) et une diminution appréciable des aléas de culture garantissant des rendements élevés (6 t/ha en saison des pluies et jusqu’à 10 t/ha en saison sèche). La culture pluviale, en revanche, ne demande aucun aménagement particulier mais comporte plus de risques, notamment en cas de sécheresse. La production n’est répartie que sur un seul cycle de culture et les rendements sont plus faibles et plus variables (entre 1,5 t/ha et 4,5 t/ha).

D’un point de vue botanique, le riz est une Monocotylédone de la famille des Poacées. Deux espèces sont cultivées, Oryza sativa (génome A, 2n=24) à distribution mondiale et Oryza glaberrima (génome A, 2n=24), cantonnée à l’Afrique de l’Ouest [Int05b]. Oryza sativa est une céréale autogame (moins de 1% d’allogamie d’après [Cha64]). Les structures génétiques traditionnellement cultivées sont donc essentiellement des lignées pures. La diversité génétique du riz est considérable avec plus de 150.000 variétés cultivées dans le monde et 107.000 accessions environ dans la banque de gènes de l’IRRI. C’est une espèce fortement bipolaire avec 2 groupes d’origines géographiques différentes, les indicas et les japonicas, clairement distingués sur la base de caractéristiques agromorphologiques, de comportement en croisement, et de marqueurs biochimiques et moléculaires. La recombinaison entre les deux groupes n’est ni facile ni fréquente.

Le potentiel génétique a fait un bond exceptionnel à la fin des années 50 avec la découverte d’un mutant naturel semi-nain, Dee-geo-woo-gen, qui a été depuis très largement utilisé comme donneur de semi-nanisme. L’amélioration génétique du riz  à la création de variétés à cycle court, ayant de bons rendements, une bonne qualité de grains ainsi que des qualités de résistances multiples à des insectes ou à des agents pathogènes. Une des variétés les plus utilisée en Asie, IR64, fut vulgarisée en 1985. Le développement des techniques d’analyse moléculaire à la fin des années 80 s’est traduit par un changement d’échelle dans les analyses génétiques. La première carte génétique du riz, établie par McCouch et al. [MKZ+88] à partir d’une population F2 indica x japonica, a été suivie par beaucoup d’autres. Les cartes génétiques ont permis de cartographier de nombreux gènes majeurs de résistance à des maladies ou des insectes. Elles ont, en outre, été utilisées pour déterminer la localisation dans le génome des loci contrôlant des caractères quantitatifs complexes (QTLs) de grand intérêt pour les sélectionneurs : résistance partielle à la pyriculariose, croissance racinaire, composantes du rendement, notamment. Le premier article sur la détection de QTLs de résistance à la pyriculariose chez le riz a été publié par Wang et al [WMB+94]. Depuis, des QTLs ont été détectés pour de nombreux caractères (Xu, 2002, pour une revue [Xu02]). Ces progrès dans le marquage de gènes utiles permettent désormais d’envisager la mise en place de sélection assistée par marqueurs. L’existence de ces cartes génétiques saturées puis le développement de banques BAC ont rendu possible le clonage positionnel des gènes majeurs intéressants comme Xa21, qui détermine la résistance au flétrissement bactérien [SWC+95], sd1, le gène de semi-nanisme [SAUT+02], ou récemment le gène codant pour le composé majeur de l’arôme du riz [BFH+05]. Les premiers QTLs de riz ont été clonés par Yano et al [YKA+00] en partant d’un jeu de lignées de substitution. Ces QTLs contrôlaient la durée de cycle, un caractère facile à phénotyper. Mais la gamme des QTL clonés s’est rapidement élargie à des caractères plus complexes, comme le nombre de grains par panicule [ASL+05]. Les QTLs clonés correspondent parfois à des mutations connues (cas du nombre de grains par panicule) et ces résultats semblent suggérer qu’une meilleure exploitation des ressources génétiques caractérisées pourrait être profitable.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
I Contexte et état de l’art
1 Du Gène à la fonction
1.1 Introduction
1.2 La génomique végétale et le riz
1.2.1 Les caractéristiques agronomiques du riz
1.2.2 Le riz, une espèce modèle pour les Poacées
1.2.3 Le séquençage du génome du riz
1.3 La génomique fonctionnelle
1.3.1 La mutagénèse
1.3.2 Les différents types de mutagénèse insertionnelle
1.3.2.1 L’ADN-T
1.3.2.2 Les transposons
1.3.3 Utilisation des collections d’insertion
1.4 Le besoin d’accès à des multiples sources
1.4.1 Recherche d’information en génomique fonctionnelle
1.4.2 Exploitation des relations de synténie pour la découverte de gène
1.4.2.1 Recherche d’un gène candidat
1.4.2.2 Détection d’allèles correspondant à un gène candidat
1.4.3 Conclusion sur les scénarios d’usage
2 Formalismes et modèles des sources
2.1 Partage de l’information biologique
2.1.1 Organisation des sources de données
2.1.2 Les moyens mis en oeuvre pour partager l’information
2.1.3 L’open source et partage des schémas de bases de données
2.2 Les défis de l’intégration de données
2.2.1 La diversité et autonomie des sources à intégrer
2.2.2 Hétérogénéité des sources de données
2.2.2.1 Hétérogénéité syntaxique
2.2.2.2 Hétérogénéité sémantique
2.3 Standardisation des données
2.3.1 Les méta-données
2.3.2 Les ontologies
2.3.2.1 Représentation d’une ontologie
2.3.2.2 Alignement d’ontologies
2.3.2.3 Des éditeurs d’ontologies
2.3.3 Les ontologies et les méta-données dans le domaine biologique
2.3.3.1 Gene Ontology
2.3.3.2 EcoCyc
2.3.3.3 TAMBIS
3 État de l’art sur l’intégration
3.1 Critères d’évaluation des approches d’intégration
3.1.1 Formats des données intégrées
3.1.2 Le type d’intégration
3.1.3 Le modèle de données ou le modèle pivot
3.1.4 Les degrés d’intégration sémantique
3.1.5 Le niveau de transparence
3.1.6 Construction du schéma global d’intégration
3.1.7 Choix de la localisation des sources
3.1.8 Langage de requêtes
3.2 L’approche matérialisée
3.2.1 Les entrepôts de données
3.2.2 Les entrepôts de données en bioinformatique
3.3 L’approche virtuelle
3.3.1 L’approche navigationnelle
3.3.2 La médiation
3.3.3 Systèmes bioinformatiques utilisant l’approche de médiation
3.4 Discussion
II Propositions : intégration de ressources végétales
4 Premier pas vers l’intégration
4.1 Introduction
4.2 Oryza Tag Line
4.2.1 Matériels et méthodes
4.2.1.1 Conception et mise en oeuvre
4.2.1.2 Contenu du système
4.2.2 Résultats
4.2.2.1 Analyses des données
4.2.2.2 L’interface du système
4.2.3 Discussion
4.3 OryGenesDB
4.3.1 Matériels et méthodes
4.3.1.1 Conception et développement
4.3.1.2 Contenu
4.3.2 Résultats
4.3.2.1 L’interface de requête
4.3.3 Discussion
4.4 Intérêt de l’intégration
5 Adaptation de Le Select pour la médiation de ressources végétales
5.1 Description du middleware
5.1.1 Principales caractéristiques
5.1.2 L’accès aux données
5.1.2.1 Le rôle des adaptateurs
5.1.2.2 Le rôle du médiateur
5.2 Description de l’intégration des sources
5.2.1 Description des sources
5.2.2 Publication des sources
5.3 Intégration sémantique des sources de données
5.3.1 Pré-intégration
5.3.2 Recherche de correspondances inter-schémas
5.3.3 Intégration
5.3.4 Construction d’une ontologie
5.4 Interrogation transparente des sources
5.4.1 Construction des vues
5.4.2 Exemples de requêtes
5.5 Conclusion
6 Intégration de sources de données par le biais de services web
6.1 Les services Web
6.1.1 Définitions
6.1.2 Utilisation des Services Web dans le domaine de la biologie
6.1.3 Evolutions des standards associés aux Services Web
6.2 Développement d’une application intégrée utilisant des services web
6.2.1 Analyse de l’existant
6.2.2 Définition des cas d’utilisation
6.2.3 Matériels et méthodes
6.2.3.1 Description de la plateforme BioMoby
6.2.3.2 Conception des services web
6.2.3.3 L’enchaînement des services web
6.2.4 Résultats
6.2.4.1 Création des services web
6.2.4.2 Développement de workflows
6.2.4.3 Implémentation de l’interface Web utilisateur
6.3 Discussion
III Synthèse et discussion
7 Synthèse et discussion
7.1 Synthèse
7.2 Discussion
7.2.1 Expérimentation menée au travers de Le Select
7.2.2 Intégration de sources de données par le biais de services web
7.2.3 Perspectives
IV Annexes

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *