L’INRA
Fondé en 1946, L’INRA est un organisme public de recherche en agronomie. Il est composé de 13 départements scientifiques, dont le département MIA , lui-même composé de six unités de recherche, dont l’unité BioSP. BioSP est aussi sous la cotutelle du département SPE . C’est dans cette dernière que j’ai effectué mon stage. L’INRA est sous la double tutelle du Ministère en charge de la Recherche et du Ministère de l’agriculture et de l’alimentation. En découle un double rôle de production de recherches scientifiques et de sa diffusion mais aussi un rôle de conseiller les décisions publiques liées à l’agriculture et à l’alimentation. L’INRA emploie environ 8000 personnes à travers toute la France et collabore aussi bien avec d’autres instituts de recherche français comme le CNRS , qu’avec des centres internationaux, comme le CAAS en Chine ou le CSIRO en Australie. L’INRA est actuellement en pleine fusion avec l’IRSTEA et les champs disciplinaires couverts par le nouvel établissement vont prochainement s’élargir du fait de cette fusion.
L’unité Biostatistique et processus spatiaux (BioSP)
L’unité BioSP, située à Avignon, plus précisément à Agroparc sur le site Saint-Paul, est principalement composée de deux équipes : l’équipe recherche et l’équipe opérationnelle. La première est actuellement constituée de 14 chercheurs, 13 membres non permanents (doctorants, postdoctorants, CDD, stagiaires), et enfin de six ingénieurs permanents d’appui à la recherche. La recherche au sein de cette unité est actuellement orientée autour de trois disciplines :
• Statistiques spatiales et spatio-temporelles : Développement de méthodes statistiques pour analyser des données spatio-temporelles comme par exemple comprendre où et quand un feu de forêt se déclare.
• Systèmes dynamiques : Étude mathématique de modèles décrivant la propagation dans un milieu hétérogène d’un organisme ou d’une espèce comme par exemple la propagation d’une espèce invasive lié au changement climatique (chenille processionnaire, moustique tigre…).
1. Centre d’Enseignement et de Recherche en Informatique (http://ceri.univ-avignon.fr)
2. Institut National de la Recherche Agronomique (https://www.inra.fr)
3. Mathématiques et Informatique Appliquées (https://www.mia.inra.fr)
4. Biostatistique et processus spatiaux (https://informatique mia.inra.fr/biosp)
5. Santé des Plantes et Environnement (https://www.spe.inra.fr/)
6. Centre National de la Recherche Scientifique (https://www.mia.inra.fr)
7. Chinese Academy of Agricultural Sciences (http://www.caas.cn/en)
8. Commonwealth Scientific and Industrial Research Organisation (https://www.csiro.au)
9. Institut national de Recherche en Sciences et Technologies pour l’Environnement et l’Agriculture (https://www. irstea.fr/fr)
• Écologie et épidémiologie : Étude des interactions entre espèces comme par exemple comprendre le lien entre la diversité des cultures et la durabilité des résistances des plantes aux maladies.
En plus de ces trois disciplines, il y a quatre axes pluridisciplinaires :
• Statistiques pour l’épidémiologie prédictive : Projets liants statistiques et épidémiologie.
• Méthodes statistiques pour les variables du climat : Projets liant statistiques et climatologie.
• Dynamiques évolutives, dynamique de la diversité : Le projet sur lequel j’ai travaillé pendant mon stage, « Landsepi », découle de cet axe.
• Analyse de processus complexes d’observation : Travail sur des données issues des sciences citoyennes.
La deuxième vient juste d’être créée. C’est l’équipe opérationnelle PESV 10 et elle accueille pour l’instant trois ingénieurs. Cette équipe a pour objectifs de faire de la veille sanitaire sur des maladies végétales présente en France ou chez ses voisins limitrophes (comme par exemple la bactérie Xylella fastidiosa), à l’aide de données provenant de différentes sources (par exemple de bases de données de la DGAL 11 ou du SRAL 12, des laboratoires agréés, du LNR 13 ou d’organismes institutionnels). Viennent s’ajouter à ces deux équipes, deux membres chargés de l’administration et de la gestion de l’unité. Un des ingénieurs de l’équipe de recherche, Loïc Houde, s’occupe aussi du support informatique (matériel et logiciel) et de la ferme de calcul de l’unité BioSP.
Modèle mathématique
Le modèle développé a pour but d’étudier l’utilisation de variétés résistantes aux maladies comme levier pour la réduction de l’utilisation des pesticides dans l’agriculture. La conception de telles plantes est longue (environ 10 ans) et une fois confrontées à des maladies, leur résistance va s’éroder (les maladies vont s’adapter à la résistance). Avec les méthodes actuelles d’agriculture, l’érosion est plus rapide que la conception de plantes résistantes. Il faut donc trouver des façons de réduire l’érosion des résistances. La résistance d’une plante dépend de si elle possède un ou plusieurs gènes de résistance. Il en existe deux types : les gènes majeurs (avec une résistance dite « qualitative ») et les « QTL » (avec une résistance dite « quantitative »). Les gènes majeurs vont empêcher l’infection de la plante (tant que l’agent pathogène ne sera pas adapté) tandis que les gènes « QTL » vont perturber certains paramètres biologiques de la maladie, comme son temps de latence une fois qu’elle a infecté une plante, la durée de sa période infectieuse, sa capacité de reproduction, etc. Une façon d’augmenter la durabilité de ces résistances, c’est-à-dire de limiter leur érosion liée à l’adaptation des agents pathogènes, est d’introduire dans les paysages agricoles une plus grande diversité des résistances. En effet, une population pathogène confrontée à une grande diversité de types de résistances sera gênée car elle aura du mal à la fois à se propager et à évoluer pour s’adapter. Il y a plusieurs façons d’introduire de la diversité dans un paysage : les mosaïques (différentes variétés dans différentes parcelles), les mélanges (différentes variétés dans une même parcelle), les rotations (les variétés sont cultivées en alternance) et les pyramides (une variété possédant plusieurs gènes de résistance). Le modèle mathématique permettant d’étudier ces différentes stratégies de diversification des paysages est basé sur un modèle compartimenté, un type de modèle souvent utilisé en épidémiologie et qui comporte quatre compartiments :
• H : Healthy (sain), contient les individus qui n’ont pas encore été contaminés par la maladie.
• L : Latent, contient les individus qui sont contaminés mais qui ne sont pas encore contagieux.
• I : Infectious (infectieux), contient les individus contagieux, donc capables de transmettre la maladie.
• R : Removed (retiré), contient les individus qui sont épidémiologiquement inactifs, soit parce qu’ils ont guéri et sont devenu immunisés, soit parce qu’ils ont été éliminés (par la maladie ou par la mise en place de mesures de prévention comme la destruction des plantes contaminées).
Le modèle est stochastique, c’est-à-dire que les transitions entre ces compartiments sont tirées aléatoirement dans des lois de probabilité qui utilisent les paramètres biologiques suivants :
• π : La probabilité qu’une propagule 19 rentre en contact avec la plante.
• : La probabilité que la propagule déclenche la maladie.
• τ : La durée de la période de latence.
• r : Le taux de production de propagules.
• T : La durée de la période pendant laquelle la plante va être infectieuse et donc productrice de propagules.
Un gène majeur va avoir comme caractéristique principale de faire en sorte que le paramètre biologique soit égal à zéro, ce qui signifie que tant que la résistance n’est pas contournée, la probabilité d’infection est nulle. Un « QTL » va agir sur un ou plusieurs de ces paramètres biologiques, par exemple en réduisant le paramètre r, ce qui a pour conséquence de réduire le nombre de propagules produites et donc réduire le risque d’infecter une autre plante. À ces paramètres viennent s’ajouter des paramètres évolutifs comme par exemple la probabilité qu’un agent pathogène mute (il change donc de génotype 20) pour s’adapter à la résistance.
Mission 4 : Interface Shiny
Ma dernière mission fût de concevoir une interface graphique pour « Landsepi » à l’aide de « Shiny », un framework 36 qui permet de réaliser des applications interactives depuis R et développé par « Rstudio » une IDE très répandue chez les utilisateurs de R. Le but de cette interface est de permettre à des utilisateurs n’ayant pas ou peu de connaissances en informatique, en R ou en SQL, d’utiliser « Landsepi » facilement pour tester des stratégies de déploiement. Le public visé serait soit des étudiants pour les aider à comprendre la dynamique épidémio-évolutive simulée par le programme, soit des biologistes pour les aider dans leurs travaux de recherche ou encore des agriculteurs ou des collectivités qui souhaitent tester une stratégie de déploiement avec des données réelles et qui par la suite pourront mettre en pratique cette stratégie dans leurs champs. J’ai donc imaginé un design pour cette interface avec deux parties de même taille et une séparation verticale. La première partie sert à choisir les paramètres d’entrée du programme et est constituée de trois onglets : un pour les paramètres liés aux cultures et aux gènes de résistance des variétés, un pour les paramètres liés à la simulation du paysage et un dernier pour les paramètres globaux de la simulation (nombre d’années à simuler, temps d’une saison, etc.). La deuxième partie sert à afficher dans un premier temps le paysage agricole ainsi que la répartition des différentes cultures (voir Prototype de l’interface avant le lancement de la simulation), puis une fois la simulation terminée, afficher une vidéo où l’on peut voir d’un côté l’évolution du pourcentage de plantes malades (total et par variété) tout au long de la simulation, et d’un autre côté la prévalence de la maladie dans les différents champs (voir Prototype de l’interface après le lancement de la simulation). Il y a aussi deux boutons : un pour lancer la simulation et un pour exporter les fichiers de sortie générés par la simulation une fois celle-ci terminée. Enfin, il y a une liste qui permet de sélectionner un scénario pré-paramétré en fonction d’une stratégie de déploiement basique (mosaïque, rotation, pyramidage ou mélange). J’ai d’abord conçu un prototype pour le présenter à mes encadrants afin qu’ils valident le design de l’interface et que je puisse commencer le développement (chose qui n’est pas encore terminée à l’heure où je rédige ce rapport). Je dois donc encore rendre ce prototype fonctionnel et je souhaite aussi implémenter quelques fonctionnalités supplémentaires comme :
• Une barre de progression qui s’affiche une fois la simulation lancée (une simulation peut prendre plusieurs minutes et il me semble important de communiquer sur la progression pour une meilleure expérience utilisateur).
• Un champ pour sélectionner et importer un fichier de données géographique avec un paysage réel.
|
Table des matières
1 Introduction
2 L’environnement du stage
2.1 L’INRA
2.2 L’unité Biostatistique et processus spatiaux (BioSP)
2.3 Encadrement
3 Landsepi
3.1 Modèle mathématique
3.2 Modèle numérique
4 Mission 1 : API GDAL
5 Mission 2 : Refactoring
5.1 Gestion de la mémoire et STL
5.2 Paradigme orienté objet
5.3 Divers
5.4 Conclusion
6 Mission 3 : Amélioration du modèle
6.1 Mission 3.1 : Dynamique épidémio-évolutive
6.2 Mission 3.2 : Base de données d’entrée et de sortie
7 Mission 4 : Interface Shiny
8 Environnement technologique / Méthodologie
9 Conclusion
Télécharger le rapport complet