Modélisation épidémiologique
Optimisation des modèles épidémiologiques
Introduction
Vérification des modèles épidémiologiques
Définition
Techniques de vérification des modèles
Optimisation des modèles épidémiologiques
Définition
Méthodes d’optimisation
Optimisation des modèles épidémiologiques : Etat de l’art
Optimisation paramétrique
Optimisation structurelle
Discussion et conclusion
Chapitre 2 Optimisation des modèles épidémiologiques
Introduction
Quelle que soit la méthode de modélisation utilisée, les questions soulevées au chapitre précédent nous conduisent à se focaliser principalement sur l’une des étapes du processus de modélisation qui est : la vérification et la validation des modèles. En effet, la partie la plus critique pour le développeur et l’expert est la vérification et la validation relatives à l’étape de simulation.
La validation du modèle est définie comme étant le processus déterminant le degré de similarité entre le modèle conçu et la réalité ainsi que sa capacité d’expliquer les phénomènes du monde réel. Plus la technique de modélisation offre une souplesse de gestion lors de cette étape, plus il devient facile d’améliorer les résultats (données simulés) et ainsi valider le modèle.
La validation basique pour un développeur est de comparer les données observées aux données simulées. Si ces derniers ne sont pas en parfaite corrélation, le développeur pourra toujours enrichir le modèle par d’autres informations. Cependant, inclure plus de paramètres dans le modèle implique une plus grande complexité à gérer, comprendre ou analyser le comportement simulé. Actuellement, le moyen universel et commun à toutes les méthodes de modélisation est l’étape de vérification. La vérification des composants du modèle (entrées, sorties, règles, ect) doit se faire au niveau supérieur (antérieur), c’est-à-dire au niveau du modèle conceptuel. Le développeur doit ainsi revoir son modèle et interagir davantage avec l’expert. Toutefois, cette étape reste la plus critique car le développeur n’est pas un épidémiologiste qui à son tour n’est pas un adepte des méthodes et langages de modélisation. Identifier la structure et les paramètres du modèle les plus optimaux en utilisant des méthodes qui adressent à la fois l’incertitude structurelle et paramétrique, sont un problème crucial pour une tâche de modélisation épidémiologique. En effet, dans plusieurs travaux récents, il a été constaté un engouement assez important pour l’identification des paramètres. Par contre, l’optimisation de la structure du modèle n’est référencée que par peu de travaux voir même une présence marginale.
Dans ce chapitre, nous allons présenter les travaux liés à l’optimisation des modèles épidémiologiques. Mais avant toute chose, un point essentiel doit être établi, car avant de tenter d’optimiser un modèle épidémiologique le développeur et l’expert doivent s’assurer qu’aucune initiative d’erreur humaine n’a été commise. Autrement dit, lors de l’interaction entre expert et développeur, plus précisément lors des étapes de réalisation du modèle conceptuel, les informations émanantes de l’expert peuvent être mal assimilées et interprétées par le développeur sans que cela ne puisse être détecté lors de la simulation et génération des résultats. Ce qui dérive vers une conception incertaine où l’expert est sûr d’avoir fourni le nécessaire pour l’étude et le développeur d’avoir correctement conçu son modèle. Afin de démarrer un processus d’optimisation sur des bases solides, nous proposons dans cette première partie de ce chapitre de revoir les techniques en relation avec l’étape de vérification des modèles. Puis la deuxième partie sera consacrée aux travaux d’optimisation.Chapitre 2 Optimisation des modèles épidémiologiques.
Vérification des modèles épidémiologiques
Définition
Tel que nous l’avons spécifié précédemment, il y a deux étapes pour juger qu’un modèle est optimal ou non : la vérification et la validation. La validation est un processus permettant de comparer les résultats de simulation aux données observées. Toutefois, quand la validation est négative une vérification s’impose (Railsback et Grimm, 2011).
La vérification d’un modèle se base sur la révision des hypothèses, entrées, sorties et règles prédéfinies. Ainsi, la vérification est un processus itératif qui s’effectue principalement au niveau de la description et la spécification du modèle afin de vérifier que les exigences spécifiées lors de la conception sont satisfaites (Lewis, 1992). Selon Cook et Skinner (2005) lors de l’étape de vérification, la question qui se pose est : est-ce que nous avons correctement conçu le modèle ? Alors que dans l’étape de validation : est-ce que nous avons conçu le bon modèle ?
Il est important de noter que cette phase est très importante car les modèles épidémiologiques en question, se trouvent être des modèles normatifs jouant un rôle de description, de prédiction et de prise de décisions. Ainsi, ni le développeur ni l’expert n’ont droit à l’erreur. Nous précisons également, que le terme vérification employé ici exclu la notion de vérification lexical et syntaxique du code développé en outre la vérification du code, car l’outil Bio-PEPA prend en charge ce type de vérification. Ainsi, nous nous focalisons uniquement sur la vérification des connaissances acquises ou exploités dans le modèle.
Techniques de vérification des modèles
Plusieurs techniques de vérification ont été instaurées (Balci, 1998 ; Hillston, 2003, Petty, 2010), les plus communément utilisées sont : 1. Analyse structurée étape par étape : cette technique consiste à expliquer le modèle à d’autres personnes afin que le développeur puisse revenir vers les détails de son modèle et découvrir d’éventuels problèmes. Même si les auditeurs ne comprennent pas les détails du modèle, ou du système, le développeur peut déceler les défaillances simplement en présentant avec soin son modèle (Knepell and Arangno, 1993; Scheller et al., 2010). 2. Modèles simplifiés : cette technique propose de réduire le modèle à son comportement minimal possible. Elle est généralement complémentaire à la précédente, puisque cette dernière est considérée comme un processus qui peut être couteux en temps de calcul. Cependant, un modèle qui fonctionne pour des cas simples n’est pas garanti pour des cas plus complexes. D’autre part, Hillston (2003) confirme qu’un modèle qui ne fonctionne pas pour des cas simples ne fonctionnera certainement pas pour les plus complexes. 3. Simulations déterministes : utiliser des valeurs déterministes comme paramètres de simulation à l’inverse des variables aléatoires peut aider le modélisateur à voir si le modèle se Chapitre 2 Optimisation des modèles épidémiologiques.
comporte correctement. Ce n’est que lorsqu’il est convaincu que la représentation comportementale des entités est effectivement correcte qu’il introduira des variables aléatoires pour représenter les temps inter-événements en utilisant des distributions à temps continu. Toutefois, cette technique ne convient pas à quelques modèles tel que les modèles markoviens qui eux ne peuvent être résolus que par des distributions exponentielles (Kleijnen, 1995 ; Balci, 1998).
4. Animation : l’animation fournit des informations sur le comportement interne du modèle sous une forme graphique pendant l’exécution du modèle. Dans certains systèmes, l’affichage représentera des informations de haut niveau sur la valeur actuelle des mesures de performance. L’animation peut prendre la forme d’une analyse automatisée en une étape, telle que les outils stochastiques graphiques de réseaux de Petri et de file d’attente dans laquelle des jetons ou des clients peuvent être vus lors de leur déplacement dans le réseau. Cependant, la manipulation de l’affichage ainsi que l’évolution du modèle ralentit considérablement la simulation (Sargent, 2005).
5. Variation des valeurs des paramètres : Pour un paramètre quelconque, une légère perturbation d’entrée ne devrait généralement produire qu’une légère modification de la production. Toute modification soudaine de la sortie est considérée comme une indication d’une erreur possible qui doit être étudiée à moins que ce soit un comportement connu du système (Sargent, 2005 ; Balci, 1998).
6. Comparaison du modèle exécutable au modèle conceptuel : Cette technique permet de vérifier si les données et les opérations définies dans le modèle conceptuel sont identiques au modèle simulable (computationnel). Elle se base sur le principe du raisonnement inductif (Petty, 2010).
7. Vérification par l’expert du domaine : généralement cette technique est partagée entre l’étape de validation et l’étape de vérification. Elle est référencée par la technique de l’analyse étape par étape citée ci-dessus. Elle se base principalement sur l’intuition de l’expert à détecter les erreurs et les incohérences commises lors de la conception (Petty, 2010).
En revoyant cette série de techniques, il est bien clair qu’elles se distinguent selon deux types : i) les techniques en relation avec la simulation (technique 3, 4 et 5); ii) les techniques en relation avec la conception (technique 1, 2, 6 et 7). A ce stade, notre but étant de détecter les anomalies qu’un développeur a pu commettre suite à une mauvaise interaction avec l’expert ou une faible assimilation des connaissances acquises, le deuxième type semble être le plus approprié. Toutefois, la technique N°2, bien qu’elle soit en relation avec la conception, n’est pas adéquate à notre objectif car nous jugeons que le niveau de complexité initial est en fonction des besoins prioritaires et fondamentaux de l’épidémie à reproduire. Ainsi, nous nous focaliserons sur les techniques 1, 6 et 7.
Le choix entre ces trois techniques reste très sensible du fait de leur inter-corrélation. Nous proposons dans le chapitre 4 une approche qui nous permet une ouverture dans les choix et ainsi de combiner entre les trois techniques. Nous l’avons baptisé « du modèle formel au modèle narratif » (cf. Chapitre 4). Chapitre 2 Optimisation des modèles épidémiologiques
Optimisation des modèles computationnels
Définition
L’optimisation est une approche permettant de trouver la meilleure solution au du moins la plus optimale entre plusieurs demandes conflictuelles soumises à des contraintes prédéfinies. L’optimisation se base principalement sur trois concepts : ensemble de solution admissibles, la fonction objectif et les contraintes. Un problème d’optimisation consiste selon des contraintes prédéfinies à sélectionner une solution permettant d’optimiser (maximiser ou minimiser) la valeur de la fonction objectif (Oremland, 2011). L’optimisation n’est certainement pas un nouveau concept en modélisation computationnelle et encore moins dans le domaine épidémiologique, où le concept d’optimisation a été principalement exploité dans un objectif d’identification des entrées et des paramètres du système permettant d’aboutir à un comportement souhaité. Toutefois, peu de travaux d’optimisation sont à référencer en modélisation par les algèbres des processus. Avant de
passer en revue les travaux existant (cf. section 4), nous présentons au préalable les différentes approches les plus communément utilisées en modélisation épidémiologique.
Méthodes d’optimisation
Les méthodes d’optimisation peuvent être déterministes ou stochastiques. Les algorithmes déterministes aboutissent à une solution identique si les même conditions d’entrées sont utilisées tandis que les algorithmes stochastiques peuvent proposer une solution différente à chaque exécution et ce quelque soient les données d’entrées (Koziel et Yang, 2011). Toutefois, due à la nature variable et dynamique des modèles épidémiologiques auxquels nous nous référons dans se travail de thèses, il est plus judicieux de se focaliser sur les méthodes stochastiques.
Méthodes évolutionnaires
Sont des méthodes dites approchées, elles consistent à manipuler une ou plusieurs solutions, à la recherche de l’optimum, la meilleure solution au problème. Ceci en minimisant ou maximisant une fonction objectif qui décrit la qualité d’une solution au problème. Le concept de ces méthodes est de générer un groupe initial de solutions aléatoires, bien que certaines connaissances antérieures puissent être introduites dans la première génération. Ces solutions sont évaluées par rapport à un comportement souhaité; Les individus (solutions candidates) à scores élevés sont plus susceptibles de transmettre leurs attributs à des solutions futures alors que les individus les plus pauvres disparaissent. Les algorithmes les plus communément utilisés sont : les algorithmes génétiques, les colonies de fourmis et les essaims particulaires. Ces algorithmes inspirés du vivant se focalisent principalement sur les individus et leurs interactions dans la population à la quelle ils appartiennent.
Optimisation par les algorithmes génétiques. Reproduit une population initiale (ensemble de solutions admissibles codées en une chaine de caractères) qui par la suite sera sujet à des opérations telles que la mutation, le croisement et la sélection. Ces opérations permettront de reproduire de nouvelle génération jusqu’à ce que la solution la plus optimale soit atteinte (Patel et al., 2005; Castiglione et al., 2007 ; Pappalardo et al., 2010). Optimisation par colonies de fourmis. Résout le problème d’optimisation par la modélisation des fourmis et le traçage de leurs phéromones (Dorigo et al., 1996; Karpenko et al., 2005 ; Brailsford et al., 2007 ; Blum, 2005). Dans leur nature, les fourmis marquent le chemin entre leur nid et la nourriture trouvée, par leurs phéromones. Les chemins les plus empruntés seront intensifiés par la quantité de phéromones tandis que les phéromones des chemins les moins utilisés disparaitront avec le temps.
|
Table des matières
Introduction générale
Contexte et problématique de la thèse
Contributions
Structure de la thèse
Chapitre 1 : Modélisation épidémiologique
1.1 Introduction
1.2 Modélisation et simulation
1.2.1 Modèle computationnel
1.2.2 Caractéristiques d’un modèle
1.2.3 Processus de modélisation
1.3 Epidémiologie humaine
1.3.1 Définition
1.3.2 Facteurs épidémiologiques
1.3.3 Mode de transmission
1.4 Modèles épidémiques
1.4.1 Terminologies
1.4.2 Objectifs d’un modèle épidémique
1.4.3 Structure du modèle épidémiologique
1.4.4 Classification des modèles
1.4.5 Modèle à compartiments
1.4.5.1 Le modèle SIR
1.4.5.2 Variantes du modèle SIR
1.5 Etat de l’art des travaux de modélisation épidémiologique
1.5.1 Modèle à base d’EDO (Equation Différentielle Ordinaire)
1.5.2 Modélisation par automates cellulaires
1.5.3 Modèle à base d’agents/centré individu
1.5.4 Modélisation par les algèbres des processus
1.6 La modélisation par Bio-PEPA
1.6.1 Définition
1.6.2 Définition formelle
1.6.3 Sémantique structurelle de Bio-PEPA
1.6.4 Exemple
1.6.5 Analyse du modèle épidémique par Bio-PEPA
1.7 Synthèse des méthodes de modélisation
1.8 Conclusion Chapitre 2 : Optimisation des modèles épidémiologiques
2.1 Introduction
2.2 Vérification des modèles épidémiologiques
2.2.1 Définition
2.2.2 Techniques de vérification des modèles
2.3 Optimisation des modèles computationnels
2.3.1 Définition
2.3.2 Méthodes d’optimisation
2.4 Optimisation des modèles épidémiologiques : Etat de l’art
2.4.1 Optimisation paramétrique
2.4.2 Optimisation structurelle
2.5 Discussion et conclusion
Chapitre 3 : La fouille de données pour l’épidémiologie humaine
3.1 Introduction
3.2 Processus d’extraction des connaissances
3.2.1 Prétraitement des données
3.2.2 Fouille de données
3.2.3 Evaluation et interprétation
3.3 Synthèse de l’application de la fouille de données en épidémiologie
3.3.1 Classification
3.3.2 Régression
3.3.3 Segmentation
3.3.4 Règles d’association
3.4 Fouille de données pour la modélisation épidémiologique
3.4.1 Travaux connexes
3.4.2 Optimisation des modèles computationnels par la fouille de données
3.5 Conclusion
Chapitre 4 : Modélisation et simulation par les algèbres des processus : Bio-PEPA
4.1 Introduction
4.2 Modélisation par Bio-PEPA
4.2.1 Interaction expert\modélisateur
4.2.2 Conception du modèle formel
4.2.3 Simulation et analyse
4.3 Optimisation du modèle
4.4 Vérification par langage narratif
4.4.1 Langage narratif
4.4.2 System Biological Markup Language (SBML)
4.4.3 Du modèle Bio-PEPA au modèle narratif
4.5 Modélisation de la tuberculose
4.5.1 La tuberculose
4.5.2 Modèle de la tuberculose
4.5.4 Simulation par Bio-PEPA et résultats
4.6 Validation du modèle Bio-PEPA par langage narratif
4.7 Conclusion
Chapitre 5 : Fouille de données pour l’optimisation des modèles épidémiologique : Application à la tuberculose
5.1 Introduction
5.2 Optimisation par fouille de données
5.3 Modélisation de la tuberculose : Cas de l’Algérie
5.3.1 Situation épidémique en Algérie
5.3.2 Modélisation de la tuberculose par Bio-PEPA
5.3.3 Processus d’optimisation par classification
5.3.3.1 Prétraitement des données
5.3.3.2 Sélection des attributs
5.3.3.3 Classification
5.3.3.4 Evaluation et interprétation
5.3.3.5 Optimisation du modèle
5.3.3.6 Simulation et analyse
5.3.4 Généralisation de l’approche par des données additionnelles
5.3.4.1 Prétraitement
5.3.4.2 Sélection des attributs
5.3.4.3 Classification par arbre de décision
5.3.4.4 Evaluation et interprétation
5.3.4.5 Optimisation du modèle
5.3.4.6 Simulation et analyse
5.3.5 Optimisation par règles d’association
5.3.5.1 Génération de règles
5.3.5.2 Evaluation et interprétation des règles générées
5.3.5.3 Optimisation du modèle
5.4 Conclusion
Chapitre 6 : Fouille de données pour l’optimisation des modèles épidémiologique : Application aux Oreillons
6.1 Introduction
6.2 Optimisation par fouille de données
6.3 Modélisation des oreillons en Grande Bretagne (Ecosse)
6.3.1 Situation épidémique en Ecosse
6.3.2 Modélisation de l’épidémie des oreillons
6.3.3 Analyse de sensibilité
6.3.4 Processus d’optimisation par fouille de données
6.3.4.1 Prétraitement des données
6.3.4.2 Sélection des attributs
6.3.4.4 Evaluation et interprétation des règles extraites
6.3.4.5 Optimisation par segmentation
6.3.4.6 Evaluation et interprétation des segments
6.4 Conclusion
Conclusion générale et perspectives
Annexes A.
Télécharger le rapport complet