Combinaisons markoviennes et semi-markoviennes de modèles linéaires mixtes (MS-LMM/SMS-LMM)

Combinaisons markoviennes et semi-markoviennes de modèles linéaires mixtes (MS-LMM/SMS-LMM)

Combinaisons markoviennes et semi-markoviennes de modèles linéaires généralisés (MS-GLM/SMS-GLM)

Ce chapitre est consacré à la modélisation statistique de données de type séquence ou série chronologique présentant les caractéristiques suivantes :
• plusieurs individus sont étudiés simultanément,
• les données observées sont structurées en phases successives, asynchrones entre individus,
• les données observées sont influencées par des covariables pouvant varier dans le temps et pouvant être communes aux individus. Ce type de données est notamment illustré par la croissance de plantes. Cette croissance est constituée d’une succession de phases liées à la morphogénèse : phase d’établissement, phase adulte et phase de sénescence par exemple (Véra, 2004). Le changement de phase de croissance est spécifique à chaque plante, d’où l’asynchronisme. Par ailleurs, la croissance d’une plante est affectée par des facteurs environnementaux, notamment climatiques, pouvant avoir une influence plus ou moins forte selon le stade de développement de la plante. Des applications dans le domaine médical permettent également d’illustrer ce type de données. Dans unpremiertemps,nousprésenteronslafamilledes combinaisons markoviennes de modèles linéaires généralisés et des combinaisons semi-markoviennes de modèles linéaires généralisés. Dans une deuxième partie, nous discuterons des méthodes d’estimation des paramètres de ces modèles.Dans une troisième partie,nous traiterons le cas de cesfamilles pour données observées poissonniennes. Des simulations et une application médicale illustreront l’intérêt de ces modèles. Dans une dernière partie, nous présenterons ces familles dans le cadre de données observées binaires pour lequel nous donnerons des résultats de simulations et une application en botanique.

Définitions

Nous avons vu dans la section 2.2.2 qu’une chaîne de Markov cachée gaussienne pouvait être définie comme une paire de processus stochastiques {St,Yt} où le processus d’observation {Yt} est lié au processus caché {St} par la distribution gaussienne Yt|St=st ∼ N(µst,σ2 st). Lindgren (1978) a introduit la famille des combinaisons markoviennes de modèles linéaires (MS-LM, Markov Switching Linear Model) qui étend la famille des chaînes de Markov cachées gaussiennes en incorporant l’influence de covariables comme effets fixes dans le processus d’observation. Les combinaisons markoviennes de modèles linéaires ont depuis été utilisées dans de nombreux domaines tels qu’en économie ou pour l’analyse de réseaux de gènes en biologie (Gupta et al., 2007). L’ouvrage de Frühwirth-Schnatter (2006), ouvrage de référence sur les mélanges finis et les combinaisons markoviennes, fournit de nombreux exemples d’application de ces modèles. Turner et al. (1998) et Wang et Puterman (1999) ont introduit, à la fin des années 1990, des modèles de type markovien caché permettant de traiter des données dont la distribution du processus d’observation est une loi de Poisson. L’influence de covariables est également prise en compte dans le processus d’observation. Cependant, le modèle proposé par Wang et Puterman (1999) ne modélise qu’un seul individu. Si le jeu de données comporte plusieurs individus, un modèle différent est associé à chaque individu et ils sont modélisés indépendamment les uns des autres. Turner et al. (1998) ont appliqué leur modèle sur des données des comptages de coliformes1 fécaux dans l’eau de mer sur différents sites et pour différentes profondeurs. Wang et Puterman (1999) ont appliqué leur modèle pour analyser les effets de la gammaglobuline2 administrée par voie intraveineuse sur le nombre quotidien de crises d’épilepsie.
Russell (1993) a introduit les combinaisons semi-markoviennes de modèles linéaires (SMS-LM, Semi-Markov Switching Linear Model) qui étend la famille des combinaisons markoviennesdemodèleslinéairesaucassemi-markovien.Ilaappliquécesmodèlespourla reconnaissance de la parole. Nous n’avons trouvé dans la littérature aucun travail consacré aux combinaisons semi-markoviennes de modèles linéaires généralisés.
Nous allons ici formaliser les combinaisons markoviennes de modèles linéaires généralisés. Ces modèles généralisent les modèles introduits par Wang et Puterman (1999) à plusieurs individus dont la distribution du processus d’observation appartient à la famille exponentielle et prend en compte l’influence de covariables. Afin d’illustrer ces idées, nous pouvons revenir sur l’exemple de la modélisation de la croissance des plantes. La chaîne de Markov sous-jacente représente la succession de phases de croissance tandis que le modèle linéaire généralisé associé à chaque état modélise dans la phase de croissance correspondante l’influence des covariables sur les données observées.

Une combinaison markovienne de modèles linéaires généralisés (MSGLM, Markov Switching Generalized Linear Model) se caractérise par un couple de processus stochastiques {Sat,Yat;a = 1,…,N, t = 1,…,Ta} combinant : • une chaîne de Markov sous-jacente {Sat,t = 1,…,Ta} d’ordre1, homogène dans le temps et à valeurs dans l’espace d’états fini {1,…,J}, • un processus d’observation {Yat,t = 1,…,Ta} pour chaque individu a. Chaque observation yat est liée au processus d’état Sat par un modèle linéaire généralisé.
Les combinaisons markoviennes de modèles linéaires généralisés peuvent être vues commedesmélangesfinisdemodèleslinéairesgénéralisésavecdépendancesmarkoviennes. Comme l’influence des covariables est uniquement prise en compte dans le processus d’observation, nous pouvons étendre les MS-GLM au cas semi-markovien. Ces modèles sont alors appelés combinaisons semi-markoviennes de modèles linéaires généralisés. Les combinaisons semi-markoviennes de modèles linéaires généralisés peuvent être vues comme des mélanges finis de modèles linéaires généralisés avec dépendances semi-markoviennes.
 Une combinaison semi-markovienne de modèles linéaires généralisés (SMS-GLM, Semi-Markov Switching Generalized Linear Model) se caractérise par un couple de processus stochastiques {Sat,Yat;a = 1,…,N, t = 1,…,Ta} combinant : • une semi-chaîne de Markov sous-jacente{Sat,t = 1,…,Ta}homogène dans le temps et à valeurs dans l’espace d’états fini {1,…,J}, • un processus d’observation {Yat,t = 1,…,Ta} pour chaque individu a. Chaque observation yat est liée au processus d’état Sat par un modèle linéaire généralisé

Une combinaison semi-markovienne de modèles linéaires généralisés (SMS-GLM, Semi-Markov Switching Generalized Linear Model) se caractérise par un couple de processus stochastiques {Sat,Yat;a = 1,…,N, t = 1,…,Ta} combinant : • une semi-chaîne de Markov sous-jacente{Sat,t = 1,…,Ta}homogène dans le temps et à valeurs dans l’espace d’états fini {1,…,J}, • un processus d’observation {Yat,t = 1,…,Ta} pour chaque individu a. Chaque observation yat est liée au processus d’état Sat par un modèle linéaire généralisé.

Méthodes d’estimation

Les paramètres du MS-GLM peuvent être scindés en deux catégories : les paramètres (πj;j = 1,…,J) et (pij;i,j = 1,…,J) de la chaîne de Markov sous-jacente et les paramètres (βj;j = 1,…,J) des J modèles linéaires généralisés. Nous dénotons par θ = (π,P,β), l’ensemble des paramètres à estimer.
Nous avons vu dans la section 2.2.4 qu’il existait divers algorithmes pour estimer les paramètres d’une chaîne de Markov cachée classique où le lien entre processus d’observation et processus d’état est paramétré par de simples lois d’observation qui ne prennent pasencompted’éventuellescovariables.Nousnousintéressonsici,commepourleschaînes de Markov cachées classiques, aux approches basées sur l’algorithme EM.
Lindgren (1978) et Cosslett et Lee (1985) estiment les paramètres des combinaisons markoviennes de modèles linéaires à l’aide de l’algorithme EM pour chaînes de Markov cachées classiques. L’étape E de l’algorithme EM est implémentée par l’algorithme “avantarrière” dont les sorties sont les probabilités a posteriori résumant l’action de tel ou tel paramètre du modèle sur l’ensemble des séquences d’états possibles sachant la séquence observée. Archer et Titterington (2002) parle de restauration probabiliste des séquences d’états possibles. L’étape M repose sur la maximisation directe de l’espérance de la logvraisemblance des données complètes sachant les données observées. Du fait de la linéarité des processus d’observation sur chaque état, cette maximisation est facile. Vous pouvez trouver le détail des calculs dans la thèse de Véra (2004). Nous pouvons cependant noter que d’autres approches sont envisageables. Chopin et Pelgrin (2004) proposent par exemple d’utiliser une approche bayésienne pour estimer les paramètres des combinaisons markoviennes de modèles linéaires.
Afin d’estimer les paramètres des combinaisons markoviennes de modèles linéaires généralisés, Turner et al. (1998) proposent une méthode basée sur l’algorithme EM sous la condition d’équilibre de la chaîne de Markov sous-jacente. Le processus d’observation est vu comme un modèle linéaire généralisé pondéré par la probabilité d’être dans un état à un temps donné. Ils supposent que l’influence des covariables est la même sur chacun des états et introduisent l’effet de l’état comme étant un effet fixe. L’estimation des paramètres liés aux processus d’observation se fait à l’aide de la procédure glm() de S-PLUS3. Les données doivent être structurées comme suit : chaque vecteur d’observation est répété J fois, une fois pour chaque état. Puis la probabilité d’être dans l’état j à un temps donné et le facteur d’état j sont ajoutés à la j`eme répétition. Cette approche peut s’avérer vite lourde et coûteuse si le nombre d’états est élevé, si l’influence des covariables est supposée différente d’une phase à l’autre ou si la chaîne de Markov sous-jacente n’est pas en équilibre. De plus, l’utilisation de la procédure glm() de S-PLUS ne permet pas de traiter tous les cas et notamment celui des données catégorielles.
Wang et Puterman (1999) proposent d’estimer les paramètres du MS-GLM en utilisant une approche basée sur l’algorithme EM. L’étape E de l’algorithme EM est implémentée par l’algorithme “avant-arrière” (Baum et al., 1970). La maximisation à l’étape M se fait à l’aide de méthodes de quasi-Newton (Lange, 2004). Les travaux de Wang et Puterman (1999) reposent sur l’hypothèse d’une unique séquence observée (i.e. d’un seul individu). Dans le cas de plusieurs individus observés, Wang et Puterman (1999) les traitent indépendamment avec un processus caché propre à chaque individu; c’est-à-dire que ∀a 6= a0, P(Sa1 = j) 6= P(Sa01 = j) et P(Sat = j|Sa,t−1 = i) 6= P(Sa0t = j|Sa0,t−1 = i). Il y a donc une MS-GLM associée à chaque individu.
L’objectif de ce travail est de proposer des algorithmes d’inférence sous la contrainte qu’ils tiennent compte de la paramétrisation choisie, qu’ils ne soient pas contraints par le type de structure sous-jacente (ergodique ou pas, équilibre ou pas, Markov ou semiMarkov), par le type des covariables et par le type des variables réponses et qu’ils soient stables numériquement.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Glossaire
i Introduction
1 Présentation de la problématique biologique et des données
1.1 Notions botaniques
1.2 Problématique biologique
1.3 Jeux de données
1.3.1 Pins Laricio de Corse (Pinus nigra Arn. ssp. laricio Poir., Pinaceae)
1.3.2 Chênes sessiles (Quercus petraea Matt. Liebl., Fagaceae)
1.3.3 Noyers communs (Juglans regia L., Juglandaceae)
1.3.4 Pins sylvestres (Pinus sylvestris L., Pinaceae)
1.3.5 Analyse exploratoire des pins Laricio
1.4 Discussion
2 Fondements statistiques
2.1 Algorithme EM
2.1.1 Principe
2.1.2 Propriétés
2.1.3 Variantes et extensions de l’algorithme EM
2.1.3.1 Algorithme du gradient EM
2.1.3.2 Algorithmes SEM et MCEM
2.1.3.3 Autres variantes et extensions
2.2 Chaînes et semi-Chaînes de Markov cachées (HMC/HSMC)
2.2.1 Exemple introductif
2.2.2 Définitions . . . . . . . .
2.2.3 Propriétés d’indépendance conditionnelle et vraisemblances
2.2.4 Méthodes d’estimation
2.2.4.1 Maximisation directe de la vraisemblance
2.2.4.2 Algorithme EM avec restauration probabiliste des séquences d’états
2.2.4.3 Algorithme MCEM avec restauration par simulation des séquences d’états
2.2.5 Exploration de l’espace des séquences d’états
2.2.6 Propriétés asymptotiques
2.2.7 Remarque
2.3 Modèles linéaires généralisés (GLM)
2.3.1 Définition
2.3.2 Méthodes d’estimation
2.3.2.1 Par maximum de vraisemblance
2.3.2.2 Par quasi-vraisemblance
2.3.3 Propriétés asymptotiques
2.4 Modèles linéaires mixtes (LMM)
2.4.1 Exemple introductif
2.4.2 Définition
2.4.3 Méthodes d’estimation
2.4.3.1 Par maximum de vraisemblance (ML)
2.4.3.2 Par maximum de vraisemblance restreint (REML)
2.4.3.3 Par la méthode de Henderson
2.4.4 Algorithme EM pour les LMM
2.4.5 Propriétés asymptotiques
3 Combinaisons markoviennes et semi-markoviennes de modèles linéaires généralisés (MS-GLM/SMS-GLM)
3.1 Définitions .
3.2 Méthodes d’estimation
3.2.1 Formalisme de l’algorithme du gradient EM pour MS-GLM
3.2.2 Formalisme de l’algorithme du gradient MCEM pour MS-GLM
3.2.3 Extension au SMS-GLM
3.2.4 Convergence des algorithmes proposés
3.3 Données de comptage
1 3.3.1 Algorithme du gradient EM pour données de comptage
3.3.2 Simulations
3.3.3 Application aux données d’IRM
3.4 Données binaires
3.4.1 Algorithme du gradient EM pour données binaires
3.4.2 Simulations
3.4.3 Application aux données de croissance de pins Laricio
3.5 Conclusion et discussion
4 Combinaisons markoviennes et semi-markoviennes de modèles linéaires mixtes (MS-LMM/SMS-LMM)
4.1 Définitions
4.2 Méthodes d’estimation proposées dans la littérature
4.3 Effet aléatoire “individuel”
4.3.1 Modèle d’observation
4.3.2 Vraisemblance du MS-LMM
4.3.3 Algorithme EM pour MS-LMM, difficultés et propositions
4.3.4 Algorithme MCEM avec une étape E de simulation-prédiction
4.3.4.1 Algorithme “ avant-arrière” pour simuler des séquences d’états sachant les effets aléatoires
4.3.4.2 Prédiction des effets aléatoires sachant les séquences d’états
4.3.4.3 Étape de maximisation
4.3.4.4 Transpositionaucasd’ununiqueeffetaléatoirepourtoute la séquence observée
4.3.4.5 Remarques
4.3.4.6 Simulations
4.3.5 Algorithme MCEM avec une étape E de simulation-simulation
4.3.6 Algorithme MCEM avec une étape E de restauration probabilistesimulation
4.3.6.1 Algorithme “avant-arrière” sachant les effets aléatoires
4.3.6.2 Simulation des effets aléatoires sachant les séquences d’états
4.3.6.3 Étape de maximisation
4.3.6.4 Transpositionaucasd’ununiqueeffetaléatoirepourtoute la séquence observée
4.3.6.5 Remarques
4.3.7 Extension au SMS-LMM
4.3.8 Application
4.4 Effet aléatoire “temporel”
4.4.1 Modèle d’observation
4.4.2 Vraisemblance du MS-LMM
4.4.3 Algorithme MCEM avec une étape E de simulation-prédiction ou une étape E de simulation-simulation
4.4.4 Algorithme MCEM avec une étape E de restauration probabilistesimulation
4.4.4.1 Algorithme “avant-arrière” sachant les effets aléatoires
4.4.4.2 Simulation des effets aléatoires sachant les séquences d’états
4.4.4.3 Étape de maximisation
4.4.4.4 Remarques
4.4.5 Extension au SMS-LMM
4.4.6 Simulations
4.4.7 Application
4.5 Conclusion et discussion
5 Applications aux données de croissance d’arbres forestiers 139 5.1 Analyse conjointe de la composante ontogénique, de la composante environnementale et de la composante individuelle
5.1.1 Pins Laricio
5.1.1.1 Longueur de pousses annuelles
5.1.1.2 Nombre de branches par étage
5.1.2 Chênes sessiles
5.1.3 Pins sylvestres
5.1.4 Noyers
5.2 Analyse conjointe de la composante ontogénique et de la composante environnementale
5.2.1 Pins Laricio
5.2.2 Chênes sessiles
5.3 Conclusion et discussion
6 Conclusions et perspectives
6.1 Conclusions
6.1.1 Au niveau statistique
6.1.2 Au niveau informatique
6.1.3 Au niveau biologique
6.2 Perspectives
6.2.1 Prise en compte d’un effet aléatoire “groupe”
6.2.2 Plusieurs types d’effets aléatoires
6.2.3 Extension aux arbres de Markov cachés
6.2.4 Combinaisons markoviennes et semi-markoviennes de modèles linéaires généralisés mixtes
6.2.5 Critère de sélection de modèles
Bibliographie
Glossaire
Sigles
GHSMC : Gaussian Hidden Semi-Markov Chain (semi-chaîne de Markov cachée gaussienne

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *