Modèles et modélisation
Les modèles sont utilisés dans la plupart des disciplines scientifiques comme substituts de la réalité. Il se peut qu’il soit pratiquement impossible de mener des expériences sur un système physique, et donc faire recours à un modèle soit pour remplacer le dit système ou bien le généraliser à de nouvelles situations. Un modèle d’évolution décrit le comportement d’un système à l’aide d’un langage mathématique. Ce dernier pourrait être un ensemble d’équations différentielles comme il pourrait être une règle pour combiner des observations passées. Les modèles mathématiques présentent un intérêt et une utilisation particuliers pour l’ingénierie et la science. Étant donné qu’ils sont utilisés et revêtent une importance dans tant de domaines différents, il existe bien entendu une grande variété de types de modèles et de techniques de modélisation. Il existe également plusieurs domaines étudiant l’acte de modélisation, chacun avec sa propre nomenclature. L’art de la modélisation consiste à trouver un équilibre permettant de répondre aux questions posées ou de se poser de nouvelles questions. La complexité du modèle dépendra alors du problème et de la réponse requise, de sorte que différents modèles et analyses peuvent être appropriés pour un même ensemble de données. Dans cette thèse, l’intérêt est porté particulièrement à la modélisation statistique avec ses différents approches et modèles. La modélisation statistique peut être considérée comme un outil puissant pour développer et tester des théories à travers l’explication causale, la prédiction et la description. Dans de nombreuses disciplines, il existe une utilisation quasi-exclusive de la modélisation statistique pour l’exploration causale, selon laquelle les modèles à fort pouvoir explicatif sont d’un pouvoir prédictif élevé. Dans différents domaines, tels que l’économie, la psychologie, l’éducation et les sciences de l’environnement, les modèles statistiques sont majoritairement utilisés pour l’explication causale, et les modèles possédant un pouvoir explicatif élevé jouissent d’un pouvoir prédictif inhérent. Dans des domaines tels que le traitement du langage naturel, la bio-informatique et l’épidémiologie, l’accent mis sur l’explication causale par rapport à la prédiction empirique est plus mitigé. La caractéristique clé d’un modèle statistique est que la variabilité est représentée à l’aide de distributions de probabilités. Ces distributions forment les éléments de base à partir desquels le modèle est construit. En règle générale, le modèle doit tenir compte des variations aléatoires et systématiques. Le caractère aléatoire associé à la distribution de probabilité explique la dispersion aléatoire dans les données, tandis que le modèle systémique est supposé être généré par la structure du modèle. Concernant le volet modèles et modélisation, nous nous intéressons majoritairement au modèle linéaire à effets mixtes et au modèle espace-état.
Modèle linéaire
Le modèle linéaire (LM) est le modèle statistique de base que l’on utilise pour analyser une expérience où l’on étudie sur n unités expérimentales les variations d’une variable réponse y en fonction de facteurs qualitatifs ou quantitatifs, appelés aussi variables explicatives. Le modèle linéaire s’écrit :
Yi = µi + εi
i est le numéro de l’unité expérimentale.
µi est l’espérance de Yi et inclut l’effet de variables explicatives.
εi est une variable aléatoire résiduelle, appelée erreur, incluant la variabilité du matériel expérimental, celle due aux variables explicatives non incluses dans le modèle, et celle due aux erreurs de mesure. Selon la nature des variables incluses dans la partie explicative µi du modèle, on distingue trois grandes catégories de modèle linéaire : Lorsque les variables explicatives sont quantitatives, le modèle est appelé modèle de régression : simple s’il n’y a qu’une seule variable explicative, multiple sinon. Lorsque les variables explicatives sont qualitatives, elles sont appelées facteurs et le modèle ainsi construit est un modèle d’analyse de la variance. Lorsque les variables explicatives sont à la fois de nature quantitatives et qualitatives, le modèle ainsi construit est un modèle d’analyse de la covariance.
Modèle linéaire généralisé (GLM)
En statistiques, le modèle linéaire généralisé (GLM) est une généralisation flexible de la régression linéaire. Les modèles linéaires généralisés ont été formulés par John Nelder et Robert Wedderburn [16] comme un moyen d’unifier les modèles statistiques y compris la régression linéaire, la régression logistique et la régression de Poisson. Ils proposent une méthode itérative dénommée méthode des moindres carrés repondérés itérativement [17] pour l’estimation du maximum de vraisemblance des paramètres du modèle.
Présentation du modèle Soit y1, . . . , yn n observations indépendantes. Nous traitons yi comme une réalisation d’une variable aléatoire Yi . Dans le modèle linéaire généralisé, nous supposons que Yi a une distribution normale de moyenne µi et variance σ2
Yi ∼ N (µi , σ2)
Modèle linéaire à effets mixtes (LMM)
Présentation générale et hypothèses
Un modèle à effets mixtes [24] est un modèle qui considère à la fois des effets fixes et des effets aléatoires. Le mélange entre les deux est à l’origine du nom. Les effets fixes décrivent les relations entre les covariables et la variable dépendante pour une population entière tandis que les effets aléatoires sont spécifiques à l’échantillon. En d’autres termes, un effet aléatoire [25] est un effet dont nous ne voulons pas généraliser les propriétés et un effet fixe est un effet dont on veut généraliser les propriétés et en tirer des conclusions. Les effets aléatoires doivent nécessairement être des variables catégorielles. Les effets fixes sont représentés par des coefficients de régression. Ces effets décrivent les relations entre la variable dépendante et les prédicteurs. Nous supposons que les effets fixes sont inconnus et que nous les estimons sur la base des données. Les estimateurs aléatoires représentent une déviation de la relation décrite par ces effets fixes. Les coefficient des effets aléatoires ne sont pas explicitement estimés. Néanmoins, il est possible de le faire. L’intérêt d’une telle estimation est de pouvoir faire des inférences sur la variabilité des effets aléatoires. Mathématiquement, le modèle à effets mixtes est défini par :
y = Xβ + Zu + e.
|
Table des matières
Introduction générale
Chapitre 1 : Revue bibliographique
1.1 Modèles et modélisation
1.1.1 Modèle linéaire
1.1.2 Modèle linéaire généralisé (GLM)
1.1.3 Modèle additif (MA)
1.1.4 Modèle additif généralisé (GAM)
1.1.5 Modèle linéaire à effets mixtes (LMM)
1.1.5.1 Présentation générale et hypothèses
1.1.5.2 Estimation jointe des effets fixes et aléatoires : Paramètres de la matrice de covariance connus
1.1.5.3 Estimation des paramètres de variance
1.1.5.4 Algorithmes de maximisation du Maximum de vraisemblance
1.1.6 Modèle linéaire mixte généralisé (GLMM)
1.1.7 Modèle mixte additif généralisé (GAMM)
1.1.8 Modèle espace-état
1.1.8.1 Présentation générale et hypothèses
1.1.8.2 Estimation des variables d’état par le filtre de Kalman
1.1.8.3 Estimation des paramètres par le maximum de vraisemblance : Algorithme EM
1.2 Sélection de variables et techniques de régularisation
1.2.1 Méthodes de régularisation
1.2.1.1 La régression ridge
1.2.1.2 Lasso
1.2.1.3 La régression Elastic-net
1.2.1.4 La régression Weighted fusion
1.2.1.5 Adaptive-lasso
1.2.1.6 La régression Fused lasso
1.2.1.7 La régression Smooth lasso
1.2.2 Chemins de régularisation
1.2.2.1 Algorithme « Coordinate Descent »
1.2.2.2 Algorithme « Coordinate Descent » pour le lasso
1.2.2.3 Algorithme « Coordinate Descent » pour l’adaptive lasso
1.2.2.4 Algorithme « Coordinate Descent » pour Elastic-net
1.2.3 Aperçu des méthodes de régularisation existantes dans la littérature
1.3 Construction et conceptualisation d’un modèle de prédiction clinique avec application à l’accident vasculaire cérébral
1.3.1 Concept d’un modèle de prédiction clinique
1.3.1.1 Méthodes et processus de construction de modèles de prédiction clinique
1.3.1.2 Établissement, évaluation et validation de modèles de prédiction clinique
1.3.1.3 Les conditions nécessaires pour construire un modèle de prédiction clinique du point de vue des cliniciens
1.3.1.4 Problèmes actuellement rencontrés dans le développement du modèle de prédiction
1.3.2 Application : Accident vasculaire cérébral (AVC)
1.3.2.1 L’accident vasculaire cérébral et ses conséquences cliniques
1.3.2.2 Déficience cognitive
1.3.2.3 Facteurs de risque
1.3.2.4 Modélisation statistique pour la prédiction des conséquences post-AVC : « Courbes de récupération »
Chapitre 2 : Une approche problème inverse pour les modèles de régression régularisés avec application à la prédiction de la récupération fonctionnelle après un AVC
2.1 Introduction
2.2 Methodologie
2.2.1 Problème inverse statistique dans un contexte de régression
2.2.2 Lien avec le cadre bayésien
2.2.3 Méthode proposée : Nouvelle fonction de régularisation (hybride)
2.2.4 Colinéarité, Conditionnement et test de Belsley, Kuh et Welsch
2.3 Simulations
2.4 Application : Prédiction de la récupération fonctionnelle après un AVC
2.4.1 Données et approche de modélisation
2.5 Discussion
Chapitre 3 : Prédiction du risque de déclin cognitif post-AVC
3.1 Introduction
3.2 Cadre théorique
3.2.1 Modèle linéaire mixte et lien avec la régularisation
3.2.2 Modèle linéaire mixte génralisé et lien avec la régularisation
3.3 Stratégie de modélisation
3.4 Méthodologie
3.4.1 Source des données
3.4.2 Les participants
3.4.3 Résultat et prédicteurs
3.4.4 Données manquantes
3.4.5 Méthodologie et analyses statistique
3.4.5.1 Sélection de variables
3.4.5.2 Mesures des performances du modèle
3.4.5.3 Courbes de récupération régularisées
3.4.5.4 Développement et validation du modèle
3.4.5.5 Éthiques
3.5 Résultats
3.5.1 Caractéristiques des participants
3.5.2 Performance du modèle
3.6 Discussion
3.7 Implications
3.8 Conclusion
Conclusion générale