La sélection de modèles dans les Generalized Estimating Equations : état de l’art
En présence de données longitudinales (i.e. répétées dans le temps), les corrélations intra-sujets doivent être prises en compte car nous pouvons raisonnablement penser que les observations issues du même sujet sont plus semblables que les observations inter-sujets. Ignorer cet aspect des données conduit à des estimations incorrectes de la variance ce qui peut conduire à des inférences fallacieuses (Fitzmaurice et al. [2012]).
Deux grandes catégories de méthodes permettent de prendre en compte cet aspect des observations : les méthodes dites spécifiques au sujet (SS) et les méthodes sur la moyenne de la population (PA). Les modèles spécifiques au sujet proposent de modéliser l’hétérogénéité entre individus, alors que les modèles marginaux, proposent de s’intéresser aux effets moyens sur la population. La corrélation intra-sujet est décrite, mais ses sources ne sont pas expliquées. Notre objectif étant d’étudier l’impact de différentes covariables sur la réponse, les modèles marginaux sont donc appropriés pour évaluer le lien entre prédicteurs et moyenne de la population.
Les Generalized Estimating Equations sont une méthode marginale qui permet l’analyse de données longitudinales où la réponse peut être de différents types (i.e. continue, binaire, de comptage…). Cette méthode est souvent présentée comme une extension des modèles linéaires généralisés (GLM) aux données corrélées. La première section de ce chapitre pré-33 sente la famille exponentielle, les GLM et ses extensions afin d’introduire la nouvelle classe d’équations d’estimation que sont les Generalized Estimating Equations.
En présence de multiples covariables mesurées, la modélisation de la fonction moyenne doit faire l’objet d’une réflexion. En pratique, il est courant d’inclure uniquement un sous ensemble de variables importantes dans le modèle afin d’améliorer la prédictibilité et la parcimonie du modèle. Dans la littérature, on trouve de nombreux critères de sélection de modèles faisant intervenir la notion de vraisemblance, de degré de liberté et de mesure d’ajustement, quantités ambiguës dans le cadre des GEE. La deuxième section de ce chapitre propose une liste non-exhaustive de critères adaptés à la bonne spécification du modèle pour les GEE.
Generalized Estimating Equations
Une première généralisation du modèle linéaire présentée dans l’équation (1) a été proposée par Nelder and Baker [1972]. Les GLM permettent d’étendre les modèles linéaires à une plus grande classe de variables, mais la spécification de la vraisemblance jointe de y reste un problème, surtout en présence de données corrélées. Les GEE permettent d’éviter cette complication en ne spécifiant que les deux premiers moments de la réponse.
GLM et famille exponentielle
Les GLM proposent des relations plus complexes que le modèle linéaire de l’équation (1) entre covariables mesurées et réponse afin de convenir à des variables de type binaire ou de comptage. Pour plus de flexibilité, cette méthode suppose que l’espérance est reliée aux covariables par une composante linéaire x T i,t β grâce à la fonction de lien g(.) :
Structure de corrélation
La matrice de corrélation de travail Ri (α) permet de spécifier la structure des corrélations intra individus. L’utilisateur peut choisir différentes structures parmi lesquels certaines très classiques sont largement utilisées. La plus connue reste la matrice identité, qui suppose l’indépendance entre toutes les observations. La liste présentée, non-exhaustive, permet de décrire les structures usuelles.
Corrélation échangeable ou symétrique La structure échangeable ou symétrique, suppose que toutes les corrélations sont identiques, quel que soit l’intervalle de temps entre deux observations. Dans ce contexte, α est un scalaire et la matrice de corrélation de taille T i × T i s’écrit.
La sélection de modèles pour GEE
Supposons que l’on souhaite modéliser le lien entre les covariables mesurées {x1 , . . . , xp } et la réponse y en ajustant un modèle linéaire généralisé. Nous ne sommes pas sûrs du sousgroupe de covariables à inclure dans le modèle mais nous cherchons le modèle associé au paramètre β ∗ composé de q ≤ p coefficients non nuls. Les coefficients de tous les autres prédicteurs sont mis à zéro. Si plusieurs sous-modèles sont plausibles, l’enjeu devient de choisir le meilleur modèle, celui qui permet le meilleur ajustement sans ajouter de variables inutiles.
Les plus intuitifs cherchent à optimiser les capacités de prédiction du modèle tout en évitant le sur ajustement, en minimisant la somme des carrés des résidus (RSS) ou l’erreur moyenne de prédiction (PMSE). Ce type de méthode fait souvent intervenir des techniques robustes comme la validation croisée (CV) (Stone [1974]; Geisser [1975]) ou le bootstrap Efron [1979] afin d’obtenir un modèle reproductible.
Certains utilisent le maximum de vraisemblance associé à une pénalité discrète sur la complexité du modèle. Parmi les critères les plus classiques, nous pouvons citer l’Information Criterion (AIC) de Akaike [1973], le Bayesian Information Criterion (BIC) de Schwarz et al. [1978] ou le C p de Mallows [1973] qui font intervenir une pénalisation à l’aide des degrés de liberté du modèle. On choisit alors de conserver le modèle qui optimise le critère de sélection choisi.
La sélection de modèles est un domaine très étudié, y compris pour les données longitudinales et les GEE. Cette section propose un état de l’art des critères de sélection de modèles pour GEE de façon non-exhaustive.
Critères de type somme des carrés des résidus
Il est possible de définir différentes fonctions de perte à minimiser en utilisant les données longitudinales ou les informations données par les GEE. Dziak and Li [2007] suggèrent que la façon la plus simple de définir une mesure de qualité d’ajustement d’un modèle est d’utiliser la somme des résidus au carré. Dans le cadre d’une réponse continue ou binaire, le critère à minimiser est :
Critères de sélection de structure de matrice corrélation
Le choix de la matrice de corrélation est stratégique, il permet d’améliorer les estimations des coefficients de régression (Wang and Carey [2003]) et permet de mieux représenter les données observées et leur structure. Cependant, si la structure de la moyenne est mal spécifiée il n’y a que peu d’intérêt à chercher une matrice de corrélation optimale puisque la structure des erreurs sera modifiée par l’écart entre le vrai modèle et celui utilisé. Par contre, une fois la sélection des variables à inclure dans le modèle réalisée, autrement dit une fois que l’on juge la fonction moyenne bien spécifiée, sélectionner la matrice de corrélation qui représente le mieux les corrélations intra-sujet améliore les estimations, les intervalles de confiance et donc l’inférence. On trouve une littérature riche concernant la sélection de la matrice de corrélation de travail, nous présentons ici certains critères largement utilisés. Pour une fonction moyenne fixée, il est possible d’utiliser le QICR , défini dans l’équation (1.33). Le critère devient alors :
Sélection de variables et régularisation dans les GEE : état de l’art
La technologie de nos outils de mesures (séquençage, imagerie médicale, dosage de protéines…) permet d’obtenir des bases de données riches en informations. Il n’est pas rare aujourd’hui d’observer de trente à quelques milliers de variables pour une base de données.
Lorsque l’objectif est de les relier à un critère clinique d’intérêt, il est crucial de pouvoir sélectionner un sous-groupe de variables qui expliquent ou prédisent au mieux la réponse observée. Dans ce contexte, les outils de sélection de modèles présentés dans le chapitre 1 ne sont pas suffisants. Les méthodes de régularisation permettent de parer aux limites de la sélection de modèles et font face à la problématique de multi-colinéarité inévitable en présence de nombreuses variables. Ces méthodes, historiquement développées pour une réponse continue font intervenir des analogies avec les moindres carrés. Elle peuvent cependant être étendues aux GLM en utilisant la log-vraisemblance négative ainsi qu’aux GEE grâce à la log-quasi-vraisemblance négative.
Group-LASSO
Initialement, le LASSO fut introduit pour des covariables continues ou binaire. Lorsqu’une des covariables est qualitative à d modalités, cette dernière est convertie en un bloc de d − 1 indicatrices. Une sélection qui ne ferait apparaitre qu’une partie du bloc qui définit la variable qualitative a peu de sens. Sélectionner une variable n’est pas sélectionner une ou plusieurs de ces modalités, il faut pouvoir sélectionner le bloc des indicatrices. Pour pallier cette difficulté, Yuan and Lin [2006] ont introduit le Group-LASSO qui permet de raisonner en groupes de variables. Cette méthode utilise une pénalité sur le groupe qui permet de soit sélectionner le groupe en entier (i.e. la variable avec toutes ses modalités) soit ne pas sélectionner le groupe (i.e. aucune des modalités). Supposons que l’on dispose de p variables chacune composée de M modalités, alors l’éstimateur est solution de :
Équations pénalisées
On retrouve en première partie le score défini dans l’équation (1.13) qui définit les GEE et la dérivée de la pénalité utilisée. Les équations d’estimations pénalisées et leurs propriétés asymptotiques (existence et unicité) ont été étudiées par Fu [2003]. Il s’intéresse à la pénalité Bridge et ses deux cas particuliers : le LASSO et la pénalité Ridge. Le concept d’équations pénalisées peut se généraliser à toutes formes de pénalité convexe. Blommaert et al. [2014] proposent d’utiliser une combinaison de deux pénalités pour intégrer le problème de multicolinéarité dans la sélection de variables dans le cas particulier d’une réponse gaussienne. La première est de type L1 (i.e LASSO ou SCAD) ce qui permet de sélectionner un sous-groupe de variables et la deuxième est une pénalité Ridge comme proposé pour l’Elastic-Net de Zou and Hastie [2005].
Wang et al. [2012] proposent la pénalité SCAD dans un contexte de grande dimension où le nombre de covariables p augmente avec le nombre d’individus et construisent des résultats asymptotiques en supposant uniquement que cette divergence est du même ordre.
Les auteurs montrent que l’estimateur est consistant même si la matrice de corrélation de travail est mal spécifiée.
Ces équations pénalisées reposent sur les mêmes hypothèses que les GEE. Par conséquent elles n’accepetent pas de données manquantes sur la réponse ni sur les covariables.
Pour ce qui est des sortis d’études, l’estimateur obtenu sera biaisé s’il ne respecte pas des conditions restrictives (section 3.2).
La méthode du LQA
Fan and Li [2001] propose une méthode générale basée sur la vraisemblance pénalisée qui utilise un Newton modifié. Leur algorithme utilise une méthode d’approximation locale quadratique (LQA) afin de contourner le problème de non-différentiabilité des pénalités. Appliquée aux GEE, cette méthode propose d’estimer UP (β) par un développement de Taylor. Soit β (0) un estimateur initial proche de la solution :
Choix du paramètre de régularisation
On cherche à ajuster au mieux les données observées et à obtenir un modèle simple et interprétable. Lorsque beaucoup de variables explicatives sont observées, il est facile d’obtenir un bon ajustement en utilisant un modèle composé de nombreuses covariables.
On parle alors de sur-ajustement et de modèle non reproductible. Le modèle ainsi choisi s’ajuste parfaitement aux données observées mais possède de mauvaises capacités de prédiction puisque la structure des données est mal identifiée.
Critères de type AIC et BIC
Un autre type de critère peut être utilisé afin de minimiser les temps de calcul pour le choix du paramètre λ : les critères de type AIC et BIC. La version généralisée de ces critères pour les GEE est détaillée dans la section 1.2. Le degré de liberté qu’ils font intervenir doit être adapté à la pénalité choisie. Il peut être estimé par p(λ, γ) comme dans le cadre de la validation croisée généralisée, ou par les formules proposées par Pan [2001a] et Cantoni et al. [2005] (section 1.2). On obtient alors une multitude de critères possibles pour choisir le paramètre de régularisation λ. La performance des différents critères ainsi obtenus est testée empiriquement par Dziak and Li [2006] qui n’observent pas de grandes différences entre les définitions.
Conclusion Les régressions pénalisées adaptées aux GEE permettent de sélectionner le meilleur sous-groupe de variables au sens du critère de qualité choisi sans tester tous les modèles possibles. Elles proposent une méthode de sélection (pour 1 ≤ γ < 2) plus stable ainsi qu’un gain de temps pour le choix du sous groupe le plus en lien avec la réponse. Malheureusement, ces méthodes supposent que les variables sont observées aux mêmes instants. Les données réelles présentent souvent des données non renseignées, une extension des ces méthodes aux données manquantes est donc nécessaire.
Étude de l’impact de données manquantes sur l’estimateur des GEE
Les données manquantes font référence à des données qui auraient dû être collectées mais qui ne l’ont pas été en opposition aux designs déséquilibrés pour lesquels l’absence d’information est prévue. Les raisons pour lesquelles les données n’ont pas pu être collectées doivent être étudiées et le mécanisme des données manquantes doit être pris en compte dans les analyses statistiques afin de comprendre pourquoi ces données sont manquantes et leur impact sur les inférences, interprétations et conclusions.
Lorsqu’une partie des données est manquante, l’analyste fait inévitablement face à une perte d’informations et une réduction de la précision avec laquelle les paramètres d’intérêt peuvent être estimés. Cette réduction de la précision est directement liée à la quantité de données manquantes et est influencée, jusqu’à un certain point, par la méthode d’analyse (Molenberghs et al. [2014]).
Nous proposons dans ce chapitre d’étudier l’impact de différents types de données manquantes sur les GEE. Notre première partie propose un état de l’art succinct des méthodes pour prendre en compte les sorties d’étude, tandis que notre deuxième partie étudie l’effet de visites manquantes intermittentes sur l’estimateur. La troisième partie de ce chapitre présente les méthodes d’imputation pour le traitement des données manquantes ponctuelles. Plus particulièrement, la quatrième partie étudie le cas des variables soumises à un seuil de détection pour lesquelles nous proposons une nouvelle fonction d’imputation à utiliser avec le package mice de R (Van Buuren and Groothuis-Oudshoorn [2011]). Une étude par simulations est proposée afin d’évaluer l’estimateur obtenu.
Taxonomie des données manquantes
Le mécanisme des valeurs manquantes Une taxonomie a été mise en place à la fin des années 70 afin d’expliciter les différents profils de données manquantes possibles, leurs caractéristiques et leurs impacts sur les analyses statistiques (Tableau 3.1).
Les méthodes Inverse Probability Weighting (IPW) Une façon intuitive de réduire le biais induit par les visites non observées est de pondérer judicieusement les données observées pour que leur score soit plus proche du score de l’échantillon total ou de la population.
Cette idée se retrouve dans de nombreux articles parmi lesquels Robins et al. [1994], Robins et al. [1995] et Rotnitzky et al. [1998]. Dans cette littérature, les lignes (i.e. une visite d’un patient) observées sont pondérées par l’inverse de la probabilité que le patient effectue cette visite afin qu’elles soient plus représentatives de la population globale. De cette manière, les sujets qui représentent une classe de patients à risque de sortir de l’étude auront une probabilité faible de rester dans l’étude et donc un poids important dans l’analyse.
Cette méthode nécessite deux modèles :
• un modèle pour relier la réponse aux variables explicatives : GEE
• un modèle pour estimer les probabilités de sortie d’étude : régression logistique
Les visites manquantes intermittentes
Les méthodes de types IPW peuvent être utilisées pour prendre en compte les visites manquantes intermittentes. Une régression logistique pour estimer la probabilité de manquer une visite peut être ajustée afin de réduire le biais dû à des visites manquantes intermittentes de type MAR. Dans les études cliniques que nous analysons, les visites manquantes intermittentes sont rarement liées àl’état du patient et il est difficile de trouverun modèle de régression logistique qui les explique. Nous supposerons donc que ces visites manquantes – qui représentent souvent un faible pourcentage – sont MCAR ou dépendantes du temps (plus on se rapproche de la fin de l’étude plus le patient est à risque de manquer une visite). Une étude par simulations de l’effet de telles visites manquantes intermittentes sur l’estimateur des GEE a été mise en place.
|
Table des matières
Introduction
Notations et rappels
1 La sélection de modèles dans les Generalized Estimating Equations : état de l’art
1.1 Generalized Estimating Equations
1.1.1 GLM et famille exponentielle
1.1.2 Quasi-Vraisemblance et Pseudo-Vraisemblance
1.1.3 La méthode des GEE
1.1.4 Algorithme de calcul
1.1.5 Structure de corrélation
1.1.6 Matrice de variance covariance
1.2 La sélection de modèles pour GEE
1.2.1 Critères de type somme des carrés des résidus
1.2.2 Généralisation du C p de Mallows
1.2.3 Généralisation de l’AIC
1.2.4 Critères de type BIC
1.2.5 Critères de sélection de structure de matrice corrélation
2 Sélection de variables et régularisation dans les GEE : état de l’art
2.1 Les régressions pénalisées
2.1.1 La régression Bridge
2.1.2 Ridge
2.1.3 LASSO
2.1.4 Group-LASSO
2.2 Les GEE pénalisées
2.2.1 Équations pénalisées
2.2.2 La méthode du LQA
2.2.3 Algorithme de calcul
2.3 Choix du paramètre de régularisation
2.3.1 Critères de type somme des résidus au carré
2.3.2 Critères de type AIC et BIC
3 Étude de l’impact de données manquantes sur l’estimateur des GEE
3.1 Taxonomie des données manquantes
3.2 Patients sortis d’étude
3.3 Les visites manquantes intermittentes
3.3.1 Le protocole de simulations
3.3.2 Les résultats
3.4 La problématique des données manquantes ponctuelles
3.4.1 Les méthodes usuelles
3.4.2 Différentes méthodes d’Imputation Multiple
3.4.3 Imputation par équations en chaîne
3.5 Le cas particulier des variables soumises à un seuil de détection
3.5.1 Les méthodes usuelles
3.5.2 Une nouvelle fonction d’imputation
3.5.3 Étude par simulations
4 Intégrer les données manquantes dans la sélection de variables pour GEE
4.1 Les méthodes de référence
4.2 Le Mutiple Imputation Penalized Generalized Estimating Equations (MIPGEE)
4.2.1 La méthode
4.2.2 Algorithme de calcul
4.2.3 Choix du paramètre λ
4.3 Comparaisons sur simulations
4.3.1 Protocole de simulations
4.3.2 Résultats
4.4 Robustesse de la méthode
5 Sélection de marqueurs associés à la sévérité de l’arthrose du genou
5.1 L’arthrose du genou
5.2 L’étude SEKOIA
5.2.1 La base de données
5.2.2 Gestion des données manquantes
5.2.3 Sélection de variables par MI-PGEE
5.2.4 Analyses de sensibilité
5.3 Le projet FNIH de l’étude OAI
5.3.1 La base de données
5.3.2 Gestion des données manquantes
5.3.3 Sélection de variables par MI-PGEE
5.3.4 Analyses de sensibilité
Conclusion et perspectives
Bibliographie
Liste des communications et publications
Annexes
A Résultats des simulations de la section 3.3 pour covariables binaires
A.1 Simulations pour données manquantes MCAR
A.2 Simulations pour données manquantes MAR
B Résultats détaillés des simulations de la section 3.5.3
B.1 Comparaison des Biais Relatifs Absolus
B.1.1 Pour le 1 er scénario de données manquantes
B.1.2 Pour le 2 nd scénario de données manquantes
B.2 Comparaison des estimateurs β
B.2.1 Pour le 1 er scénario de données manquantes
B.2.2 Pour le 2 nd scénario de données manquantes
C Organigramme : calcul de l’estimateur par MI-PGEE
D Publications
D.1 Publication parue
D.2 Publication en révision