La sélection de modèles dans les Generalized Estimating Equations

Un biomarqueur est une caractéristique mesurable objectivement qui représente un indicateur des processus biologiques. Il peut prendre différentes formes : données de protéomique, de génétique ou de transcriptomique comme des données d’imagerie médicale. Les biomarqueurs présentent un intérêt dans la recherche de candidats médicaments pour aider à caractériser les pathologies ; ce qui explique qu’ils soient de plus en plus mesurés dans les études cliniques. Par ailleurs, les nouvelles technologies de mesure permettent d’obtenir des bases de données composées de nombreuses variables. L’objectif est donc de dissocier le signal porté par les biomarqueurs informatifs, des biomarqueurs non informatifs qui sont des variables de bruit.

Les modèles linéaires généralisés (GLM) sont souvent utilisés pour analyser ces relations et modéliser le lien entre la réponse clinique et les biomarqueurs. Cependant, la multitude de marqueurs mesurés pose le problème de l’interprétation. Il est donc nécessaire de choisir les biomarqueurs à intégrer dans le modèle. Une première approche de sélection consiste à calculer un critère de qualité, comme le BIC ou l’AIC pour chaque modèle plausible. Malheureusement, dés que le nombre de variables dépasse p = 30, ces méthodes ne sont plus applicables car explorer l’ensemble des 2ᵖ modèles est un problème combinatoire. La méthode de sélection par régularisation, comme par exemple la méthode LASSO est une alternative capable de sélectionner un sous-groupe de variables d’intérêt sans explorer tous les modèles.

Lorsque le suivi longitudinal du patient est observé, le critère clinique d’intérêt et certains biomarqueurs sont disponibles à plusieurs instants. La mise en relation de ces quantités, dans ce contexte de mesures répétées dans le temps, nécessite des méthodes particulières. Nous pouvons raisonnablement penser que les observations issues du même sujet sont plus semblables que les observations inter-sujets. De ce fait, les corrélations intra-patient dues au temps doivent être intégrées au modèle. Les Generalized Estimating Equations (GEE) sont une extension des GLM pour les données corrélées. Cette méthode marginale propose d’estimer les coefficients de régression par des équations généralisées où la matrice de corrélation dite de travail est fixée par l’utilisateur. On évite ainsi la spécification de la vraisemblance jointe en utilisant uniquement des hypothèses sur les deux premiers moments de la réponse.

La plupart des critères de sélection de modèles repose sur deux quantités : une mesure d’ajustement du modèle comme la vraisemblance ou la somme des résidus au carré (RSS) et une pénalité discrète sur la complexité du modèle comme le nombre de coefficients à estimer, ou plus généralement le degré de liberté du modèle. Dans un contexte de données corrélées, ces quantités doivent être adaptées. La vraisemblance se transforme en quasivraisemblance ; la RSS en somme pondérée par les corrélations entre observations et les degrés de liberté prennent en compte les relations intra-patients. De la même manière, il est possible d’étendre les méthodes de sélection par régularisation en pénalisant directement les GEE (PGEE). De nombreuses méthodes ont ainsi été proposées pour les GEE comme le LASSO, les pénalités Ridge ou plus généralement Bridge, ainsi que les pénalités combinées de type Elastic-Net.

La sélection de modèles dans les Generalized Estimating Equations : état de l’art

En présence de données longitudinales (i.e. répétées dans le temps), les corrélations intra-sujets doivent être prises en compte car nous pouvons raisonnablement penser que les observations issues du même sujet sont plus semblables que les observations inter-sujets. Ignorer cet aspect des données conduit à des estimations incorrectes de la variance ce qui peut conduire à des inférences fallacieuses (Fitzmaurice et al. [2012]).

Deux grandes catégories de méthodes permettent de prendre en compte cet aspect des observations : les méthodes dites spécifiques au sujet (SS) et les méthodes sur la moyenne de la population (PA). Les modèles spécifiques au sujet proposent de modéliser l’hétérogénéité entre individus, alors que les modèles marginaux, proposent de s’intéresser aux effets moyens sur la population. La corrélation intra-sujet est décrite, mais ses sources ne sont pas expliquées. Notre objectif étant d’étudier l’impact de différentes covariables sur la réponse, les modèles marginaux sont donc appropriés pour évaluer le lien entre prédicteurs et moyenne de la population.

Les Generalized Estimating Equations sont une méthode marginale qui permet l’analyse de données longitudinales où la réponse peut être de différents types (i.e. continue, binaire, de comptage…). Cette méthode est souvent présentée comme une extension des modèles linéaires généralisés (GLM) aux données corrélées. La première section de ce chapitre présente la famille exponentielle, les GLM et ses extensions afin d’introduire la nouvelle classe d’équations d’estimation que sont les Generalized Estimating Equations.

En présence de multiples covariables mesurées, la modélisation de la fonction moyenne doit faire l’objet d’une réflexion. En pratique, il est courant d’inclure uniquement un sousensemble de variables importantes dans le modèle afin d’améliorer la prédictibilité et la parcimonie du modèle. Dans la littérature, on trouve de nombreux critères de sélection de modèles faisant intervenir la notion de vraisemblance, de degré de liberté et de mesure d’ajustement, quantités ambiguës dans le cadre des GEE. La deuxième section de ce chapitre propose une liste non exhaustive de critères adaptés à la bonne spécification du modèle pour les GEE.

Generalized Estimating Equations 

Les GLM supposent que la fonction de variance V (.), le paramètre de dispersion φ et la fonction de lien g(.) sont correctement spécifiés. Une hypothèse forte sur laquelle reposent les équations d’estimation (1.9) est l’indépendance des observations. Le déroulement des équations dépend du fait que les observations sont indépendantes et identiquement distribuées (iid). Il existe cependant beaucoup de situations pour lesquelles cette hypothèse n’est pas respectée, à commencer par le cas des mesures répétées au cours du temps pour chaque patient. Dans un contexte longitudinal, les corrélations intra-patient ne sont pas ignorables et passer de la vraisemblance individuelle à la vraisemblance complète n’est plus une évidence.

Quasi-Vraisemblance et Pseudo-Vraisemblance

L’enjeu principal avec les approches utilisant la vraisemblance jointe complète de la réponse y est la complexité algorithmique. Lorsque les données ne correspondent pas exactement à une distribution connue (Gaussienne, Binomiale…), établir sa fonction de vraisemblance devient complexe. Pour ces raisons, lorsque l’on s’intéresse plus particulièrement au vecteur de paramètres β modélisant l’espérance marginale, deux méthodes initiatrices des GEE ont été proposées : la quasi-vraisemblance (Wedderburn [1974]; McCullagh [1983]) et la pseudo-vraisemblance (Arnold and Strauss [1991]; Geys et al. [1999]).

Quasi-Vraisemblance La méthode de Quasi-Vraisemblance utilise une fonction paramétrique des covariables pour modéliser l’espérance, la variance étant supposée être une fonction de la moyenne. Cette méthode permet d’utiliser des fonctions qui ne font pas partie de la famille exponentielle, dans le cas contraire, elle coïncide avec la méthode de la vraisemblance.

Pseudo-Vraisemblance Cette méthode a été introduite afin de simplifier l’expression de la vraisemblance. L’idée sous-jacente, qui rejoint les motivations des GEE, est de modifier les équations du score par des équations d’estimation plus simples qui permettent néanmoins de conserver la consistance et la normalité asymptotique des estimateurs.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Notations et rappels
1 La sélection de modèles dans les Generalized Estimating Equations : état de l’art
1.1 Generalized Estimating Equations
1.1.1 GLM et famille exponentielle
1.1.2 Quasi-Vraisemblance et Pseudo-Vraisemblance
1.1.3 La méthode des GEE
1.1.4 Algorithme de calcul
1.1.5 Structure de corrélation
1.1.6 Matrice de variance covariance
1.2 La sélection de modèles pour GEE
1.2.1 Critères de type somme des carrés des résidus
1.2.2 Généralisation du Cp de Mallows
1.2.3 Généralisation de l’AIC
1.2.4 Critères de type BIC
1.2.5 Critères de sélection de structure de matrice corrélation
2 Sélection de variables et régularisation dans les GEE : état de l’art
2.1 Les régressions pénalisées
2.1.1 La régression Bridge
2.1.2 Ridge
2.1.3 LASSO
2.1.4 Group-LASSO
2.2 Les GEE pénalisées
2.2.1 Équations pénalisées
2.2.2 La méthode du LQA
2.2.3 Algorithme de calcul
2.3 Choix du paramètre de régularisation
2.3.1 Critères de type somme des résidus au carré
2.3.2 Critères de type AIC et BIC
3 Étude de l’impact de données manquantes sur l’estimateur des GEE
3.1 Taxonomie des données manquantes
3.2 Patients sortis d’étude
3.3 Les visites manquantes intermittentes
3.3.1 Le protocole de simulations
3.3.2 Les résultats
3.4 La problématique des données manquantes ponctuelles
3.4.1 Les méthodes usuelles
3.4.2 Différentes méthodes d’Imputation Multiple
3.4.3 Imputation par équations en chaîne
3.5 Le cas particulier des variables soumises à un seuil de détection
3.5.1 Les méthodes usuelles
3.5.2 Une nouvelle fonction d’imputation
3.5.3 Étude par simulations
4 Intégrer les données manquantes dans la sélection de variables pour GEE
4.1 Les méthodes de référence
4.2 Le Mutiple Imputation Penalized Generalized Estimating Equations (MIPGEE)
4.2.1 La méthode
4.2.2 Algorithme de calcul
4.2.3 Choix du paramètre λ
4.3 Comparaisons sur simulations
4.3.1 Protocole de simulations
4.3.2 Résultats
4.4 Robustesse de la méthode
Conclusion

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *