Problématique
Comme vu dans l’introduction de cette thèse, le calcul d’un intervalle de confiance n’est pas aussi simple qu’il n’y paraît. Les problèmes rencontrés lors de l’estimation d’une proportion sont décrits ci dessous.
Biais dus à la loi binomiale
Distribution discrète : biais de couverture obligatoire et discontinu
Les oscillations de couverture dues à l’aspect discret de la loi binomiale ont été décrites par Brown (21). Aucun estimateur d’intervalle de confiance ne peut garantir une couverture réelle exactement égale à la couverture nominale. Il existera toujours un biais de couverture ? non nul. L’intervalle « exact » utilisé par la plupart des logiciels statistiques ne déroge pas à la règle. Cet intervalle « exact » est presque toujours l’intervalle de Clopper-Pearson (Clopper (31)). Cet intervalle étant extrêmement répandu et ayant des propriétés intéressantes il sera décrit en détail dans la section Matériel & méthodes. La couverture réelle, non seulement diffère de la couverture nominale, mais présente aussi des discontinuités selon ? la proportion théorique (pour une taille d’échantillon ? constante). Par exemple, sur un échantillon de taille 30 et pour une proportion théorique ? = 0,3471, l’estimateur d’intervalle de confiance à 95% de Clopper-Pearson présente une couverture réelle égale à 0,9805 alors que pour une proportion théorique très légèrement supérieure ? = 0,3473, la couverture réelle descend brutalement à 0,9637. Il existe une discontinuité dans la couverture au point ? = 0,3472. Ce point correspond précisément à la borne haute de l’intervalle de confiance réalisé pour une proportion observée de 5/30. En effet, l’intervalle de confiance correspondant est égal à [0,0564, 0,3472]. Il contient 0,3471 mais pas 0,3473. Les échantillons correspondant à 5 succès sur 30 observations participeront à la couverture pour une proportion théorique ? = 0,3471 mais pas pour une proportion théorique ? = 0,3473. Il existe une discontinuité aux deux bornes de chacun des 31 intervalles de confiance correspondant aux nombres de succès de 0/30 à 30/30. Ces discontinuités sont d’autant plus marquées que l’échantillon est de petite taille. Pour une proportion théorique ? constante, il existe aussi des oscillations de couverture selon ?, encore décrites par Brown (21).
Le problème des oscillations et du biais de couverture a pu être résolu, d’une certaine manière par Stevens (97) qui a proposé d’ajouter une part de hasard dans le calcul des bornes de l’intervalle de confiance, de telle sorte que deux expériences conduisant à des échantillons identiques ne produisent pas le même intervalle de confiance. Il n’existe alors plus de discontinuité aux bornes des intervalles, car ces bornes ne sont plus constantes. L’application des intervalles randomisés est difficile dans la pratique biostatistique quotidienne. Cette difficulté est bien résumée par Stevens lui-même :
“When any experiment has been performed (or series of observations taken), the investigator is allowed once and once only to select, at random, his value of ?; the distribution thus determined will be called the fiducial distribution of ?, and neither he nor anyone else is permitted another drawing of the number ?”.
Ce qui peut se traduire par : « Quand une expérience a été réalisée (ou une série d’observations a été faite), l’investigateur est autorisé une fois et une fois seulement à sélectionner, aléatoirement, sa valeur de ?; la distribution ainsi déterminée sera appelée la distribution fiduciale de ?, et ni lui ni personne d’autre n’a le droit de tirer un autre nombre ? ».
Une alternative a été proposée par Geyer (50). Il s’agit d’intervalles flous, aussi appelés intervalles randomisés abstraits. Plutôt que de choisir une constante de randomisation, toutes les possibilités de randomisation sont présentées, avec la densité de probabilité des bornes de l’intervalle de confiance.
Même si l’auteur de cette thèse admire l’intelligence de cette solution théorique, elle lui paraît difficilement communicable. Les intervalles randomisés de Stevens sont peut-être plus simples à communiquer mais nécessitent une grande rigueur de travail, et, de préférence pas de conflit d’intérêt.
Distribution asymétrique : biais des approximations
La distribution binomiale ?(? ; ?) est asymétrique sauf pour ? = 0,50. Le coefficient d’asymétrie (skewness) tend vers +∞ lorsque ? tend vers 0 et vers −∞ lorsque p tend vers 1. Pour un nombre constant de succès ? = ??, l’asymétrie de distribution binomiale augmente avec ? et s’approche de celui de la distribution de Poisson lorsque ? → + ∞. Comme la loi normale est symétrique, pour une constante ?, l’erreur de l’approximation normale s’aggrave lorsque ? augmente. En conséquence les estimateurs d’intervalles de confiance basés sur la loi normale, tels que le Wald et le Wilson, sont plus fortement biaisés pour un nombre attendu de 5 succès sur un échantillon de taille 15, que pour un nombre attendu de 5 succès sur un échantillon de taille 1000. Le cas limite où le nombre attendu de succès serait égal à 5 mais l’échantillon serait de taille infinie correspond à la loi de Poisson et reste toujours biaisé, ce qui a conduit Reiczigel (87) à conclure que certains estimateurs d’intervalle de confiance ne sont pas asymptotiquement exacts. En réalité, tous les estimateurs d’intervalle présentés seront asymptotiquement exacts car le scénario asymptotique d’une proportion binomiale correspond à un ? constant, ? → +∞ et donc, ?? → ∞. Lorsqu’on augmente indéfiniment la taille de l’échantillon, le nombre de succès augmente aussi indéfiniment et les biais s’atténuent. Les estimateurs d’intervalles de confiance basés sur la loi binomiale exacte ou prenant en compte l’asymétrie sont résistants, voire immunisés à ce problème.
Enjeux dans l’estimation des intervalles de confiance
Certaines propriétés des estimateurs d’intervalles de confiance sont désirables mais toutes ne sont pas compatibles. Optimiser une propriété conduira à une perte sur une autre propriété. Un estimateur peut être mauvais sur toutes les propriétés mais aucun estimateur ne peut être optimal sur toutes les propriétés.
Maîtrise du risque conditionnel, du risque moyen ou du risque moyen local
La minimisation du biais de couverture est souhaitable. On peut alors parler de maîtrise de la couverture, puisqu’il s’agit de rapprocher autant que possible la couverture réelle de la couverture nominale.
En analysant la probabilité complémentaire à la couverture, ou risque ?, on peut parler de maîtrise du risque ?. Un estimateur d’intervalle dont la couverture réelle est supérieure au risque nominal est dit conservatif alors qu’un intervalle dont la couverture réelle est inférieure au risque nominal est dit libéral ou anti-conservatif.
Comme le biais de couverture ne peut être annulé, deux approches de sa maîtrise ont été proposées.
Certains intervalles tels que celui proposé par Clopper et Pearson, Blaker ou encore Blyth et Still (12,15,31) garantissent une couverture réelle supérieure ou égale à la couverture nominale, quels que soient ? et ?, supposés tous les deux fixes. Ces intervalles sont donc strictement conservatifs, au sens où ils ne sont jamais libéraux. En conséquence ils sont plus larges que des intervalles plus libéraux.
Leur trop fort conservatisme a été critiqué par Agresti (4) qui proposait de rechercher un équilibre entre le conservatisme (pour certaines valeurs de ?) et le libéralisme (pour d’autres valeurs de ?) afin de minimiser le biais de couverture moyen. Les biais positifs (conservatisme) et des biais négatifs (libéralisme) peuvent se compenser pour donner un biais moyen proche de zéro. Dans ce cas, la couverture réelle moyenne se rapproche de la couverture nominale.
La couverture moyenne proposée par Agresti se base sur l’hypothèse d’une proportion théorique ? variable d’une expérience à l’autre, selon une loi prédéfinie. Agresti a proposé la loi uniforme sur l’intervalle ]0 ; 1[. Ainsi, on peut comprendre le plan expérimental comme la succession de deux étapes : tirage au sort d’une proportion théorique ? selon une loi uniforme sur ]0 ; 1[, puis tirage au sort d’un échantillon aléatoire dont le nombre de succès suit une loi ?(? ; ?). D’un point de vue bayésien, cela veut dire, que la répartition a priori de la proportion théorique est uniforme, ou, encore, que toutes les proportions sont aussi crédibles les unes que les autres a priori. Sous cette hypothèse, un intervalle libéral pour les proportions théoriques inférieures à 10% et conservateur pour les proportions théoriques supérieures à 90% pourra avoir une couverture moyenne satisfaisante , le libéralisme et le conservatisme se compensant bien que situés à des positions opposées de l’intervalle. Le plus souvent, on sait à l’avance si la proportion estimée sera faible ou forte. Le taux d’effets indésirables graves (EIG) d’un traitement sera généralement inférieur à 10% alors que le taux de réponse sera souvent supérieur à 70%. Dans ce cas, à l’avance on peut prévoir que cet estimateur d’intervalle de confiance sera libéral pour les effets secondaires. L’incertitude concernant le taux d’EIG sera sous estimée et le risque que le taux soit sous-estimé, c’est-à-dire, que la borne haute de l’intervalle de confiance soit inférieure au taux réel d’EIG, risque d’être élevé. En d’autres termes, avec cette approche du risque moyen, un estimateur d’intervalle de confiance qui sous-estime les effets secondaires et surestime l’efficacité des traitements aura l’air de bien maîtriser les risques puisqu’une erreur compense l’autre. Agresti a aussi proposé une loi béta de moyenne 0,10 et écart-type 0,05, correspondant donc à l’estimation d’un risque moyen au voisinage de 10%, plus approprié à l’analyse des effets indésirables.
Les tirages au hasard de la valeur théorique ? sont alors majoritairement situés près de 10% et un biais de couverture pour une proportion de 90% ne peut plus compenser un biais de couverture pour une proportion basse. Agresti n’est pas le seul à s’être posé la question de la distribution a priori lorsqu’on analyse les risques moyen, Newcombe (77) ayant aussi mentionné ce problème mais n’ayant présenté que les résultats concernant la loi uniforme. Bien que la conscience du problème de l’information a priori sur la proportion soit là, les analyses d’Agresti (4) ou de Newcombe (77) restent insuffisantes pour apprécier le comportement des intervalles au voisinage de chaque proportion théorique.
En poussant plus loin les analyses d’Agresti, nous analyserons le risque moyen local ou risque moyen de voisinage autour d’une valeur ? 0 fixe, et pour un ? fixe, correspondant à un plan expérimental en deux étapes : tirage au sort d’une valeur théorique ? proche de ? 0 dans une loi logit-normale de faible variance, puis tirage au sort d’un échantillon aléatoire avec estimation dont le nombre de succès suit une loi binomiale ?(? ; ?). L’analyse de toutes les valeurs de ? 0 permettra de décrire le comportement de l’estimateur dans tous les voisinages.
Nous définissons les risques ? conditionnels comme les risques que l’intervalle ne contienne pas la proportion théorique pour une proportion théorique fixée ? et une taille d’échantillon fixée ? . Ce risque correspondrait à la répétition d’expériences parfaitement maîtrisées, dans lesquelles le nombre exact de sujets inclus est connu et l’échantillonnage aléatoire s’applique à une même population stable.
Ce sont les risques présentés dans les articles de revue systématique de Brown (21) ou de Pires (83).
L’analyse du risque moyen local peut être justifiée par le constat d’une hétérogénéité dans les métaanalyses. C’est-à-dire, pour des protocoles expérimentaux similaires, les proportions observées diffèrent plus fortement que l’on ne peut l’expliquer par les fluctuations d’échantillonnage. Les raisons de cette hétérogénéité sont multiples : la population diffère (recrutement dans des régions différentes, dans des contextes différents), l’échantillonnage est rarement aléatoire et la participation incomplète biaise encore l’échantillonnage, les interventions et les mesures diffèrent car elles sont faites par des opérateurs différents et les protocoles ne sont jamais parfaitement standardisés. Une part de l’hétérogénéité est due à des biais, telles que le biais de sélection alors qu’une autre partie est due à de réelles différences, notamment de population et d’intervention. Dans ce cas il est légitime de considérer que la proportion ? réelle dans la population, diffèrera d’une étude à l’autre, bien que les prot ocoles expérimentaux soient très proches voire identiques. Ceci a conduit aux méta-analyses à effets aléatoires dans lesquels on suppose que la statistique de la population est une variable aléatoire dont l’unité statistique est l’étude. Pour l’estimation d’une proportion, on supposera qu’il existe uneproportion théorique moyenne ? 0 égale à l’espérance des proportions réelles ? de toutes les études. On suppose que les proportions ? suivent une loi aléatoire fluctuant autour de ? 0 . Dans un modèle de régression logistique à effets mixtes, adapté à l’analyse des proportions, on supposera que la distribution des proportions réelles ? est logit-normale, centrée autour de la proportion réelle moyenne ? 0 . C’est-àdire, on suppose que log ( ? 1−?) suit une loi normale. Un autre paramètre est mal maîtrisé en recherchebiomédicale : le nombre de sujets de l’échantillon. Même lorsque le nombre de sujets planifié est établi dans un protocole, le nombre de sujets réellement inclus dans l’analyse est légèrement inférieur ou supérieur, car le recrutement est rarement arrêté brutalement, les erreurs d’inclusion et les données manquantes (sauf en analyse en intention de traiter) font disparaître quelques observations de l’analyse finale. En d’autres termes, le nombre de sujets planifié est souvent mal maîtrisé. On peut alors considérer que la taille de l’échantillon est elle-même une variable aléatoire dépendant de l’expérience. Ces fluctuations de taille d’échantillon seront analysées dans un deuxième temps.
Précision de l’estimateur d’intervalle
Un intervalle de confiance peut être faiblement biaisé mais peu précis. Dans ce cas, l’intervalle de confiance sera large et instable. Un exemple caricatural de mauvais estimateur d’intervalle de confiance serait un mélange entre un estimateur d’intervalle à 90% pour les nombres pairs de succès sur un échantillon (p.e. 0/10, 2/10, 4/10, etc.) et un estimateur d’intervalle à 99,99% pour les nombres impairs de succès (1/10, 3/01, 5/10, etc.). La couverture serait assez proche de 95%, mais une expérience sur deux conduirait à un intervalle excessivement large (nombre impair de succès) qui ne serait pas compensé par l’intervalle un peu plus étroit obtenu pour les nombres pairs de succès. Dans ce cas, la largeur moyenne d’intervalle serait particulièrement large. L’intervalle serait instable et deux expériences dont les résultats bruts sembleraient proches (40/100 et 41/100) fourniraient pourtant des intervalles de confiance très différents. Donc, à erreur de couverture égale, un intervalle moins large est préféré.
La largeur de l’intervalle est classiquement analysé dans les articles de revue systématique tels que ceux d’Agresti, de Brown et de Pires (4,21,83). On peut parler de largeur moyenne d’intervalle ou de largeur attendue d’intervalle. D’autres mesures de précision existent, telles que le risque ? d’une comparaison de valeur observée à théorique lorsque l’estimateur intervalle de confiance est employé comme un test d’hypothèse. On pourra aussi mentionner l’étroitesse de Neyman (78) qui correspond à la probabilité que l’intervalle de confiance contienne une valeur ?′différente de ?. Cette mesure n’est pas facilement applicable aux scénarii envisagés, car elle fait appel à une valeur ?′ supplémentaire, ou alors, elle nécessiterait une simplification qui la rendrait équivalente à la mesure de la largeur attendue.
De la même manière que les risques ? à droite et à gauche des intervalles de confiance seront tous les deux analysés afin d’apprécier la symétrie des risques, les demi-largeurs à droite et à gauche seront aussi analysées. La demi-largeur à droite d’un intervalle de confiance est égale à la différence entre la borne haute de l’intervalle et l’estimation ponctuelle de la proportion, c’est-à-dire, la proportion observée sur l’échantillon. De même, la demi-largeur à gauche est la différence entre la proportion observée et la borne basse de l’intervalle. La demi-largeur attendue à droite est égale à l’espérance de la demi-largeur à droite dans un contexte expérimental défini. De même on définit la demi-largeur attendue à gauche.
Autres propriétés souhaitables
Cohérence avec un test d’hypothèse
Vos et Hudson (107) définissent la p-confiance comme un critère de jugement des estimateurs d’intervalle. Cette p-confiance est maximale lorsque les valeurs situées en dehors de l’intervalle seraient toutes fortement rejetées (P-valeur proches de zéro) par un test d’hypothèse. Le test d’hypothèse analysé par Vos et Hudson est le test binomial exact strictement conservatif à risques équilibrés , qui, une fois inversé, définit l’estimateur d’intervalle de Clopper-Pearson (31). De manière prévisible, les intervalles se rapprochant le plus de l’intervalle de Clopper-Pearson ont la meilleure p-confiance.
D’une manière plus générale, lorsqu’un estimateur d’intervalle de confiance est construit par inversion d’un test d’hypothèse, il est souhaitable que les valeurs contenues dans l’intervalle soient acceptées parle test d’hypothèse et les valeurs en dehors de l’intervalle soient rejetées par le test d’hypothèse. Selon Vos et Hudson (107), cette propriété n’est pas assurée par les intervalles de Sterne (96), ou de Blaker (12). Elle n’est pas non plus assurée par les estimateurs d’intervalles obtenus par inversion de test exact du score ou de par inversion de test du rapport de vraisemblance exact décrits par Sakakibara (89). En effet, ces quatre estimateurs d’intervalle sont basés sur des tests fondés sur une fonction de Pvaleur qui n’est pas bimonotone le long de la proportion théorique, comme expliqué par Fay (43), Blaker (13), Klaschka (60) ou Thulin (100). La Figure 4 montre les P-valeurs de comparaison proportion théorique à proportion observée pour 4 succès sur un échantillon de 180 observations selon Sterne. Le taux observé est 4/180 = 2,22%. Au risque ? = 0,05, la proportion théorique 5,48% est acceptée (P-valeur = 0,0683), la proportion théorique 5,49% est rejetée (P-valeur = 0,0495) mais la proportion théorique 5,71% est acceptée (P-valeur = 0,0509). La région de valeurs théoriques acceptées (région de confiance) ne forme donc pas un intervalle, car elle n’est pas connexe. Sterne et Blaker ont donc défini leur intervalle comme le plus petit intervalle contenant la région de confiance. En conséquence, certaines valeurs rejetées par le test sont contenues dans l’intervalle de confiance. Ce comportement non monotone de la P-valeur peut être expliqué par sa méthode de calcul. Pour une proportion théorique ? et un nombre de succès observé ? sur un échantillon de taille ?, la P valeur de Sterne est égale à la probabilité d’obtenir un nombre de succès aussi probable ou moins probable que ? sous l’hypothèse que ? est la réalisation d’une variable binomiale ?~?(? ; ?). La formule de la P-valeur de Sterne est la suivante :
|
Table des matières
Remerciements
1 Introduction
1.1 Théorie statistique générale
1.1.1 Variable aléatoire, unité statistique
1.1.2 Échantillon
1.1.3 Loi binomiale
1.1.4 Théorie de l’estimation
1.2 Problématique
1.2.1 Biais dus à la loi binomiale
1.2.2 Enjeux dans l’estimation des intervalles de confiance
1.2.3 Conditions de validité de l’intervalle de Wald
1.3 Objectifs
2 Matériel & méthodes
2.1 Critères de jugements
2.1.1 Risques conditionnels
2.1.2 Demi-largeurs attendues
2.1.3 Risques moyens locaux et demi-largeurs moyennes locales
2.1.4 Risques moyens à effectifs aléatoire
2.1.5 Demi-largeurs relatives attendues
2.2 Paramètres et méthodes de calcul
2.3 Recherche et implémentation des estimateurs intervalles
2.4 Définition des principaux estimateurs d’intervalles
2.4.1 Intervalle de Wald
2.4.2 Intervalle de Wilson 1927 modifié par Brown en 2001
2.4.3 Intervalle Arc-Sinus de Bartlett 1936
2.4.4 Intervalle logit-normal modifié
2.4.5 Intervalle du rapport de vraisemblance modifié
2.4.6 Jeffreys équilibré modifié par Brown
2.4.7 L’intervalle de Blaker 2000
2.4.8 L’intervalle de Clopper-Pearson
2.4.9 L’intervalle de Clopper-Pearson mid-P
2.5 Conditions de validité de l’intervalle de Wald
2.5.1 Description informelle de la méthode
2.5.2 Description formelle de la méthode
3 Résultats
3.1 Risques moyens locaux
3.1.1 Analyse principale
3.1.2 Analyse avec un niveau de confiance nominal à 90%
3.1.3 Analyse de sensibilité avec variance aléatoire réduite
3.1.4 Cas limite de la loi de Poisson
3.2 Risques moyens à effectifs aléatoires
3.3 Risques conditionnels
3.3.1 Analyse principale
3.3.2 Cas limite de la loi de Poisson
3.4 Demi-largeur relatives moyennes locales
3.5 Conditions de validité de l’intervalle de Wald
3.5.1 Maîtrise des risques moyens locaux unilatéraux
3.5.2 Maîtrise des risques conditionnels unilatéraux
4 Discussion
4.1 Intervalle bilatéral à risques symétriques
4.2 Paradoxes des intervalles bilatéraux exacts à risques déséquilibrés
4.3 Le meilleur estimateur d’intervalle ?
4.4 Wald, Score et rapport de vraisemblance dans les régressions logistiques
4.5 Correction de continuité
4.6 Bootstrap
4.7 Conditions de validité de l’intervalle de Wald
4.8 Loi de Poisson
4.9 Risque nominal différent de 0,05
4.10 Demi-largeurs attendues relatives
4.11 Implémentations
5 Conclusion
6 Annexe 1 : analyse de 55 estimateurs d’intervalles
6.1 Définitions supplémentaires d’estimateurs d’intervalles
6.1.1 Intervalles basés sur une approximation normale ou de Student
6.1.2 Intervalles basés sur une approximation normale après transformation
6.1.3 Intervalles bayésiens
6.1.4 Intervalles par bootstrap
6.1.5 Intervalles binomiaux exacts
6.1.6 Intervalles par approximation normale avec correction de l’asymétrie
6.1.7 Intervalles basés sur des modèles linéaires généralisés
6.2 Résultats des intervalles supplémentaires
6.3 Comparaison des intervalles de confiance strictement conservatifs
7 Annexe 2 : macros pour divers logiciels
7.1 Macro SAS
7.2 Macro Stata
7.3 Macro SPSS
7.4 Fonction Python
7.5 Macro MYSTAT/SYSTAT
7.6 Macro Minitab
7.7 Tableurs Microsoft Excel et LibreOffice
7.8 HTML+JavaScript
7.9 Texas Instruments Ti 83/84
8 Annexe 3 : description du test de Venkatraman
9 Annexe 4 : article en anglais
9.1 Introduction
9.1.1 Issues of binomial proportion estimation
9.1.2 Evaluation criteria rationale
9.2 Materials & methods
9.2.1 Definition of risks and interval lengths
9.2.2 Bibliographic research
9.2.3 Interval definitions
9.3 Results
9.3.1 General results
9.3.2 Specific interval results
9.4 Discussion
9.4.1 Originality of this work
9.4.2 Conditional or local average risk: which one to control?
9.4.3 The best confidence interval estimator
9.4.4 Relative interval length: rationale
9.4.5 Equal-tailed and unequal tailed intervals
9.4.6 Other desirable properties
9.4.7 Validity conditions of Wald’s interval
9.4.8 Poisson distribution
9.4.9 Continuity correction
9.4.10 Bootstrap
9.5 Conclusion
9.6 Table and figures
10 Annexe 5 : résumé des propriétés
11 Bibliographie