La distribution pour la modélisation de Score

Critères de comparaison des modèles

Les méthodes utilisées dans le but de comparer les modèles sur le jeu de données réel ainsi que sur une simulation d’un jeu de données seront expliqués dans une première partie.
Dans une seconde partie, les méthodes appliquées à la comparaison des modèles sur les S simulations d’un jeu de données seront détaillées.

Critères de comparaison sur un jeu de données

Dans l’objectif de trouver le meilleur modèle pour nos données, nous avons utilisé plusieurs critères. Ils permettent de comparer les différents résultats obtenus sur les modèles étudiés.

Erreurs de prédictions

L’erreur absolue moyenne (EAM), qui est la moyenne arithmétique des valeurs absolues des écarts entre valeur prédite et valeur observée, est définie de la manière suivante.

Prédictions

Les quantiles des prédictions du score, à 0%, 25%, 50%, 75%, 100% et également à 2.5% et 97.5%, sont comparés aux quantiles du score observé.
Les quantiles des prédictions à 2.5% et 97.5% permettent de ne pas tenir compte du minimum et du maximum de ces prédictions qui ne sont pas des valeurs très représentatives.
Dans le but de comparer les effectifs prédits et les effectifs observés pour les différentes valeurs du score, on arrondit à l’unité les prédictions obtenues, par un modèle, et on trace les diagrammes en bâtons de ces effectifs.
Un test du χ d’adéquation entre les effectifs observés et les effectifs prédits est également effectué.
Test du χ d’adéquation
La statistique du Khi-deux sert à mesurer l’écart qui existe entre la distribution des effectifs théoriques et la distribution des effectifs observés. Elle permet alors de tester si cet écart est suffisamment faible pour être imputable aux fluctuations d’échantillonnage.

Résidus

On trace les résidus de Pearson studentisés, détaillés dans la section 2.1.3. Pour le modèle linéaire Gaussien, 95% des résidus doivent se trouver dans une bande de confiance (-2,2) et être centrés et symétriques. De plus ils doivent suivre une loi normale et être homoscédastiques.
Les tests vérifiant ces hypothèses, présentés dans la section 2.1.3, seront effectués sur ces résidus. Pour les autres modèles, les résidus de Pearson studentisés doivent être centrés et symétriques.
A l’inverse, si lors d’un test on espère que H0 soit vraie, on espère accepter H et donc que le risque d’erreur de première espèce du test soit égal à 0. Lorsque le test ne permet pas de rejeter H , le risque d’erreur de première espèce du test sera égal à 0. En revanche, si le test permet de rejeter H , le risque d’erreur de première espèce du test sera égal à 1.
Nous nous intéressons ici à différents tests, détaillés dans la section 2.1.3.
Pour tous les modèles, le test de la déviance ou le test de Wald est utilisé pour tester la significativité globale de la régression. On s’attend à ce que l’hypothèse H soit vraie et donc que la puissance du test soit égale à 1. Ces tests sont également utilisés pour tester la significativité des différents coefficients du modèle. Si on pense qu’une variable explicative a de l’influence sur la variable réponse, on s’attend à ce que l’hypothèse H soit vraie et donc que la puissance du test soit égale à 1. Si au contraire, on pense qu’une variable explicative n’a pas d’influence sur la variable réponse, on s’attend à ce que l’hypothèse H soit vraie et donc que le risque d’erreur de première espèce du test soit égal à 0.
De plus, pour le modèle linéaire Gaussien, on effectue le test de Shapiro-Wilk pour tester la normalité des résidus de Pearson studentisés et le test de Breusch-Pagan pour tester leurs homoscédasticité. Pour le modèle linéaire généralisé de Poisson, on effectue des tests de surdispersion. Enfin, pour les modèles linéaires généralisés de Poisson et Binomial, on effectue également le test d’adéquation de Pearson. Pour tous ces tests, on s’attend à ce que l’hypothèse H soit vraie et donc que le risque d’erreur de première espèce de ces tests soit égal à 0.

Critères de comparaison sur les S simulations

Afin de résumer les comparaisons des modèles sur les S simulations du point de vue des critères détaillés dans la section précédente, on va expliciter les méthodes utilisées.

Prédictions

On récupère sur chaque simulation les quantiles des prédictions du score, aux différents niveaux. Pour chaque modèle, on a S quantiles par niveau. Cela permet d’obtenir la moyenne des quantiles des prédictions du score, aux différents niveaux, calculée sur les S simulations.
On pourra les comparer aux quantiles du score simulé.
On calcule également sur chaque simulation les effectifs prédits pour les différentes valeurs du score. Pour chaque modèle, on a S effectifs par valeur du score. Cela permet, pour chaque modèle, de tracer les boîtes à moustaches des effectifs prédits pour les différentes valeurs du score obtenus sur les S simulations. On pourra les comparer aux effectifs des valeurs du score simulé.
Sur chaque simulation on récupère le nombre de fois où chaque modèle obtient l’adéquation du test du χ 2 , c’est à dire le nombre de fois où l’hypothèse H 0 du test du χ 2 est vraie.

Résidus

On récupère sur chaque simulation les résidus de Pearson studentisés pour chaque modèle. Ces résidus doivent être centrés et symétriques.
Dans le but d’observer s’ils sont centrés, on calcule la moyenne des résidus pour chaque simulation. A partir des S moyennes de résidus, on obtient le minimum, le 1er quartile, la médiane, la moyenne, le 3 ème quartile et le maximum de ces S moyennes des résidus.
Afin d’observer s’ils sont symétriques, on calcule les quantiles à 2.5% et 97.5% des résidus sur chaque simulation. On obtient le minimum, le 1 er quartile, la médiane, la moyenne, le 3 ème quartile et le maximum des quantiles à 2.5% et 97.5% des résidus sur les S simulations.

AIC et BIC

Sur chacune des simulations on récupère le modèle qui a l’AIC le plus faible ainsi que le modèle qui a le BIC le plus faible. On obtient alors, sur les S simulations, le nombre de fois où chaque modèle a ces deux critères les plus faibles.

Puissance et risque d’erreur empirique des tests

Sur les S simulations, on calcule la puissance empirique ou le risque d’erreur empirique de première espèce des différents tests. Pour cela on calcule la moyenne des puissances et des risques d’erreur de première espèce obtenus sur les S simulations. On espère obtenir une puissance empirique égale à 1 et un risque d’erreur empirique de première espèce égal à 0.
Pour tous les modèles, on s’intéresse à la puissance empirique des tests de la déviance ou de Wald pour tester la significativité globale de la régression. On s’intéresse également à la puissance empirique ou au risque d’erreur empirique de première espèce (suivant les cas) de ces tests pour tester la significativité des coefficients du modèle. On calcule également le risque d’erreur empirique de première espèce des tests de Shapiro-Wilk et de Breusch-Pagan pour le modèle linéaire Gaussien, des tests de sur-dispersion pour le modèle linéaire généralisé de Poisson ainsi que du test de Pearson pour les modèles linéaires généralisés de Poisson et Binomial.

Étude d’un jeu de données réel

Nous nous intéressons à une étude qui a mesuré (par autoquestionnaire) l’implication des médecins généralistes dans le dépistage précoce du diabète de l’enfant, sur une échelle discrète de 0 à 10. La valeur 0 signifie que le médecin ne se sent pas du tout impliqué dans le dépistage précoce du diabète de l’enfant et la valeur 10 signifie au contraire qu’il se sent entièrement impliqué. Des questions de connaissances sur le diabète ont été posées au médecin et 287 questionnaires ont été récoltés. Le but de cette étude est de relier l’implication des médecins généralistes dans le dépistage précoce du diabète de l’enfant aux réponses à des questions de connaissance sur le diabète. Notre objectif est de définir, parmi les différents modèles étudiés, le meilleur modèle pour ce jeu de données.
Afin de pouvoir étudier ce jeu de données avec le modèle linéaire généralisé Gamma, on effectue un décalage des données de [0,10] dans [1,11]. De même pour pouvoir étudier ce jeu de données avec le modèle de régression Beta, on effectue une transformation des données de [0,10] dans ]0,1[ comme détaillée dans la section 2.2. Par conséquent, comme expliqué dans la section 3.1.4, on ne pourra pas comparer ces deux modèles aux autres du point de vue des critères de l’AIC et du BIC.
Pour ces modèles, une fois les prédictions obtenues nous effectuons les transformations inverses sur celles-ci dans le but de pouvoir comparer ces prédictions à celles des autres modèles.

Résultats obtenus pour les différents modèles

Tous les modèles s’obtiennent à partir de (?) en précisant que la loi de Y
i conditionnellement aux covariables suit
– une loi Normale pour le modèle linéaire Gaussien
– une loi de Poisson pour le modèle linéaire généralisé de Poisson
– une loi Gamma pour le modèle linéaire généralisé Gamma
– une loi Binomiale pour le modèle linéaire généralisé Binomial
– une loi Beta pour le modèle de régression Beta

Diagnostics graphiques des résidus de Pearson studentisés

Les graphiques des résidus de Pearson studentisés des différents modèles se trouvent en annexe B.1. Pour les modèles linéaires généralisés Gaussien, Poisson, Gamma et Binomial ainsi que pour le modèle de régression Beta les résidus sont plutôt bien placés dans des bandes de confiance à différents niveaux. Ils semblent centrés et symétriques.

Conclusions

Les variables qui influent le plus sur l’implication des médecins généralistes dans le dépistage précoce du diabète de l’enfant sont les variables Symptome, Examen et Analyse. Tous les modèles donnent les mêmes résultats.
L’étude de ce jeu de données ne permet pas de mettre réellement en avant un modèle. L’erreur absolue moyenne et l’erreur quadratique moyenne sont quasiment équivalentes quelque soit le modèle avec un avantage pour le modèle linéaire généralisé Binomial. Du point de vue de l’AIC et du BIC, le modèle linéaire Gaussien est le meilleur.
Les prédictions obtenues, pour chacun des modèles, sont assez éloignées des données réelles.
Les variables ne semblent pas expliquer toute l’information sur le score.
Le travail réalisé sur ce jeu de données réel a permis de se faire une première idée concernant les modèles et d’étudier un cas concret de score. Afin de confirmer ou de contredire ces premiers résultats nous avons travaillé sur des simulations que nous allons présenter dans le prochain chapitre.

Comparaison des modèles sur des scores simulés

Nous décidons de simuler des scores entiers de 0 à 10 et de taille d’échantillon égale à 300, car c’est le type de score le plus fréquent. Nous choisissons 6 scénarios de simulation pour ces scores. Nous simulons des scores avec une moyenne faible, une moyenne intermédiaire et une moyenne élevée, avec les données centrées ou étalées autour de cette moyenne pour chacun des 3 cas. Chaque score est simulé en effectuant un tirage aléatoire des proportions des valeurs du score, de telle sorte que la somme des proportions soit égale à 1 et que la moyenne et la dispersion des données soient celles attendues.
Nous travaillons également sur un 7 e scénario, un score simulé avec une distribution des valeurs identique à celle du jeu de données réel étudié précédemment, c’est à dire que les proportions des effectifs pour chaque valeur du score ont été conservées.
Au total, cela fait 7 scénarios de simulation de score. Nous décidons d’étudier ces différents scénarios afin de voir si le comportement des modèles est le même quelque soit la distribution du score étudié.

Puissance et risque d’erreur des différents tests

La puissance des tests de la déviance ou de Wald de la significativité globale de la régression est égale à 1, pour tous les modèles, ce qui est très satisfaisant. La puissance des ces tests pour la significativité du premier paramètre est égale à 1 et le risque d’erreur de première espèce de ces tests pour la significativité du deuxième paramètre est égal à 0, pour tous les modèles, ce qui est très satisfaisant également.
Les risques d’erreur de première espèce du test de Shapiro-Wilk et celui du test de BreuschPagan, pour le modèle linéaire Gaussien sont égaux à 0, ainsi que ceux des deux tests de sur-dispersion, pour le modèle linéaire généralisé de Poisson. Il en va de même pour le test d’adéquation de Pearson, ils sont nuls pour les modèles linéaires généralisés de Poisson et Binomial. Tous ces résultats sont très satisfaisant.
Du point de vue des tests, aucun modèle ne se détache des autres.

Conclusions sur une simulation

Sur une simulation, le modèle linéaire Gaussien est meilleur pour les critères de l’AIC et du BIC et le modèle linéaire généralisé Binomial est meilleur en ce qui concerne les erreurs absolues moyennes et les erreurs quadratiques moyennes. Du point de vue des prédictions, du test du χ2 d’adéquation et des résidus les deux modèles semblent équivalents.

Puissance empirique et risque d’erreur empirique des différents tests

La puissance empirique des tests de la déviance ou de Wald de la significativité globale de la régression est égale à 1 pour tous les modèles. Cette puissance est très satisfaisante. En ce qui concerne ces tests pour la significativité des coefficients, la puissance empirique est égale à 1 pour le premier paramètre et le risque d’erreur empirique de première espèce est égal à 0 pour le deuxième paramètre, pour tous les modèles. Ces résultats sont très satisfaisants également.
Pour le modèle linéaire Gaussien, le risque d’erreur empirique de première espèce du test de Shapiro-Wilk sur les résidus de Pearson studentisés est de 0.071 et le risque d’erreur empirique de première espèce du test de Breusch-Pagan d’homoscédasticité des résidus de Pearson studentisés est de 0.082. Ces risques sont proches de 0, ce qui est satisfaisant.
Pour le modèle linéaire généralisé de Poisson, les risques d’erreur empiriques de première espèce des deux tests de sur-dispersion sont égaux à 0 ce qui est très satisfaisant.
Pour les modèles linéaires généralisés de Poisson et Binomial, les risques d’erreur empiriques du test d’adéquation de Pearson sont égaux à 0 ce qui est très satisfaisant également.
Une nouvelle fois les tests ne permettent pas de différencier les modèles.

Conclusions sur les S simulations

Les premières conclusions réalisées sur une simulation se confirment. Sur les S simulations, le modèle linéaire Gaussien est meilleur que les autres modèles du point de vue des résidus, de l’AIC et du BIC. En revanche, le modèle linéaire généralisé Binomial est meilleur que les autres modèles en ce qui concerne les erreurs absolues et quadratiques moyennes. Pour le test du χ2 d’adéquation, le modèle linéaire Gaussien est légèrement meilleur que le modèle linéaire généralisé Binomial. Du point de vue des quantiles de prédictions, le modèle linéaire généralisé Binomial et le modèle linéaire Gaussien sont équivalents.

Résultats

Nous avons utilisé une chaîne, 5000 itérations de burn-in (le burn-in désigne les itérations initiales, en général très instables, qui ne sont pas utilisées pour l’estimation des paramètres), pour garder 50000 itérations pour les estimations. Les paramètres que l’on estime sur chaque itération sont les paramètres présents dans le modèle. A chaque itération on calcule les prédictions ainsi que les erreurs absolues et quadratiques moyennes. Pour obtenir les estimateurs bayésiens de ces paramètres, on prend la moyenne des paramètres sur les 50000 itérations.
Nous ne présentons que les résultats obtenus sur les S simulations du 7 e scénario de score, présenté dans le chapitre précédent, car les résultats obtenus sont très proches en fréquentisteet en bayésien.

Conclusions sur les S simulations

Sur les S simulations des 50000 itérations bayésiennes, le modèle linéaire Gaussien est meilleur que les autres modèles du point de vue du DIC. En revanche, le modèle linéaire généralisé Binomial est meilleur que les autres modèles en ce qui concerne les erreurs absolues moyennes et les erreurs quadratiques moyennes. Pour le test du χ2 d’adéquation, le modèle linéaire Gaussien est légèrement meilleur que le modèle linéaire généralisé Binomial.
Sur les S simulations des autres scénarios de score, les conclusions sont identiques à celles de la section 5.2.
Les résultats obtenus en bayésien sont quasiment identiques à ceux obtenus en fréquentiste.
Les conclusions sur les différents modèles sont les mêmes. Le travail effectué en statistique bayésienne a permis de confirmer les conclusions établies sur les modèles en fréquentiste.

Conclusions

L’étude des modèles sur le jeu de données réel a permis de se faire une première idée concernant ces modèles et d’étudier un cas concret de score. Nous avons pu tester les différents modèles sur un score réel.
Dans le but de confirmer ou de contredire les premiers résultats obtenus sur ce jeu de données nous avons continué le travail sur des données simulées. Travailler sur ce type des données permet de contrôler les données et de tester les modèles sur un nombre important de jeux de données. Cela permet par la suite d’émettre des conclusions que l’on peut juger fiables puisque les modèles sont répétés sur un nombre conséquent de jeux de données.
Les conclusions faites sur les modèles sont les mêmes en fréquentiste et en bayésien. L’approche bayésienne a permis de confirmer les résultats obtenus en fréquentiste.
Sur les S simulations, les résultats sont quasiment les mêmes quelque soit le scénario de simulation de score. Dans tous les cas, seuls le modèle linéaire Gaussien et le modèle linéaire généralisé Binomial ressortent de cette étude en fonction des critères choisis.
Globalement, le modèle linéaire Gaussien est meilleur que les autres modèles du point de vue des résidus, de l’AIC et du BIC. En revanche, le modèle linéaire généralisé Binomial est meilleur que les autres modèles en ce qui concerne les erreurs absolues moyennes et les erreurs quadratiques moyennes. Pour le test du χ2 d’adéquation, le modèle linéaire Gaussien est légèrement meilleur que le modèle linéaire généralisé Binomial.
Cette étude a permis de mettre en avant le fait que, pour la modélisation de score borné et discret de 0 à 10, le modèle linéaire généralisé Binomial est meilleur que les autres modèles étudiés pour les prédictions et le modèle linéaire Gaussien est meilleur pour la sélection de variables.
Du fait que l’étude a été réalisée sur un score borné et discret, on choisira plutôt le modèle linéaire généralisé Binomial.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
1 Introduction 
1.1 Présentation du laboratoire
1.2 Définition d’un score
1.3 Objectif de l’étude
1.4 Déroulement de l’étude
2 Différents modèles de régression 
2.1 Modèles linéaires généralisés
2.1.1 La famille exponentielle
2.1.2 Estimation des paramètres
2.1.3 Diagnostics et tests
2.2 Le modèle de régression Beta
3 Critères de comparaison des modèles 
3.1 Critères de comparaison sur un jeu de données
3.1.1 Erreurs de prédictions
3.1.2 Prédictions
3.1.3 Résidus
3.1.4 AIC et BIC
3.1.5 Puissance et risque d’erreur des tests
3.2 Critères de comparaison sur les S simulations
3.2.1 Erreurs de prédictions
3.2.2 Prédictions
3.2.3 Résidus
3.2.4 AIC et BIC
3.2.5 Puissance et risque d’erreur empirique des tests
4 Étude d’un jeu de données réel 
4.1 Analyse graphique exploratoire des données
4.2 Résultats obtenus pour les différents modèles
4.3 Conclusions
5 Comparaison des modèles sur des scores simulés 
5.1 Étude détaillée pour un scénario de score simulé
5.1.1 Résultats obtenus sur une simulation
5.1.2 Résultats obtenus sur S simulations
5.2 Conclusions sur les différents scénarios de score simulé
6 Statistique Bayésienne 
6.1 Principe de l’inférence bayésienne
6.1.1 Définition
6.1.2 Méthode MCMC
6.1.3 Méthode d’échantillonnage de Gibbs
6.2 Résultats
6.2.1 Résumé des résultats sur les S simulations
6.2.2 Conclusions sur les S simulations
7 Conclusions 
Annexes 
A Compléments mathématiques
A.1 Algorithme de Newton-Raphson
B Résultats graphiques
B.1 Résidus de Pearson studentisés du jeu de données réel
B.2 Boîtes à moustaches des résidus sur les S simulations
B.3 Diagnostics bayésien
B.4 Boîtes à moustaches des effectifs des prédictions en bayésien
Bibliographie

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *