Choix d’une famille de distribution

Critères de comparaison des modèles

Les méthodes utilisées dans le but de comparer les modèles sur le jeu de données réel ainsi que sur une simulation d’un jeu de données seront expliqués dans une première partie.
Dans une seconde partie, les méthodes appliquées à la comparaison des modèles sur les S simulations d’un jeu de données seront détaillées.

Critères de comparaison sur un jeu de données

Dans l’objectif de trouver le meilleur modèle pour nos données, nous avons utilisé plusieurs critères. Ils permettent de comparer les différents résultats obtenus sur les modèles étudiés.

Erreurs de prédictions

L’erreur absolue moyenne (EAM), qui est la moyenne arithmétique des valeurs absolues des écarts entre valeur prédite et valeur observée, est définie de la manière suivante.

Prédictions

Les quantiles des prédictions du score, à 0%, 25%, 50%, 75%, 100% et également à 2.5% et 97.5%, sont comparés aux quantiles du score observé.
Les quantiles des prédictions à 2.5% et 97.5% permettent de ne pas tenir compte du minimum et du maximum de ces prédictions qui ne sont pas des valeurs très représentatives.
Dans le but de comparer les effectifs prédits et les effectifs observés pour les différentes valeurs du score, on arrondit à l’unité les prédictions obtenues, par un modèle, et on trace les diagrammes en bâtons de ces effectifs.
Un test du χ d’adéquation entre les effectifs observés et les effectifs prédits est également effectué.

Test du χd’adéquation

La statistique du Khi-deux sert à mesurer l’écart qui existe entre la distribution des effectifs théoriques et la distribution des effectifs observés. Elle permet alors de tester si cet écart est suffisamment faible pour être imputable aux fluctuations d’échantillonnage.
On veut comparer les effectifs observés pour chaque valeur du score aux effectifs théoriques obtenus par un modèle. L’hypothèse testée est la suivante.
Pour que l’approximation par la loi du χ soit correcte, il est nécessaire que les effectifs théoriques dans chacune des classes soit au moins égal à 5. Si ce n’est pas le cas, il faut au préalable regrouper les classes contigües afin d’avoir un effectif suffisant. La valeur du nombre de classe K intervenant dans le nombre de degrés de liberté de la loi du χ est celle obtenue après les éventuels regroupements. Dans notre cas, une classe correspond à une valeur du score.

Puissance et risque d’erreur des tests

Les différentes situations que l’on peut rencontrer dans le cadre des tests d’hypothèse sont résumées dans le tableau suivant :On appelle risque d’erreur de première espèce, noté α, la probabilité de rejeter H0 à tort c’est à dire la probabilité de rejeter H 0 et d’accepter H 1 alors que H0 est vraie.
On appelle risque d’erreur de seconde espèce, noté β, la probabilité d’accepter H0 à tort c’est à dire la probabilité d’accepter H0 alors que H1 est vraie.
On appelle puissance d’un test la probabilité de rejeter H0 à raison c’est à dire la probabilité de rejeter H0 et d’accepter H1 alors que H1 est vraie. Sa valeur est 1-β.
Si lors d’un test on espère que H1 soit vraie, on espère rejeter H0 et donc que la puissance du test soit égale à 1. Lorsque le test permet de rejeter H0 et donc d’accepter H1 , la puissance du test sera égale à 1. En revanche, si le test ne permet pas de rejeter H0 , la puissance du test sera égale à 0.
A l’inverse, si lors d’un test on espère que H0 soit vraie, on espère accepter H0et donc que le risque d’erreur de première espèce du test soit égal à 0. Lorsque le test ne permet pas de rejeter H0, le risque d’erreur de première espèce du test sera égal à 0. En revanche, si le test permet de rejeter H0 , le risque d’erreur de première espèce du test sera égal à 1.
Nous nous intéressons ici à différents tests, détaillés dans la section 2.1.3. Pour tous les modèles, le test de la déviance ou le test de Wald est utilisé pour tester la significativité globale de la régression. On s’attend à ce que l’hypothèse H1 soit vraie et donc que la puissance du test soit égale à 1. Ces tests sont également utilisés pour tester la significativité des différents coefficients du modèle. Si on pense qu’une variable explicative ade l’influence sur la variable réponse, on s’attend à ce que l’hypothèse H1 soit vraie et donc que la puissance du test soit égale à 1. Si au contraire, on pense qu’une variable explicative n’a pas d’influence sur la variable réponse, ons’attend à ce que l’hypothèse H0 soit vraie et donc que le risque d’erreur de première espèce du test soit égal à 0.
De plus, pour le modèle linéaire Gaussien, on effectue le test de Shapiro-Wilk pour tester la normalité des résidus de Pearson studentisés et le test de Breusch-Pagan pour tester leurs homoscédasticité. Pour le modèle linéaire généralisé de Poisson, on effectue des tests de surdispersion. Enfin, pour les modèles linéaires généralisés de Poisson et Binomial, on effectue également le test d’adéquation de Pearson. Pour tous ces tests, on s’attend à ce que l’hypothèse H0soit vraie et donc que le risque d’erreur de première espèce de ces tests soit égal à0.

Critères de comparaison sur les S simulations

Afin de résumer les comparaisons des modèles sur les S simulations du point de vue des critères détaillés dans la section précédente, on va expliciter les méthodes utilisées.

Erreurs de prédictions

On calcule la moyenne des erreurs absolues moyennes, sur les S simulations, de la façon suivante.

Prédictions

On récupère sur chaque simulation les quantiles des prédictions du score, aux différents niveaux. Pour chaque modèle, on a S quantiles par niveau. Cela permet d’obtenir la moyenne des quantiles des prédictions du score, aux différents niveaux, calculée sur les S simulations.
On pourra les comparer aux quantiles du score simulé. On calcule également sur chaque simulation les effectifs prédits pour les différentes valeurs du score. Pour chaque modèle, on a S effectifs par valeur du score. Cela permet, pour chaque modèle, de tracer les boîtes à moustaches des effectifs prédits pour les différentes valeurs du score obtenus sur les S simulations. On pourra les comparer aux effectifs des valeurs du score simulé.
Sur chaque simulation on récupère le nombre de fois où chaque modèle obtient l’adéquation du test du χ2, c’est à dire le nombre de fois où l’hypothèse H0du test du χ 2est vraie.

Résidus

On récupère sur chaque simulation les résidus de Pearson studentisés pour chaque modèle.
Ces résidus doivent être centrés et symétriques. Dans le but d’observer s’ils sont centrés, on calcule la moyenne des résidus pour chaque simulation. A partir des S moyennes de résidus, on obtient le minimum, le 1er quartile, la médiane, la moyenne, le 3 ème
quartile et le maximum de ces S moyennes des résidus. Afin d’observer s’ils sont symétriques, on calcule les quantiles à 2.5% et 97.5% des résidus sur chaque simulation. On obtient le minimum, le 1er quartile, la médiane, la moyenne, le 3 ème quartile et le maximum des quantiles à 2.5% et 97.5% des résidus sur les S simulations.

AIC et BIC

Sur chacune des simulations on récupère le modèle qui a l’AIC le plus faible ainsi que le modèle qui a le BIC le plus faible. On obtient alors, sur les S simulations, le nombre de fois où chaque modèle a ces deux critères les plus faibles.

Puissance et risque d’erreur empirique des tests

Sur les S simulations, on calcule la puissance empirique ou le risque d’erreur empirique de première espèce des différents tests. Pour cela on calcule la moyenne des puissances et des risques d’erreur de première espèce obtenus sur les S simulations. On espère obtenir une puissance empirique égale à 1 et un risque d’erreur empirique de première espèce égal à 0.
Pour tous les modèles, on s’intéresse à la puissance empirique des tests de la déviance ou de Wald pour tester la significativité globale de la régression. On s’intéresse également à la puissance empirique ou au risque d’erreur empirique de première espèce (suivant les cas) de ces tests pour tester la significativité des coefficients du modèle. On calcule également le risque d’erreur empirique de première espèce des tests de Shapiro-Wilk et de Breusch-Pagan pour le modèle linéaire Gaussien, des tests de sur-dispersion pour le modèle linéaire généralisé de Poisson ainsi que du test de Pearson pour les modèles linéaires généralisés de Poisson et Binomial.

Étude d’un jeu de données réel

Nous nous intéressons à une étude qui a mesuré (par autoquestionnaire) l’implication des médecins généralistes dans le dépistage précoce du diabète de l’enfant, sur une échelle discrète de 0 à 10. La valeur 0 signifie que le médecin ne se sent pas du tout impliqué dans le dépistage précoce du diabète de l’enfant et la valeur 10 signifie au contraire qu’il se sent entièrement impliqué. Des questions de connaissances sur le diabète ont été posées au médecin et 287 questionnaires ont été récoltés. Le but de cette étude est de relier l’implication des médecins généralistes dans le dépistage précoce du diabète de l’enfant aux réponses à des questions de connaissance sur le diabète. Notre objectif est de définir, parmi les différents modèles étudiés, le meilleur modèle pour ce jeu de données.
Afin de pouvoir étudier ce jeu de données avec le modèle linéaire généralisé Gamma, on effectue un décalage des données de [0,10] dans [1,11]. De même pour pouvoir étudier ce jeu de données avec le modèle de régression Beta, on effectue une transformation des données de [0,10] dans ]0,1[ comme détaillée dans la section 2.2. Par conséquent, comme expliqué dans la section 3.1.4, on ne pourra pas comparer ces deux modèles aux autres du point de vue des critères de l’AIC et du BIC.
Pour ces modèles, une fois les prédictions obtenues nous effectuons les transformations inverses sur celles-ci dans le but de pouvoir comparer ces prédictions à celles des autres modèles.
La variable réponse est un score, qui peut prendre des valeurs de 0 à 10, réparti de la façon suivante.

Résultats obtenus pour les différents modèles

Tous les modèles s’obtiennent à partir de (?) en précisant que la loi de Y i conditionnellement aux covariables suit
– une loi Normale pour le modèle linéaire Gaussien
– une loi de Poisson pour le modèle linéaire généralisé de Poisson
– une loi Gamma pour le modèle linéaire généralisé Gamma
– une loi Binomiale pour le modèle linéaire généralisé Binomial
– une loi Beta pour le modèle de régression Beta

Diagnostics graphiques des résidus de Pearson studentisés

Les graphiques des résidus de Pearson studentisés des différents modèles se trouvent en annexe.Pour les modèles linéaires généralisés Gaussien, Poisson, Gamma et Binomial ainsi que pour le modèle de régression Beta les résidus sont plutôt bien placés dans des bandes de confiance à différents niveaux. Ils semblent centrés et symétriques.

Comparaison des modèles sur des scores simulés

Nous décidons de simuler des scores entiers de 0 à 10 et de taille d’échantillon égale à 300, car c’est le type de score le plus fréquent. Nous choisissons 6 scénarios de simulation pour ces scores. Nous simulons des scores avec une moyenne faible, une moyenne intermédiaire et une moyenne élevée, avec les données centrées ou étalées autour de cette moyenne pour chacun des 3 cas. Chaque score est simulé en effectuant un tirage aléatoire des proportions des valeurs du score, de telle sorte que la somme des proportions soit égale à 1 et que la moyenne et la dispersion des données soient celles attendues.
Nous travaillons également sur un 7e scénario, un score simulé avec une distribution des valeurs identique à celle du jeu de données réel étudié précédemment, c’est à dire que les proportions des effectifs pour chaque valeur du score ont été conservées.
Au total, cela fait 7 scénarios de simulation de score. Nous décidons d’étudier ces différents scénarios afin de voir si le comportement des modèles est le même quelque soit la distribution du score étudié.
D’autres bruits suivant une loi Normale avec d’autres paramètres ou suivant d’autres lois ont été testés. La loi suivie par la 1 ère variable a une légère influence sur les résultats obtenus
pour les modèles mais les conclusions tirées sur la comparaison des modèles sont néanmoins les mêmes. La loi suivie par la 2 ième variable n’a pas d’influence sur les résultats.
Pour chaque scénario, une fois le score simulé nous le fixons et nous simulons S fois les variables explicatives. Donc pour chaque scénario nous étudions S fois chaque modèle. Nous fixons S = 1000.
Nous comparons les quantiles des scores prédits aux quantiles du score simulé.
Pour les quantiles des prédictions à 0% et à 100%, les valeurs semblent convenables pour les modèles Gaussien, Binomial et Beta, en revanche pour les modèles Poisson et Gamma les valeurs sont trop éloignées des valeurs du score simulé (respectivement 0 et 10). Pour les quantiles des prédictions à 25%, 50% et 75%, les valeurs semblent acceptables pour tous les modèles.
Pour les quantiles des prédictions à 2.5% et à 97.5%, les valeurs semblent une nouvelle fois raisonnables pour les modèles Gaussien, Binomial et Beta. Au contraire pour les modèles Poisson et Gamma, les valeurs ne sont de nouveau pas assez proches des valeurs du score simulé (respectivement 1 et 10).
Les modèles linéaire Gaussien, linéaire généralisé Binomial et de régression Beta donnent donc des prédictions convenables pour le score. A l’inverse, les modèles linéaires généralisés de Poisson et Gamma ne semblent pas donner des prédictions raisonnables pour le score. Afin d’obtenir les effectifs des prédictions pour les différentes valeurs du score, les prédictions des différents modèles sont arrondies à l’unité. Les effectifs ainsi obtenus sont les suivants.
Les effectifs du modèle linéaire Gaussien sont assez proches des effectifs du score simulé.
En revanche les effectifs des modèles linéaires généralisés de Poisson et Gamma sont trop éloignés des effectifs du score simulé. Enfin les effectifs du modèle linéaire généralisé Binomial et du modèle de régression Beta semblent assez proches des effectifs du score simulé excepté pour les scores 9 et 10.
Ces deux lois sont bornées, il n’y a donc pas de prédictions du score supérieures à 10. En arrondissant ces prédictions à l’unité cela explique le fait qu’il y ait peu d’effectif pour le score 10 et par conséquent plus d’effectif pour le score 9.
Les effectifs prédits du modèle linéaire Gaussien sont assez proches des effectifs du score simulé malgré le fait que la loi Normale soit continue et non bornée.

Puissance et risque d’erreur des différents tests

La puissance des tests de la déviance ou de Wald de la significativité globale de la régression est égale à 1, pour tous les modèles, ce qui est très satisfaisant. La puissance des ces tests pour la significativité du premier paramètre est égale à 1 et le risque d’erreur de première espèce de ces tests pour la significativité du deuxième paramètre est égal à 0, pour tous les modèles, ce qui est très satisfaisant également.
Les risques d’erreur de première espèce du test de Shapiro-Wilk et celui du test de BreuschPagan, pour le modèle linéaire Gaussien sont égaux à 0, ainsi que ceux des deux tests de sur-dispersion, pour le modèle linéaire généralisé de Poisson. Il en va de même pour le test d’adéquation de Pearson, ils sont nuls pour les modèles linéaires généralisés de Poisson et Binomial. Tous ces résultats sont très satisfaisant.
Du point de vue des tests, aucun modèle ne se détache des autres.

Conclusions sur une simulation

Sur une simulation, le modèle linéaire Gaussien est meilleur pour les critères de l’AIC et du BIC et le modèle linéaire généralisé Binomial est meilleur en ce qui concerne les erreurs absolues moyennes et les erreurs quadratiques moyennes. Du point de vue des prédictions, du test du χ d’adéquation et des résidus les deux modèles semblent équivalents.

Résultats obtenus sur S simulations

Erreurs de prédictions

Sur les S simulations, la moyenne des erreurs absolues moyennes et la moyenne des erreurs quadratiques moyennes obtenues, pour les différents modèles, sont les suivantes : Gaussien Poisson Gamma Binomial Beta.

Puissance empirique et risque d’erreur empirique des différents tests

La puissance empirique des tests de la déviance ou de Wald de la significativité globale de la régression est égale à 1 pour tous les modèles. Cette puissance est très satisfaisante. En ce qui concerne ces tests pour la significativité des coefficients, la puissance empirique est égale à 1 pour le premier paramètre et le risque d’erreur empirique de première espèce est égal à 0 pour le deuxième paramètre, pour tous les modèles. Ces résultats sont très satisfaisants également.
Pour le modèle linéaire Gaussien, le risque d’erreur empirique de première espèce du test de Shapiro-Wilk sur les résidus de Pearson studentisés est de 0.071 et le risque d’erreur empirique de première espèce du test de Breusch-Pagan d’homoscédasticité des résidus de Pearson studentisés est de 0.082. Ces risques sont proches de 0, ce qui est satisfaisant. Pour le modèle linéaire généralisé de Poisson, les risques d’erreur empiriques de première espèce des deux tests de sur-dispersion sont égaux à 0 ce qui est très satisfaisant.
Pour les modèles linéaires généralisés de Poisson et Binomial, les risques d’erreur empiriques du test d’adéquation de Pearson sont égaux à 0 ce qui est très satisfaisant également.
Une nouvelle fois les tests ne permettent pas de différencier les modèles.

Conclusions sur les S simulations

Les premières conclusions réalisées sur une simulation se confirment. Sur les S simulations, le modèle linéaire Gaussien est meilleur que les autres modèles du point de vue des résidus, de l’AIC et du BIC. En revanche, le modèle linéaire généralisé Binomial est meilleur que les autres modèles en ce qui concerne les erreurs absolues et quadratiques moyennes. Pour letest du χ2 d’adéquation, le modèle linéaire Gaussien est légèrement meilleur que le modèle linéaire généralisé Binomial. Du point de vue des quantiles de prédictions, le modèle linéaire généralisé Binomial et le modèle linéaire Gaussien sont équivalents.

Conclusions sur les différents scénarios de score simulé

Le travail, détaillé précédemment pour un scénario de simulation de score, a été fait sur les 7 scénarios de simulation de score.
– Le 1erscore a une moyenne faible et des données centrées autour de cette moyenne.
– Le 2escore a une moyenne faible et des données étalées autour de cette moyenne.
– Le 3escore a une moyenne intermédiaire et des données centrées autour de cette moyenne.
– Le 4escore a une moyenne intermédiaire et des données étalées autour de cette moyenne.
– Le 5escore a une moyenne élevée et des données centrées autour de cette moyenne.
– Le 6escore a une moyenne élevée et des données étalées autour de cette moyenne.
– Le 7escore est semblable à celui du jeu de données réel et a été étudié en détail ci-dessus.
Quand un seul modèle est indiqué pour un critère cela signifie que c’est le meilleur dans plus de 85% des cas. Quand deux modèles sont indiqués pour un critère, cela signifie que le premier modèle inscrit est le meilleur mais plutôt dans un ordre de pourcentage de 70-60% pour le premier modèle et de 30-40% pour le second.
Les résultats diffèrent légèrement selon les scores simulés. Cependant, seuls le modèle linéaire Gaussien et le modèle linéaire généralisé Binomial ressortent du point de vue des critères étudiés. Le modèle linéaire généralisé Binomial est meilleur que les autres modèles en ce qui concerne les erreurs absolues et quadratiques moyennes pour les S simulations de 6 scénarios. Le 3e score est un score de moyenne 5 avec les données réparties de façon symétrique par rapport à cette moyenne. Cela explique que le modèle linéaire Gaussien est le meilleur pour ce score, étant donné que l’on peut associer l’histogramme de ce score simulé à celui de la loi normale. Pour le test du χ2 d’adéquation, le modèle linéaire Gaussien est légèrement meilleur que le modèle linéaire généralisé Binomial. Les résidus de Pearson studentisés sont centrés et symétriques pour le modèle linéaire Gaussien pour les 7 scénarios. Ces résidus sont centrés et à peu près symétriques pour le modèle linéaire généralisé Binomial. Du point de vue de l’AIC et du BIC, le modèle linéaire Gaussien est meilleur que les autres pour les S simulations des 7 scénarios.
Si le but de l’étude à réaliser est prédictif, on choisira le modèle linéaire généralisé Binomial. En revanche si le but est descriptif on choisira le modèle linéaire Gaussien.
De plus, du fait que la loi Binomiale est discrète et bornée, une préférence se fait pour le modèle linéaire généralisé Binomial.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
1 Introduction 
1.1 Présentation du laboratoire
1.2 Définition d’un score
1.3 Objectif de l’étude
1.4 Déroulement de l’étude
2 Différents modèles de régression 
2.1 Modèles linéaires généralisés
2.1.1 La famille exponentielle
2.1.2 Estimation des paramètres
2.1.3 Diagnostics et tests
2.2 Le modèle de régression Beta
3 Critères de comparaison des modèles
3.1 Critères de comparaison sur un jeu de données
3.1.1 Erreurs de prédictions
3.1.2 Prédictions
3.1.3 Résidus
3.1.4 AIC et BIC
3.1.5 Puissance et risque d’erreur des tests
3.2 Critères de comparaison sur les S simulations
3.2.1 Erreurs de prédictions
3.2.2 Prédictions
3.2.3 Résidus
3.2.4 AIC et BIC
3.2.5 Puissance et risque d’erreur empirique des tests
4 Étude d’un jeu de données réel 
4.1 Analyse graphique exploratoire des données
4.2 Résultats obtenus pour les différents modèles
4.3 Conclusions
5 Comparaison des modèles sur des scores simulés 
5.1 Étude détaillée pour un scénario de score simulé
5.1.1 Résultats obtenus sur une simulation
5.1.2 Résultats obtenus sur S simulations
5.2 Conclusions sur les différents scénarios de score simulé
6 Statistique Bayésienne 
6.1 Principe de l’inférence bayésienne
6.1.1 Définition
6.1.2 Méthode MCMC
6.1.3 Méthode d’échantillonnage de Gibbs
6.2 Résultats
6.2.1 Résumé des résultats sur les S simulations
6.2.2 Conclusions sur les S simulations
7 Conclusions 
Annexes
A Compléments mathématiques
A.1 Algorithme de Newton-Raphson
B Résultats graphiques
B.1 Résidus de Pearson studentisés du jeu de données réel
B.2 Boîtes à moustaches des résidus sur les S simulations
B.3 Diagnostics bayésien
B.4 Boîtes à moustaches des effectifs des prédictions en bayésien
Bibliographie

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *