Mise en place des tests statistiques sous R
Estimation ponctuelle
Dans ce chapitre, on suppose que les données x1,…,xn sont n réalisations indépendantes d’une même variable aléatoire sous-jacente X. Il est équivalent de supposer que x1,…,xn sont les réalisations de variables aléatoires X1,…,Xn indépendantes et de même loi que X. Nous adopterons ici la seconde formulation, qui est plus pratique à manipuler. Les techniques de statistique descriptive comme l’histogramme ou le graphe de probabilités permettent de faire des hypothèses sur la nature de la loi de probabilité des Xi. Des techniques statistiques plus sophistiquées comme les tests non paramétriques. Les tests d’adéquation permettent de valider ou non ces hypothèses. On supposera ici que ces techniques ont permis d’adopter une famille de lois de probabilité bien précise (par exemple, loi normale, loi de Poisson, etc.) pour la loi des Xi où les paramètres de la loi sont supposés connus ou inconnus. On notera le paramètre inconnu. Le problème traité dans ce chapitre est celui de l’estimation du paramètre Il s’agit de donner, au vu des observations x1;…. ;xn, une approximation ou une évaluation de que l’on espère la plus proche possible de la vraie valeur inconnue. On pourra proposer une unique valeur vraisemblable qu’on appelle (estimation ponctuelle dans ce chapitre).
• Cas des échantillons appariés
Descriptif du test On veut comparer les moyennes théoriques de deux variables aléatoires X1 et X2 sur la base de deux échantillons appariés. Pour cela, on travaille avec la variable aléatoire déférence D = X1−X2, et l’on compare la moyenne théorique δ = μ1 − μ2 de D à la valeur de référence 0. On se retrouve donc dans le cas du test de moyenne à un échantillon. Les hypothèses du test
Application
Cette partie présente un jeu de données provenant du département américain de la santé et des services humains, centre national des statistiques de sante, troisième enquête nationale pour l’examen de la santé et de l’alimentation. Ce jeu de donnée s’accompagne d’une problématique qui permettra de mieux comprendre le contexte de l’étude. Nous montrerons comment il est possible d’utiliser les déférentes fonctionnalités du logiciel R afin d’importer, de manipuler et d’effectuer les analyses statistiques adéquates sur ce jeu de données
Interprétation des résultats sur l’étude « sante homme »
• Le test associé à l’intercept β0 du modèle n’est pas significatif (valeur-p > 0.05), il est donc conseillé de ne pas garder l’intercept (β0) dans le modèle.
• La relation linéaire entre POIDS et IMC est démontrée par le résultat du test de Student sur le coefficient β1. La valeur-p < 0.05 nous indique une relation linéaire significative entre le poids de l’homme et l’indice de masse corporelle.
• Le pourcentage de variabilité du poids expliqué par le modèle vaut 0.6389. Ce qui veut dire que 63.89% de la variabilité du poids de l’homme est expliquée par l’indice de masse corporelle.
Conclusion
Ce PFE m’a permis d’approfondir ma formation en général et particulièrement en statistique. Parmi ses bénéfices c’est qu’il m’a permis d’aborder et d’appréhender la problématique des estimateurs
•sur le plan théorique par la mise en évidence de deux méthodes
-la méthode des moments
-la méthode de maximum de vraisemblance.
•Sur le plan pratique de mettre en pratique mes connaissances théoriques que j’ai appris au niveau de ma formation au sien « faculté des sciences et techniques »Fès en licence mathématiques et applications. L’un des objectifs essentiels de ce projet été l’utilisation du logiciel R comme moyen de traitement des données statistiques. Cet outil offre la possibilité à tout utilisateur de contribuer à son amélioration en y intégrant de nouvelles fonctionnalités ou méthodes d’analyse non encore implémentées ce qui le rend rapide et évolutif au cour du temps.
|
Table des matières
Chapitre 1 Estimation ponctuelle
1.Introduction
2.Méthodes d’estimations
2.1. Définition d’un estimateur
2.2. Méthode des moments
2.3. Méthode de maximum de vraisemblance
3.Qualité d’un estimateur
3.1. Biais
3.2. Efficacité
3.3. Convergence
4.Propriétés des estimateurs des moments et de maximum de vraisemblance
4.1. Propriétés des estimateurs des moments
4.2. Propriétés des estimateurs de maximum de vraisemblance
5.Remarque
Chapitre 2 Mise en place des tests statistiques sous R
1.Introduction
2.Installation de R et ses packages
2.1. Installation de R sous Microsoft Windows
2.2. Installation de packages
3.Les données dans R
3.1. Nature (type) des données
3.2. Structures de données
4.Intervalles de confiance et tests d’hypothèses
4.1. Notations
4.2. Intervalle de confiance
4.3. Tests d’hypothèses
Régression linéaire
Application
Télécharger le rapport complet