Distributions particulières utilisées en statistique inférentielle

Télécharger le fichier pdf d’un mémoire de fin d’études

Population et unité statistiques

En statistique, l’ensemble étudié s’appelle « population ». Cet ensemble, au sens large de mathématiques, est défini en compréhension, c’est–direà une propriété caractéristique appelée « caractère ». Les éléments de la population ce sont les « individus » ou « unités statistiques ». On constate souvent que les populations sont constituées d’êtres humains, d’objets, de concepts. Le plus souvent, l’étude de caractère nese fait pas sur tous les éléments de la population quand celle-ci est trop nombreuse ; mais une partie ou échantillon de cette population.

Echantillon

Comme nous avons dit précédemment ; lorsque la population à étudier est trop nombreuse ou impossible à observer dans sa totalité, le statiicien choisit, selon des critères qu’il doit préciser, un sous ensemble de la population appelée « échantillon » sur lequel porteront les observations. On note souvent un échantillon par «n ».

Caractères statistiques

Supposons que la population est bien définie. Dès que le nombre des unités statistiques devient trop important pour les connaitre individuellement, le statiicien ne retient que certains aspects (certaines propriétés) de celle-ci appelés« caractères statistiques ». On distingue deux sortes de caractères statistiques :
– caractères qualitatifs ou variables qualitatives si ses modalités ne sont ni mesurables ni repérables (par exemples la marque d’une automobile, la profession d’une personne,…) .
– caractères quantitatifs ou variables quantitatives si on peut mesurer les grandeurs qui définissent ces caractères à observer (par exemples le nombre des victimes lors d’une épidémie dans un quartier ; les intervalles de salaires des ouvriers dans une entreprise,…).

NOTIONS DE MOYENNE ET VARIANCE ECHANTILLONALES

Moyenne échantillonnale

Supposons que l’on cherche à étudier une variable aléatoire X définie sur une population notée par la lettre de taille N. Pour tout échantillon de taille n tiré de cette population, on note X 1 , X 2 ,…, X n les valeurs prises par la variable X pour les n individus sélectionnés ; et on définit par :  1 X1 X2  … X n 1 ∑ X i (1.4).

Estimations naturelles des paramètres inconnus

Estimation d’une espérance inconnue

Si on veut estimer l’espérance inconnuem , d’une variable aléatoire X, on prélève un échantillon de taille suffisante et on détermine sa moyenne X (en utilisant la relation (1.4)).
Cette moyenne est une estimation ponctuelle1 de la valeur dem , mais i faut encore indiquer la précision et la confiance à accorder à cette estimation.
On peut estimer cette espérance par intervalle de confiance2.

Estimation d’une fréquence inconnue

On note p la fréquence inconnue de la propriété étudiée dans la population totale, et f, la fréquence observée dans le sondage.
Naturellement, f est l’estimation ponctuelle de p.

Autres méthodes d’estimation des paramètres inconnus

Face à une situation où on ne pourra pas disposer d’estimateur naturel, on doit recourir à des techniques puissantes comme la méthode des moments, la méthode de minimisation des moindres carrées et la méthode de maximum de vraisemblance.
C’est ce dernier que nous allons traiter ici.

Principes logiques générales d’un test statistique

Tous les tests statistiques diffèrent considérablement par leurs finalités et les caractères des problèmes qu’elles peuvent résoudre, tandis que leur construction suit les mêmes principes logiques que nous allons décrire dans ce qui suit :
1. Avancer une hypothèse de base appelée encore hypothèse nulle, notée 0 H .
2. Définir un seuil de signification a du test ; c’est la probabilité de rejet à tort de l’hypothèse de base (on l’appelle encore niveau du test) ; le choix de cette valeur dépend de la comparaison des pertes subies en cas de décision erronée dans un sens et dans l’autre.
3. Calculer la valeur de la statistique critique notée ( ) ( ) 1 2 , ,…, n n g =g X X X , en général, elle mesure le désaccord entre les données empiriques et l’hypothèse testée 0 H .
4. Diviser en deux ou en trois parties le domaine des valeurs possibles selon les erreurs qui entachent l’hypothèse avancée .
5. Ecrire la règle de décision pour pouvoir prendre la bonne décision. Si la valeur de lastatistique critique tombe dans le domaine des valeurs vraisemblables, on accepte l’hypothèse avancée ; sinon, on la rejette.

Types d’hypothèses testées

Il existe plusieurs formes d’hypothèses qu’on peut tester, mais les hypothèses qui nous seront utiles ; seront traitées ici :
a) Hypothèses concernant le type de loi de probabilité de la variable aléatoire étudiée, on étudie ici, si les données empiriques conviennent à une certaine fonction de répartition modèle. En général, ce test s’appelle « test d’ajustement ».
b) Hypothèses concernant les valeurs numériques des paramètres de la population ; il s’agit ici de tester si le paramètre de la loi étudiée est inclus dans le domaine de ses valeurs hypothétiques concrètes( ce domaine pourra être constitué d’un seul point) .
c) Hypothèses concernant le type de dépendance entre les composantes de la variable étudiée, c’est-à-dire on teste ici l’hypothèse concernant la forme générale de cette dépendance.
d) Hypothèses concernant l’homogénéité de deux ou plusieurs échantillons recueillis dans une même population ; ici on teste si on peut considérer l’appartenance à la population générale d’un nouvel échantillon. Ce test s’appelle « test d’homogénéité »

ETAPES A SUIVRE POUR MODELISER UN PHENOMENE

1. Etape de définition clairement des objectifs finaux de la modélisation. Définir aussi les facteurs, les variables en interaction et les rôles joués par ces variables (variables d’entrée ou variables explicatives ; variables de sortie ou variables à expliquer).
2. Etape de la postulation des différentes hypothèses .
3. Etape de la modélisation proprement dite, elle comprend la déduction .
4. Etape de l’analyse statistique du modèle : résolution du problème de meilleur choix .
5. Etape de vérification ; on applique ici les diverses procédures de comparaisons des conclusions et des estimations établies sur le modèle avec la réalité étudiée. On appelle cette étape : étape d’adéquation du modèle.
6. Etape de planification et réalisation des recherches destinées à améliorer le modèle ; elle est facultative.

Modèles linéaires généralisés

Généralement, les modèles linéaires sont de la forme : Y = Y(q ; X ) +e.
Avec :
Y : Vecteur n-dimensionnel des observations.
X : Matrice de planification expérimentale.
Y : Fonction lien.
( ) 1 2 , ,…, p q = q q q ¢ : Vecteur des paramètres p-dimensionnel inconnu ; e : Vecteur aléatoire p-dimensionnel vérifiant la condition E(e ) = 0 .

Modèles géométriques

Ces modèles sont de la forme : X = A + E .
Avec :
X : Vecteur p-dimensionnel des observations initiales .
A : Vecteur p-dimensionnel aléatoire dont on sait seulement qu’il appartient à une surface de dimension intérieure que ˇ p .
E : Vecteur aléatoire décrivant l’écart entre X et A.

Modèles markoviens

Dans ces modèles ; on utilise les chaînes de Markov discrètes et continues avec des paramétrisations linéaire et non linéaire.

POSITION DU PROBLEME ET RESULTATS ATTENDUS

Notre travail consiste donc à une enquête sur la dépendance existante entre les âges et les moyennes des échantillons des élèves de la classe de Seconde du Lycée Raherivelo Ramamonjy. Notre objectif est de savoir si cette dépendance existe ou non, et dans l’affirmative, est ce qu’elle est significative ou négligeable afin de prendre une décision appropriée à cette situation.

DEFINITIONS DES VARIABLES DES DONNEES

Ainsi, nous avons deux variables qualitatives (âges et moyennes) à croiser, que nous allons noter respectivement X1 et X2. Ces deux variables jouent le rôle des variables explicatives, tandis que la variable quantitative Y désignant l’effectif associé à chaque cellule, prend le rôle de variable à expliquer ou à modéliser.
Nous avons donc affaire à deux variables qualitatives qui définissent les variations d’une variable quantitative.
Décrivons ensuite les modalités respectives de chacune de ces deux variables explicatives. La première (âges) comporte quatre modalités, désignant les classes d’âges des élèves ; ainsi que la deuxième comporte trois modalités : ceux qui sont faibles, ayant des moyennes inférieures à 10 ; ceux qui ont de moyennes comprises entre 10 et 12 ; et enfin ceux qui sont forts, ayant des moyennes supérieures à 12.

MODELISATION

Rappelons encore que nos données se présentent sous forme d’une table de contingence obtenue par le croisement de deux variables qualitatives. Pour simplifier, nous nous limiterons à l’étude d’une table élémentaire, en laissant de coté des structures plus complexes.
Notre objectif est de modéliser les effectifs ou les fréquences en fonction des modalités prises par les variables qualitatives. L’objectif final pouvant être explicatif : tester une structure de dépendance particulière ou prédictive ; avec choix d’un modèle parcimonieux.

Hypothèse

A titre d’hypothèse, nous considérons que le test de chi deux et le test de Fisher sont appropriés pour la résolution du problème, c’est-à-dire, permettant de répondre à la question posée concernant l’influence d’un paramètre donné sur le système à étudier.

Principe du choix de modèle

Le critère de Fisher sera utilisé. Ce critère permet de comparer un modèle avec un sous modèle et d’évaluer l’intérêt de la présence des termes complémentaires. On suit une stratégie descendante à partir du modèle saturé, avec l’idée de supprimer à la fois la composante d’interaction ou l’effet principal qui apparaît le moins significatif au sens de Fisher. Le test présente alors une structure hiérarchisée.

Stratégies du test

Il est important de tester ou d’évaluer la présence des deux facteurs par un test de Fisher. Nous ne ferons pas ce test, mais d’autre part nous ferons un test qui évaluera la présence ou l’absence (tout ou rien) de l’interaction. Si elle est significativement présente ; alors les deux facteurs sont influents, ne serait ce que par l’interaction ; il n’y aura pas alors eu lieu de tester la présence des deux facteurs.

Cas de non homogénéité de la variance

Parfois, on n’arrive pas à contrôler la variance dans chaque cellule. C’est-à-dire qu’il y hétérogénéité. Ce fait peut s’expliquer par différentes raisons que nous allons citer en bas.

Taille insuffisante

Sous l’hypothèse nulle, avec de grand échantillon, la statistique de Bartlett suit une loi de Chi deux à (JK-1) degrés de liberté. Avec des échantillons de petite taille, cette propriété asymptotique ne pourrait pas se réaliser.

Facteurs appelés blocs

Les facteurs peuvent jouer des rôles différents. Certains sont contrôlés par l’expérimentateur qui sait en fixer précisément le niveau ; d’autres jouent le rôle des blocs ; ils sont des sources de variations propres aux procédés expérimentaux mais dont il faut tenir compte dans l’analyse car source d’hétérogénéité.
Prenons comme exemple l’expérimentation agronomique en plein champ dans laquelle il est impossible de garantir l’homogénéité des conditions climatiques, l’hydrométrie ou la fertilité.

Plan sans répétitions

Si une seule mesure est effectuée pour chaque cellule pour chaque traitement, les composantes résiduelles et les composantes d’interaction sont confondues.

Facteurs hiérarchisés

Certains blocs peuvent être hiérarchisés ou emboîtés, c’est-à-dire le niveau des autres facteurs est conditionné par des autres.

Interprétations

D’après le paragraphe (2.10.3), la non homogénéité des variances dans notre cas peut s’expliquer par :
– la taille de notre échantillon est moins suffisante pour assurer les propriétés asymptotiques.
– L’existence des blocs comme le caractère de chaque élève, son dynamisme.
– L’apparition des facteurs hiérarchisés ; la détermination de la réussite scolaire d’un élève dépend d’au moins trois critères inséparables : la compétence des professeurs, la situation familiale de l’élève, les parents qui devraient les soutenir.
– Le manque de répétitions. Nous ne pouvons pas faire plusieurs mesures à cause de l’insuffisance de la population à observer.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

– PREMIERE PARTIE : BASES THEORIQUES – PRESENTATION DE MODELES
CHAPITRE I : Définitions des termes fondamentaux
1.1 Statistique descriptive
1.2 Statistique inférentielle
CHAPITRE II : Statistique inférentielle
2.1 Notion de la moyenne et de la variance échantillonna les
2.2 Distributions particulières utilisées en statistique inférentielle
CHAPITRE III : Estimations et Tests statistiques
3.1 Estimations
3.2 Tests statistiques
CHAPITRE IV : Modélisations
– DEUXIEME PARTIE : DONNEES ET METHODES DE RESOLUTION
CHAPITRE I : Description des données
1.1 Position du problème
1.2 Définitions des variables
1.3 Formes des données
CHAPITRE II : Méthode de résolution
2.1 Tableau de contingence
2.2 Exploration statistique
2.3 Modélisation
2.4 Estimation
2.5 Test d’ajustement
2.6 Principe du choix de modèle
2.7 Estimation de modèle
2.8 Choix du modèle
2.9 Qualité de prévision
2.10 Comparaisons multiples
– TROISIEME PARTIE : RESULTATS ET INTERPRETATIONS
– Conclusion générale
– Bibliographie et webographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *