Écart salarial entre les hommes et les femmes
Données et méthodologie
Description des données
Les données utilisées pour analyser quels facteurs influencent le fait d’être en désaccord avec l’affirmation EmploisFemmes 1 proviennent de l’enquête de la World Values Survey Associa-tion (2015) 2. Il s’agit d’un réseau mondial de chercheurs en sciences sociales qui étudient les changements dans les valeurs et leurs conséquences sur la vie sociale et politique. Le WVS est composé d’enquêtes menées dans près de 100 pays réprésentant environ 90% de la population mondiale. Le sondage fonctionne par vague et un questionnaire commun à tous les pays est utilisé pour chacune de ces vagues. L’enquête du WVS inclut actuellement des entrevues avec près de 400 000 répondants dans plus de 50 pays. Chaque vague porte sur une grande variété de pays représentatifs de toutes les grandes zones culturelles du monde. L’enquête a débuté en 1981 et les six vagues suivantes ont été effectuées depuis :
— Vague 1 (1981-1984)
— Vague 2 (1990-1994)
— Vague 3 (1995-1998)
— Vague 4 (1999-2004)
— Vague 5 (2005-2009)
— Vague 6 (2010-2014)
Échantillon
L’échantillon pour cette analyse est composé des observations pour la vague 5 et la vague 6 des pays respectant les deux critères suivants : (1) le pays était à l’étude pour la vague 5 et la vague 6 du WVS et (2) l’indicateur d’égalité des revenus entre les genres du World Economic Forum est disponible pour les périodes durant lesquelles les sondages se sont déroulés. Le deuxième critère a été établi dans l’optique de la réalisation d’une l’analyse additionnelle.
Cette recherche s’inscrit dans un programme de recherche sur l’hypothèse que l’aversion envers l’iniquité entre les ménages contribue à expliquer l’écart salarial entre les hommes et les femmes. Dans cette perspective, une seconde étude est prévue à la suite de celle présentée dans ce mémoire afin de compendre davantage le lien entre les variables sur les valeurs et opinions et l’écart salarial entre les hommes et les femmes. L’objectif principal est d’étudier quel est l’effet de la proportion agrégée par pays d’individus en désaccord avec l’affirmation EmploisFemmes 3 sur l’indicateur d’égalité de revenu calculé par le World Economic Forum (World Economic Forum, 2018).
Les observations du Japon et de la Nouvelle-Zélande ont été supprimées de l’échantillon pour d’autres raisons que le fait de ne pas respecter les deux critères expliqués précédem-ment. Les données des répondants japonais ont été supprimées, car il y avait des incohérences dans les réponses. Pour de nombreuses variables, il y a une forte proportion d’individus ayant répondu « Ne sais pas » lors de la vague 6, tandis que cette proportion est nulle pour la vague 5. Lors de la vague 2010-2014, la proportion de Japonais ayant répondu « Ne sais pas » aux cinq questions suivantes se situe entre 17,93% et 35,04% : celle demandant si le répon-dant est croyant, Accomplissement-FemmeFoyer3, DirigeantsPolitiques3, UniversitéGarçons3 et DirigeantsEntreprises3. Les observations des participants de la Nouvelle-Zélande ont été supprimées, car les questions DirigeantsPolitiques3, MêmesDroits-Démocratie3 ainsi que celle demandant s’il peut être justifiable de battre sa femme n’ont pas été posées lors de la vague 5.
L’échantillon de l’analyse inclut 91 902 observations provenant de 31 pays et ayant été collectées lors de deux vagues distinctes : vague 5 (2005-2009) et vague 6 (2010-2014). Au moins un pays de chaque continent habité est compris dans l’échantillon. La proportion de répondants qui ont été sondé à la vague 6 est de 50,82%. Le nombre d’observations par pays et par vague est présenté à l’annexe A. Également, la banque de données originale est composée de 31,73% d’observations incluant une ou plusieurs valeurs manquantes. La banque de données consiste en un jeu de coupes transversales indépendantes empilées, car les répondants ne sont pas les mêmes dans les deux vagues (Wooldridge, 2015).
Variables
Les variables sont divisées en deux catégories : celles à caractère socio-démographique et les variables liées aux valeurs ainsi qu’aux opinions. L’ensemble des variables étudiées, à l’excep-tion de l’âge des répondants, sont de nature binaire. La liste des variables analysées ainsi que leur définition basée sur les questions du WVS est présentée à l’annexe D. Également, cette annexe inclut la manière dont les variables sont codées. Selon les questions, la réponse « Ne sais pas » est catégorisée de façon différente.Par exemple, la variable DirigeantsPolitiques 4 est égale à 1 si le répondant est fortement en accord ou en accord avec l’affirmation et prend une valeur de 0 si l’individu est en désaccord, fortement en désaccord ou a répondu « Ne sais pas ». Quant à la variable UniversitéGarçons4, elle est égale 1 si le participant est fortement en accord, en accord ou a répondu « Ne sais pas » et la valeur est de 0 si le répondant est fortement en désaccord ou en désaccord. La façon de catégoriser la réponse « Ne sais pas » dépend de l’information que je souhaite analyser. D’un côté, je m’intéresse aux individus qui sont en accord avec l’affirmation DirigeantsPolitiques4. De l’autre côté, je m’intéresse aux participants que ne sont pas en désaccord avec l’affirmation UniversitéGarçons4.Également, les observations où les individus ont répondu « Ne sais pas » à la question concernant la classe socio-économique sont considérées comme manquantes, car il n’est pas possible de les inclure dans une classe. Ces observations font donc l’objet des imputations multiples effectuées dans le cadre de l’analyse afin de pouvoir associer les répondants concernés à une classe socio-économique.La scolarité d’un répondant est définie par le plus haut niveau d’éducation pour lequel il a suivi une formation, complétée ou non. Quatre variables binaires divisent les niveaux de scolarité : éducation primaire ou moins, éducation technique, éducation préuniversitaire et éducation universitaire. Lors de l’analyse, le groupe de référence correspond aux participants ayant une éducation primaire ou moins.
Imputations multiples
D’abord, je pose les deux hypothèses suivantes concernant le mécanisme lié aux valeurs man-quantes de la banque de données : il est de type MAR et il est ignorable. Il est raisonnable de considérer que le mécanisme correspond au type MAR, car la probabilité que les données soient manquantes pour chaque variable n’est pas liée à sa valeur conditionnellement aux autres variables étudiées.
Une des raisons pour laquelle des valeurs sont manquantes est que, pour quelques pays, une question ou plus n’ont pas été intégrées au sondage pour une des deux vagues. Dans cette situation, la probabilité que les données soient manquantes est seulement liée au pays de résidence du répondant et non à la valeur de la variable dont des valeurs sont manquantes.
L’autre raison pour laquelle il y a des données manquantes est que la réponse d’un par-ticipant à une question est manquante ou que ce dernier n’a pas répondu. Dans ce cas, je suppose que les données sont absentes de manière aléatoire. La banque de données inclut de nombreuses variables socio-économiques et plusieurs variables à propos des valeurs et des opi-nions des répondants. Si la probabilité que les données soient manquantes s’avère être non aléatoire, j’assume qu’elle est reliée aux variables présentes dans la banque de données et non à la valeur de la variable en question.Il est raisonnable de considérer que l’hypothèse d’ignorabilité est respectée. La première condition pour que cette hypothèse soit satisfaite consiste à ce que le mécanisme lié aux données manquantes soit de type MAR. La deuxième condition est que les paramètres de ce mécanisme ne soient pas liés aux paramètres à estimer lors de l’analyse. Selon Allison (2001), une application réelle où cette condition n’est pas respectée est difficile à imaginer et il considère les deux conditions comme équivalentes dans son ouvrage.Tel que mentionné dans la littérature, lors de la réalisation d’imputations multiples, il est fortement recommendé de prendre en compte toutes les variables et les effets d’interactions qui seront analysés par la suite. Par conséquent, le processus d’imputations comprend l’ensemble des variables présentées dans les tableaux 2.1 et 2.2, une variable binaire indiquant la vague pendant laquelle le répondant a été sondé ainsi qu’une variable binaire indiquant le pays de résidence du répondant. Cependant, il n’a pas été possible d’intégrer les interactions étudiées dans ce modèle, car les variables dont les interactions sont analysées font parties des variables imputées.
Le processus d’imputations multiples effectué génère 20 banques de données où les valeurs manquantes de l’ensemble de variables présentées aux tableaux 2.1 et 2.2 sont imputées. L’ef-ficacité relative de ces 20 imputations est de 98,44% en prennant en compte que la proportion d’observations incluant une ou plusieurs valeurs manquantes est de 31,73%. Considérant que l’efficacité relative est près de 100% et qu’augmenter le nombre d’imputations à 50 accroît cette efficacité de moins de 1%, 20 imputations est la valeur appropriée. L’efficacité relative de 5 ou 10 imputations aurait été de 94,03% ou de 96,92%, respectivement. Afin de réaliser les im-putations multiples, j’ai utilisé les commandes mi de STATA (StataCorp, 2015). Par ailleurs, ces commandes permettent de prendre en compte le poids accordé à chaque observation de la banque de données.
Statistiques descriptives
Les statistiques descriptives avant et après imputations des variables socio-démographiques sont présentées au tableau 2.1 ci-dessous et celle des variables liées aux valeurs et aux opinions sont exposées au tableau 2.2 à la page suivante. Également, les statistiques descriptives après imputations de toutes ces variables sont présentées par vague à l’annexe C.
Table 2.1 – Statistiques descriptives des variables socio-démographiques
Avant imputations multiples
Les variables Chef-Ménage 5, PasChef-ChefEmploi5 ainsi que celle au sujet de la classe sociale sont composées, respectivement, à 11,90%, 14,10% et 8,03% de valeurs manquantes. Il s’agit des proportions les plus élevées de données manquantes. En ce qui concernent les autres variables, cette proportion se situe entre 0,01% et 5,85%.Les répondants sont, en moyenne, âgés de 43 ans. Les plus jeunes participants sont âgés de 15 ans. Il n’est pas possible de connaître l’âge exact de l’individu le plus âgé, car la limite supérieure indiquée dans la banque de données est de 99 ans et plus. L’échantillon est composé à 53% de femmes, à 63% d’individus mariés ou conjoints de fait et 72% des participants ont au moins un enfant.Les répondants ayant un emploi représentent 53% de l’échantillon. La proportion des indi-vidus se disant personne au foyer est de 14% et 48% des participants considèrent qu’ils sont chef de leur ménage. Les individus qui ne sont pas chef de leur ménage et dont le chef a un emploi correspondent à 40% de l’échantillon.En ce qui concerne le niveau d’éducation, 28% des participants n’ont pas effectué d’études supérieures au niveau primaire. Environ le quart des individus ont réalisé des études techniques et un autre quart des répondants ont un niveau d’éducation préuniversitaire. La proportion d’individus ayant suivi une formation universitaire est de 22%.Parmi les répondants, 57% considèrent qu’ils font partie de la classe moyenne ou supérieure de leur société et 56% sont satisfaits de leur situation financière. La proportion des participants se disant heureux est de 82% et 69% estiment qu’ils sont en santé. Les individus croyants représentent 67% de l’échantillon.La proportion de répondants en désaccord avec l’affirmation EmploisFemmes5 est de 48% et un peu plus de 40% sont en accord avec les affirmations DirigeantsEntreprises5 et Dirigeants-Politiques5. Les individus en accord avec l’affirmation Accomplissement5 représentent 57% de l’échantillon.
La proportion des participants considérant qu’il est important d’enseigner l’indépendance aux enfants est de 52%. Une proportion d’invidus égale à 23% pense qu’une formation uni-versitaire est davantage importante pour les garçons que pour les filles. Les répondants qui estime qu’avoir les mêmes droits pour les femmes et les hommes est une caractéristique essen-tielle d’une démocratie représentent 83% de l’échantillon. Les participants considérant que le divorce peut être justifiable correspondent à 42% de l’échantillon et 27% des individus croient qu’il peut être justifiable de battre sa femme.
Pour ce qui est des écarts-types, ils se situent entre 0,40 et 0,50 pour l’ensemble des va-riables à l’exception de celles concernant l’âge, les répondants étant une personne au foyer, les individus se disant heureux, ainsi que la variable MêmesDroits-Démocratie 6. L’écart-type de l’âge est de 16,82. Les écarts-types des trois autres variables correspondent respectivement à 0,34, 0,38 et 0,37.
Après imputations multiples
À la suite des imputations multiples, le nombre d’observations pour l’ensemble des variables est de 91 902. Il n’y a que de faibles différences entre les statistiques descriptives avant et après les imputations. La proportion des répondants étant chef de leur ménage est de 47% après les imputations multiples, tandis que cette proportion était de 48% auparavant. La proportion des individus qui ne sont pas chef de leur ménage et dont le chef a un emploi a augmenté de 1 point de pourcentage par rapport à la valeur avant les imputations. La proportion des individus qui pensent que battre sa femme peut être justifiable a augmenté de 1 point de pourcentage. Quant aux autres variables, il n’y a pas de différence entre les moyennes avant et après la réalisation des imputations multiples.L’écart-type de la variable indiquant si l’occupation du répondant consiste à être une per-sonne au foyer a augmenté de 0,01 après l’imputation des valeurs manquantes, passant de 0,34 à 0,35. L’écart-type de la variable MêmesDroits-Démocratie6 était de 0,37 avant les imputa-tions multiples et il est de 0,38 à la suite de ce processus. L’écart-type de la variable indiquant si le participant considère qu’il peut être justifiable de battre sa femme a également augmenté de 0,01. Il n’y a pas de différence entre les écarts-types avant et après les imputations pour ce qui est des autres variables. À la suite du processus d’imputation, l’âge du plus jeune ré-pondant est estimé à 7 ans. L’âge du participant le plus vieux est évalué à 99 ans après les imputations multiples.Les fréquences croisées en pourcentage des variables indiquant si l’occupation du répondant consiste à être une personne au foyer et s’il est une femme sont présentées au tableau 2.3 à la page suivante.
|
Table des matières
Introduction
1 Revue de littérature
1.1 Écart salarial entre les hommes et les femmes
1.2 Aversion envers l’iniquité
1.3 Imputations multiples
2 Données et méthodologie
2.1 Description des données
2.2 Imputations multiples
2.3 Statistiques descriptives
2.4 Modèle
3 Résultats
3.1 Effets fixes des pays
Conclusion
A Nombre d’observations par pays et par vague
B Codes de variables binaires
C Statistiques descriptives par vague
D Définition des variables binaires
Bibliographie
Télécharger le rapport complet