Inégalités spatiales de mortalité chez les migrants 

Inégalités spatiales de mortalité chez les migrants

Nous allons dans ce second chapitre étudier les déférentiels spatiaux de mortalité chez les migrants, à l’échelle des communes. La première partie sera dédiée à la modélisation de la mortalité des étrangers en fonctions de diverses variables sociodémographiques. L’accent sera porté sur les modèles de mortalité et les difficultés induites par un fichier de 38 millions de lignes.
Une fois l’hétérogénéité sociodémographique captée, nous approcherons dans la deuxième partie les causes spatiales de mortalité. Nous modéliserons ainsi le gradient de mortalité spatial à travers un ratio de mortalité standardisé. Nous verrons aussi que les faibles effectifs de migrants de certaines communes ont pour cause une importante variabilité qu’il convient de lisser. Les méthodes de statistiques bayesiennes seront explorées et nous atteindrons un modèle final de lissage en utilisant l’autocorrélation spatiale.

Modélisation de la mortalité

Pour approcher la mortalité, nous allons, dans un premier temps, nous baser sur un mo-dèle linéaire généralisé (GLM)(Nelder et Wedderburn, 1972) de Poisson qui est approprié pour des données de comptage dont la réalisation (ici le décès) est peu fréquente. La ré-gression de Poisson suppose que la distribution conditionnelle de la variable dépendante (la mortalité) suit une loi de Poisson et que la fonction de lien est logarithmique
Yi ∼ P oisson(λi) et donc P (Yi = yi | λi) = e−λi λyi
On modélise alors le logarithme de l’espérance en une combinaison linéaire de variables explicatives g(µi) = g(λi) = ln(λi) = xTi β.
Comme le nombre de décès dépend avant tout de l’exposition au risque, nous allons modéliser le taux de mortalité et non le nombre de décès dans un « Poisson rate mo-del »(Cameron et Trivedi, 1998). Le nombre de décès est égal au taux de mortalité fois la durée d’exposition ou λi = miti. En prenant le logarithme, ln(λi) = ln(mi) • ln(ti), nous pouvons considérer le logarithme du taux de mortalité comme une combinaison linéaire de k facteurs :
ln(mi) = ln( k k λi ) = βkxki d’où ln(λi) = ln(ti) + βkxki.
Le ln(ti) est l’offset, une variable indépendante qui permet de contrôler les durées d’ex-position dans le modèle exprimant ainsi un risque de décès proportionnel à la durée d’exposition.

Des données au modèle

Nos données sont un fichier personne-classe d’âge qui se compose d’une ligne par classe d’âge quinquennale que chaque individu traverse. Aussi sur ce large jeu de données, une simple régression de Poisson sur la mortalité avec l’âge et la région d’origine comme va-riables indépendantes (en facteurs) prend plus de 3 heures sur un ordinateur très puissant1. Ces conditions ne sont pas efficientes et rendent le travail inapplicable. Deux alternatives existent cependant. La première est de travailler avec le package biglm de R dont le cal-cul matriciel a été reprogrammé pour rendre les régressions plus efficaces – la régression qui prenait plus de 3h sur un bon ordinateur tourne en une vingtaine de minutes sur un ordinateur de bureau. Le package offre toutefois moins d’opportunités dans l’analyse des résultats et ne permet pas les régressions binomiales négatives que nous présenterons par la suite. La seconde alternative est d’agréger les données par caractéristique (Powers et Xie, 1999) en prenant la somme des expositions et des comptages pour chaque profil. Cela revient, pour notre exemple basique des classes d’âge et des régions d’origine, à agréger tous les individus dans 231 profils différents possibles (21 classes d’âge fois les 11 ori-gines). La modélisation est l’affaire de quelques centièmes mais l’agrégation peut prendre du temps et se complexifie avec l’ajout d’autres variables explicatives. Par exemple, si l’on ajoute simplement le sexe (2 catégories), le statut matrimonial (4 catégories) et le niveau d’éducation (5 catégories) on passe déjà à 9240 profils théoriques pour lesquels la somme des expositions et des décès de nos 38 millions de lignes prend alors un certain temps. Outre la complexification du traitement des données et la nécessité de créer un nouveau fichier pour chaque nouveau modèle que l’on souhaite tester, l’agrégation réduit la variabilité dans les données augmentant ainsi artificiellement la significativité des para-mètres. En outre, comme il faut créer un nouveau jeu de données pour chaque régression, les modèles ne sont pas emboîtés si bien qu’on ne peut évaluer l’apport d’une variable dans le modèle par des tests du rapport de vraisemblance.
En pesant le pour et le contre de chaque méthode et après avoir testé différents modèles, nous avons décidé de pencher pour l’alternative de l’agrégation. Elle est effectivement plus maniable, plus rapide et permet facilement la prédiction de résultats.

Limites du modèle de Poisson : Quasipoisson ou binomiale négative ?

Le modèle de poisson est très simple et a l’avantage – et l’inconvénient – d’avoir qu’un seul paramètre à estimer. Ce paramètre, λ, vaut l’espérance mais aussi la variance. Il arrive que la variance soit supérieure à l’espérance et, dans ce cas, les erreurs standards sont systématiquement sous-estimées et le modèle n’ajuste pas correctement les données. Dans un tel cas, des modèles quasipoisson ou binomiale négative sont plus aptes car ils prennent en compte la variabilité dans leur paramétrisation.
L’analyse des résidus semblent montrer une overdispersion que nous avons ensuite formel-lement testée et approuvée à travers un likelihood ratio test2. Il convient donc de choisir entre un binomial négatif et un quasipoisson. Dans la littérature, il n’y a que très peu de papiers qui dissèquent les points forts de chaque méthode. Toutes les deux ont un pa-ramètre de dispersion à la différence près que la variance de la quasipoisson est fonction linéaire de l’espérance alors qu’elle est quadratique chez la binomiale négative (tableau 2.1). L’importance de l’overdispersion varie chez la binomiale négative en fonction de λ d’une importance de 1 + 1θ λ mais est constante pour la quasipoisson de φ. Ver Hoef et Boveng (2007) comparent ces deux lois pour le comptage de morses et soutiennent que la binomiale négative approche mieux les petites valeurs de λ et la quasipoisson les grandes valeurs. La variance des binomiales négatives devient effectivement très grande lorsque λ devient grand. En outre, lors de l’estimation des paramètres, le poids donné aux observations varie passablement entre les deux lois.
Tableau 2.1 – Comparaison de Poisson, Quasipoisson et Binomiale Négative.
Y ∼ P oisson(λ) E(Y)= λ Var(Y)= λ
Y ∼ QuasiP oi(λ, φ) E(Y)= λ Var(Y)= φ • λ
Y ∼ NB(λ, θ) E(Y)= λ Var(Y)= λ + 1 • λ2
Testons sur nos données pour chaque méthode, la relation théorique entre espérance et va-riance (figure 2.1) et pratique entre valeur observée et poids des observations (figure 2.2). Les modèles sur lesquels nous effectuons ces comparaisons ont comme variables indépen-dantes les classes d’âge, les régions d’origine, le statut matrimonial, le niveau d’éducation et une variable dichotomique de temporalité pour déterminer si l’observation a lieu dans les années 1990 ou 2000. Comme nous avons choisi de travailler avec les données agrégées, chaque observation représente en fait un profil.
Des différences importantes apparaissent clairement entre les deux modèles. Lorsque les dénombrements sont très élevés, la variance des observations pour la binomiale négative décolle alors que le poids donné à chaque observation reste presque constant (le poids est seulement en augmentation entre 0 et 10 comptages environ). La quasipoisson donne quant à elle une pondération qui dépend beaucoup plus du nombre d’observations.
Figure 2.2 – Comparaison de la relation entre comptage observé et poids des observa-tions.
Avant de tirer des conclusions sur le choix de la méthode, analysons les résidus pour voir comment nos modèles ajustent les données. Notons qu’une grande part de l’hétérogénéité non observée dépend d’autres facteurs mais aussi de la variabilité inhérente au phénomène de la mortalité. Avec les modèle de comptage, les résidus, ri = (yi − µˆi) 6∼N(0; σ2),
car ils ne sont pas homoscédastiques3 ni symétriques (Cameron et Trivedi, 1998). La figure 2.3 montre cette réalité pour nos deux modèles en mettant en évidence que l’ajustement de la binomiale négative est de plus en plus mauvais en fonction de l’importance des comptages. L’erreur touche par conséquent davantage les Suisses qui comptabilisent plus d’exposition et de décès par profil simplement car ils sont plus nombreux. La modélisation des décès des Suisses n’est donc pas très bonne avec la binomiale.
Les résidus de Pearson corrigent pour l’hétéroscédasticité. Ils sont définis par :
yi − µˆi
pi = √ avec ωˆi une estimation de ωi, la variance de yi ωˆi

ωi = φ • µ 1 pour une quasipoisson
ωi = µ + µ2 pour une binomiale négative.
θ
Regardons à présent la distribution des résidus de Pearson pour les variables explicatives modélisées (figures 2.4 et 2.5). Nous pouvons constater que certains groupes ont plus d’hétérogénéité non expliquée que d’autres et que l’importance des variations diffère selon le modèle. Notons aussi que les résidus ont une plus grande amplitude dans la quasipoisson.
Au final, quel modèle semble meilleur, quasipoisson ou binomiale négative ?
Au regard des analyses qui précèdent, nous avons choisi de procéder avec un modèle de quasipoisson. Le principal argument en faveur de ce modèle est la proportionnalité dans la pondération en fonction des comptages observés et donc du meilleur ajustement des profils où le nombre d’observations est important. Rappelons que la base de données a été agrégée artificiellement en profils si bien que chaque profil ne correspond pas réellement à une observation. Il est ainsi normal que les célibataires suisses de 25 ans aient plus de poids et donc un meilleur ajustement que les veufs d’Océanie de 65 ans puisqu’ils représentent initialement plus de situations. Une binomiale négative leur donnerait quasiment le même poids et par conséquent des erreurs résiduelles plus importantes en termes d’effectifs pour les grands groupes.
Enfin signalons que la part de déviance expliquée par le modèle par rapport à un modèle avec juste une constante est plus importante pour le quasipoisson à 95.6% que pour la binomiale négative4 à 91.8%.

 Le modèle

La modèle final sélectionné est ainsi un quasipoisson. En fait, il y a deux modèles finaux car nous avons fait des régressions séparées selon les sexes en postulant un effet différent non linéaire des covariables selon le genre. Nous verrons que c’est effectivement le cas.
Nous avons gardé six variables explicatives. Les classes d’âge quinquennales5 évidemment car l’âge est le premier déterminant de la mortalité. Les classes d’âge ont été prises en fac-teur (avec la classe 65-69 comme référence) et non pas comme des variables quantitatives car cela impliquerait un risque de décès exponentiel avec les années. En second lieu, nous avons sélectionné le statut matrimonial (4 catégories : célibataire, marié, veuf, divorcé) dont les différences de mortalité reflètent des effets de sélection ou les bénéfices d’une vie à deux (Vallin et al., 2002). De nombreuses recherches ont étudié les inégalités sociales face à la mort à travers des variables de niveaux d’éducation, de revenu, de richesses ou de profession (Schumacher et Vilpert, 2011). Les démographes ont souvent sélectionné le ni-veau d’éducation car c’est une données facilement disponible contrairement au revenu et à la richesse tandis que la position socioprofessionnelle n’a de sens que pour les actifs. Nous avons donc gardé la variable du plus haut niveau d’éducation atteint (5 catégories : école obligatoire ou moins, éducation secondaire, éducation tertiaire, inconnu, en âge scolaire). Ensuite, nous avons gardé une variable temporelle dichotomique déterminant si l’exposi-tion et les décès ont été observés dans les années 1990 ou 2000 reflétant ainsi les progrès de santé dans les cohortes les plus récentes. Dans l’introduction, nous avons montré que les étrangers ne se répartissaient pas uniformément dans le territoire et s’installent davantage dans les agglomérations et les villes. Or, les travaux actuels de Philippe Wanner et Mathias Lerch de l’Université de Genève (pas encore publiés) révèlent justement des différentiels de mortalité selon le type de commune regroupés sur un axe centre-périphérie. Pour les années 1990 et 2000, l’espérance de vie des hommes est significativement meilleure dans les communes périurbaines, puis dans les communes rurales et enfin dans les centres. Chez les femmes, le même gradient s’observe mais avec une inversion en 1990 où l’espérance de vie est plus longue dans les centres que dans les campagnes. Une variable de type de com-mune en trois modalités (urbain, périurbain et rural) a ainsi été ajoutée à notre modèle. Enfin, comme nous avons démontré que la mortalité des migrants variait passablement selon l’origine, la nationalité (en 11 catégories) a été ajoutée comme variable indépendante.
Le tableau 2.2 montre les résultats de la régression pour les hommes et le 2.3 pour les femmes. Il est possible de tester la qualité de la modélisation par la déviance, en quelque sorte la distance entre un modèle saturé (avec autant de paramètres que d’observations) et le modèle choisi, qui suit une loi du Chi-2 à n−p+ 1, le nombre d’observations moins le nombre de paramètres plus un, degrés de libertés. En outre, la part de déviance expliquée par notre modèle par rapport à un modèle avec une constante uniquement s’élève à 98.5% pour les hommes et à 99% pour les femmes.
Concernant les variables explicatives, nous pouvons tout d’abord relever le fort impact des variables d’âge dans l’explication de la mortalité tant pour les femmes que pour les hommes. Ensuite, la plupart des variables considérées montrent des différences significa-tives entre les groupes et dans le sens attendu.
Des divergences entre femmes et hommes apparaissent toutefois. Les variables de types de commune ne sont pas significatives dans le modèle féminin. Le lieu de résidence n’in-fluence donc pas leur mortalité alors que pour les hommes, les communes périurbaines puis les communes rurales sont signification d’une moindre mortalité. Au niveau des variables de nationalité, tous les groupes régionaux, à l’exception de l’Europe de l’Est ainsi que l’Afrique subsaharienne mais seulement pour les femmes, ont de moindres probabilités de décès que les Suisses. Mais attention, même si la relation existe, la différence n’est pas toujours significativement différente avec le groupe de référence et la tendance varie selon le sexe. Ajoutons encore que les mariées et mariés vivent plus longtemps que les céliba-taires et qu’un plus haut niveau d’éducation a un effet protecteur. Remarquons aussi que les individus qui n’ont pas déclaré leur niveau d’éducation ont des probabilités de décès supérieures à une formation primaire.

Analyse spatiale

Le but du travail était d’étudier les différences de mortalité au niveau spatial. Pour mesu-rer le différentiel géographique, nous calculons simplement le rapport entre décès attendus – selon le modèle de mortalité précédemment construit – et décès observés. Cette mesure, très utilisée en épidémiologie, est le taux de mortalité standardisé (SMR)6 qui a l’avantage d’être facilement interprétable et représentable.
Nous avons décidé de travailler à l’échelle communale en se basant sur les frontières des 2896 communes au jour du recensement 2000. Cela a évidemment imposé certaines contraintes car la géographie communale de la Suisse est en constante mutation avec des fusions et des changements de frontières principalement. En se référant à la liste historisée des communes de la Suisse de l’Office fédéral de la statistique, nous avons pu recoder les plus de 600 mutations du territoires7 qui ont eu lieu entre 1990 et 2000 afin d’avoir une même référence pour notre base de données.

Modélisation

A partir des modèles de régression que nous avons développés, nous pouvons prédire le nombre de décès pour chaque profil présent dans la population communale. Par exemple à Genève, commune urbaine, les hommes de 50 à 55 ans d’Europe de l’Ouest, de niveau d’éducation primaire, célibataires, exposés dans les années 1990 ont vécu 122.4 personnes-années. Avec de telles caractéristiques et selon le modèle présenté ci-dessus, on s’attend à 1.6 décès pour ce profil alors que 3 ont effectivement eu lieu. Pour chacune des 2896 communes, nous avons calculé les prévisions selon la durée d’exposition de tous les profils possibles8 dont nous avons ensuite fait la somme. Cette valeur correspond au nombre de décès attendus dans la commune, prévision qu’il faut mettre en relief avec le nombre de décès que la commune a réellement enregistré. Le rapport de décès observés sur décès attendus est le ratio standardisé de mortalité dont la carte 2.6 illustre le contour pour la Suisse. Un SMR de 100 montre une situation où il n’y a pas d’écart entre décès ob-servés et attendus, des valeurs inférieures attestent d’une sous-mortalité et supérieures d’une sur-mortalité. La sous- ou sur-mortalité spatiale doit être considérée comme une part d’hétérogénéité non expliquée par le modèle dont les différences peuvent être envi-ronnementales, biologiques mais aussi sociales.
Plusieurs problèmes apparaissent avec cette représentation. Les petites communes su-bissent une forte variabilité due aux faibles effectifs. En effet, 42.4% des communes ob-servent moins de 3 décès d’étrangers dont 627 n’en ont carrément aucun et ont par consé-quent un SMR de zéro. Les résultats pour les petits effectifs sont ainsi très peu fiables car si le modèle prédit 0.4 décès et qu’on en décompte 1, le SMR passe à 250, à 500 si on ob-serve deux décès. Des SMR aussi élevés devraient attester d’une surmortalité conséquente ; mais en fait la prévision n’est pas loin de la réalité et est simplement une conséquence des aléas de la mort. Nous ne pouvons pas nous baser sur ce résultat pour analyser la mortalité spatiale. Ajoutons aussi que pour les grandes communes, la variabilité des aléas de la mortalité se compense entre les profils pour atteindre une valeur assez stable et fiable.
Face à ce problème, les solutions développées par des statisticiens et couramment utili-sées par les épidémiologues sont des méthodes de modélisation bayesienne dont nous avons tenté d’approcher les subtilités en lisant beaucoup (Wakefield, 2007; Congdon, 2009; Law-son et al., 2003; Lawson, 2009).

Un peu de Bayesien

La statistique inférentielle bayesienne se distingue des méthodes fréquentistes et prend de l’importance dans les applications de statistiques modernes. Le bayesien se base sur une connaissance a priori des paramètres d’étude et utilise la vraisemblance des données en vue d’obtenir une distribution a posteriori du phénomène. Soit la vraisemblance de nos données yi, i = 1, …, m, L(y|θ) = f(yi|θ), i=1 avec θ un vecteur de paramètres et f() une fonction de densité.
Définissons également g(θ) la distribution a priori des paramètres θ. Cette distribution peut être définie par le chercheur et exprimer des connaissances a priori de la distribu-tion mais peut aussi être non informative c’est-à-dire sans postulat sur sa forme9. La distribution postérieure est le produit de la distribution a priori et de la vraisemblance : p(θ|y) = L(y|θ) • g(θ) où C est une constante afin que la somme des probabilités, donc l’aire de la distribution, soit égale à 1. Souvent, on définit la postérieure comme proportionnelle à la distribution a priori multipliée par la vraisemblance car la constante de normalisation peut être extrê-mement complexe à calculer. D’ailleurs les méthodes que nous allons utiliser permettent de l’éviter.
p(θ|y) ∝ L(y|θ) • g(θ)
Les modèles bayesiens hiérarchiques définissent encore des hyperpriors distributions qui ont des hyperparamètres dont la fonction est de définir les paramètres de la distribution a priori dont on ne connaît pas forcément la distribution.
On parle de conjugué lorsque la multiplication d’une distribution a priori avec la vraisem-blance donne une distribution postérieure connue – donc facile à calculer. Par exemple, une vraisemblance suivant une loi de Poisson avec une Gamma comme connaissance a priori donne une postérieure suivant également une loi de Gamma.
Pour estimer les distributions postérieures, la méthode la plus utilisées consiste en des si-mulations itératives des valeurs des paramètres dans des chaînes de Markov. Les Markov Chain Monte Carlo (MCMC) permettent d’estimer des distributions parfois très com-plexes à plusieurs niveaux hiérarchiques. Lorsque les chaînes convergent vers une distri-bution stationnaire, on estime qu’il s’agit de la distribution que l’on cherchait à caracté-riser10.
Convergence
La question de la convergence des MCMC est souvent délicate. Il est important de s’as-surer que plusieurs chaînes (avec des valeurs initiales différentes) convergent vers une même direction et décrivent une même distribution postérieure. Un critère de conver-gence consiste à pouvoir visualiser, pour chaque paramètre, le parcours des différentes chaînes s’entrecouper et s’entrecroiser autour d’une même valeur relativement stable. En-suite, il convient de vérifier que la chaîne simule aléatoirement les tirages à partir de la distribution. Cela revient à s’assurer que les tirages successifs de la chaîne demeurent faiblement auto-corrélés et qu’ils visitent largement la distribution postérieure.
Signalons aussi la statistique de Gelman-Rubin qui est en fait assez intuitive. Soit une estimation du modèle avec n itérations pour m paramètres avec W la variance dans la chaîne 1..

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie ?avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction 
1.1 Les inégalités de mortalité
1.2 Données
1.2.1 La base de données
1.3 Logiciels
1.4 Quelques chiffres
2 Inégalités spatiales de mortalité chez les migrants 
2.1 Modélisation de la mortalité
2.1.1 Des données au modèle
2.1.2 Limites du modèle de Poisson : Quasipoisson ou binomiale négative ?
2.1.3 Le modèle
2.2 Analyse spatiale
2.2.1 Modélisation
2.2.2 Un peu de Bayesien
2.2.3 Le lissage
2.2.4 Analyse des résultats
2.2.5 Différences entre étrangers et Suisses
3 Conclusion 
Appendices
A Tables de mortalité lissées
B Code R 45
B.1 Modèle Bayesian Poisson-Gamma estimé par maximum de vraisemblance
B.2 Modèle Bayesien hiérarchique Poisson-Gamma
B.3 Modèle Bayesien hiérarchique Log-Normal
B.4 Modèle Bayesien hiérarchique Log-Normale avec autocorrélation spatiale
Bibliographie

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *