L’analyse factorielle des correspondances (AFC)

Les coefficients de corrélation des rangs

Les coefficients de corrélation des rangs sont des statistiques utilisées pour mesurer l’association entre deux quantités. Il s‟agit d‟une mesure de corrélation de rangs : on étudie la similitude des classements des données (et non les observations en elles-mêmes).
Contrairement aux indices précédemment cités, qui varient entre 0 et 1, les coefficients de corrélation des rangs de Spearman (1904) et Kendall (1938), qui ne sont en fait qu‟une version non paramétrique du coefficient de corrélation de Pearson, varient entre -1 (les deux classements sont inversés l’un par rapport à l’autre) et 1 (les classements sont identiques), en passant par 0 (les classements sont indépendants).

Le coefficient de corrélation ρ de Spearman

Le coefficient de corrélation des rangs de Spearman ou rho de Spearman, nommé d’après Charles Spearman (1863 Ŕ 1945), psychologue anglais connu pour son travail en statistique (analyse factorielle (1904) et corrélation), est une mesure non-paramétrique de la dépendance statistique entre deux variables. Il évalue dans quelle mesure la relation entre deux variables peut être décrite en utilisant une fonction monotone.

L’analyse factorielle des correspondances (AFC)

Généralités

L’analyse factorielle des correspondances (AFC ou CA pour « correspondence analysis » en anglais), mise au point par Jean-Paul Benzecri durant la période 1970 Ŕ 1990 (alors que l a première formalisation mathématique de l’AFC date de 1935 et est dûe à Hirschfeld), est une méthode d’ordination particulière spécifiquement adaptée aux tableaux de contingence.
Comme son nom l’indique, l’objectif est de mettre en correspondance les lignes avec les colonnes d’un tableau de fréquence. Cette analyse est très souvent employée pour résumer la structure d’un jeu de données de distribution d’espèces et mettre en relation les conditions écologiques des stations avec les espèces qui en sont caractéristiques.
L’analyse repose sur une pondération de chaque cellule du tableau par les totaux marginaux de la ligne d’une part et, par les totaux marginaux de la colonne correspondante d’autre part. C’estsur ces deux matrices pondérées que l’analyse recherche ensuite les axes principaux en veillant à conserver les distances euclidiennes entre les lignes d’une part et les colonnes d’autre part. Cette manière de procéder met rapidement en lumière les espèces qui ont le plus de relations avec des stations ou des groupes de stations. On peut visualiser facilement les relations entre les lignes et les colonnes en calculant pour chaque colonne le produit des probabilités conditionnelles calculées pour les lignes et pour les colonnes. (Carpentier, 2005 ; Périnel, 2009 ; Ramousse, Le Berre & Le Guelte, 1996).
L’AFC est particulièrement adaptée à l’étude de gradients écologiques car elle tend à produire des axes principaux qui expliquent au mieux les amplitudes écologiques des espèces en opposant le plus possible les optimums. (Chessel, Dufour, Dray, 2009 ; Dufrêne, 2003). Soient deux variables X et Y, comportant respectivement p et q modalités. On a observé les valeurs de ces variables sur une population et on dispose d’un tableau de contingence K à I lignes et J colonnes donnant les effectifs conjoints c’est -à-dire les effectifs observés pour chaque combinaison d’une modalité i de X et d’une modalité j de Y.

AFC inter et intra classes

Soit N un tableau à r lignes (stations) et c colonnes (espèces) de terme général ij n (nous devons donc utiliser la transposée de notre tableau initial). L‟analyse factorielle des correspondances ordinaire de N donne un triplet ( , , ) FGD où F est le tableau des coordonnées factorielles des lignes, G celui des coordonnées factorielles des colonnes, et D la matrice diagonale des valeurs propres. Les stations, au nombre de r, sont rangées en b blocs (sites) comptant respectivement 1 ,…, b rr relevés. Pour 1 i r, on note b(i) le bloc auquel appartient le relevé i ; l‟assertion b(i) = k signifie que le relevé i est placé dans le bloc k ( 1 k b ). (Chessel et Dolédec, 1989 ; Cazes, 2004 ; Lobry, 2009)

Classification ascendante hiérarchique (CAH)

La classification ascendante hiérarchique (CAH) consiste à agréger de proche en proche des individus entre eux, puis des classes d‟individus entre elles, jusqu‟à obtenir une classe englobant l‟ensemble des individus (par agglomération). Cette classification a pour intérêt de tenir compte des proximités établies sur plusieurs axes factoriels et de fournir une description synthétique des classes, notamment à l‟aide de dendrogrammes. En pratique, l‟analyse factorielle et la classification ascendante hiérarchique se complètent. (Legendre & Legendre, 1998 ; Chessel, Dufour et Lobry, 2006 ; Labatte, 2008).

Le bootstrap (non paramétrique)

Généralités

Les techniques de bootstrap, introduites par Efron en 1979, sont des méthodes d‟inférence statistique modernes, datant de la fin des années 70, et requérant des calculs informatiques intensifs. L’objectif est de connaître certaines indica tions sur une statistique : son estimation bien sûr, mais aussi la dispersion (variance ou écart type) dans le but d‟établir des intervalles de confiance. Cette méthode est basée sur des simulations, comme les simulations de Monte-Carlo, à la différence près que le bootstrap ne nécessite pas d’information supplémentaire que celle disponible dans l’échantillon. En général, il est basé sur de « nouveaux échantillons » obtenus par tirage avec remise à partir de l’échantillon initial (on parle alors de technique de rééchantillonnage ou resampling technic en anglais). (Hinkley, 1988 ; Johns, 1988 ; Efron & Tibshirani, 1993 ; Davison & Hinkley, 1997) L’aspect autocentré et itératif de la méthode a inspiré sa désignation anglaise : en effet, le bootstrap désigne le fait de « se hisser en tirant sur ses propres lacets » ou plus précisément sur ses « bootstraps », qui désignent en anglais les anneaux de cuir ou tissu cousus au rebord des bottes pour y passer les doigts afin de les enfiler plus facilement .

Contextes d’application

Banque de diaspores et végétation

Nous disposons de deux tableaux de contingence, un premier qui contient une estimation de la banque de diaspores par station (annexe I.1), et un second qui contient une estimation du recouvrement de la végétation (annexe I.2) sur chaque station à différentes dates.

Banque de diaspores

Définition

« Toutes les graines viables présentes sur ou dans le sol ou associées à la litière constituent la banque de graines du sol » (Simpson et al. 1989). Elle se forme par accumulation dans ou sur le sol de graines qui restent viables, le plus souvent en état de dormance (certains auteurs Ŕ Cavers, 1995 Ŕ incluent également dans la banque de graines les graines encore attachées à la plante mère). La banque de graines constitue un véritable compartiment de la végétation. Par extension, la banque de diaspores représente la banque qui contient les graines et les autres types de diaspores (rhizomes, bourgeons…) (Combroux, 2002).
Dans la suite de ce rapport, nous utiliserons indifféremment les termes de banque de diaspores ou banque de graines pour désigner le même compartiment.

Protocole de mesure de la banque de graines

Les diaspores dans la banque ont été quantifiés par la méthode de la « levée des plantules » (Thompson et Grime, 1979 ; Combroux et al., 2002). Cinq stations (uniformément réparties) ont été échantillonnées sur chaque site. L’échantillonnage a été effectué après la stratification hivernale et avant la germination printanière. Dix carottes de sédiments (de 4 cm de diamètre) ont été recueillies sur chaque station. Seule les couches supérieures (de 5 cm) ont été utilisées, car cette profondeur est généralement considérée comme la profondeur maximale en dessous de laquelle la germination ne peut avoir lieu (Bonis et Lepart, 1994).
Les dix carottes ont été soigneusement mélangées et divisées en deux sous-échantillons, vu que deux types de germination ont été effectués :
– par inondation : des échantillons de sédiments ont été inondés en permanence dans moins de 10 cm d’eau,
– par exposition : des échantillons de sédiment ont été maintenus au point de saturation en eau.
L‟émergence des semis a été suivi dans une serre (photopériode naturelle ; température de l’air maintenue au-dessus de 15 ° C). Les échantillons ont été répartis dans des bacs en plastique (épaisseur des sédiments inférieure à 2 cm). La couche d’enracinement a été augmentée par la diffusion de 2 cm de sable stérile. Un brassage d’air maintient une forte teneur en oxygène (90 à 100%) et des mouvements d’eau lents. L‟émergence des semis a été suivie d’avril 2007 à Juin 2008. Les semis ont été régulièrement identifiés, attribués à un type de diaspore (graine ou oospore, bourgeon d’hiver, rhizome, fragment non spécialisé), et retirés des bacs pour éviter la concurrence et l‟allélopathie (ensemble de plusieurs interactions biochimiques, directes ou indirectes, positives ou négatives, d‟une plante sur une autre). Pour chaque station, la valeur maximale des deux traitements a été utilisée pour estimer l’abondance d e chaque espèce et de chaque type de propagule dans la banque.
L‟échantillonnage de base et la méthode d‟émergence ne permettent habituellement pas de détecter les propagules qui sont profondément enfouies dans le sol (rhizomes principalement).
En conséquence, l’abondance des rhizomes dans la banque de propagules a ét é estimée à miprintemps (mai 2007) en comptant les pousses de germination à partir de méristèmes des rhizomes dans trois quadrats (30 cm x 30 cm) sur chaque station. Quand une espèce de rhizome a été détectée, soit par la méthode d‟émergence, soit par l‟é chantillonnage par quadrats, l‟estimation de l’abondance des rhizomes la plus importante a été utilisé (Combroux et al., 2001).

La végétation

La végétation aquatique a été étudiée au cours des printemps, étés et automnes 2007 et 2008 en utilisant le pourcentage de couverture, estimé à l‟œil nu pour chaque espèce rencontrée.

L’amélioration de l’état du Rhin et sa restauration

Le Programme Action Rhin (PAR, 1987-2000) et le programme Rhin 2020

Après la seconde Guerre Mondiale, les Pays-Bas ont eu beaucoup de difficultés à assurer la potabilité de leur eau à cause de la pollution importante des eaux du Rhin par des phénols rejetés par les industries pétrolières et du sel en provenance des mines d e potasse d‟Alsace.
Les Pays-Bas ont alors pris l‟initiative de créer, avec la collaboration de la France, de l‟Allemagne, du Luxembourg et de la Suisse, une Commission Internationale Pour le Rhin (CIPR). Cette commission fut instituée à Bâle le 11 juillet 1950 avec pour but le traitement en commun des problèmes de protection des eaux du Rhin. Durant les trois décennies suivantes la CIPR permit la signature de plusieurs accords, protocoles et/ou conventions dans le but de protéger le Rhin de divers polluants comme les chlorures. Mais le choc de l‟incendie du dépôt Sandoz (firme pharmaceutique suisse) à Bâle le 1er novembre 1986, et surtout la pollution des eaux du Rhin par des dérivés organiques de mercures et des esters phosphoriques, ainsi que l‟hécatombe piscicole qui suivit, provoquèrent une remise en question générale. Les gouvernements des pays riverains du Rhin chargèrent alors la CIPR de mettre en place un plan de « sauvetage » du Rhin. Et c‟est ainsi que le Programme d’Action Rhin (PAR) vit le jour en 1987.L‟objectif principal du PAR était l’assainissement progressif du Rhin pour l‟an 2000 au travers de la réimplantation dans le Rhin d‟espèces piscicoles disparues tel le saumon, de la potabilité de l‟eau du Rhin et d‟une pollution minimale des sédiments fluviaux.
Le bilan établi après la fin du PAR est positif et a mis en avant sa réussite globa le, avec une amélioration de la qualité des eaux du Rhin, une baisse du nombre d’accidents industriels et un regain de « vitalité » dans le Rhin. Ce bilan a aussi été l’occasion de démontrer la nécessité d’un nouveau programme dans la continuité du PAR. La CIPR a ainsi lancé dès l’an 2000 un nouveau programme nommé Rhin 2020 qui se concentre en priorité sur l’écologie, la protection de la nature, la prévention des crues et la protection des eaux souterraines, sans toutefois oublier la surveillance et l’amélio ration de la qualité de l’eau (CIPR, 2003).

Un enjeu européen

Le programme Life-Nature Rhin Vivant et le site Natura 2000 Rhin-Ried-Bruche

La Région Alsace et ses partenaires, tel le Conservatoire des Sites Alsaciens (CSA), ont ainsiprofité de l‟existence du programme Life-Nature pour créer le programme Life-Nature Rhin Vivant, dans le but d‟assurer la pérennité du site Natura 2000 « Rhin-Ried-Bruche », qui, avec une surface de 34 434 ha (il s’étend sur les zones de la bande rhénane, du Ried Centre Alsace et du Bruch de l’Andlau), est le plus grand site Natura 2000 d’Alsace. Sa grande taille a malheureusement pour conséquence de multiplier les menaces à contrer dans le but de maintenir son intégrité. Les pressions anthropiques agricoles, industrielles et urbaines sont des menaces non négligeables pour les habitats du site, mais le principal problème reste l‟alimentation insuffisante en eau du Rhin des habitats alluviaux, les mettant en danger eux et leur fonctionnalité (CSA, 2005a).

La réponse par la réalisation du programme

Les données

Le programme, écrit en langage R, prend en entrée deux tableaux Excel : un premier tableau contenant la base de données « banque de graines » (annexe I.1), et un deuxième contenant la base de données « végétation » (annexe I.2). Ces deux tableaux sont constitués de 72 lignes, les individus (en fait les espèces de végétaux étudié es) et de 32 colonnes pour le premier (une colonne « type de végétaux », à savoir terrestre, hydrophyte ou hélophyte Ŕ c’est-à-dire que les racines sont sous l‟eau, mais les tiges, fleurs et feuilles sont aériennes – , une colonne « diaspore », à savoir graine, bourgeon dormant, rhizome, fragment ou bulbe, et de 30 colonnes pour les stations Ŕ 6 sites composés de 5 stations chacun). Le deuxième tableau quant à lui comporte 92 colonnes (les deux premières identiques à celles de la banque de graines, puis 90 colonnes contenant 3 saisons Ŕ printemps, été et automne Ŕ pour les 30 stations).

L’AFC et la CAH

Les banques de graines des six sites et des trente stations, ainsi que les végétations des différentes stations, sont comparées grâce à une analyse factorielle des correspondances et une classification ascendante hiérarchique. Celles-ci nous informent sur les similarités des différents sites et stations en terme de banque de graines et de végétation.

Les indices

Deux indices de similarité ont été retenus : un indice binaire (de présence / absence), l‟indice de Jaccard, et un indice quantitatif, l‟indice de Ruzicka. Ces indices ont été choisis car ils fournissent des intervalles de confiance moins larges que les autres indices étudiés, ce qui n‟est pas négligeable vu que les indices varient entre 0 et 1.

Le bootstrap

Des intervalles de confiance bootstrap (optimisés) ont été calculés autour des indices qui comparent la similarité entre banque de graines des différentes stations et végétation (sur la même station ou sur d‟autres stations du même site).

La classification ascendante hiérarchique

Classification ascendante hiérarchique de la banque des stations

Les données de la banque de graines étudiées étant des proportions de densités, la distance utilisée ici est la distance du Chi2 et l‟indice d‟agrégation l‟indice de Ward, qui consiste à regrouper les classes pour lesquelles la perte d’inertie est la plus faible.

Les indices et intervalles de confiance bootstrap associés

Des indices de similitude de Jaccard (et de Ruzicka) et des intervalles de confiance bootstrap autour de ces indices ont été calculés et tracés (figure 11) dans le but de comparer banque de graines et végétation correspondante.
Chaque cadre correspond à un site pour une saison (printemps pour la première ligne, été pour la deuxième, automne pour la troisième et enfin, la moyenne des trois saisons dans la dernière ligne) : la banque de graines des 5 stations de chaque site est donc comparée à la végétation correspondante pour chaque saison. La croix rouge (+) désigne l‟indice (ici de Jaccard) qui compare banque de graines et végétation, et la bande noire ( I ) correspond à l‟intervalle de confiance bootstrap associé. Lorsque l‟indice est nul, l‟intervalle de confiance bootstrap est lui aussi nul, et seul l‟indice est alors tracé sur le graphe (par exemple les 5 stations du site Rossmoerder au printemps). Les graphes vierges correspondent aux données manquantes (pour les sites du Schollengiessen et du Fahrgiessen en été).
Les graphes se lisent de la manière suivante : par exemple, le premier cadre représente le site Eiswasser amont (EISM) au printemps. Le premier indice et son intervalle de confiance bootstrap associé dans ce cadre représente la comparaison entre la banque de graines de la station EISM1 avec la végétation de la même station (EISM1) au printemps ; le deuxième représente la comparaison entre la banque de graines de la station EISM2 avec la végétation de la même station (EISM2) au printemps, et ainsi de suite.
Les sites du Schafteu (SCHA) et du Schollengiessen (SCHOL) sont les sites de référence, c’est-à-dire qui n‟ont pas été déconnectés du Rhin ; ceux de l‟Eiswasser (EISM et EISV) sont ceux qui ont été les premiers reconnectés (en 2002), c‟est pourquoi ils présentent une légère similarité entre banque de graines et végétation, et enfin, les sites du Rossmoerder (ROSS) et du Fahrgiessen (FAHR) ont été les derniers à être reconnectés, respectivement en 2004 et 2006, ce qui explique en grande partie pourquoi ces deux derniers ne présentent quasi-aucune similarité entre banque de graines et végétation. Excepté sur les sites de l‟Eiswasser aval (EISV), qui ne se situe pas sur l‟embouchure du Rhin, et du Schollengiessen (SCHOL), l‟indice comparant banque de graines et végétation sur le premier transect est toujours nul. Ceci peut être en partie expliqué par le fort courant en amont, à l‟endroit où l‟eau entre sur le site, qui peut alors déplacer les graines vers les transects suivants, d‟où l‟étude de la comparaison entre banque de graines et végétation moyenne de chaque station sur le même site qui suit.

Conclusions

L‟objectif de ce stage était d‟établir une liaison entre banque de diaspores et végétation, par le calcul d‟indices de similarité et d‟intervalles de confiance. Que ce soient les analyses factorielles des correspondances, les classifications ascendantes hiérarchiques ou les calculs d‟indices de similarité et d‟intervalles de confiance bootstrap, toutes les techniques statistiques utilisées lors de ce stage nous ont mené à la même conclusion : conformément à ce à quoi nous nous attendions, les sites récemment restaurés sont plus différents des sites de référence que les sites restaurés il y a plus longtemps.
Bien entendu, le pourcentage de végétation présente sur chaque site étant évalué à l‟œil nu, les résultats restent approximatifs.
Le programme sera régulièrement utilisé pour suivre l‟évolution des différents sites restaurés, jusqu‟à ce que l‟état de ces sites soit similaire à celui des sites de référence. C‟est à ce moment seulement que tout le travail entrepris ces dernières années pour restaurer ces sites portera enfin ses fruits.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
Remerciements 
1. Introduction 
1.1. L’organisme d’accueil : le LHyGeS
1.2. Objectifs du stage
1.3. Préambule
2. Revue mathématique 
2.1. Les indices de similarité
2.1.1. Indices de similarité binaires asymétriques
2.1.2. Indices de similarité quantitatifs
2.1.3. Les coefficients de corrélation des rangs
2.2. L’analyse factorielle des correspondances (AFC)
2.2.1. Généralités
2.2.2. Analyse des profils lignes et colonnes
2.2.3. Distance du χ²
2.2.4. Valeurs propres et inertie
2.2.5. Contributions et distances
2.2.6. AFC inter et intra classes
2.3. Classification ascendante hiérarchique (CAH)
2.3.1. Indice de distance
2.3.2. Indice d’agrégation
2.3.3. Dendrogrammes
2.3.4. Qualité de partition
2.4. Le bootstrap (non paramétrique)
2.4.1. Généralités
2.4.2. Principe théorique du bootstrap
2.4.3. Intervalles de confiance
2.4.4. Optimisation du bootstrap
3. Contextes d’application 
3.1. Banque de diaspores et végétation
3.1.1. Banque de diaspores
3.1.2. La végétation
3.2. Anciens bras morts reconnectés au Rhin
3.2.1. Contexte historique
3.2.2. Les sites
3.3. Bassin d’orage du Waldweg à Rouffach
3.3.1. Schéma et photographie du site du bassin d’orage
3.3.2. Généralités et description du bassin d’orage
3.4. Quelques exemples d’espèces
4. La réponse par la réalisation du programme
4.1. Les données
4.2. L’AFC et la CAH
4.3. Les indices
4.4. Le bootstrap
5. Discussions 
5.1. L’analyse factorielle des correspondances
5.1.1. Les valeurs propres
5.1.2. Distances aux carrés des individus aux axes
5.1.3. Contribution des axes aux individus
5.1.4. Premier plan factoriel
5.1.5. AFC inter-stations
5.1.6. AFC intra-stations et intra-dates
5.2. La classification ascendante hiérarchique
5.2.1. Classification ascendante hiérarchique de la banque des stations
5.2.2. Classification ascendante hiérarchique de la banque des sites
5.2.3. Classification ascendante hiérarchique de la végétation des stations
5.3. Les indices et intervalles de confiance bootstrap associés
6. Adaptation du programme
7. Conclusions 
7.1. Conclusions
7.2. Conclusions personnelles
ANNEXES
I. Les données des bras reconnectés au Rhin
I.1. La banque de graines
I.2. La végétation
II. Les analyses factorielles des correspondances
II.1. Premier plan factoriel de l’AFC de la banque de graines par stations
II.2. Deuxième plan factoriel de l’AFC de la banque de graines par stations
III. Indices de Ruzicka et intervalles de confiance boostrap
IV. Bassin d’orage
IV.1. Banque de graines
IV.2. Végétation
IV.3. AFC de la banque de graines du bassin d’orage
IV.4. Classification ascendante hiérarchique
IV.4. Indices et intervalles de confiance bootstrap
V. Le script du programme
Mode d’emploi du programme 
Liste des figures et tableaux 
Bibliographie

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *