Intervalle de confiance global
La méthode précédente donne pour chaque valeur de L un intervalle de confiance pour ? fixé, dit « local » (Goreaud, 2000 ; Duranton et Overman, 2005), même si le terme n’est pas le mieux choisi pour une fonction cumulative comme K ou L : si la valeur se trouve hors de l’intervalle de confiance, le risque qu’elle soit issue d’une distribution correspondant à l’hypothèse nulle est limité à ?. En supposant que les valeurs soient distribuées indépendamment, pour un seuil ? de 5% et une fonction calculée sur 100 pas, on attend 5 points hors de l’intervalle de confiance en restant dans le cadre de l’hypothèse nulle : si la courbe réellement observée sort de l’intervalle de confiance en un nombre réduit de points, il n’est donc pas possible de rejeter l’hypothèse nulle. En réalité, les valeurs de L sont très corrélées, ce qui limite fortement le risque de mauvaise interprétation, sans permettre de le quantifier. Ce problème est considéré comme critique par Duranton et Overman (2005), mais ignoré par toute la littérature qui n’utilise à notre connaissance que des intervalles de confiance locaux. Goreaud (2000, page 56) observe sur un exemple que près de 10% des courbes générées par simulation de l’hypothèse nulle sortent au moins une fois de intervalle de confiance local calculé à 1% à partir de leurs valeurs. Il conclut qu’étant donné la complexité de la construction d’un intervalle de confiance global, l’utilisation d’un intervalle local à 1% est suffisante. La définition d’un intervalle de confiance global nécessite de trouver deux courbes telles que le risque qu’une courbe L d’un semis de point respectant l’hypothèse nulle sorte de cet intervalle au moins une fois soit ?, ceci sans privilégier une distance ? particulière. Un choix assez naturel consiste à calculer des intervalles de confiance locaux à un seuil donné et à compter le nombre de courbes simulées sortant au moins une fois de ces limites pour connaître le risque global (comme Goreaud, 2000), mais en augmentant progressivement le seuil de risque local jusqu’à ce que le risque global atteigne le seuil choisi (Duranton et Overman, 2005 ; Marcon et Puech, 2010) :
• On génère un grand nombre ? de jeux de données aléatoires correspondant à l’hypothèse nulle à tester.
• On élimine pour chaque distance ? les ? valeurs extrêmes (les ?⁄2 plus grandes et les ?⁄2 plus petites) de ?�(?). On compte le nombre ? de courbes auxquelles ces valeurs appartiennent. On a ainsi défini un intervalle de confiance local au seuil ?⁄?, correspondant à un risque global ?⁄?.
• On augmente progressivement la valeur de ? (2, 4, …) jusqu’à ce que ?⁄? atteigne le seuil choisi. L’intervalle de confiance global au seuil ?⁄? est donc défini par l’intervalle local au seuil ?⁄?. Il peut être nécessaire d’interpoler les valeurs de deux intervalles locaux si deux valeurs successives de ?⁄? encadrent la valeur choisie pour le risque global sans l’égaler.
Choix de la correction de Besag
La correction des effets de bord par la méthode de Ripley, équation (9), présente l’inconvénient de ne pas être utilisable si une seule valeur de ??? est nulle, c’est-àdire si un cercle centré sur un des points se trouve entièrement hors de la zone d’étude. Pour une zone d’étude rectangulaire, le calcul de K est traditionnellement limité à la moitié de la largeur du rectangle (Diggle, 1983). Goreaud et Pélissier (1999) ont amélioré la méthode pour étendre la correction à la moitié de la longueur du rectangle. Nous utiliserons par la suite la méthode de Besag, équation (10), qui n’est pas limitée.
La fonction D de Diggle et Chetwynd
Diggle et Chetwynd (1991) introduisent une généralisation de la fonction K pour l’étude de processus ponctuels non homogènes (d’intensité variable dans le domaine d’étude). On considère un semis de points de deux types, le premier à étudier (appelés cas), le second utilisé comme référence (les contrôles). On peut calculer les deux fonctions K pour chacune des deux populations, ?? et ?0.
Les fonctions intertypes à marques discrètes
Les points peuvent être équipés de marques pour les reconnaître. Les marques discrètes permettent de définir des types de points (par exemple l’espèce des arbres) et les marques continues de noter une mesure (par exemple le diamètre des arbres). La fonction L a été rapidement utilisée (Diggle, 1983) pour évaluer la structure spatiale de semis de points de différentes marques. On s’appuie sur le même raisonnement, consistant à compter le nombre de voisins de chaque point, mais on s’intéresse maintenant aux voisins du type 2 autour des points du type 1.
Définition de l’entropie
Considérons une expérience dont les résultats possibles sont {?1, ?2, … , ??}. La probabilité d’obtenir ?? est ??, et ? = {?1; ?2; … ; ??}. Les probabilités sont connues a priori. Tout ce qui suit est vrai aussi pour des valeurs de ? continues, dont on connaîtrait la densité de probabilité. On considère maintenant un échantillon de valeurs de ?. La présence de ?? dans l’échantillon est peu étonnante si ?? est grande : elle apporte peu d’information supplémentaire par rapport à la simple connaissance des probabilités. En revanche, si ?? est petite, la présence de ?? apporte beaucoup d’information. On définit donc une fonction d’information, ?(??), décroissante quand la probabilité augmente, de ?(0) = +∞ (ou éventuellement une valeur strictement positive finie) à ?(1) = 0. Chaque valeur observée dans l’échantillon apporte une certaine quantité d’information, dont la somme est l’information de l’échantillon. La quantité d’information attendue de l’expérience est ∑ ???(??) = ?(?) ? ?=1 . Si on choisit ?(??) = −??(??), ?(?) est l’indice de Shannon, mais bien d’autres formes de ?(??) sont possibles. ?(?) est appelée entropie. C’est une mesure de l’incertitude (de la volatilité) du résultat de l’expérience. Si le résultat est certain, l’entropie est nulle. L’entropie est maximale quand les résultats sont équiprobables.
Obtenir des informations sur les processus écologiques
Watt (1947) a été apparemment le premier à mettre en rapport clairement les processus écologiques et les structures spatiales observées en décrivant des successions de stades caractéristiques de communautés, responsables de structures caractéristiques observables. Parcourir le chemin inverse, en partant des structures pour en déduire les processus, est tentant mais risqué. Pielou (1962) utilise la méthode de détection des structures spatiales développée dans un article précédent (Pielou, 1959) pour détecter la compétition à courte distance entre les arbres, entraînant une certaine régularité de la distribution spatiale. Cette approche a été largement reprise depuis : un semis de points est analysé par des méthodes non paramétriques en général pour détecter un processus écologique attendu : la compétition éloigne les plantes et donne des distributions plus régulières, la limitation de la dispersion crée des distribution agrégées,la concurrence ou la facilitation interspécifique est détectée par des attractions ou des répulsions intertypes (Szwagrzyk, 1990 ; Duncan, 1991 ; Szwagrzyk et Czerwczak, 1993 ; Wei et Skarpe, 1995 ; Haase et al., 1996 ; Kuuluvainen et al., 1996 ; Haase et al., 1997 ; Martens et al., 1997 ; Wiegand et al., 1998 ; Nanami et al., 1999 ; McDonald et al., 2003 ; Wang et al., 2003). Aldrich et al. (2003) disposent de 60 années de recul qui leur permettent de mettre en évidence l’évolution au cours du temps de la structure spatiale d’une forêt vieillissante. La structure spatiale de la mortalité est souvent étudiée pour en comprendre les causes (Sterner et al., 1986 ; Kenkel, 1988 ; Rebertus et al., 1989 ; Fulé et Covington, 1998 ; Cole et Syms, 1999 qui recherchent la cause de la mortalité d’algues ; He et Duncan, 2000) : le rejet de l’hypothèse nulle d’étiquetage aléatoire montre qu’un processus non totalement aléatoire entre en jeu (Goreaud et Pélissier, 2003).
|
Table des matières
Introduction
Notations
Statistiques spatiales continues, processus ponctuels
Entropie
Caractérisation de la structure spatiale des processus ponctuels
La fonction K de Ripley
Intervalle de confiance asymptotique de la fonction K de Ripley
Analyse et perfectionnement de la fonction K de Ripley
Généralisation de la fonction de Ripley aux processus hétérogènes
Les fonctions intertypes
Unification des outils de caractérisation des processus ponctuels
Statistique spatiale discrète – Entropie
Les indices de diversité en écologie
Les indices d‟inégalité en économie
Théorie de l‟information
Unification
Décomposition
Test d‟une hypothèse nulle
Application : Décomposition de l‟indice de Shannon
Conclusion
Caractériser
Obtenir des informations sur les processus écologiques
Inférer
Modéliser
Bilan et Perspectives
Bibliographie
Table des figures
Annexe 1 : Processus ponctuels
Définitions
Définition locale
Processus utilisés
Simulation
Annexe 2 : Méthodes alternatives en statistiques spatiales continues
Les variantes de K
Autres Méthodes
Les fonctions intertypes à marques continues
Annexe 3 : Méthodes alternatives en statistiques spatiales discrètes
Outils de détection de la concentration spatiale
Les méthodes mesurant l‟autocorrélation spatiale
Annexe 4 : Code informatique
Ktest
Indice de Shannon
Annexe 5 : Publications
The Decomposition of Shannon‟s Entropy and a Test for Beta Diversity
Introduction
Methods
Results
Discussion
Conclusion
A global test for Ripley‟s K function Poisson null hypothesis rejection
Introduction
Materials and Methods
Results
Discussion
Conclusion
Testing randomness of spatial point patterns with the Ripley statistic
Measures of the Geographic Concentration of Industries: Improving Distance-Based
Methods
Generalizing Ripley’s K function to inhomogeneous populations
Télécharger le rapport complet