Calcul de l’estimation par maximum de vraisemblance pour la loi de weibull

Introduction

Présentation du laboratoire

J’ai réalisé mon stage du 01 Juin 2012 au 31 Juillet 2012, au Département d’Ecologie, Physiologie et éthologie (DEPE) dirigé par Mme Odile Petit et qui est un des trois départements de l’Institut Pluridisciplinaire Hubert Curien (IPHC).
Ce département possède trois axes de recherche :
– Le premier étudie comment l’animal répond aux changements environnementaux (variations climatiques et/ou abondance des ressources alimentaires) ou anticipe ces changements.
– Le deuxième caractérise les mécanismes adaptatifs, comportementaux ou physiologiques, avec leurs éventuelles implications biomédicales ou biotechnologiques.
– Le troisième utilise les animaux comme indicateurs des conséquences des changements climatiques sur les ressources alimentaires

Données et présentation du sujet

La collecte des données a eu lieu en Juillet 2011, à Coats Island, Nunavut (CANADA), par l’équipe de Yan Ropert Coudert à l’IPHC, sur quatorze guillemots de Brünnich (Uria lomvia).
Le guillemot est un oiseau marin plongeur de la famille des alcidés (figure 1). Comme la plupart des oiseaux marins le guillemot est un fourrageur à place centrale (« central place forager » en Anglais) qui niche sur des falaises pendant le court été boréal, ce qui impose une contrainte temporelle sur la réalisation de la reproduction. Les parents réalisent des trajets en mer soit pour se nourrir lors de la phase d’incubation de l’œuf, soit pour approvisionner le poussin lorsque l’œuf a éclot. Durant les trajets en mer, ils alternent des phases de vol battu etde vol plané pour se rendre sur les zones riches en proies (diverses espèces de poissons), avec des phases de plongées plus ou moins profondes durant lesquelles ils poursuivent leurs proies sous l’eau. La collecte des données s’est faite grâce à des bio-loggers.
Un bio-logger est un dispositif qui se fixe sur l’animal et qui permet d’enregistrer les données biologiques d’un être vivant, telles que les déplacements, la vitesse d’accélération, et bien d’autres paramètres biologiques (Ropert-Coudert & Wilson 2005). Le guillemot peut être équipé soit d’un GPS uniquement, soit d’un GPS en combinaison avec d’autres instruments de mesures, comme par exemple un enregistreur de la température et de la pression hydrostatique pour les oiseaux plongeurs.
Dans notre étude, je me suis intéressé aux données obtenues par les GPS, notamment la distance parcourue par les guillemots, distance qui était enregistrée toute les deux minutes. Le calcul de la distance s’est fait par l’intermédiaire de la latitude et la longitude relevé par le GPS. De plus, je distinguerai deux types de données, les données brutes, issues du calcul direct de la distance et des données arrondies, données issues des données brutes dont nous avons pris l’arrondi à l’entier le plus proche.
Plusieurs articles ont été écrits quant à l’étude des mouvements de fourragements chez les animaux (e.g. Bartumeus et al. 2012, Marell et al. 2002, Reynolds 2012, Sueur et al. 2011, Sueur 2011) afin de mieux comprendre leurs déplacements dans leurs écosystèmes. En effet, dans ces articles, ils étudient la loi de distribution qui décrit le mieux les déplacements et en déduisent si le mouvement est de type brownien ou Lévy. Le mouvement brownien correspond à une recherche aléatoire tandis que le vol de Lévy correspond à une recherche dirigée et optimale de l’animal. Si les données suivent une loi exponentielle alors le mouvement est brownien, en revanche, si elles suivent une loi de type puissance alors le mouvement correspond à un vol de Lévy. En effet, le vol de Lévy produit des trajectoires avec de plusieurs petits déplacements et temporairement des déplacements longs, tandis que le vol brownien produit des déplacements constants.
C’est pour cela que, nous étudierons les déplacements des guillemots dans un premier temps, nous allons estimer par maximum de vraisemblance les paramètres d’une loi de Weibull et le paramètre d’une loi exponentielle, puis, nous testerons si ces données correspondent à une loi de Weibull car elle possède une queue de distribution plus longue que la loi de type puissance, mais nous testerons également si ces données correspondent à une loi exponentielle car elle représente une loi particulière de la loi de Weibull (β = 1) et possède une queue de distribution plus petite.

Loi de type puissance

Ce type de loi est utilisé par Bartumeus et al. (2012), Marell et al. (2002), Sueur et al. (2011), et Sueur, (2011), mais j’ai trouvé très peu de bibliographie en mathématiques évoquant ce type de loi, peut être veulent ils parler de loi de type puissance, comme on parle de lois appartenant à la famille exponentielle.

Estimation par maximum de vraisemblance

Modèles statistiques

L’introduction de modèles statistiques est un moyen de prendre en compte l’information à priori. On va supposer que la loi inconnue PX appartient à un ensemble de lois déterminées à l’avance, celles présentées ci-dessus.

QQ-Plot

Un diagramme quantile-quantile, « Q-Q plot », permet une évaluation graphique de la concordance entre une distribution observée et un modèle théorique. On s’intéresse toujours à la loi exponentielle et à la loi de Weibull, les résultats qui suivent montrent les diagrammes quantile-quantile pour seulement le premier guillemot, les autres tracés ont été effectués mais ne sont pas mis dans le rapport car il y aurait beaucoup de tracés.

Résultats

Calcul de l’estimation par maximum de vraisemblance pour la loi de weibull

Il n’existe pas d’expression analytique pour trouver et , comme pour le calcul fait cidessus pour l’estimateur du maximum de vraisemblance pour une loi exponentielle.
C’est pour cela, que nous allons utiliser des fonctions du logiciel R, afin d’en approximer les solutions.
Nous allons utiliser les fonctions suivantes :
-fitdistr() qui est incluse dans le package MASS
-mle() qui est incluse dans le package stats4

DISCUSSION

Le guillemot est une espèce d’oiseaux marins et l’étude des types de mouvements de fourragements nous permet de mieux comprendre son écosystème. Le mouvement brownien correspond à un mouvement de recherche aléatoire, tandis que, le vol de Lévy correspond à une recherche optimale de l’animal. La loi de Weibull est un intermédiaire entre la loi exponentielle et la loi de type puissance : le mouvement reste aléatoire tout en ayant des pas plus longs que pour la loi exponentielle. C’est pour cela que, nous avons analysé les déplacements du guillemot entre son lieu de colonie et son lieu d’alimentation, afin d’étudier à quels types de lois semblait correspondre ces déplacements. Je me suis intéressé à principalement trois lois : loi de Weibull, loi exponentielle et loi de type puissance.
L’estimation statistique peut se faire par différentes méthodes :
– la méthode des moments,
– la méthode par maximum de vraisemblance,
– la méthode par intervalle de confiance.
Je me suis intéressé à la méthode par maximum de vraisemblance, afin d’estimer les paramètres d’une loi de Weibull et exponentielle car comme vu en cours, l’estimateur des moments pour une loi exponentielle est le même que l’estimateur de maximum de vraisemblance. Tandis que pour la loi de Weibull, elle admet des moments difficiles à calculer, je devrais, avec la méthode des moments, recourir à une estimation approchéecomme pour l’estimation par maximum de vraisemblance.
Pour la loi exponentielle, l’estimateur par maximum de vraisemblance d’une telle loi est assez simple car il représente l’inverse de la moyenne empirique.
Or, pour estimer par maximum de vraisemblance les paramètres d’une loi de Weibull, il n’existe pas d’expression analytique de leurs estimations, mais on a estimé les paramètres de manière numérique.
Les résultats de ces estimations sont présentés dans les tableaux 1, 2, 3 et 4 ci-dessus.
De plus, parfois l’estimation des paramètres pour la loi de Weibull, avec la fonction fitdistr(), ne fonctionnait pas, dans le sens où, l’estimation n’était pas faite et le message d’erreur suivant s’affichait : l’optimisation a échoué.
C’est pour cela, qu’au lieu de rentrer n’importe quelle valeur de départ dans la fonction mle(), nous avons décidé d’estimer dans un premier temps, les paramètres de manière graphique et cela de la manière suivante.
Le test de Kolmogorov-Smirnov teste l’adéquation des données à une loi, dans le cadre du stage, on s’intéresse à deux lois, la loi exponentielle et la loi de Weibull.
Les résultats de ces tests sont résumés dans les tableaux 6 et 7 ci-dessus. On constate que pour les données brutes, le test de Kolmogorov-Smirnov est très significatif, ces données ne semblent pas suivre une loi de Weibull, ni une loi exponentielle.
De plus, ceci est confirmé par les diagrammes quantile-quantile.
Pour les données arrondies, les données semblent ne pas suivre ni une loi exponentielle, ni une loi de Weibull. Là encore, ceci est confirmé par les diagrammes quantile-quantile.
En revanche, le test d’adéquation à une loi de Weibull n’est pas très significatif, c’est pour cela, que nous avons ré-échantillonné les données arrondies afin de réduire sa taille, car on sait que pour le calcul du risque de deuxième espèce, la taille de l’échantillon influe sur celui-ci.
Nous avons ré-échantillonné avec la commande sample() de R, en choisissant nous même la taille de l’échantillon.
La fonction sample() fournit un échantillon aléatoire de valeurs prises dans le vecteur donné.
Nous avons choisis comme de taille de ré-échantillonnage, une taille de 100 et 500, mais pour les guillemots 6, 8, 10, 11, 13 et 14, la taille de ré-échantillonnage est de 150 car la taille de ces échantillons est inférieure à 500.
De plus, nous avons pu faire que trois simulation, car des messages d’erreur du type : l’optimisation a échoué et production de NaN (Not a Number) s’affichaient, en fait ceci nécessiterait beaucoup plus de simulations, mais les estimations et les tests réalisés ont été produits de la même manière qu’avant le ré-échantillonnage.
Dans cette dernière simulation, La première colonne représente les p-valeurs dont la taille de ré-échantillonnage est égale à 100, on peut remarquer que pour seulement le deuxième et le troisième guillemot, leurs données semblent suivre une loi de Weibull, tandis que, pour tout le reste, les données semblent ne pas correspondre à une loi de Weibull.
J’ai remarqué que dans un premier temps, les données semblaient ne pas correspondre ni à une loi de Weibull, ni à une loi exponentielle. Puis, en ré-échantillonnant les données on a pu constater que dans certains cas, ces données semble correspondre à une loi de Weibull mais pour seulement un ré-échantillonnage de taille 100.
C’est pour cela que nous avons choisi deux critères pour sélectionner le meilleur modèle, le critère de l’AIC et du BIC
Bien que le mouvement brownien corresponde à une recherche aléatoire, on ne peut conclure que le guillemot adopte ce mouvement lors de sa recherche alimentaire.
De plus, le vol de Lévy qui représente une recherche alimentaire optimale de l’animal, on ne peut là aussi conclure que le guillemot adopte ce mouvement lors de sa recherche alimentaire.
Néanmoins, les différents critères de sélection, nous conduisent à déduire que pour certains guillemots le « meilleur » modèle est celui dont les données semblent suivre une loi de type puissance, on en déduit que pour ces guillemots, le vol de Lévy semble être la stratégie de leur recherche alimentaire.
Pour la suite, il reste à déterminer si l’âge et le poids ont une influence sur les déplacements car les différents guillemots étudiés ont des âges et des poids différents. Etant donné que la collecte des données des déplacements a été réalisée toute les deux minutes, il faudrait utiliser l’ANOVA pour plans à mesures répétées. En effet, plus l’animal est âgé et plus son déplacement vers les lieux d’alimentation est dirigé ce qui correspondrait à l’utilisation du vol de Lévy. De plus, en adoptant cette stratégie de recherche alimentaire, l’animal augmente son poids, car il mange plus de proies en volant moins, qu’un individu qui fait du vol brownien.
Le test de Kolmogorov-Smirnov teste l’adéquation des données à une loi, dans le cadre du stage, on s’intéresse à deux lois, la loi exponentielle et la loi de Weibull.
Les résultats de ces tests sont résumés dans les tableaux 6 et 7 ci-dessus. On constate que pour les données brutes, le test de Kolmogorov-Smirnov est très significatif, ces données ne semblent pas suivre une loi de Weibull, ni une loi exponentielle.
De plus, ceci est confirmé par les diagrammes quantile-quantile.
Pour les données arrondies, les données semblent ne pas suivre ni une loi exponentielle, ni une loi de Weibull. Là encore, ceci est confirmé par les diagrammes quantile-quantile.
En revanche, le test d’adéquation à une loi de Weibull n’est pas très significatif, c’est pour cela, que nous avons ré-échantillonné les données arrondies afin de réduire sa taille, car on sait que pour le calcul du risque de deuxième espèce, la taille de l’échantillon influe sur celui-ci.
Nous avons ré-échantillonné avec la commande sample() de R, en choisissant nous même la taille de l’échantillon.
La fonction sample() fournit un échantillon aléatoire de valeurs prises dans le vecteur donné.
Nous avons choisis comme de taille de ré-échantillonnage, une taille de 100 et 500, mais pour les guillemots 6, 8, 10, 11, 13 et 14, la taille de ré-échantillonnage est de 150 car la taille de ces échantillons est inférieure à 500. De plus, nous avons pu faire que trois simulation, car des messages d’erreur du type : l’optimisation a échoué et production de NaN (Not a Number) s’affichaient, en fait ceci nécessiterait beaucoup plus de simulations, mais les estimations et les tests réalisés ont été produits de la même manière qu’avant le ré-échantillonnage.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
1) Introduction
1.1) Présentation du laboratoire
1.2) Données et présentation du sujet
2) Les lois de probabilités
2.1) La loi exponentielle
2.2) La loi de Weibull
2.3) Loi de type puissance
3) Estimation par maximum de vraisemblance
3.1) Modèles statistiques
3.2) La vraisemblance
3.3) Estimation par maximum de vraisemblance
3.3.1) Calcul de l’estimation par maximum de vraisemblance pour la loi exponentielle
3.3.2) Résultats
3.3.3) Calcul de l’estimation par maximum de vraisemblance pour la loi de weibull
3.3.4) Résultats
4) Test Statistique et QQ-plot
4.1) Test statistique
4.2) Test de Kolmogorov-Smirnov
4.2.1) Résultats
4.3) QQ-Plot
4.3.1) Résultats
5) DISCUSSION
6) Bibliographie