Classification bayésienne non supervisée de données fonctionnelles en présence de covariables

Beaucoup de domaines d’application tels que la météorologie, l’agronomie ou encore l’informatique font appel à des signaux, et donc à des courbes. Cela a conduit, depuis de nombreuses années, au développement d’une nouvelle branche des statistiques : la statistique de données fonctionnelles [102].

Cette thèse se concentre sur la classification bayésienne non supervisée de données fonctionnelles. Si les techniques usuelles multivariées peuvent être employées, des méthodes adaptées aux données fonctionnelles ont été proposées, prenant en compte l’aspect temporel. En statistique non bayésienne, différentes méthodes ont été proposées . En statistique bayésienne, les méthodes de classification utilisent couramment le processus de Dirichlet , mais peu de travaux ont été réalisés avec les données fonctionnelles . Le processus de Dirichlet est utile en classification car il permet de choisir le nombre de classes de manière automatique. Nous nous intéressons à la généralisation de ces approches bayésiennes aux courbes.

Les approches actuelles de classification de données fonctionnelles peuvent être divisées en deux parties : celles qui traitent les courbes de manière multivariée en les considérant aux temps d’observation [11, 53], et celles qui font usage de la décomposition dans des bases de fonctions, typiquement les fonctions splines et les ondelettes [23, 43, 105]. Par exemple, Ray & Mallick [105] proposent l’utilisation d’une base d’ondelettes, l’inférence étant alors réalisée sur les coefficients de décomposition. Une approche similaire est proposée par Gelfand, Kottas & MacEachern [43], mais dans un objectif de prédiction de données spatiales. Plus récemment, Jackson et al. [53] ont proposé un modèle faisant intervenir les processus gaussiens, calculés aux temps d’observation.

Les méthodes dans lesquelles les courbes sont discrétisées aux temps d’observation font intervenir le déterminant de matrices de variance-covariance de lois normales de très grande dimension, ce qui peut induire une instabilité numérique. De plus, les calculs nécessaires dans ces algorithmes seront d’autant plus longs que le nombre de temps d’observation augmente. Dans le cas de la décomposition dans une base de fonctions, l’utilisateur est soumis au problème du choix de la base et à l’adéquation entre modèle d’approximation et données.

La classification est une technique qui a pour but de trouver des groupes de similarité dans un jeu de données, que l’on appelle classes. Les données d’une même classe sont plus apparentées entre elles qu’avec des données d’autres classes. La classification de données est appliquée à de nombreux domaines biologiques, économiques ou encore informatiques, allant du regroupement de séquences génétiques à la segmentation d’images. Dans tout domaine scientifique ayant recours à des données empiriques, les utilisateurs cherchent à identifier dans les données des groupes aux comportements similaires. L’intérêt pour le partitionnement de données est donc croissant.

Les algorithmes de classification hiérarchique produisent une hiérarchie de classes, représentée sous la forme d’un dendrogramme. Au bas de la hiérarchie se trouve la partition la plus fine, ne comportant qu’une seule observation par classe, tandis qu’en haut de la hiérarchie se trouve la partition la plus grossière pour laquelle toutes les observations sont dans une même classe.

On distingue les algorithmes ascendants et descendants. Dans le premier cas, il s’agit de regrouper les observations deux à deux en construisant le dendrogramme, jusqu’à ne former qu’une seule classe. Dans le second cas, le dendrogramme est construit à partir de la partition constituée d’une seule classe. Dans les deux cas, la classification hiérarchique suppose de savoir calculer, à chaque étape, une distance entre classes, appelée lien, ainsi qu’une mesure de dissimilarité entre observations.

Une fois ces distances choisies, le principe d’une classification ascendante hiérarchique est simple. Une partition de n classes contenant chacune une seule observation est formée. L’algorithme commence par calculer la matrice de dissimilarité dont l’élément générique di j est la distance entre les observations Yi et Yj . L’algorithme forme alors une classe par agrégation des deux observations les plus proches. La distance entre cette nouvelle classe et les autres classes est déterminée par le lien. Ce processus est alors réitéré jusqu’à l’obtention d’une seule classe. Une méthode algorithmique similaire s’applique dans le cas d’une classification descendante hiérarchique.

Ces algorithmes présentent l’avantage de pouvoir choisir les distances en fonction de la nature des données. En contrepartie, il est facile de vérifier qu’une classification hiérarchique est très sensible à ce choix. De plus, les algorithmes de classification hiérarchique ne sont pas adaptés aux jeux de données de grande dimension, en raison de leur complexité élevée, et si l’on souhaite rajouter une observation au jeu de données à classer, il est nécessaire de répéter l’algorithme depuis le début.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Classification de données multivariées
1.1 Classification non supervisée
1.1.1 Objectifs et intérêts
1.1.2 Techniques usuelles
Classification hiérarchique
Algorithme des K-means
Utilisation de mélanges gaussiens
Classification spectrale
Choix d’une technique de classification non supervisée
1.1.3 Comparaison et validation de classifications
1.1.4 Bilan
1.2 Présentation et choix d’un modèle bayésien
1.2.1 Les processus de Dirichlet
Représentation de Sethuraman
1.2.2 Mélange suivant un processus de Dirichlet
Urne de Pólya
Métaphore du restaurant chinois
1.2.3 Présentation du modèle (DPM)
1.3 Lien avec les modèles de mélange
1.3.1 Cas discret
1.3.2 Cas continu
1.4 Analyse de la consistance du modèle
1.4.1 Cas discret
Résultats bibliographiques
Données simulées
Résultats de simulation
1.4.2 Cas continu
1.5 Implémentation algorithmique
1.5.1 Algorithme de base
1.6 Sélection d’une classification dans un cadre bayésien
1.7 Prior sur le paramètre de concentration α0
1.7.1 Conséquences d’un paramètre α0 fixé
1.7.2 Prior sur le paramètre α0
2 Processus gaussien a posteriori pour données fonctionnelles
2.1 Les données fonctionnelles
2.1.1 Généralités
2.1.2 Les processus gaussiens
2.2 Densité d’un processus gaussien
2.2.1 Objectif
2.2.2 Travaux précurseurs pour un bruit blanc gaussien
2.2.3 Travaux précurseurs pour un bruit gaussien quelconque
2.2.4 Espaces de Hilbert à noyau reproduisant
2.3 Processus gaussien a posteriori
2.3.1 Cas d’une seule observation
2.3.2 Cas de multiples observations
Conclusion