Télécharger le fichier pdf d’un mémoire de fin d’études
La méthode de classification avec notion de probabilité d’appartenance
La notion de probabilité et de loi de probabilité
Le premier usage du mot probabilité apparaît en 1370 avec la traduction de l’éthique à Nicomaque d’Aristote par Oresme et désigne alors « le caractère de ce qui est probable » (Oresme, 1940). Le concept de probable chez Aristote est défini dans les Topiques (de Pater, 1965) par : « Sont probables les opinions qui sont reçues par tous les hommes, ou par la plupart d’entre eux, ou par les sages, et parmi ces derniers, soit par tous, soit par la plupart, soit enfin par les plus notables et les plus illustres ».
La notion d’opinion collective introduite par Aristote illustre bien la probabilité de prise de décision. Chaque décision est prise en fonction de tous les observateurs, quelle que soit leur importance, ce qui implique une notion de normalisation et de collectivité.
La probabilité objective d’un évènement n’existe pas et n’est donc pas une grandeur mesurable, mais tout simplement une mesure d’incertitude, pouvant varier avec les circonstances et l’observateur, donc subjective. La seule exigence étant qu’elle satisfasse aux axiomes du calcul des probabilités (Saporta, 2006).
La théorie mathématique des probabilités ne dit pas quelle loi de probabilité mettre sur un ensemble IM parmi toutes les lois possibles. Ce problème concerne les applications du calcul des probabilités, et renvoie à la nature « physique » du concept de probabilité qui formalise et quantifie le sentiment d’incertitude vis-à-vis d’un évènement (Saporta, 2006).
Définissons la notion de probabilité dans un cadre mathématique.
Définition : On appelle probabilité ou mesure de probabilité sur un espace mesurable (IM, ?) une application P de ? → [0,1] telle que :
i. ∀ A ∈ ?, 0 ≤ P(A) ≤ 1
ii. P(∅) = 0 et P(IM) = 1
iii. ∀ An une suite d′ensembles disjoints de ?, P(⋃ An ∞n =1 ) = Σ P(An) ∞ n=1
La loi de probabilité la plus utilisée en classification probabiliste est la loi gaussienne car ses hypothèses sur les données permettent de réduire la complexité de calcul et le risque d’erreur. Rappelons que dans le cas de la classification, la loi gaussienne suppose qu’une classe peut être modélisée par son vecteur des moyennes et sa matrice de covariance (De Moivre, 1756)(figure I.15).
Les méthodes de classification non paramétriques à noyaux
A la différence des méthodes présentées précédemment, il n’y a ici aucune estimation de statistique à partir des échantillons. Ces méthodes sont donc particulièrement intéressantes lorsque le nombre de points de certains échantillons est limité. Dans certaines conditions, la nature des échantillons ne permet pas un échantillonnage suffisant, exemple des zones urbaines très hétérogènes et riches en diversité de classe. Inversement, lorsque le nombre d’échantillons est trop important, la complexité de calcul des méthodes de classifications non paramétriques à noyau devient trop élevée et les résultats peuvent être détériorés du fait de la considération de certains pixels non significatifs.
Parmi ces méthodes de classification non paramétriques à noyau, nous introduirons les méthodes Support Vector Machines et Réseaux neuronaux.
Nous n’entrerons pas ici dans les détails des méthodes et nous ne fournirons que les éléments nécessaires à la compréhension globale des méthodes et de leurs avantages et inconvénients vis-à-vis des autres méthodes citées précédemment, laissant ainsi le lecteur intéressé se diriger vers la bibliographie fournie.
La méthode des Support Vectors Machines (SVM)
Les méthodes d’apprentissage à noyau et plus particulièrement les Support Vectors Machines (SVM) ont été introduites depuis plusieurs années en théorie d’apprentissage pour la classification et la régression (Vapnik, 1998). L’application des SVM a commencé avec la reconnaissance de texte (Joachims, 1998) puis la reconnaissance de visage (Osuna, Freund, & Girosit, 1997). Plus récemment, cette méthode est appliquée à la classification d’images de télédétection (Huang, Davis, & Townshend, 2002; Melgani & Bruzzone, 2004; Roli & Fumera, 2001; J. Zhang, Zhang, & Zhou, 2001).
Le principe original de la méthode est simple, il consiste à rechercher une surface de décisions ou hyperplan afin de séparer deux classes. La surface de décisions sera déterminée par un sousensemble des échantillons d’apprentissage afin de maximiser la discrimination des deux classes. Les éléments de ce sous ensemble sont appelés vecteurs de support (figure I.19).
La méthode de classification dit « objet »
Le principe des méthodes de classification dites « objet » est de ne plus considérer l’élément à classer comme un pixel mais plutôt comme un ensemble de pixels que l’on nommera objet. Cet objet peut être défini de plusieurs façons, l’approche qui sera développée par la suite est la définition d’objet par segmentation.
La notion d’objet obtenu par segmentation
Afin d’obtenir ces objets, il convient de regrouper les pixels par affinité, le plus généralement par homogénéité des valeurs.
Dans le cas d’un regroupement par homogénéité de valeurs, la formation de ces objets commence par le calcul d’une image de gradient (ou image de force de contour) ce qui permet de donner un poids à chaque contour suivant la force de l’hétérogénéité détectée. Celle-ci peut avoir été obtenue par tout type de filtre (Sobel, etc…).
La détection des contours se fait de la manière suivante : à partir d’un premier point du contour présumé, on effectue par connexité un suivi de contour grâce aux renseignements obtenus durant la recherche tels que sa direction ou sa longueur. Avec ces éléments, le contour est reconstruit pour en faire un contour fermé en regroupant les points détectés (figure I.31).
Une fois que les contours sont déterminés et fermés, on peut segmenter l’image par la méthode des bassins versants (Beucher & Lantuéjoul, 1979). La segmentation se base sur l’image de force de contours qui s’interprète comme une surface dont les lignes de crête correspondent aux contours de l’image. Pour détecter les lignes de crête on simule une « inondation » de la surface. Ses « vallées » vont être noyées et des bassins vont se former. Dans un premier temps on « remplit ces bassins » jusqu’à une hauteur prédéterminée S1 (le seuil de détection), telle que seuls les pics les plus hauts émergent, séparant l’eau en plusieurs « lacs » distincts. L’inondation jusqu’au niveau S1 fait disparaître les sommets les plus bas, c’est-à-dire ceux qui ne représentent pas de contours significatifs, puis un identificateur est attribué, unique à chaque bassin formé (figure I.32.a).
Une fois que les bassins sont formés et étiquetés, on fait monter l’eau d’un niveau supplémentaire. En grossissant, des bassins qui étaient jusqu’alors isolés vont se toucher. Ainsi si un point est le lieu de réunion de deux bassins portant des étiquettes distinctes, ce point peut être marqué définitivement comme frontière (figure I.32.b). L’exécution se termine lorsque tous les points de la surface sont immergés. A ce stade les points marqués comme frontières constituent les contours de l’image.
L’image segmentée par les bassins versants est étiquetée et les caractéristiques (moyenne et variance par exemple) sont calculées sur chacune des régions. Les régions voisines sont ensuite comparées par l’intermédiaire d’un critère. Les couples de régions qui ne satisfont pas les limites imposées seront alors fusionnés. Ce principe permet ainsi de regrouper les régions homogènes. On peut ainsi régler la précision de la segmentation obtenue. Les figures I.34 à I.36 illustrent le principe de la segmentation et de la fermeture des contours sur l’image de la fleur.
La classification des objets
Afin de classer les objets, il convient de calculer une distance entre deux ensembles. Pour cela, une distance et une divergence permettent de décider de cet appariement : la distance de Bhattacharyya (équation I.6) et la divergence de Kullbach-Leibler symétrique (équation I.7).
La distance de Bhattacharyya est la plus souvent employée car elle dispose de propriétés supplémentaires vis-à-vis de la divergence de Kullbach-Leibler (paragraphe 2.1.2).
Cet algorithme attribue à l’objet o la classe la plus proche co optco opt = arg min co∈C dbhata(o, co) (I.14)
Cette méthode est par définition très dépendante du choix lors du seuillage des objets. Prenons l’exemple de deux seuillages différents et de leur étiquetage par la méthode des bassins versants (figure I.37 et figure I.38). Les images classées résultantes sont respectivement présentées aux figures I.39 et I.40. Dans les deux cas, nous observons que le choix de la taille de l’objet est bien adapté à la classe verte ; dans le cas de l’image de la figure I.40, la taille des objets est bien adaptée à la classe jaune mais dans aucun des cas à la classe rouge. A chaque classe devrait donc correspondre un choix de seuil différent, ce qui compliquerait l’algorithme et le choix du seuil. Ceci est une perspective de recherche intéressante dans le domaine de la classification d’objets.
Les méthodes de classification contextuelle
Pour des estimateurs de Maximisation a posteriori (MAP), plusieurs méthodes de classification contextuelle basée sur un CAM existent telles que la méthode du recuit simulé (algorithme stochastique) ou l’Iterated Conditional Mode (ICM, algorithme déterministe). Les modèles stochastiques sont beaucoup plus performants et permettent une convergence vers un maximum global alors que les algorithmes déterministes sont plus rapides mais peuvent converger vers un maximum local (Ducrot, 2005).
Nous présenterons dans la suite du manuscrit plusieurs méthodes basées sur l’utilisation de l’algorithme ICM du fait de sa performance, de sa rapidité et de sa robustesse.
Minimisation de l’énergie a posteriori par la méthode ICM
La méthode Iterative Conditional Mode (ICM) est une méthode de recherche déterministe proposée par Besag (Besag, 1974). Cette méthode itérative permet d’approcher la solution optimale du MAP en affectant à chaque pixel s la classe qui maximise la probabilité conditionnelle d’appartenance. Dans un cadre bayésien, le problème peut être modélisé de la façon suivante : soit C une variable aléatoire représentant le champ des étiquettes possibles, X étant une variable aléatoire représentant les valeurs des pixels s (en général C ⊂ ℕ et X ⊂ ℝn). Par application du Maximum A Posteriori (MAP), la règle de Bayes permet d’écrire : P(C = c|X = x) = P(X = x|C = c)P(C = c) P(X = x) (I.19).
Amélioration du processus ICM : ajout d’informations exogènes
Une amélioration importante a été apportée à la méthode ICM pour qu’elle soit utilisable dans toutes les conditions (type de données) et sur de larges zones d’étude (taille d’image, gestion des imperfections). J’ai ainsi introduit l’utilisation de données exogènes, qualitatives ou quantitatives, au processus de classification afin de l’améliorer. Ces données peuvent être, par exemple, l’information de l’altitude, la restriction de classes ou encore le masquage des données altérés ou manquantes.
La première information apportée est une restriction des classes possibles lors du processus de décision en fonction du contexte dans lequel se trouve le pixel. Cette méthode se base sur la théorie des possibilités. Prenons l’exemple concret présenté à la figure I.44. Nous avons ajouté une information de type qualitative sur la possibilité de présence de certaines classes en fonction de l’altitude dans le massif pyrénéen. Nous avons, par exemple, interdit la présence de cultures au-dessus de 1300 mètres d’altitude. Cette méthode permet d’améliorer la rapidité du processus et de réduire les confusions liées à la nature des échantillons, et donc aux erreurs a priori.
Application et comparaison des différents classifieurs avec des données de télédétection multidimensionnelles.
Nous présenterons ici quelques résultats afin d’illustrer la comparaison des classifieurs introduits dans ce chapitre. L’application est la suivante : nous allons effectuer la cartographie de l’occupation du sol à partir d’images Formosat-2 (optique, 8 mètres résolution, 4 bandes spectrales : Bleu, Vert, Rouge et Proche-Infrarouge) sur l’année 2009 et d’un ensemble de classes thématiques acquises par des vérités terrain. Les caractéristiques de ce capteur, des images et des classes utilisées sont présentés en annexe 1.3. Les images utilisées possèdent chacune 16 dates et 4 bandes spectrales et une emprise de 24×24 km². L’évaluation ne sera ici que visuelle, la validation numérique à l’aide d’un second jeu d’échantillons de vérification sera présentée en application du chapitre 2.
Des extraits de résultats sont présentés aux figures I.47 et I.48. La méthode de classification par seuillage est la plus mauvaise, peu de points sont correctement classés. Les différences entre les autres méthodes sont mineures, nous citerons notamment les confusions entre classes de cultures pour la minimisation de distance euclidienne (e), la bonne classification des cultures pour l’algorithme ICM (l) et l’amélioration par rapport au maximum de vraisemblance (g), la bonne classification des classes de bâti et d’eau pour l’algorithme SVM notamment pour le lac de droite (h et i) et enfin les confusions de la classification objet pour les parcelles hétérogènes (k).
L’évaluation à partir de références spatiales
Classiquement, une classification s’évalue à l’aide de références spatiales c’est-à-dire qu’il y aura comparaison entre les pixels de l’image issue de la classification et ceux de l’image servant de référence pour la validation.
La matrice de confusion
Dans le cadre d’une classification supervisée disposant de références spatiales, la matrice de confusion est un outil permettant de mesurer la qualité du système de classification utilisé. Définition : La matrice de confusion est un outil permettant de mesurer la concordance entre un ensemble d’éléments observés et un ensemble d’éléments de référence. Ici les éléments observés correspondent aux pixels issus de la classification et les éléments de référence à nos échantillons de vérification.
Notations : Soit la matrice de confusion m qui pour chaque couple de classes (??, ??) associe le nombre de pixels s correspondant à la classe ?? dans l’image de référence mais classés en tant de ?? par l’algorithme de classification. Chaque élément de cette matrice de confusion m sera noté ???,?? avec ci ∈ C, i ∈ [1, #C] et #C le nombre de classes présentes.
Introduction et validation de nouveaux indices
Dans l’optique d’automatiser les processus liés à la classification, nous devons disposer de critères permettant de juger de la performance de la classification. Afin de limiter et d’unifier les critères présentés dans les paragraphes précédents, nous nous proposons d’introduire 2 nouveaux indices afin de synthétiser l’information (Masse, Ducrot, & Marthon, 2012).
Le premier est un indice de performance par classe qui jugera à la fois de la précision et du rappel de la classe. Nous appellerons cet indice le « Omission and Commission Index » (OCI) car il tient compte à la fois du rappel (l’inverse de l’erreur d’omission) et de la précision (l’inverse de l’erreur de commission) de la classe à évaluer.
OCIi = PAi × UAi.
= (1 − Err_omi)(1 − Err_comi).
= 1 − Err_omi − Err_comi + Err_omi × Err_comi (II.18).
L’originalité de l’indice OCI repose sur sa capacité à observer à la fois les caractéristiques de dispersion et d’absorption des classes. Nous introduisons maintenant une version « Tous contre Tous” de cet indice nommé « Average Omission and Commission Index » (AOCI). AOCI = 1 n ΣOCIi n i=1 (II.19).
L’AOCI et la F1-mesure sont des indices proches par définition et qui permettent de regrouper les deux caractéristiques importantes que sont la précision et le rappel.
L’OCI et l’AOCI permettent ainsi de synthétiser l’information à travers un critère unique, ce qui permettra de simplifier les algorithmes de recherche et d’optimisation de performance de classification qui seront présentés dans les chapitres suivants.
Illustrations des indices présentés
Afin d’illustrer les différents indices qui seront présentés ci-après, nous prendrons un exemple simple à 2 classes défini par le tableau II.1. Nous fixerons les valeurs de la diagonale (A et D) et ferons varier les valeurs hors diagonales (B et C) afin d’observer l’implication de ces changements sur les indices présentés ci-après. Posons A = 50 et D = 150 et faisons varier les termes non diagonaux de la matrice de confusion qui sont B et C entre 0 et 300.
Les figures II.3 à II.8 illustrent les simulations des indices par classe et les figures II.9 à II.14 illustrent les simulations des indices globaux.
|
Table des matières
Sommaire général
Introduction générale
1. La télédétection d’hier à demain
2. L’utilisation de données multidimensionnelles de télédétection pour la cartographie des sols : enjeux et problématiques
3. L’approche proposée et l’organisation du manuscrit
Chapitre I. La classification
1. Introduction
1.1. Définitions et existence
1.2. La classification appliquée à la télédétection pour la cartographie de l’occupation des sols
1.3. Les catégories de méthodes de classification
2. Les méthodes de classification multidimensionnelles applicables à la télédétection
2.1. Les méthodes de classification ponctuelle
2.2. La méthode de classification dit « objet »
2.3. Les méthodes de classification globale
2.4. Amélioration du processus ICM : ajout d’informations exogènes
3. La classification non supervisée et son interprétation
4. Application et comparaison des différents classifieurs avec des données de télédétection multidimensionnelles.
5. Conclusion
Chapitre II. L’évaluation de la classification
1. L’évaluation de classification : définitions et contexte
1.1. Contexte
1.2. Définitions
2. L’évaluation à partir de références spatiales
2.1. La matrice de confusion
2.2. La matrice de confusion par pondération de probabilité
2.3. Indices pour l’évaluation à partir des matrices de confusion
2.4. Introduction et validation de nouveaux indices
2.5. Illustrations des indices présentés
3. L’évaluation de classification à partir de valeurs radiométriques spectrales et temporelles de référence
3.1. Indice de similitude
3.2. Matrice de similitude
3.3. Evaluation d’une matrice de similitude
4. Applications
4.1. Comparaison des classifieurs sur des données de télédétection
4.2. Comparaison des matrice de confusion avec et sans pondération de probabilité
5. Conclusion
Chapitre III. La sélection automatique de données de grande dimension pour la classification
1. Introduction de la sélection de données pour la classification
2. Les algorithmes de sélection
2.1. Le problème à résoudre
2.2. Les méthodes SFS et SBS
2.3. Les méthodes SFFS et SFBS
2.4. La méthode des Algorithmes Génétiques
3. Applications des méthodes de sélection de données
3.1. Application sélection temporelle sur Formosat-2 année 2009
3.2. Application sélection temporelle sur Spot 2/4/5 année 2007
4. Extension du problème de sélection
4.1. Adaptation de la méthode des AG
4.2. Applications du problème complet
5. Introduction du système de Sélection-Classification-Fusion
6. Conclusion
Chapitre IV. La fusion d’images issues de classifications supervisées
1. Introduction
2. La fusion de données
2.1. La fusion de données a priori
2.2. La fusion de décisions de classification
2.3. La fusion de résultats a posteriori
3. La fusion d’images de classification supervisées
3.1. Méthode de fusion par vote majoritaire
3.2. Méthode de fusion par vote majoritaire pondéré
3.3. Méthode de fusion par minimisation de confusion
4. Application au processus de Sélection-Classification-Fusion
5. Applications des méthodes de fusion a posteriori de résultats de classifications
5.1. La fusion de résultats de classifications obtenus à partir de différents classifieurs
5.2. La fusion de classifications obtenues à partir de jeux de dates différents
5.3. La fusion de classifications obtenues à partir de sources différentes
5.4. La fusion des meilleurs jeux de données temporelles, spectrales et classifieurs, application du système SCF
6. Conclusion
Chapitre V. La classification à partir d’une collection de données statistiques de valeurs radiométriques
1. Introduction
2. Interpolation des données statistiques
2.1. Méthodes d’interpolation par Krigeage
2.2. Evaluation de l’interpolation temporelle des classes
3. Applications
3.1. Application à la classification de données d’années différentes et d’une emprise différente
3.2. Application à la classification de données d’une année différente
4. Conclusion
Chapitre VI. Analyse de changements annuels et modélisation de flux de carbone
1. Introduction
2. La rotation des classes, les enjeux
3. Le modèle de flux de carbone
3.1. Les modèles existants
3.2. Le modèle choisi
4. Applications : carte des changements et estimation des flux de Carbone
4.1. A partir d’images Formosat-2 des années 2006 à 2009
4.2. A partir d’images Spot-2/4/5 des années 2006 à 2010
4.3. Validation croisée de la zone commune des 2 satellites
5. Conclusion
Chapitre VII. La classification de la Trame Verte et Bleue en milieu agricole, entre enjeux et réalités
1. Introduction
2. Etudes de l’utilisation de la télédétection pour la cartographie de la trame verte en milieu agricole
2.1. Etude de l’impact de la résolution spatiale pour la cartographie de la trame verte en milieu agricole
2.2. Etude de l’impact du choix de la méthode de classification pour la cartographie des haies
3. Conclusion
Conclusion générale
Références
Télécharger le rapport complet