Après l’ère de la photographie aérienne, la télédétection moderne a connu ses débuts lors des premiers capteurs embarqués dans les satellites au début des années 70 (Kergomard, 2004). Depuis, les applications des images satellitaires se sont multipliées ainsi que les méthodes de traitement. Avant que l’image soit utilisable dans le domaine de la cartographie comme carte d’occupation du sol, plusieurs traitements sont apportés parmi lesquels on peut citer les corrections géométriques, les corrections atmosphériques et les classifications. Ces dernières occupent une partie prépondérante lors du traitement d’image satellitaire (Caloz et Collet, 2001). C’est pour cela que plusieurs chercheurs s’étaient mis à développer et/ou améliorer les techniques et les algorithmes de classification. Ainsi, on assiste au fur et à mesure que la technologie informatique se développe, à un fleurissement des algorithmes de classification supervisée ou non parmi lesquels figurent le maximum de vraisemblance (MDV), le k-plus proches voisins (k-ppv), le réseau de neurones et l’arbre de décision (Rakotoarimanana, 2008). Chaque méthode de classification a ses performances, ses qualités, ses défauts ainsi que les domaines d’application où il est conseillé de l’utiliser.
Récemment, une nouvelle méthode de classification appelée “Séparateur à Vaste Marge“ (SVM) a été proposée par Vladimir Vapnik (Boser et al., 1992) pour résoudre les problèmes de classification et de régression. Ces applications ont donné de très bons résultats au niveau de la bioinformatique. A partir de l’année 2000, on a commencé à observer des applications de SVM dans le domaine de la télédétection. Les résultats ont été très satisfaisants mais il reste des explications et des expériences à apporter. C’est ainsi que notre travail a été axé sur l’étude de la classification d’images satellitaires par l’algorithme “séparateur à vaste marge “. Pour cela, nous avons essayé de montrer dans quels cas il est approprié d’utiliser SVM, ses avantages et ses inconvénients ainsi que les difficultés que l’on pourrait rencontrer lors de son utilisation. Nous avons aussi réalisé des comparaisons entre SVM, MDV et k-ppv.
METHODES DE CLASSIFICATION
Une classification est une technique d’analyse de données qui a pour objet de partitionner l’image en plusieurs classes d’intérêt. On regroupe les données en sousensembles homogènes qui représentent les mêmes caractéristiques (exemples : forêt, sol, eau). La classification peut être supervisée ou non supervisée (i.e. automatique).
CLASSIFICATION NON SUPERVISEE
Dans le cas de classification non supervisée, on réalise une classification de l’image sans informations connues a priori ou qu’on ne souhaite pas exploiter dans la phase initiale d’analyse. Donc, aucune information sur la zone d’étude n’est introduite dans l’algorithme. Pour ne pas avoir un résultat qui sera difficile à interpréter, l’opérateur introduit le nombre de classes d’occupation du sol qu’il souhaite obtenir dans l’image. Une telle classification est souvent à prendre avec précaution car c’est l’algorithme qui se charge de déterminer les classes. Outre l’intérêt de partitionner l’image en classes spectrales, l’application de la classification non supervisée est un excellent moyen d’évaluer le degré d’homogénéité de l’image et de disposer d’une première approximation de la qualité qu’on peut attendre d’une classification dirigée, opérée ensuite sur la même image. Dans le cadre de notre travail, nous nous basons surtout sur la classification supervisée. Toutefois, pour avoir un aperçu sur cette approche non supervisée, illustrons-la à l’aide d’un exemple de classification non supervisée la plus utilisée : k-means. L’algorithme k-means est une méthode de classification automatique qui subdivise les données en k classes. Sa grande popularité provient de sa grande simplicité. Il suffit de choisir aléatoirement (si aucune information n’est donnée) k centres de gravité appelés aussi centroïdes. On calcule la distance (distance euclidienne en général) de chaque pixel aux centroïdes et on affecte le pixel à la classe dont le centroïde est le plus proche.
CLASSIFICATION SUPERVISEE
Une classification supervisée est une technique d’apprentissage qui consiste à réaliser une classification à partir des données d’apprentissage déjà connues (Caloz et Collet, 2001). En général, on essaie d’apprendre une fonction de décision pour classifier les données non connues. De ce fait, ce type de classification nécessite un sous-ensemble de données qu’on connait a priori pour servir de base d’apprentissage appelé aussi zone d’entraînement afin de pouvoir classifier le reste de données. Dans ce type de classification, on peut disposer de plusieurs algorithmes. Certains sont paramétriques et d’autres ne le sont pas. Parmi les classificateurs existants, nous allons voir deux méthodes de classification supervisée qui sont les plus utilisées dans le cas de classification pixel par pixel : Maximum de vraisemblance (MDV) et k-plus proches voisins (k-ppv). Ces méthodes seront comparées avec SVM ultérieurement.
Maximum de Vraisemblance
L’algorithme du Maximum de vraisemblance est basé sur l’analyse statistique de la distribution des éléments de la base d’apprentissage (Mather, 2004). Le pixel xᵢ est affecté à la classe dont la probabilité d’appartenance est la plus élevée. Il faut, cependant, faire une hypothèse sur la distribution des éléments de la base d’apprentissage. Dans le cas de distribution gaussienne qui est l’hypothèse la plus fréquemment adoptée, on calcule la moyenne et la matrice de covariance associée à la classe Cᵢ .
SVM MULTI-CLASSES
A l’origine, SVM était une méthode de discrimination binaire. Dans ce cas, seuls des problèmes de classification dont la base d’apprentissage contient 2 classes pouvaient être traités comme dans le cas de détection de zone brûlée (Zammit, 2008). Dans la majorité des cas, on rencontre des problèmes de classifications multi-classes qui consistent à classer l’image spectrale en différentes classes thématiques supérieures ou égales à 3, c’est un problème qui n’est pas directement traitable en SVM.
Ainsi, plusieurs approches existent pour remédier à ce problème (Hsu et Lin, 2002); Parmi lesquelles, on peut citer les méthodes “un contre un“ et “un contre tout“ qui sont d’ailleurs les plus utilisées. Il est important de savoir que ces méthodes ne sont pas spécifiques à SVM mais sont toutes des méthodes de discrimination binaire. Actuellement, plusieurs travaux en télédétection ont été réalisés en utilisant ces méthodes (He et al., 2005) .
ÉVALUATION DE LA CLASSIFICATION : MATRICE DE CONFUSION
D’une manière générale, la qualité d’une classification est évaluée par rapport aux objectifs poursuivis par l’analyste et au thème traité. La diversité des objectifs entraine une diversité de critère d’évaluation. Selon le thème, l’accent peut être mis sur la conformité thématique ou géométrique. Dans notre cas, comme on cherche à comparer la qualité de la classification de SVM par rapport à k-ppv et MDV, on s’intéressera beaucoup à la conformité thématique. Les classifications dirigées sont conçues pour permettre une évaluation de la capacité d’un algorithme à restituer une zone dont on lui a fourni la signature spectrale. L’évaluation ne s’opère donc que sur une partie connue de l’image, c’est-à-dire les zones tests. Pour avoir une bonne vision de la classification, on superpose l’image classifiée à une base de données (BD). En général, en télédétection, l’évaluation de la classification s’appuie sur des entités statistiques développées dans le cadre d’une échelle de mesure nominale dont l’élément principal est la matrice de confusion. A partir de cette matrice de confusion, plusieurs indices sont déduites qui ont chacune une propriété particulière des résultats. Une matrice de confusion est un tableau à 2 dimensions dont les lignes expriment les résultats par rapport aux différentes classes thématiques définies dans l’image classifiée et les colonnes expriment les résultats par rapport aux zones de références délimitées qui servent à vérifier les résultats de classification (zone test).
|
Table des matières
INTRODUCTION
I. METHODES ET MATERIELS
I.1. Méthodes de classification
I.2. Théorie de SVM
I.3. Évaluation de la classification : matrice de confusion
I.4. Logiciels
I.5. Zones d’étude
II. RESULTATS
II.1. Expérimentation
II.2. Résultats des diverses classifications
II.3. Matrices de confusion
III. DISCUSSION
III.1.Comparaison des classificateurs SVM pour différents noyaux
III.2.Comparaison de MDV, K-ppv et SVM
CONCLUSION
Références bibliographiques
Liste des sites web consultés
Table des matières
Annexe