LES ALGORITHMES DE CLASSIFICATION COURANT
En télédétection, la classification d’image est une technique d’analyse des données qui consiste partitionner l’ensemble des pixels de la scène étudiée en plusieurs classes. Les pixels formant chaque classe présentent des valeurs suffisamment similaires pour être considérés comme appartenant à une thématique unique. L’objectif principal de la classification est de traduire les informations spectrales en classes thématiques. Les méthodes de classification peuvent être séparées en deux catégories : la classification non dirigée et la classification dirigée .
Classification non dirigée :
Dans le cas de classification non dirigée, on réalise une classification de l’image sans informations connues a priori ou qu’on ne souhaite pas exploiter dans la phase initiale d’analyse. Donc, aucune information sur la zone d’étude n’est introduite dans l’algorithme. Pour ne pas avoir un résultat qui sera difficile à interpréter, l’opérateur introduit le nombre de classes d’occupation du sol qu’il souhaite obtenir dans l’image.
Il est cependant important de préciser que les groupes produits par classification non dirigée ne sont pas des catégories thématiques mais des catégories spectrales (c’est-à-dire qu’elles regroupent les entités (pixels) qui ont des propriétés de luminance semblables). Il arrive donc souvent que l’analyste ait besoin de reclassifier ces catégories spectrales en catégories thématiques (S.Rakotoniaina).
Classification dirigée :
Lors de l’utilisation d’une méthode de classification supervisée, l’analyste identifie des échantillons homogènes de l’image, représentatifs des différentes classes d’objets (classes d’information). Ces échantillons forment un ensemble de données d’apprentissage. La sélection de ces données est basée sur les connaissances de l’analyste, sa familiarité avec la région et les types d’objets présents dans l’image. L’analyste supervise donc la classification d’où le nom de classification supervisée (http://www.ccrs.nrcan.gc.ca/resource/tutor/fundam/ pdf/fundamentals_f.pdf).
Une classification supervisée commence donc par l’identification des classes spectrales contenues dans l’image. Dans cette méthode de classification il y deux grandes familles d’algorithme de classification, à savoir les méthodes non paramétrique et paramétrique : Un classificateur est dit paramétrique s’il associe à la signature spectrale une distribution statistique connue comme la loi normale ou multi normale. Cette association offre la possibilité d’affecter à chaque pixel une probabilité d’appartenance à une classe donnée. L’algorithme le plus connu de cette approche est celui du maximum de vraisemblance (Caloz, R. ; Claude C. (2001)). Par contre, aucune distribution statistique n’est exploitée dans le cas d’un classificateur non paramétrique. Seule la distance spectrale est prise en compte. Un des classificateurs les plus connus pour cette catégorie est l’algorithme k-nn (K Nearest Neighboor) (Caloz, R. ; Collet C. (2001)). Les différences entre ces types de classification résident dans leur capacité à tenir compte de la variabilité de l’information. La qualité de la classification tient compte de certaines caractéristiques de l’image telles que la résolution. Parmi les algorithmes de classification, celui du maximum de vraisemblance (MdV), de k-Nearest Neighbor (k-NN) et celui de Support Vector Machine (SVM) sont les plus fréquemment utilisés.
Méthode de maximum de vraisemblance
La classification de maximum de vraisemblance est une approche paramétrique qui pose comme une hypothèse la distribution gaussienne des classes constituant les zones d’entraînement. Les paramètres statistiques (moyenne, matrice de covariance) nécessaires à la classification sont calculés pour chaque classe dans chaque bande. La méthode utilise le principe de Bayes qui consiste à calculer la probabilité d’appartenance d’un pixel à une classe. Chaque pixel est assigné à la classe pour qui il a la probabilité la plus élevée (c’est-à-dire, le maximum de vraisemblance). Si la probabilité la plus élevée est plus petite qu’un seuil minimal le pixel reste non classifié (Richard. ; Jia, 1999). Rappelons que la densité de probabilité pour une variable aléatoire continue de distribution normale s’écrit .
Méthode du k-plus proche voisin ou k-nearest neighbor
La méthode de classification non paramétrique : k nearest neighbour (kNN) a été introduite en 1967 par Cover et Hart (Cover & Hart, 1967). Supposons que l’on a une image à classifier suivant c classes. La méthode des k plus proches voisins assigne un pixel inconnu x à la classe Ci (i appartient dans l’intervalle [0,c]) si la classe majoritaire dans les k voisins les plus proches de x est la classe Ci . Le calcul qui s’effectue sur tous les pixels appartenant à la zone d’apprentissage utilisée la notion de distance spectrale. Cette procédure de classification dépend de deux paramètres principaux : le nombre k de voisins les plus proches considéré et la métrique utilisé pour calculer la distance. Le principe de la classification par la méthode des k plus proches voisins est schématisé sur la figure 1. Sur cet exemple, si k=1, la classe d’affectation de x est égale à 1 (Figure 1a) tandis qu’elle sera égale à 2 si k = 3 (Figure 1). Le principe de cette méthode est assez simple mais sa mise en œuvre demande un temps de calcul assez long.
Méthode par Séparateur à Vaste Marge (SVM)
Les séparateurs à vastes marges sont des classificateurs paramétriques qui reposent sur deux idées importantes permettant de traiter des problèmes de discrimination non-linéaire et de reformuler le problème de classement comme un problème d’optimisation quadratique. La première idée est la notion de marge maximale. La marge est la distance entre la frontière de séparation et les échantillons les plus proches. Ces derniers sont appelés vecteurs supports. Dans l’algorithme SVM, la frontière de séparation est choisie comme étant celle qui maximise la marge. Ce choix est justifié par la théorie de Vapnik-Chervonenkis ou théorie statistique de l’apprentissage ( Valiant, 1984), qui montre la frontière de séparation de marge maximale ( Marti , 1998).
Le problème est de trouver cette frontière séparatrice optimale, à partir d’un ensemble d’apprentissage. Ceci est fait en formulant le problème comme un problème d’optimisation quadratique, pour lequel il existe des algorithmes connus. Afin de pouvoir traiter des cas où les données ne sont pas linéairement séparables, la deuxième idée sur laquelle s’appuie SVM consiste à transformer l’espace de représentation des données d’entrée en un espace de plus grande dimension (pouvant être de dimension infinie), dans lequel il est probable qu’il existe un séparateur linéaire. Ceci est réalisé grâce à une fonction noyau. Cette fonction doit respecter certaines conditions ce qu’on appelle condition de Mercer. Elle a l’avantage de ne pas nécessiter de connaissance explicite de la transformation à appliquer pour le changement d’espace. Les fonctions noyaux permettent de transformer un produit scalaire dans un espace de grande dimension, ce qui est coûteux, en une simple évaluation ponctuelle d’une fonction. Cette technique est connue sous le nom de kernel trick (Bernhard S., et al 2002) .
|
Table des matières
INTRODUCTION GENERALE
CHAPITRE I : LES ALGORITHMES DE CLASSIFICATION COURANT
I.1 Introduction
I.2 Méthode de maximum de vraisemblance
I.3 Méthode du k-plus proche voisin ou k-nearest neighbor
I.4. Méthode par Séparateur à Vaste Marge (SVM)
CHAPITRE II : CLASSIFICATION D’IMAGE PAR METHODE ORIENTEE OBJET DES IMAGES
II.1 Introduction de la classification orientée objet
II.2 La segmentation d’image
II.2.1 Introduction
II.2.2 Segmentation par contour
II.2.3 segmentation par région
II.3 Classification des objets
II.3.1 Classification supervisée
II.3.2 Classification par règle
CHAPITRE III : SITUATION DE LA ZONE D’ETUDE
III.1 Localisation
III.1.1.Description administrative
III.1.2.Description physique
III.1.3. milieu humain
III.2. Forêt et végétation
III.2.1 Forêt
III.2.2 Végétation
III.3. Données
III.3.1. Images satellitaires
CHAPITRE IV : RESULTAT
IV.1. Définition des classes
IV.2. Classification par les méthodes basées sur les valeurs individuelles des pixels
IV.2.1 Classification par MdV
IV.2.2 Classification par K-nn
V.2.3 Classification par SVM
IV.3. Classification par méthode orientée-objet
IV.2.2. Classification des objets
CHAPITRE V : DISCUSSION
VI.1.Matrices de confusion des images classifiées avec les méthodes à base de pixels
VI.2.Discussion de la classification par pixel
VI.3. Matrice de confusion des images classifiées par méthodes orientées-objet
VI.4.Discussion de la classification par orientée objet
VI.5 Discussion globale
CONCLUSION GÉNÉRALE
ANNEXE
Table des matières
RÉFÉRENCES