Analyse exploratoire des images satellitaires

COCLICO

La thèse s’intègre dans le cadre du projet COCLICO (COllaboration, classification, Incrémentalité et Connaissances). COCLICO est un projet de recherche financé par l’ANR 2 qui s’achève en 2017 et qui s’est consacré à la définition de méthodes génériques à même de permettre une analyse multi-échelle de grands volumes de données spatio-temporelles de qualité très variable. L’idée générale était de mettre en œuvre une approche multistratégie et incrémentale dans laquelle la collaboration entre les différentes méthodes de fouille de données serait guidée par des connaissances. Ces connaissances déclinées sous la forme d’ontologies concernent à la fois le domaine thématique (à l’exemple des géosciences ou de la géographie) et le domaine de l’analyse (connaissances sur les méthodes d’apprentissage) afin de garantir des résultats de qualité prenant en compte à la fois la qualité des données et celles des connaissances. La travaux présentés dans ce mémoire ont été menés au sein de l’équipe MICADO de l’UMR 3 ESPACE-DEV et de l’équipe A3 de l’UMR LIPN.

UMR ESPACE-DEV

L’UMR ESPACE-DEV développe ses recherches sur les dynamiques spatiales caractérisant les éco-socio-systèmes. Ses objectifs concernent la définition d’indicateurs de ces dynamiques : bio-géophysiques, évolutions des sociétés, risques liés aux maladies émergentes en fonction de paramètres environnementaux, changements et vulnérabilité des territoires aux changements globaux. À cet effet, elle met au point des méthodologies en télédétection spatiale et en intégration des connaissances multidisciplinaires. L’équipe MICADO est spécialisée dans la modélisation, l’analyse, le contrôle et la validation des systèmes spatialisées complexes (non stationnaires, non linéaires…) afin de répondre aux problématiques de l’UMR et de fournir des outils permettant de caractériser et suivre les éco-socio-systèmes étudiés en utilisant l’information apportée par les images satellites. Il s’agit notamment d’apporter des contributions fondamentales dans le domaine des données spatialisées et des approches symboliques et numériques. L’équipe exploite notamment les thématiques liées aux ontologies comme leviers favorisant l’interdisciplinarité au sein de l’UMR ESPACE-DEV.

La logique de description minimale AL

La logique AL (pour Attribute Language) est la logique de description dite minimale en raison du choix délibéré de la plus grande sobriété des expressions rendues possibles. Il est entendu qu’aller au delà et se priver de l’un des constructeurs présents dans AL limiterait par trop l’expressivité de l’ontologie en cours de construction. AL a été introduite par SCHMIDTSCHAUSS et SMOLKA (1991), après l’ajout de la négation atomique à la logique FL, proposée initialement par BRACHMAN et LEVESQUE (1984) dans le contexte des langages de frame. Il est ainsi possible de définir des concepts atomiques comme Satellite, Image et Radiometrique et de la même manière des rôles comme produit_par et traitement_reu. AL permet aussi de disposer de la négation sur des concepts atomiques. Par exemple, (¬Image) désigne le concept de toute chose qui n’est pas image. Les constructeurs permettent aussi de modéliser des concepts plus complexes. On peut exprimer le concept d’image satellite, en employant la quantification universelle, par l’expression (Image⊓∀produit_par.Satellite) qui serait équivalent à l’expression naturelle : « les images qui n’ont été produites que par des satellites ». Finalement, le concept représentant les images ayant subi des traitements 3 peuvent être modélisées à l’aide de la quantification existentielle limitée : Image ⊓ ∃traitement_recu.⊤. On notera que les relations d’équivalence et de subsomption sont prises en charge par défaut par les formalismes des logiques de description [NARDI et BRACHMAN, 2003]. Une équivalence (C ≡ D) indique que les individus de C sont des individus de D et vice versa

Des logiques de description plus expressives

D’autres logiques peuvent être rendues plus expressives en ajoutant de nouveaux constructeurs à la logique AL. La logique ALC 4 est ainsi construite en ajoutant la négation complète (AL permet uniquement la négation de concept atomique). L’intérêt est de disposer des constructeurs de disjonction (C ⊔D) et de quantification existentielle complète (∃R.C). Nous donnons deux exemples d’usage :
— le concept « des images ayant reçu des traitements radiométriques » avec l’expression (Image ⊓ ∃traitement_recu.Radiometrique)
— le concept désignant « les images autres que les images satellites » avec l’expression (Image ⊓ ¬∀produit_par. Satellite).
Le nom de la logique est un mnémonique qui fait état des différents constructeurs offerts par ce fragment de logiques de description . R+ introduit la transitivité des rôles, F permet la définition de rôles fonctionnels. La restriction des cardinalités sur les rôles est rendue possible par le fragment N , la restriction qualifiée est, quant à elle, introduite par le fragment Q. O donne la possibilité d’utiliser les énumérations, H celle de définir des hiérarchies de rôles atomiques et R des hiérarchies de rôles non-atomiques. Finalement, le fragment I permet l’inversion des rôles.

Les domaines concrets

Les logiques de description permettent de modéliser efficacement des connaissances riches et complexes. Cependant, ces logiques souffrent d’une limitation importante. Elles ne permettent pas d’exprimer des connaissances sur des qualités concrètes. En effet, toutes les connaissances exprimées doivent correspondre à des éléments abstraits. Cela peut parfois poser des problèmes pour modéliser des entités au travers des descriptions quantitatives, telles que le temps, la distance, la température ou simplement des seuils de valeurs. Pour pallier ce manque, BAADER et HANSCHKE (1991) ont proposé d’étendre la logique ALC avec un domaine concret (D). Un domaine concret consiste en un ensemble d’éléments concrets, tels que l’ensemble des entiers, et un ensemble de prédicats, tels que les relations d’ordre « <, > », définis sur l’ensemble des éléments concrets. Les deux ensembles ont une interprétation prédéfinie et unique, et ce dans tous les domaines d’interprétation. L’ajout d’un domaine concret aux logiques de description se fait en ajoutant à la logique de description des constructeurs correspondant aux éléments du domaine concret, ainsi que des rôles permettant d’associer les valeurs des éléments du domaine concret aux éléments abstrait de la logique de description cible [LUTZ, 2002].

Les langages de description des données

L’evolution du Web vers une dimension sémantique [BERNERS-LEE, HENDLER et LASSILA, 2001; SHADBOLT, BERNERS-LEE et HALL, 2006] a conduit le W3C à établir des standards de données complémentaires permettant d’attacher aux ressources une description et une sémantique interprétables à la fois par les humains et par les ordinateurs. L’idée est de définir un cadre de traitement novateur de l’information, dans lequel les agents logiciels disposent d’une information qui leur est intelligible, et qu’ils vont pouvoir traiter et gérer efficacement. Dans cette perspective, le Web sémantique a naturellement placé les ontologies au centre de la proposition en tant que dispositifs chargés d’apporter cette nouvelle intelligibilité. Le W3C propose un enrichissement progressif des ressources décrites, au travers de standards de description de données. Ces standards peuvent être vus comme des briques indépendantes, où chaque standard vient répondre à des besoins d’expressivité spécifiques et peut satisfaire ses propres utilisations. Cependant, ces langages entrent dans le cadre d’une vision globale, chaque langage sert alors de support au langage du niveau supérieur, conduisant à une architecture sous forme d’empilement de couches, appelée « Semantic Web Stack » (figure 2.1). Pour un maximum d’efficacité, les couches doivent répondre à différentes préconisations, actuellement seuls les niveaux du bas de la pile s’étageant jusqu’au langage OWL sont standardisés. XML a été adopté comme standard de base pour la représentation des couches supérieures. RDF établit un cadre général autour de la ressource afin d’en standardiser la description. Le standard RDFS (RDF Schema) vient par la suite introduire quelques éléments fondateurs de modélisation des connaissances au travers en particulier de la notion de schéma et de classe. Finalement, OWL est le langage élaboré pour permettre une représentation ontologique complète des connaissances en se fondant sur les formalismes des logiques de description.

Raisonnement et interprétation automatisée

Les logiques de description permettent de formaliser les connaissances en utilisant les constructeurs introduits par les différents fragments. Chaque constructeur est doté d’une sémantique précise et bien définie. L’objectif du raisonnement est d’inférer des connaissances implicites en calculant les conséquences logiques des connaissances modélisées, et donc explicites. Les raisonneurs représentent les programmes qui implémentent les procédures de calcul des conséquences logiques des connaissances explicitées et permettre ainsi une interprétation automatisée. La figure 2.4 donne une vision « boîte noire » des raisonneurs. Son but est de montrer le fonctionnement des services d’inférence et non d’expliquer son fonctionnement interne. Un raisonneur prend en entrée les connaissances formalisées (en OWL pour un raisonneur qui exploite ce standard) et calcule les conséquences logiques relatives aux tâches demandées au travers des requêtes. Les mécanismes de raisonnement offrent globalement des fonctionnalités s’articulant sur quatre mécanismes d’inférence :
1. La vérification de la consistance : Il s’agit de vérifier l’absence de faits (déclarations) contradictoires dans l’ensemble de l’ontologie. Elle implique une vérification de la consistance des déclarations au niveau de la TBox et une vérification du respect des instances de l’ABox des règles définis par les concepts de la TBox;
2. La satisfiabilité d’un concept : Il s’agit de vérifier que pour un concept donné de la TBox, il est possible d’avoir des instances de l’ABox qui vont peupler ce concept ;
3. La classification de l’ontologie : Il s’agit de calculer les relations de « sous-classe » entre les concepts nommées de la TBox pour créer la hiérarchie complète entre ces concepts ;
4. La réalisation : Ce niveau de raisonnement permet de trouver le concept le plus spécifique de la TBox auquel appartient une instance de l’ABox.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Résumé
1 Introduction
1.1 Motivations et objectifs de la thèse
1.1.1 Contexte
1.1.2 Problématique
1.1.3 Objectifs
1.2 Organisation du mémoire
1.3 Cadre institutionnel
1.3.1 COCLICO
1.3.2 UMR ESPACE-DEV
1.3.3 UMR LIPN
1.3.4 Co-Encadrement de la thèse
2 Ontologie et Logiques de Description
2.1 Introduction
2.2 Les logiques de description
2.2.1 La logique de description minimale AL
2.2.2 Des logiques de description plus expressives
2.2.3 L’interprétation des logiques de description
2.2.4 Les domaines concrets
2.3 Les langages de description des données
2.3.1 XML : Langage de balisage extensible
2.3.2 RDF
2.3.3 RDFS
2.3.4 OWL
2.4 Raisonnement et interprétation automatisée
2.5 Résumé
3 Classification à base d’apprentissage
3.1 Introduction
3.1.1 Classification supervisée
3.1.2 Classification non-supervisée
3.1.3 Apprentissage semi-supervisé
3.2 Clustering
3.2.1 Les approches de clustering
Méthodes hiérarchiques
Méthodes à base de densité
Méthodes probabilistes
Méthodes à base de graphes
Méthodes à base de distance
3.2.2 K-Means
3.2.3 Cartes auto-organisatrices
3.2.4 Qualité des résultats du clustering
Mesures externes
Mesures internes
3.2.5 Complexité des algorithmes
3.3 Résumé
4 Les images satellites
4.1 Introduction
4.2 Les images numériques
4.3 Les images d’observation de la Terre
4.3.1 L’acquisition des images satellites
4.3.2 Les images satellites en tant que données complexes
Métadonnées
4.3.3 Les différents satellites d’observation de la Terre
SPOT
Pléiades
LANDSAT
4.3.4 Accès aux images satellites
4.4 Résumé
5 Connaissances et Apprentissage
5.1 Introduction
5.2 Fossé sémantique : De l’image au concept
5.3 Approches d’analyse d’images satellites
5.3.1 Approches basées pixel
5.3.2 Approches basées régions
5.3.3 Avantages et limites des deux approches d’analyse
5.4 Connaissances pour l’interprétation et la classification d’images
5.4.1 Les connaissances pour l’enrichissement des descriptions
5.4.2 Autres propositions à base d’ontologie et apprentissage
5.4.3 Discussion des travaux
5.5 Intégration des connaissances en apprentissage
Classification semi-supervisée
5.5.1 Clustering semi-supervisé
5.5.2 Clustering par contraintes
Clustering par contraintes sur l’affectation des instances
Contraintes sur l’initialisation des clusters
Contraintes par modification de la fonction objective
5.5.3 Discussions des travaux
5.6 Utilisation mutuelle des connaissances formalisées et du clustering
5.7 Résumé
6 Ontologie et clustering semi-supervisé
6.1 Introduction et motivations
6.2 Vue globale de l’approche
6.2.1 Conceptualisation et formalisation des connaissances expertes
Conceptualisation de référence .
Connaissances contextuelles
6.2.2 Projection des données dans l’ABox de l’ontologie
6.2.3 Interprétation sémantique : Inférence du type des instances
6.2.4 Génération automatisée des contraintes à partir des données étiquetées par l’ontologie
6.2.5 Clustering guidé par contraintes
6.2.6 Capitalisation des résultats et propagation de l’étiquetage sémantique
6.3 Mise en oeuvre
6.3.1 Données : Images LANDSAT
6.3.2 Calibration radiométrique des images satellites
6.3.3 Ontologie du domaine pour les images d’observation de la Terre
Conceptualisation de référence d’images pour l’observation de la Terre
Connaissances contextuelles sur les classes d’occupation du sol
6.4 Expérimentations
6.4.1 Protocole expérimental
6.4.2 Classifications de référence
6.4.3 Résultats
Résultats sur la région du sud de la France
6.5 Discussions
6.6 Valorisation scientifique
7 Raisonnement optimisé par clustering topographique
7.1 Introduction et motivations
7.2 Raisonnement sur une base de connaissances de grande taille
7.2.1 Clustering à base des cartes auto-organisatrices
7.2.2 Raisonnement et étiquetage sémantique des données
7.3 Validation expérimentale
7.3.1 Expérimentations sur le wine dataset
7.3.2 Interprétation d’images satellite
7.4 Discussions
7.5 Valorisation scientifique
8 Conclusion et perspectives
8.1 Synthèse des travaux
8.1.1 Contributions
8.2 Perspectives
8.2.1 Perspectives pour la classification à base d’ontologie et de clustering par contraintes
8.2.2 Perspectives pour l’optimisation du raisonnement par clustering topographique
8.2.3 Perspectives à long terme
8.3 Valorisation
Publications internationales
Publications nationales
Bibliographie