Télécharger le fichier pdf d’un mémoire de fin d’études
IDENTIFICATION DES CORRESPONDANCES
La seconde étape du processus d’intégration concerne l’identification des correspondances et la détection des conflits entre les éléments des schémas. Il convient de préciser quels sont les éléments qui expriment les mêmes phénomènes dans le monde réel et comment ils se correspondent dans les bases (par exemple, il faut préciser que la classe « Livre » dans une base correspond à la classe « Ouvrage » dans la seconde). Un langage peut être utilisé à cette fin. Celui proposé par [Spaccapietra et al. 1992] s’appuie sur la notion d’Assertion de Correspondance Inter-schémas (ACI). Les ACI définissent les correspondances en intention, c’est-à-dire au niveau des types (non au niveau des instances). Ce langage semble bien adapté aux bases de données géographiques. Il a d’ailleurs été retenu et étendu par Thomas Devogele dans le cadre de sa thèse [Devogele 1997, Devogele et al. 1998]. Il a également été utilisé lors du projet mené par la société EADS Matra S&I en collaboration avec le laboratoire COGIT (projet « Serveur Géographique Multi-Echelles »), pour le compte de la DGA (Délégation Générale pour l’Armement) [Badard et al. 2001]. Nous décrivons ce langage ci-dessous. Nous l’utiliserons dans le cadre des expérimentations (cf. E.3.4.1).
IDENTIFICATION DES CORRESPONDANCES ET DES CONFLITS ENTRE LES SCHEMAS
L’identification des correspondances entre les schémas est une étape analogue à celle du processus d’intégration classique. Néanmoins, le nombre de conflits entre les éléments des schémas (et par conséquent entre les données) est beaucoup plus important.
En plus des conflits d’hétérogénéité habituels, il existe des conflits spécifiques aux BD géographiques [Laurini 1996, Parent et al. 1996]. Les bases à intégrer présentent généralement des différences de niveaux de détails [Ruas 2002a] et par conséquent, la représentation des objets est souvent différente. En effet, pour des raisons de lisibilité, la résolution impose de ne saisir que des objets d’une certaine taille. De plus, certaines caractéristiques des objets sont gommées ou généralisées : des angularités disparaissent, des objets sont fusionnés, simplifiés, des décrochements sont éliminés, etc. Le contenu des bases est donc différent. Ceci ne résulte pas seulement des différences de résolution. Ces différences découlent également des différences de point de vue que l’on peut porter sur l’espace (cf. introduction). Un urbaniste et un agronome auront un regard différent sur l’occupation du sol par exemple. Par ailleurs, le niveau de qualité des BD est rarement le même. Il dépend de la résolution mais également de la tolérance que s’imposent les producteurs. L’un d’eux peut accepter un taux de confusion de 10% entre les classes de la base par exemple (paramètre d’exactitude sémantique). Un autre producteur peut fixer son taux à 5%. Toutes ces différences ne sont pas directement visibles au niveau des schémas. Ainsi, si l’on compare deux schémas de sources différentes, on retrouvera les conflits classiques d’hétérogénéité, comme les différences de classification des éléments, de domaine de valeur des attributs, etc. Pour comprendre la sémantique des éléments du schéma et se rendre compte de la majorité des différences de représentation, il est nécessaire d’étudier les spécifications des sources. C’est seulement à l’issue de cette étude que les différences de représentation vont pouvoir être exprimées de manière précise dans les ACI si comme le propose [Devogele 1997], ce langage est étendu pour supporter la déclaration des conflits spécifiques aux BDG.
Nous avons représenté en figure 16 un extrait de deux schémas à intégrer (nous nous sommes limités à une classe pour simplifier l’exemple). Un examen rapide de ces classes permet d’identifier des différences : la BD1 possède davantage d’attributs que la BD2, un découpage différent semble exister pour l’attribut concernant le sens de circulation des tronçons, et deux attributs présentent une dénomination différente. Après une analyse des spécifications, les différences entre les classes ont pu être précisées. D’abord, un conflit relatif au critère de sélection a pu être mis en évidence et celui-ci n’était pas perceptible auparavant. Ainsi, il a pu être spécifié que les tronçons de la BD1 n’ont un correspondant dans la BD2 que si leur longueur est supérieure à 200 mètres (critère d’existence d’un objet de la base BD2). Ensuite, l’équivalence entre les attributs « type » et « importance » a pu être déclarée (les attributs ont donc le même sens). Enfin, le découpage différent des attributs a été confirmé. La somme des valeurs des attributs relatifs au nombre de voies de la BD1 correspond à la valeur de l’attribut « Nb_Voies » dans la BD2.
IDENTIFICATION DES CORRESPONDANCES ET DES CONFLITS ENTRE LES DONNEES
Nous venons de discuter de l’identification des correspondances et des conflits entre les éléments des schémas. Ils sont exprimés au moyen d’un langage qui nécessite d’être étendu pour prendre en compte les particularités des BDG. Dans le cadre des BD traditionnelles, la deuxième étape du processus d’intégration s’achèverait ici. Dans notre contexte, il est également nécessaire d’identifier les correspondances au niveau des données.
Comme nous l’avons déjà précisé en présentant le langage des ACI, il est rarement possible de s’appuyer sur la notion d’identifiant commun pour mettre en correspondance les instances (avec la clause AIC). En plus des relations à déclarer entre les classes et les attributs des schémas source, il est nécessaire de mettre en œuvre un processus d’appariement spécifique qui relie les instances géométriques. On exploite donc la géométrie des objets et leur position pour les apparier mais rarement leurs informations attributaires. Nous distinguons de ce fait l’étude des correspondances entre les schémas et les données de même que leur intégration.
La distinction de ces étapes ne veut pas dire que l’intégration des schémas et des données est complètement déconnectée. Au contraire, avant d’apparier les instances géométriques, il est nécessaire de sélectionner les classes dont le contenu s’intersecte. On doit avoir une idée, même approximative, des correspondances entre les éléments des schémas (la sélection des candidats à l’appariement peut se limiter à un thème par exemple, comme le thème hydrographique). Réciproquement, l’appariement géométrique peut grandement faciliter la déclaration des correspondances au niveau des schémas. Par exemple, il est relativement facile de constater interactivement qu’à l’issue de l’appariement d’un ensemble de données, les éléments de la classe « Route » de la première BD sont en correspondance avec les éléments de la « Route » et « Chemin » de la seconde. Plus exactement, on peut s’apercevoir que les routes dont l’attribut nature a pour valeur ‘chemin’ sont appariées avec les instances de la classe « Chemin ». L’appariement peut donc être utilisé pour aider à analyser les spécifications des bases, tâche souvent fastidieuse mais nécessaire pour décrire les correspondances entre les schémas.
Au terme de l’appariement, un ensemble de couples d’objets appariés est fourni et ces couples mettent en évidence un ensemble de différences : les conflits de données [Devogele 1997] (figure 17).
A ce niveau, on retrouve tous les conflits exprimés dans les assertions de correspondances inter-schémas avec en plus des correspondances entre les données qui ne sont pas cohérentes au regard des spécifications (conflits anormaux). Il reste donc à l’issue de l’appariement des données une autre grande étape à mettre en œuvre : l’analyse et l’interprétation des différences entre les correspondances pour distinguer les conflits normaux des conflits anormaux. Cette étape est indispensable pour assurer une cohérence dans le système intégré et éviter l’intégration d’erreurs. Elle est pourtant généralement passée sous silence et rarement abordée dans le cadre des BDG (nous le verrons dans la suite de ce chapitre).
APPROCHE DE [LASSOUED ET AL. 2004]
Une autre contribution récente fondée sur l’utilisation de l’apprentissage automatique multi-stratégies a récemment été proposée [Lassoued et al. 2004]8. Les auteurs cherchent à établir les correspondances entre un schéma global défini dans un contexte de médiation et de nouveaux schémas source. Leur méthode est inspirée des travaux de [Doan et al. 2003], adaptés aux BD géographiques. Les schémas initiaux sont d’abord traduits dans le modèle de données préconisé par l’OpenGIS Consortium et enregistré dans le format GML (« Geography Markup Language »)9. Les schémas source sont ensuite raffinés et étendus de façon à faciliter l’intégration (on peut faire l’analogie avec l’étape d’enrichissement sémantique du processus d’intégration). Ce raffinement est réalisé en se fondant sur la notion d’attribut discriminant qui permet de spécialiser certaines classes des schémas (on décompose par exemple un attribut énuméré en plusieurs sous-classes). La recherche de ces propriétés discriminantes est facilitée par l’emploi d’apprenants (algorithmes d’apprentissage automatique) : le « Name Learner » et le « Content Learner ». A partir d’un ensemble d’exemples d’apprentissage composés des noms d’attributs et de leurs valeurs (avec leur classe correspondante fournie par l’expert : attribut discriminant ou non), les apprenants permettent d’associer des notes (scores) aux attributs, reflétant le degré auquel ils considèrent ces attributs comme discriminant ou non. Ces notes sont combinées par un méta-apprenant qui détermine des coefficients de confiance sur les apprenants respectifs. Une fois ce raffinement réalisé, les correspondances entre le schéma étendu et le schéma global sont déterminées. Plusieurs apprenants sont également utilisés à cette étape dont un apprenant géométrique. Celui-ci exploite cette fois les propriétés géométriques des objets du schéma source pour les classer. Le système d’apprentissage est fondé sur un réseau de neurones : à partir de propriétés géométriques calculées, le système détermine la classe de l’objet (route, bâtiment, cours d’eau, …).
Cette contribution est donc d’ordre méthodologique, mais vise aussi à trouver des solutions pour automatiser la mise en correspondance des schémas. C’est une approche qui exploite l’apprentissage automatique, comme celle que nous proposons dans cette thèse.
APPROCHE DE [FRIIS-CHRISTENSEN 2003] POUR LA REPRESENTATION MULTIPLE
Avant de clore cette partie sur les modèles conceptuels de données, mentionnons les travaux de [Friis-Christensen 2003]. L’auteur propose également une approche pour la modélisation de la représentation multiple qui est complémentaire aux précédentes. Plutôt que de définir comment les objets des différentes bases représentant un même phénomène se correspondent, ils décrivent plutôt les correspondances entre ces objets et le phénomène. De ce fait, un nouveau type d’objet est introduit : l’objet d’intégration (i-objet). Il représente une vision intégrée de l’entité géographique du monde réel (le phénomène). Les objets incarnant cette entité dans les différentes bases (r-objets) sont vus comme des rôles.
Ce sont d’abord les r-classes qui sont modélisées (issues des schémas source). Une i-classe est ensuite créée et reliée à ses r-classes à travers une association multi-représentations (mr-association). Les correspondances d’objets (OC) permettent de spécifier les dépendances d’existence entre l’instanciation d’une i-class et ses r-objets associés. Autrement dit, les OCs expriment quels sont les r-objets requis pour créer un i-objet (un objet intégré). Ce sont des règles d’intégration. Il est également possible de définir des contraintes sur les associations pour préciser les conditions de création des i-objets. La figure 23 illustre un exemple. Le langage OCL (« Object Constraint Language ») est utilisé à cette fin. Les contraintes représentées expriment qu’un i-objet n’est créé que si la surface des r-objets ‘bâtiment’ dans la base R1 est supérieure à 25m² (contrainte), s’il existe au moins un objet de ce type dans R1 (cardinalité 1), et un objet homologue dans la base R2 (cardinalité 1 également). Le langage permet aussi de spécifier les correspondances entre les valeurs d’attributs (VC) et des règles permettant d’apparier les r-objets (condition pour créer un i-objet). A l’issue de cet appariement, il est possible qu’une OC ne soit pas satisfaite. En d’autres termes, l’appariement peut être incohérent : le i-objet est incomplet (les correspondances entre les r-objets ne sont pas valides). Dans ce cas, il existe des règles exprimant les actions à appliquer. Celles-ci peuvent être diverses : élimination ou insertion de r-objets, mises à jour ou transformations plus complexes. L’auteur ne précise pas les connaissances qu’il utilise pour composer ces règles.
INTEGRATION FONDEE SUR L’UTILISATION D’UNE ONTOLOGIE
Parmi les approches méthodologiques que nous avons présentées, la plupart traitent l’hétérogénéité sémantique (différence de signification entre concepts). La déclaration des ACI par exemple permet d’en tenir compte. Il existe d’autres contributions spécifiques à cette problématique dont celle de [Rodriguez 2000] notamment. L’auteur propose un modèle, le Matching Distance, qui permet d’évaluer la similarité sémantique entre classes d’objets à intégrer. Cette évaluation est réalisée à l’aide d’une « distance » sémantique en s’appuyant sur des ontologies. Le modèle SFDS (Semantic Formal Data Structure) proposé par [Bishr 1997] est un autre exemple. L’architecture de ce modèle est composée de trois niveaux : le premier comprend les BD et les schémas source, le second est constitué de vues externes sur ces schémas source avec une description du contexte associé, le troisième est le médiateur de contexte composé du schéma fédéré, d’une description de son contexte et d’une ontologie commune. L’évaluation de la similarité sémantique entre les classes est rendue possible grâce à une ontologie commune.
Les ontologies sont de plus en plus utilisées aujourd’hui pour traiter l’hétérogénéité sémantique [Kavouras et Kokla 2000, Ram et al. 2001, Cruz et al. 2002, Fonseca et al. 2002, Visser et al. 2002, Hakimpour 2003, Jaudoin et al. 2003, Morocho et al. 2003, Stoimenov et Đorđević-Kajan 2002, Brodeur 2004, Gesbert et al. 2004]. Nous expliquons ci-dessous à quoi fait référence une ontologie et le rôle qu’elle peut jouer pour l’intégration.
Il existe plusieurs définitions d’un point de vue informatique de la notion d’ontologie. En intelligence artificielle, [Gruber 1993] a définit l’ontologie comme « la spécification explicite d’une conceptualisation ». Cette conceptualisation est représentée par un ensemble de concepts, relations, objets et contraintes qui définissent un modèle sémantique d’un domaine [Guarino 1998]. Une ontologie est donc une description explicite de la sémantique des éléments d’un domaine considéré. De ce fait, l’utilisation d’une ontologie est particulièrement adaptée pour résoudre les conflits d’hétérogénéité sémantique puisqu’elle permet la compréhension d’un vocabulaire. Différentes solutions existent pour identifier et associer les concepts communs des différentes sources en utilisant une ontologie. Trois approches peuvent être adoptées : l’approche globale, l’approche multiple et l’approche hybride [Wache et al. 2001]. Dans la première approche, une seule ontologie globale est définie (figure 24). Chaque source est reliée à cette ontologie globale et la similarité sémantique peut être évaluée en vérifiant que les éléments des sources sont reliés au même concept de l’ontologie. Dans la seconde approche, l’approche multiple, une ontologie locale est définie pour chaque source. Il n’existe pas de vocabulaire commun et un mapping entre les ontologies locales est nécessaire (correspondances entre termes égaux ou similaires). L’approche hybride mêle les deux solutions précédentes. Chaque source a sa propre ontologie définie à partir d’une ontologie globale (ou d’un vocabulaire commun). Les ontologies locales sont ainsi plus facilement comparables et l’ajout de nouvelles sources est aisément supporté. C’est l’approche notamment suivie par [Stoimenov et Đorđević-Kajan 2002].
APPARIEMENT AUTOMATIQUE DE DONNEES GEOGRAPHIQUES
L’appariement de données géographiques désigne le processus qui « consiste à établir des liens de correspondance entre des ensembles d’entités géographiques symbolisant les mêmes phénomènes du monde réel dans deux représentations de celui-ci » [Badard et Lemarié 2002, p. 163].
Les techniques d’appariement géométrique ont généralement été proposées dans trois contextes différents :
• Les contrôles qualité des BDG : l’appariement doit être mis en œuvre pour permettre la comparaison du jeu de données à contrôler et la référence. On peut citer à ce sujet le travail de [Bel Hadj Ali 2001].
• La propagation des mises à jour : l’appariement peut être utilisé dans un contexte de mise à jour lorsqu’aucune trace des modifications entre les différentes versions d’une BDG n’existe. La mise en correspondance des données permet la détection des différences entre les versions et facilite la déduction des évolutions subies [Badard 2000].
• L’intégration : comme nous l’avons déjà indiqué, l’appariement géométrique est nécessaire pour mettre en correspondance les données des différentes sources [Devogele et al. 1996, Laurini 1996, Sester et al. 1998, Walter et Fritsch 1999, Pendyala 2002, Dunkars 2003].
Le niveau de complexité du processus et des outils d’appariement est différent suivant le contexte d’utilisation. Dans le cadre des mises à jour, les objets sont définis d’après les mêmes spécifications. Les objets identiques seront facilement appariés et toute différence sera considérée comme une évolution. Pour l’intégration par contre, l’appariement est moins évident car les niveaux d’abstraction des BD sont généralement différents en plus des différences de mises à jour éventuelles. Les outils développés dans ce contexte sont plus complexes.
Les méthodes d’appariement automatique proposées dans la littérature suivent généralement une des stratégies suivantes : stratégie ascendante, descendante ou une combinaison des deux. Dans la première approche, les éléments de base sont d’abord appariés puis reliés en objets plus complexes. Les tronçons de routes par exemple peuvent être d’abord appariés pour ensuite être agrégés et former une route. L’agrégation peut se faire en une fois, lorsque tous les éléments de base ont été reliés indépendamment à leur homologue, ou de manière séquentielle, en appariant un élément et en traitant ensuite de proche en proche les éléments connectés [Gabay et Doytsher 2000]. L’approche descendante adopte la stratégie inverse. Ce sont les objets de haut niveau qui sont d’abord appariés puis les éléments les composant. Enfin, certains auteurs combinent les deux approches (ascendante et descendante), essentiellement pour établir des liens plus rapidement et augmenter la précision des résultats [Pendyala 2002].
En plus de ces différentes stratégies, les méthodes d’appariement peuvent être contextuelles. En effet, il est possible de tenir compte des résultats de l’appariement des éléments voisins pour confirmer ou infirmer l’appariement d’un élément en cours de traitement [Walter et Fritsch 1999]. Les processus auxquels nous faisons référence dans cette partie se fondent essentiellement sur la géométrie des objets. Des ressemblances géométriques et topologiques entre les jeux de données sont calculées de manière indépendante ou coordonnée. Différentes mesures de distance et de forme sont utilisées pour comparer les objets en tenant compte de leur mode d’implantation (point, ligne, polygone). Pour les relations de proximité, il peut s’agir d’une simple distance euclidienne ou de distances plus spécifiques (Hausdorff, Fréchet, distance surfacique). Pour comparer les formes, différents caractères peuvent être retenus (longueur, sinuosité, compacité, etc.). Généralement, une étape de filtrage est ensuite nécessaire pour affiner le premier résultat de l’appariement et éliminer certains candidats. Des outils topologiques peuvent être utilisés à cet effet (nombre d’arcs entrants et sortants, plus court chemin, détection d’impasse, etc.). Les liens de correspondance sont finalement établis et validés. Leur cardinalité peut prendre les valeurs suivantes : 0-1, 1-0, 1-1, 1-n, n-1, n-m.
Nous donnons à la figure 26 un exemple de résultat d’appariement. On trouvera une description plus détaillée des outils généralement utilisés dans [Lemarié et Bucaille 1998, Badard et Lemarié 2002]. Nous exposerons d’autre part les processus mis en œuvre dans cette thèse dans le chapitre E. L’appariement est une étape centrale dans notre contexte d’évaluation de la cohérence puisque si les données ne sont pas appariées, il n’est pas possible d’analyser les différences.
GESTION DES CONFLITS ET MAINTIEN DE LA COHERENCE ENTRE LES DONNEES
Cette partie décrit les contributions qui touchent précisément notre sujet de recherche. Nous avons vu en présentant les spécificités du processus d’intégration des BDG que l’appariement des données devait être suivi d’une étude des correspondances pour évaluer leur conformité. Les conflits de données (différences entre les données) doivent être détectés et justifiés pour garantir une intégration cohérente. Pour préciser à nouveau cette problématique, prenons l’exemple de l’AAC suivante : Cette assertion indique un conflit de granularité entre attributs des deux BD (d’après la classification de [Devogele 1997]). Le nombre de voies d’un tronçon de la première BD est égal au nombre de voie d’un tronçon équivalent dans la deuxième BD si la longueur du tronçon dans celle-ci est supérieure à 1000m. Il s’agit d’un conflit normal (puisqu’il est ici déclaré au niveau des schémas) et ce conflit est susceptible d’être rencontré dans les données.
Dans l’hypothèse où les longueurs des deux tronçons sont supérieures à 1000m mais qu’il existe une erreur de saisie dans une des deux bases, les valeurs seront différentes pour l’attribut « Nb_voies » alors que l’AAC indique que celles-ci doivent être égales. Il existera donc cette fois une incohérence entre les objets homologues (conflit anormal) qui pourrait apparaître à l’utilisateur lors de la formulation d’une requête impliquant ces objets. Il est donc nécessaire de les détecter et de les traiter pour mener à bien l’intégration.
Il existe assez peu de travaux qui se rapportent à la détection des conflits de données et en particulier, des incohérences, bien que la nécessité de résoudre cette problématique soit identifiée depuis longtemps [Buttenfield et Delotto 1989]. Les contributions les plus nombreuses concernent l’étude des équivalences entre relations spatiales entre objets décrits à différentes échelles. Ces travaux permettent de déterminer si les relations spatiales existant entre les objets d’une base sont cohérentes avec celles apparaissant entre les objets homologues d’une autre base, ces bases ayant leur propre niveau de détail. Nous les présentons ci-dessous.
Une proposition a été faite par [Egenhofer et al. 1994] pour assurer une cohérence topologique entre des données surfaciques représentées à différentes résolutions. Leur approche est fondée sur le modèle des 4-intersections qui est largement répandu dans la communauté SIG et qui a d’ailleurs été étendu par la suite au modèle des 9-intersections [Egenhofer et Franzosa 1991, Egenhofer et Herring 1991]. Ces modèles se fondent sur les concepts de topologie ensembliste basée sur les notions d’intérieur (noté A°) et de frontière (notée∂A). Ainsi, les auteurs proposent de qualifier l’ensemble des relations topologiques entre deux régions A et B à partir d’une matrice (2×2), la matrice des 4-intersections, qui est représentée de la manière suivante : I A°∩B° A°∩∂B (A, B) = 4 ∂A∩B° ∂A∩∂B.
DIFFERENCES ENTRE CONTEXTES DE RAISONNEMENT ASSOCIES A DES BASES DE DONNEES GEOGRAPHIQUES SELON LE MODELE KRA
Dans un contexte d’intégration, plusieurs bases de données sont impliquées. En général, ces bases présentent des différences et l’objectif de l’intégration est de les relier de manière cohérente pour tirer profit de leurs singularités respectives. Les bases que l’on intègre possèdent donc chacune leur propre contexte de raisonnement qui les distingue aux quatre niveaux de connaissances (figure 33) : au niveau du terrain nominal, puisque les spécifications sont généralement différentes, au niveau de la structure, puisque les objets mémorisés ne sont pas les mêmes et que les modèles de stockage peuvent différer, au niveau du langage, les objets n’étant pas représentés de la même manière, et au niveau des théories, puisque les réponses aux requêtes formulées sont différentes en raison des différences de contenu et de représentation. Si les bases de données à intégrer ne possèdent pas la même résolution, des différences d’abstraction peuvent apparaître entre les données. Cette notion d’abstraction a été introduite dans le modèle KRA. Une abstraction entre deux contextes de raisonnement est vue comme « un changement de représentation dans un même formalisme, qui en cachant des détails et en préservant des propriétés désirables, simplifie la représentation du problème initial » [Zucker 2001, p. 45]. Le passage d’un contexte de raisonnement à un autre se fait par l’intermédiaire d’opérateurs d’abstraction qui représentent un type de transformation qui simplifie une représentation. Par exemple, il existe un ou plusieurs opérateurs d’abstraction pour passer du langage L1=D1(S1) au langage L2=D2(S2) si on peut considérer que la deuxième représentation est plus « simple » que la première (figure 33). Dans notre contexte, certains opérateurs d’abstraction correspondent aux opérations de transformation géométrique utilisées pour la généralisation cartographique [Mustière et al. 2000a]. Cependant, l’intégration ne se limite pas à des bases présentant des résolutions différentes. On peut vouloir unifier des données de même résolution qui possèdent des points de vue différents sur l’univers à représenter. Il n’existe donc pas toujours une représentation plus simple que l’autre et de différences d’abstraction entre les bases.
CONNAISSANCES DEDUITES DES SPECIFICATIONS DES BDG
Les spécifications des bases de données géographiques nous faisons référence ici à celles décrites dans les documents constituent la description détaillée du contenu d’un produit. Ainsi, les spécifications décrivent les règles de sélection des objets dans la base et la manière de les représenter. Elles sont destinées aux opérateurs chargés de la production de la base, c’est-à-dire les restituteurs qui saisissent les données à partir de photographies aériennes et les géomètres qui complètent cette saisie en récoltant des informations supplémentaires sur le terrain. Une version simplifiée des spécifications est également fournie aux utilisateurs de la base. Elles leurs permettent d’évaluer en partie l’adéquation du produit à leur besoin, et constituent des métadonnées sur ce produit.
Les spécifications des BDG, dans le cas de l’IGN, se caractérisent par des documents volumineux (plusieurs centaines de pages) comprenant des connaissances déclaratives et procédurales, sous forme de texte. Déclaratives parce qu’elles précisent ce que sont les objets de la base (le « quoi »). Procédurales car elles indiquent aussi la manière de saisir ces objets (le « comment »). Les spécifications sont découpées selon les classes du schéma conceptuel de la base qui fait d’ailleurs partie intégrante de ces spécifications16. A chaque classe de la base correspond ainsi une fiche de spécifications qui présente une certaine structuration.
Chaque fiche relative à une classe est composée de plusieurs parties, c’est du moins le cas pour la BDPays de l’IGN (figure 36).
CONNAISSANCES INDUITES DES DONNEES
Une partie de l’information que nous devons exploiter pour étudier les différences de représentation se retrouve dans les données. C’est une conséquence de l’imprécision des spécifications mais c’est aussi lié à une caractéristique bien particulière des bases de données géographiques : la présence d’informations implicites.
Il existe un décalage entre ce qui est perçu lorsqu’on observe des données géographiques représentées graphiquement et ce qui est effectivement stocké dans la base de données. La quantité d’informations véhiculées par la géométrie est beaucoup plus importante que celle qui est mémorisée. Par exemple, si on visualise les données de la figure 40, on peut voir qu’une route droite mène à des maisons isolées, qu’une route sinueuse traverse le village ou encore, que la densité de l’espace bâti dans le centre ville est élevée. Dans la base, seules les routes et les maisons sont stockées, avec des coordonnées bien précises. Les caractères droit et sinueux des routes ne sont pas directement accessibles, de même que la notion d’isolement des bâtiments ou de densité des îlots. C’est également le cas de la plupart des relations spatiales entre les objets (la route qui mène aux bâtiments). Certaines structures de données prennent en compte la topologie mais les relations métriques par exemple (distance entre les objets, orientation) sont rarement stockées.
Ce décalage existe également entre ce qui est décrit dans les spécifications et les données elles-mêmes. Les spécifications font souvent référence à des objets du monde réel qui sont implicitement présents dans la base. Par exemple, on retrouve pour la BDTopo des contraintes du type : « Pour les carrefours en patte d’oie, deux branches ne sont individualisées par la saisie de leurs deux axes qu’à partir du moment où leur écartement au débouché sur l’autre route est au moins égal à 50 mètres ». Les spécifications décrivent les règles de sélection relatives aux ronds-points de manière analogue (en fixant un seuil), mais les classes de ces objets (« Rond-point », « Patte d’oie ») n’existent pas dans la BD. Ils sont constitués d’un ensemble de tronçons de route (des arcs) et de carrefours simples (des nœuds). Pour vérifier les spécifications, il faut donc d’abord reconstituer ces objets. Dans le cas des pattes d’oie et des ronds-points, la limite des objets est précise mais qu’en est-il des agglomérations par exemple ou des villes : « en ville, les grands boulevards n’ont pas toujours leurs voies matérialisées, le nombre de voies saisi est celui qui est réellement utilisé » ; « en milieu rural, on indique toutes les pistes cyclables ». Ces phénomènes (« ville », « milieu rural ») existent aussi tacitement dans la base mais sont bien plus complexes à reconstituer [Boffet 2001].
L’implicite domine encore dans les données en raison de l’espace géographique lui-même. En particulier, l’existence de phénomènes (naturels ou construits par l’homme) est généralement liée à la présence ou l’absence d’autres phénomènes, à leur contexte. Ces dépendances spatiales peuvent être évidentes : s’il y a un cours d’eau, il y a forcément une source ou s’il existe une gare, on s’attend à la présence de voies ferrées. Certaines corrélations spatiales sont moins triviales : la localisation de l’habitat des merles à ailes rouges est davantage liée à la présence de plantes robustes (résistant à l’action du vent) qu’à l’espèce de la plante elle-même [Chawla et al. 2001]. La présence de connaissances implicites rend la vérification des spécifications plus complexe puisqu’il est nécessaire d’extraire une partie de ces connaissances et d’enrichir les données avant d’étudier la cohérence. L’évaluation automatique de la cohérence en suivant une approche fondée sur l’utilisation des spécifications implique donc non seulement d’adapter la représentation des spécifications mais aussi, de trouver une solution pour extraire les connaissances contenues dans les données des bases.
|
Table des matières
INTRODUCTION
1. Contexte
2. Sujet
3. Éléments de l’approche proposée
4. Organisation de la thèse
A. INTEGRATION DE BASES DE DONNEES CLASSIQUES ET GEOGRAPHIQUES
A.1 Introduction
A.2 Le problème d’intégration
A.3 Intégration de bases de données classiques
A.3.1 Typologie des systèmes intégrés
A.3.2 Processus d’intégration
A.4 Intégration des bases de données géographiques
A.4.1 Spécificité de l’intégration des BD géographiques
A.4.2 Travaux sur l’intégration des schémas de BDG
A.4.3 Travaux sur l’intégration des données de BDG
A.5 Bilan des recherches actuelles
B. REPRESENTATION DES CONNAISSANCES UTILES A L’EVALUATION DE LA COHERENCE
B.1 Introduction
B.2 Définition de la notion de cohérence entre données de bases de données géographiques ..
B.2.1 Contexte de raisonnement associé à une base de données géographiques selon le modèle KRA
B.2.2 Différences entre contextes de raisonnement associés à des bases de données géographiques selon le modèle KRA
B.2.3 Détection des différences et identification de leurs origines
B.3 Connaissances pour l’évaluation de la cohérence
B.3.1 Connaissances déduites des spécifications des BDG
B.3.2 Connaissances induites des données
B.3.3 Connaissances externes
B.4 Conclusion
C. MECO : METHODE D’EVALUATION DE LA COHERENCE
C.1 Présentation générale de la méthode MECO
C.1.1 Introduction
C.1.2 Les étapes de MECO
C.2 Enrichissement des bases
C.2.1 Enrichissement et restructuration des schémas
C.2.2 Enrichissement des données
C.2.3 Outils d’enrichissement des données : l’analyse spatiale
C.2.4 Bilan de l’enrichissement
C.3 Contrôle Intra-Base
C.3.1 Objectif du contrôle Intra-Base
C.3.2 Conditions d’application
C.3.3 Erreurs intra-base
C.3.4 Développement d’une base de règles
C.3.5 Évaluation de la représentation des objets
C.3.6 Bilan du contrôle intra-base
C.4 Appariement
C.4.1 Objectif de l’appariement
C.4.2 Stratégie d’appariement adoptée
C.4.3 Calcul des liens d’appariement
C.4.4 Restructuration des liens
C.4.5 Évaluation des liens
C.4.6 Bilan de l’appariement
C.5 Contrôle Inter-Bases
C.5.1 Objectif du contrôle inter-bases
C.5.2 Comparaison de la représentation des objets
C.5.3 Équivalences, incohérences, erreurs inter-bases
C.5.4 Organisation des connaissances pour le contrôle inter-bases
C.5.5 Bilan du contrôle inter-bases
C.6 Évaluation globale
C.6.1 Objectif
C.6.2 Synthèse des résultats
C.6.3 Recommandations
C.7 Manipulation des connaissances pour les contrôles intra-base et inter-bases par un système-expert
C.7.1 Origine des Systèmes-Experts
C.7.2 Caractéristiques d’un Système-Expert
C.7.3 Intérêts d’utiliser un Système-Expert
C.7.4 Démarche de Conception Adoptée
C.8 Synthèse de la méthode MECO
D. MACO : METHODE D’ACQUISITION DE CONNAISSANCES POUR L’EVALUATION DE LA COHERENCE
D.1 Introduction
D.2 Problématique de l’acquisition des connaissances
D.3 Acquisition des connaissances issues des spécifications
D.3.1 Analyse des spécifications
D.3.2 Formalisation des Spécifications
D.4 Acquisition de connaissances issues des données par apprentissage automatique supervisé
D.4.1 Apprentissage
D.4.2 Mise en oeuvre de l’apprentissage
D.5 Synthèse de la méthode MACO
D.6 Synthèse de la méthodologie d’évaluation
D.7 Exploitation globale des résultats
E APPLICATION DE LA METHODOLOGIE D’EVALUATION DE LA COHERENCE
E.1 Introduction
E.2 Architecture du prototype Hétérogène
E.2.1 Plate-forme OXYGENE
E.2.2 Système-expert et moteur JESS
E.2.3 Logiciel WEKA
E.2.4 Architecture complète du prototype Hétérogène
E.3 Étude des différences entre représentations de ronds-points
E.3.1 Motivations
E.3.2 Présentation des bases
E.3.3 Analyse des spécifications
E.3.4 Enrichissement
E.3.5 Contrôle intra-base
E.3.6 Appariement
E.3.7 Contrôle inter-bases
E.3.8 Présentation des résultats
E.3.9 Bilan de l’application sur les ronds-points
E.4 Étude des différences entre représentations de bâtiments
E.4.1 Motivations
E.4.2 Présentation des bases
E.4.3 Analyse des spécifications
E.4.4 Enrichissement
E.4.5 Contrôle intra-base
E.4.6 Appariement
E.4.7 Contrôle inter-bases
E.4.8 Bilan de l’application sur les bâtiments
E.5 Apprentissage de correspondances entre valeurs d’attributs de tronçons de route
E.5.1 Motivations
E.5.2 Attributs étudiés et spécifications
E.5.3 Appariement des tronçons
E.5.4 Apprentissage des correspondances entre attributs
E.5.5 Bilan de l’application sur les attributs
E.6 Bilan Général
CONCLUSION ET PERSPECTIVES
1. Conclusion
1.1 Rappel de l’objectif
1.2 Contributions
2. Pistes de recherche
2.1 Perspectives pour la méthode MACO
2.2 Perspectives pour la méthode MECO
2.3 Perspectives pour l’intégration de bases de données spatiales
REFERENCES BIBLIOGRAPHIQUES
Télécharger le rapport complet