Approches de gestion de documents multistructurés

Le fait qu‘un document puisse être décrit selon plusieurs structures introduit des problématiques de représentation et d‘exploitation :
– la gestion des structures concourantes qui découle de la définition de plusieurs structures sur un même contenu. Dans ce cas, il faut assurer le partage de contenu et notamment la gestion du chevauchement d‘éléments ;
– la cohérence des informations représentées par l‘ensemble des structures. Ce problème se pose notamment lors de la duplication du contenu autant de fois que le nombre de structures définies ;
– la restitution des documents ou des fragments de documents. Cette restitution doit se faire non seulement à partir des différentes structures les unes indépendamment des autres, mais également à partir de la corrélation et les relations qui existent entre ces structures.

Si les deux dernières problématiques concernent l‘exploitation des documents multistructurés, elles sont fortement liées à la représentation. La principale problématique liée à la représentation est la gestion des structures concourantes. Ainsi, les problèmes de la cohérence et restitution sont liés à la méthode de gestion des structures concourantes proposée.

Solutions basées sur des langages

Dans les approches basées sur des langages, toutes les structures sont représentées dans un même document. Ces structures partagent ainsi le même contenu. De ce fait, le contenu n‘est plus dupliqué et par conséquent le problème de cohérence des informations ne se présente plus. Si le problème de cohérence des informations ne se présente plus, les problèmes de chevauchement des éléments et de restitution doivent être résolus. Cependant, il y a d‘autres exigences spécifiques au langage lui-même pour assurer l‘exploitation ultérieure des documents : il doit utiliser des notations compatibles avec les langages XML/SGML et il doit être capable de fournir des documents bien formés. Dans la littérature, deux catégories d‘approches ont été proposées : la première regroupe les propositions basées sur l‘extension du langage de XML/SGML (CONCUR/XCONCUR et TEI) et la deuxième regroupe les solutions basées sur d‘autres langages (LMNL, MECS/TexMECS et RDFs).

Extension de SGML/XML

CONCUR/XCONCUR

Le standard SGML admet une fonction appelée « CONCUR » qui permet de gérer les structures concourantes dans un même document (Goldfarb 1990). Par analogie, le standard XML admet la fonction « XCONCUR » (Hilbert et al. 2005). La fonction « CONCUR » est une option figurant dans la déclaration d‘un document SGML. Afin de représenter plusieurs structures, cette option doit être activée en modifiant la valeur de l‘attribut CONCUR par « YES » au lieu de « NO » .

L‘activation de cette option permet de définir autant de DTD que de structures (Barnard et al. 1995) dans un même document SGML. La distinction entre les éléments de chaque structure est assurée par l‘utilisation des espaces de noms. Un préfixe indiquant le nom de la DTD dans laquelle est défini l‘élément est ajouté. Ainsi, les documents représentés selon cette méthode sont des documents valides par rapport à chacune des DTD définies. Les deux DTD suivantes (S1 et S2) (Cf. Figure II.3) définissent deux structures qui peuvent s‘appliquer à un même document «livre». S1 représente la structure logique de ce document et S2 définit sa structure physique. La structure logique se compose d‘un titre_livre et d‘une ou plusieurs sections. Chaque section se compose à son tour d‘un titre et d‘un ou plusieurs paragraphes. La structure physique se compose d‘une ou plusieurs pages. Chaque page se compose d‘une ou plusieurs lignes.

Les options « CONCUR » et « XCONCUR » permettent de définir autant de DTD que de structures en assurant leur identification grâce aux espaces de noms. Ce mécanisme implique des notations « encombrantes ». De plus, des parseurs spécifiques doivent être réalisés pour exploiter chacune des structures. Toutefois, un parseur a été créé à partir d‘un fichier MuLaX (Multi-Layered XML) afin de construire une représentation analogue à des arbres DOM (Document Object Model) (Hors et al. 2004) où l‘on peut référencer plusieurs DTD à la fois (Hilbert et al. 2005). Une extension de l‘API SAX (Simple API for XML) a été présentée dans (Schonefeld 2008) afin de supporter les fonctionnalités de XCONCUR.

TEI

TEI (Text Encoding Initiative) est une norme qui assure la représentation des textes sous forme numérique (Burnard 1992). Cette norme a été étendue afin de prendre en compte les multiples hiérarchies d‘un même document (SperbergMcQueen et Burnard 2007). Le principe de base consiste à favoriser l‘une des structures et à modifier les autres. Les modifications portent sur les éléments qui se chevauchent avec des éléments de la structure favorisée. Dans ce contexte, trois solutions ont été développées.
● Marquage des limites avec des éléments vides Cette solution consiste à utiliser des éléments vides appelés « milestones » pour remplacer les éléments qui provoquent un chevauchement. Ces éléments vides doivent marquer le début et la fin de chaque élément remplacé.

● Fragmentation et reconstitution virtuelle des éléments La deuxième solution consiste à découper en plusieurs parties le contenu des éléments sur lesquels on observe un chevauchement des éléments. Chaque partie sera représentée par un nouvel élément admettant le même nom et un attribut « n ». La valeur identique de cet attribut permet d‘assurer la liaison entre les différentes parties des éléments fragmentés afin de pouvoir le reconstruire ultérieurement.

● Standoff Markup La dernière solution consiste à utiliser la technique du « out of line markup » (Sperberg-McQueen et Burnard 2007) appelée aussi « standoff annotation» (McKelvie et al. 1999). Cette technique permet de définir plusieurs hiérarchies fragmentées et stockées séparément et de les relier par des hyperliens. « joint » est un élément virtuel ajouté à la fin du document afin de définir l‘ordre des fragments et d‘assurer leur reconstruction. Cet élément admet deux attributs : le premier « result » sert à spécifier le nom de l‘élément fragmenté et le deuxième « target » sert à retracer le séquencement des sous-éléments au travers de leur identifiant.

● Bilan TEI Afin de gérer le chevauchement des éléments, TEI oblige à privilégier une structure parmi l‘ensemble des structures et à imbriquer les autres en fragmentant leurs éléments ou en créant des éléments vides (Sperberg-McQueen et Burnard 2007). Des identifiants sont utilisés dans les éléments modifiés. Ceci permet d‘éliminer tout risque de confusion lors de l‘étape de reconstitution de chacune des structures. Si ces solutions fournissent toutes les informations pour reconstruire les structures et permettent à toutes les structures d‘être manipulées implicitement, la reconstruction automatique des structures nécessite toujours des traitements très lourds. Toutefois, une extension XPath est proposée (Dekhtyar et al. 2005) afin d‘interroger les structures multiples d‘un document qui admet des éléments vides (milestones). Afin d‘offrir une certaine flexibilité au parseur, (Durusau et O‘Donnell 2004) proposent de combiner deux techniques : celle utilisée dans CONCUR et celle utilisée dans TEI pour représenter un document multistructuré.

Autres langages

LMNL

Tennison et al., proposent d‘utiliser un nouveau langage de balisage (non XML) appelé LMNL (Layered Markup and Annotation Language) (Tennison et Piez 2002). Ce langage s‘articule autour de trois concepts de base à savoir les couches appelées « layers », les zones de document appelées « ranges » et les « annotations ». Un document LMNL n‘est pas défini en terme d‘éléments comme c‘est le cas dans XML, mais de couches (une ou plusieurs) qui se superposent les unes aux autres. La couche la plus basse est une couche de texte qui est constituée d‘une de caractères. Les autres couches sont composées des zones du document (ranges) qui sont étiquetées et qui référencent soit d‘autres zones du document (localisées dans une autre couche), soit un ensemble de caractères de la dernière couche. L‘utilisation des « ranges » permet d‘assurer la gestion des recouvrements entre structures en traitant simultanément l‘ensemble des zones du document au lieu de les traiter de façon indépendante.

Syntaxiquement, chaque couche est représentée par une expression admettant la forme suivante « [!layer name= »… » base= »… »] » (Cf. Figure II.9). L‘attribut « name » désigne le nom de la couche, l‘attribut « base » renseigne sur la nature du contenu de cette couche (des zones de documents ou des caractères). Ces couches sont référencées au niveau de chaque zone de document par une « ~ » suivie de son nom. En plus de cette référence, une zone de document admet une étiquette appelée « Tag ». Il y a trois types d‘étiquettes :
– étiquette de début : indique le début d‘une zone de document. Cette étiquette admet la forme suivante « ‘[‘ TagContent ‘}’ » ;
– étiquette de fin : représente la fin d‘une zone de document. Cette étiquette admet la forme suivante « ‘{‘ TagContent ‘]’ » ;
– étiquette vide : désigne une zone de document de longueur 0. Cette étiquette admet la forme suivante « ‘[‘ TagContent ‘]’ ».

LMNL est un nouveau langage de balisage (non XML) qui n‘est pas défini en terme d‘éléments, mais de « layers » et de « ranges ». L‘utilisation des « layers » permet de faciliter la gestion des recouvrements entre structures en partageant des ensembles de « ranges » en commun au lieu de les traiter de façon indépendante. L‘inconvénient majeur de ce langage réside dans son non compatibilité avec les applications XML/SGML. En effet, les nouvelles notations nécessitent des parseurs spécifiques qui doivent être développés afin d‘assurer d‘une part l‘annotation et d‘autre part l‘exploitation.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction Générale
I. Contexte et problématique
II. Propositions et contributions
III. Organisation du mémoire
PREMIERE PARTIE : DOCUMENT A STRUCTURES MULTIPLES : PRESENTATION ET ETAT DE L’ART
Chapitre I – Document et structure : concepts de base
I. Introduction
II. Document, annotation et métadonnée
II.1. Document
II.1.1. Définitions
II.1.2. Evolution du concept de document
II.2. Annotation et métadonnée
III. Structuration de document
III.1. Du document non structuré au document structuré
III.2. Structures documentaires
III.2.1. Les différentes représentations de structures
III.2.2. Typologie des structures
III.3. Document structuré et standards
III.3.1. Standards de présentation de données
III.3.2. Standards de description de données
IV. Multistructuralité des documents : problématique et applications
IV.1. Définitions
IV.2. Problématique
IV.3. Applications de la multistructuralité
V. Conclusion
VI. Bibliographie
Chapitre II – Approches de gestion de documents multistructurés
I. Introduction
II. Solutions basées sur des langages
II.1. Extension de SGML/XML
II.1.1. CONCUR/XCONCUR
II.1.2. TEI
II.2. Autres langages
II.2.1. LMNL
II.2.2. MECS/TexMecs
II.2.3. RDF/RDFs
II.3. Synthèse des langages
III. Solutions basées sur des modèles
III.1. Le modèle MSDM
III.2. Le modèle Proximal Node
III.3. Le modèle MSXD
III.4. Le modèle MCT
III.5. Le modèle GODDAG
III.6. Le modèle EMIR²
III.7. Le modèle de Fourel
III.8. Le modèle de Mbarki
III.9. Graphe d‘annotation
III.10. Synthèse des modèles
IV. Synthèse
V. Conclusion
VI. Bibliographie
DEUXIEME PARTIE : NOTRE PROPOSITION : MODELISATION, INTEGRATION ET EXPLOITATION DE DOCUMENTS A STRUCTURES MULTIPLES
Chapitre III – Modélisation de documents à structures multiples
I. Introduction
II. Modélisation spécifique d‘un document à structures multiples
II.1. Objectif
II.2. Modèle spécifique et description des différentes métaclasses
II.3. Exemples
II.4. Représentation de structures à différents niveaux du document
II.4.1. Représentation des structures multiples au niveau global du document
II.4.2. Représentation des structures multiples associées à un nœud d‘un document
II.5. Du partage du contenu au partage des nœuds
II.5.1. Partage de contenu entre nœuds de structures différentes
II.5.2. Partage de nœuds entre structures
III. Modélisation d‘une collection de documents multistructurés
III.1. Objectif et intérêt
III.2. Modèle générique et description des métaclasses associées
III.3. Exemple de représentation d‘une collection de documents
IV. Modèle de représentation de documents multistructurés
IV.1. Modélisation UML
IV.2. Modélisation formelle de documents multistructurés
IV.2.1. Ensembles d‘objets
IV.2.2. Ensembles de règles
IV.3. Synthèse
V. Conclusion
VI. Bibliographie
Chapitre IV – Document multistructuré : de l’intégration à la restitution
I. Introduction
II. Démarche d‘intégration de documents multistructurés
II.1. Dématérialisation des documents et instanciation du niveau spécifique du modèle
II.2. Classification de vues et instanciation du niveau générique du modèle
II.2.1. Démarche d‘instanciation du niveau générique du modèle
II.2.2. Comparaison de vues : calcul d‘une distance structurelle
II.2.3. Démarche globale de classification
II.2.4. Agrégation d‘individus : affectation des vues aux classes
II.2.5. Conservation de la représentativité des classes
III. Recherche et restitution de documents
III.1. Recherche de documents multistructurés
III.1.1. Démarche de recherche de documents multistructurés
III.1.2. Exemple
III.2. Restitution multidimensionnelle
III.2.1. Démarche de construction des schémas des magasins
III.2.2. Démarche de génération des magasins de documents
III.2.3. Démarche de visualisation des tables multidimensionnelles
III.2.4. Exemple
IV. Conclusion
V. Bibliographie
Chapitre V – Implantation et expérimentation
I. Introduction
II. Architecture de MDOCREP
II.1. Serveur de données
II.2. Intégration de documents
II.3. Restitution de documents
II.4. Communication
III. Classification des vues
III.1. Description du corpus
III.2. Description des expériences
III.3. Résultats et Analyses
III.4. Bilan et synthèse
IV. Restitution des documents multistructurés : Cas d‘une analyse multidimensionnelle
IV.1. Description du corpus
IV.2. Démarche
IV.2.1. Choix du type d‘analyse approprié
IV.2.2. Sélections des composants
IV.2.3. Filtrage
IV.2.4. Résultat
V. Conclusion
VI. Bibliographie
Conclusion générale
I. Bilan et synthèse de nos propositions
II. Perspectives de recherche
Bibliographie générale
Annexe