Le document comme support d’information
Avec l’essor grandissant des architectures de réseaux à travers le monde, le document électronique est devenu un vecteur incontournable pour la transmission d’idées et d’informations inter ou intra organisations. Cette émergence du document électronique a entraîné la naissance d’une nouvelle discipline : la Gestion Electronique de Documents (G.E.D.). Elle consiste à assister les utilisateurs dans la production de leurs documents, dans la recherche rapide d’informations dans une base documentaire et dans la circulation des informations entre interlocuteurs. Les systèmes de G.E.D. sont désormais utilisés par la majorité des administrations, des entreprises et des autres organisations pour la capitalisation de leurs connaissances. La plupart des documents circulant sur les réseaux mondiaux en sont issus. Néanmoins, si aujourd’hui les documents sont dans leur majorité réalisés à l’aide d’outils informatiques et peuvent donc être directement intégrés dans des systèmes de G.E.D., force est de constater que les documents qui peuvent être qualifiés de structurellement pauvres restent encore omniprésents. Les documents papier en sont la plus courante illustration. La mise à disposition de ceux-ci dans les circuits de l’information implique un processus plus ou moins automatisé de rétro conversion de l’image du document. Cette problématique de la conversion se retrouve également pour d’autres formats de représentation bas niveaux (PostScript, PDF, pages HTML à base de GIF) qui posent les mêmes types de problèmes lorsqu’il s’agit d’organiser l’information utile, de l’indexer, et de la retrouver aisément, afin de l’exploiter pour prendre des décisions. C’est dans ce contexte global de l’alimentation de systèmes de G.E.D. que se situent les travaux présentés dans cette thèse. En effet, si les processus de conversion ont atteint une relative maturité pour les documents structurés (formulaires, chèques, enveloppes…), la conversion des documents dits techniques, qui sont caractérisés par une association intrinsèque de graphique et de texte, est quant à elle encore du domaine de la recherche. Les documents techniques sont pourtant omniprésents dans les systèmes de G.E.D. et constituent souvent des supports décisionnels. Parmi la large variété de documents techniques, citons, à titre d’exemple, les documents architecturaux, les schémas mécaniques, les cartes géographiques, les partitions de musique et les plans de réseau .
La conversion des documents techniques : un processus d’interprétation
Les différents types de documents évoqués ci-avant ont donné lieu à des études pour leur rétro conversion. Une telle conversion est un processus associant une acquisition –une numérisation dans le cas du papier, une fouille dans le cas de documents numériques–, suivie d’une indexation et/ou d’une interprétation. Cette seconde étape consiste à extraire du document toutes ou partie des informations du domaine que les concepteurs y ont fait figurer, en fonction des attentes de l’utilisateur du système. Un processus d’interprétation peut donc être assimilé à une tâche d’instanciation progressive d’un modèle issu du domaine du document ou d’une partie de ce modèle. Cette instanciation est réalisée en utilisant des procédures de traitement d’images et de reconnaissance de formes, elles-mêmes guidées par une stratégie d’interprétation qui doit être déduite d’une requête initiale et d’éventuelles coopérations avec l’utilisateur. Les disciplines scientifiques mises en jeu pour concevoir un système d’interprétation sont donc multiples : la reconnaissance de formes, l’intelligence artificielle ou la communication homme machine en sont les illustrations les plus évidentes. La reconnaissance de formes vise à reconnaître le texte ou la représentation graphique d’entités du domaine présents sur l’image. L’intelligence artificielle aspire au développement de modèles pour l’extraction et la formalisation des connaissances et du raisonnement. La communication homme-machine permet quant à elle l’initialisation du système, sa supervision, ainsi que la présentation et la correction des résultats obtenus. C’est à la confluence de ces différents grands thèmes scientifiques que se trouve selon nous la solution au problème de l’indexation et de l’interprétation de documents techniques. Ces différentes thématiques seront donc abordées dans ce mémoire.
Des outils pour la reconnaissance de texte et de symboles
Dans le cadre de l’introduction générale de ce mémoire, nous avons mis en avant le fait que la reconnaissance du texte et des symboles constituait une étape prépondérante de l’interprétation d’un document technique. En effet, quel que soit le document technique considéré, celui-ci est porteur d’une symbologie particulière, en relation avec le métier concerné. Cette symbologie est fondamentale pour l’expert du domaine qui exploite les documents. Ainsi, sur un plan architectural par exemple, les portes et les fenêtres sont représentées par des symboles. Sur une carte géographique, un lecteur humain reconnaît rapidement des hôpitaux ou un syndicat d’initiative, grâce aux éléments symboliques qui leur sont propres. Sur un schéma mécanique, les symboles tels que ceux représentant des engrenages permettent au spécialiste de comprendre la cinématique associée à la pièce. Sur une partition, le musicien reconnaît les notes, les clefs, les bémols, les dièses… Sur un schéma électronique, ce sont les composants qui sont représentés par l’intermédiaire des symboles. Enfin, sur un document de réseau (gaz, téléphone, électricité), les symboles représentent la présence d’infrastructures nécessaires à la gestion du réseau.
Pour chacun de ces exemples illustrant l’importance des symboles, un complément d’information est souvent apporté sur le document sous forme de texte écrit à proximité du symbole. La sémantique portée par cette information textuelle est variable suivant la nature des documents (thématiques, fonctionnels, informationnels). Néanmoins, comme la reconnaissance des symboles, la lecture automatique de l’information textuelle est un maillon indispensable à tout système d’interprétation, pour la production de données cohérentes. Cette partie de la thèse est dédiée à ce problème de la reconnaissance du texte et des symboles, en se plaçant au « bas niveau ». Par bas niveau nous signifions ici que les informations du domaine telles que la correspondance texte / symbole ou un éventuel lexique par exemple ne sont pas exploitées. Seuls les pixels constituant la forme sont pris en compte. Nous traitons donc ici de ce que certains auteurs tels que Karl Tombre ou Rémy Mullot appellent « extraction d’indices ». De ce fait, tout ce qui est présenté dans cette partie de la thèse est générique et parfaitement exploitable pour l’analyse de tout type de document technique. L’intégration de ces outils dans un système à base de connaissances sera quant à elle au centre de la seconde partie de cette thèse.
Les particularités du texte
Afin de comprendre les contraintes auxquelles est soumis un système d’interprétation de documents techniques, en ce qui concerne la reconnaissance des informations textuelles, nous présentons cidessous l’ensemble les catégories de texte qui peuvent être rencontrées sur de tels documents. Nous illustrons nos propos par quelques exemples tirés des différentes catégories de documents techniques évoquées dans l’introduction générale.
• Un éventuel « titre » du document. Dans le cas d’une partition musicale, il s’agit du morceau composé. Sur une carte urbaine ou un plan de réseau, c’est le nom de la ville représentée qui fera office de titre ;
• Des informations générales sur le document, souvent sous la forme de « cartouche ». Dans le cas de cartes ou de plans de réseau, cela inclut des informations sur le géoréférencement (souvent les coordonnées Lambert) qui permettent de reconstituer le continuum géographique du territoire avec l’ensemble des plans d’une zone. Des informations sur l’historique du document, avec les dates de création ou de mise à jour du plan par exemple sont également des informations fréquemment retrouvées sur des documents techniques ;
• Des identifiants propres aux objets du domaine présents sur le document. Pour un schéma électronique par exemple, les composants sont souvent numérotés dans un ordre donné (R1,R2… RN pour les différentes résistances). Sur un plan architectural, les noms des pièces (Chambre, cuisine…) apparaissent dans les zones correspondantes. Sur un plan cadastral, ce sont les numéros de parcelles qui identifient les objets. Sur les plans de réseau France Telecom, une chambre sera identifiée par la présence d’une chaîne « L2T » ou « R2T » ;
• Du texte définissant des propriétés associées aux objets du domaine. Ces informations permettent de caractériser les objets de façon plus précise, en fournissant des informations propres à leur fonctionnalité ou à leurs dimensions par exemple. Dans le cas des plans architecturaux ou de schémas mécaniques, il peut s’agir d’informations de cotations qui doivent être en adéquation avec la représentation graphique de l’objet métier. Sur les plans de réseau, les représentations des câbles sont souvent associées à une chaîne de caractères qui donne leur longueur sur le terrain ;
• Une légende peut aussi être présente. Elle permet d’expliquer certaines représentations graphiques ; elle est toujours présente sur les cartes routières par exemple.
Quelle que soit la catégorie d’information textuelle évoquée ci-dessus, le texte constitue une information prépondérante pour la reconstruction sémantique des objets du domaine, puisqu’il sert de lien entre la représentation topologique (le plan) et les propriétés des objets du domaine. Sa reconnaissance est donc un maillon incontournable d’un système d’interprétation fiable. Or, dans le cadre de notre étude, comme pour la plupart des documents techniques, cette reconnaissance est soumise à un certain nombre de contraintes propres à ce type de documents, qui sont plus rarement présentes dans des documents structurés. Ces contraintes rendent bien souvent inutilisables les systèmes de reconnaissance commerciaux classiques.
|
Table des matières
1. Introduction générale
2. Des outils pour la reconnaissance de texte et de symboles
2.1. INTRODUCTION : LA PROBLEMATIQUE
2.1.1. Les particularités du texte
2.1.2. Les particularités des symboles
2.1.3. Vers un modèle commun de reconnaissance
2.1.4. Proposition de plan
2.2. LES MODELES DE REPRESENTATION DES FORMES DE LA LITTERATURE 17
2.2.1. Introduction : articulation de la synthèse et critères d’évaluation
2.2.2. Les modèles issus de l’image en niveaux de gris
2.2.3. Les modèles issus de l’image binaire
2.2.4. Les modèles issus des contours de la forme
2.2.5. Les modèles issus du squelette des formes
2.2.6. Synthèse de l’étude bibliographique
2.3. UN NOUVEAU MODELE DE REPRESENTATION DES FORMES BASE SUR LA TRANSFORMEE DE FOURIER MELLIN (TFM)
2.3.1. Quelques rappels
2.3.2. Définition de la Transformée de Fourier Mellin (TFM)
2.3.3. Des invariants issus de la transformée de Fourier Mellin
2.3.4. Application à la structure bidimensionnelle discrète des images
2.3.5. Estimation des paramètres de mouvement
2.3.6. Algorithmes de mise en œuvre
2.3.7. Résultats qualitatifs visuels
2.3.8. Conclusion
2.4. EVALUATION QUANTITATIVE DES MODELES : LES RESULTATS OBTENUS
2.4.1. Introduction
2.4.2. Les résultats obtenus pour les formes isolées
2.4.3. Les résultats obtenus pour les formes connectées
2.4.4. Les résultats pour l’estimation des paramètres de mouvement
2.4.5. Conclusion et discussion sur l’évaluation
2.5. CONCLUSION
3. Intégration des outils dans un système à base de connaissances
3.1. INTRODUCTION
3.2. LES CONNAISSANCES D’UN SYSTEME D’INTERPRETATION
3.2.1. Introduction
3.2.2. Connaissances sur les données (connaissances descriptives)
3.2.3. Connaissances sur les traitements (connaissances opératoires)
3.2.4. Connaissances sur les stratégies (connaissances stratégiques)
3.2.5. Conclusion
3.3. LES CONNAISSANCES DANS LA LITTERATURE DU DOMAINE
3.3.1. Dans les systèmes d’interprétation de documents techniques
3.3.2. Dans les systèmes de vision en général
3.3.3. Un bilan global des approches de la littérature
3.4. L’EXPERIENCE DE NATALI V1
3.4.1. Les objectifs
3.4.2. Les connaissances et leur représentation
3.4.3. L’implémentation de NATALI v1
3.4.4. Analyse critique
3.5. DE L’ANALYSE CRITIQUE A NATALI V2
3.5.1. Introduction
3.5.2. Les connaissances du domaine
3.5.3. Les connaissances pour la reconnaissance des objets
3.6. CONCLUSION
4. Conclusion générale
Bibliographie