Interprétation à la volée de tracés manuscrits

Définitions générales

Documents structurés

Ce type de document est caractérisé par une structure prédéfinie. Il est constitué d’un ensemble de symboles bi-dimensionnels organisés selon une logique structurelle et sémantique. Les relations spatiales entre les éléments d’un document structuré, basées sur des conventions pré-établies , donnent une information importante permettant l’interprétation du document. Par exemple, un schéma de chimie moléculaire, un circuit électrique ou un plan architectural sont considérés comme des documents structurés. Par contraste, une oeuvre d’art surréaliste ne l’est pas si elle ne suit pas de règles identifiables . Un document structuré peut se présenter sous des formes diverses : il peut être imprimé (image), ou décrit sous une forme numérique dynamiquement interprétable (séquence de tracés).

Composition de documents structurés

La composition de document numérique se base sur deux modes d’interaction/de création, soit via la sélection et le glisser-déposer d’un ensemble de symboles prédéfinis, soit par la composition à main levée de l’ensemble des symboles. Composer un document structuré dans le premier mode consiste à utiliser des logiciels basés sur une interaction de type « WIMP » (Windows, Icons, Menus, Pointer). Un menu contenant des symboles est disponible dans l’interface et l’utilisateur va cliquer sur le symbole et le placer dans son schéma. cette approche a des limites, notamment dans un cadre d’apprentissage où la composition est le cœur même d’un problème à résoudre pour un élève (manque de liberté dans la composition, et temps d’apprentissage du logiciel). Dans un tel contexte pédagogique, le deuxième mode est donc plus pertinent. Dans ce mode où l’utilisateur crée et compose ses propres symboles, nous distinguons deux façons de créer un document numérique.

La première façon de composer le document consiste à permettre le dessin libre de l’utilisateur sur papier, sans contraintes particulières. Le document est ensuite numérisé et interprété.

Le document manipulé est alors représenté par un signal dit hors-ligne, et l’image est représentée par une matrice de pixels. L’interprétation consiste à retrouver les tracés dans le document, les isoler pour les reconnaître, et de les associer pour en déduire le sens de la structure du document . Cette méthode d’interprétation est dite hors-ligne. On distingue deux approches pour interpréter un document hors-ligne :

— Approche classique (en batch), le système interprète le document à partir d’une base de symboles pré-établie et un modèle statistique (e.g. dans [KAO14], ou [AS10]), où à partir de la modélisation a priori de la connaissance du domaine à partir d’un langage visuel (e.g. dans[MSL06] ou [RBE00]), sans interaction avec l’utilisateur, et lui affiche le résultat de l’analyse.
— Approche incrémentale, i.e. au fur et à mesure que le système reçoit en entrée de nouvelles données (par exemple à travers un flux de documents), il est capable d’apprendre de nouveaux concepts (classes), d’en oublier ou d’en fusionner d’autres [Ngo+17]. Certaines approches impliquent une interaction avec l’utilisateur. Quand le système détecte une ambiguïté entre deux symboles (par exemple entre un lit et un canapé), l’utilisateur peut être sollicité pour choisir la bonne interprétation afin d’éviter la propagation des erreurs de reconnaissance, et aussi permettre au système d’apprendre de nouveaux de symboles [MAH00] [Gho12] [WZY07].

La deuxième façon de composer un document structuré est celle que nous adopterons dans cette thèse, elle correspond à une composition interactive en ligne. Plus précisément, l’utilisateur utilise un stylet sur un écran tactile par exemple, le signal à interpréter est alors un signal dit en-ligne. Il contient des informations qui facilitent le processus d’interprétation, notamment l’ordre des tracés manuscrits, les coordonnées des points entre posers et levers de stylos, ou encore la pression exercée sur l’écran de la tablette. Nous pouvons distinguer deux approches pour analyser un document en-ligne : une approche dite a posteriori et une approche dite à la volée.

Approches pour l’interprétation en-ligne de diagrammes manuscrits

L’interprétation en ligne de formes manuscrites est plus communément appelée reconnaissance de tracés (sketch recognition). Le terme tracé est utilisé par opposition au terme image qui est le signal d’entrée pour les méthodes de reconnaissance hors-ligne. Nous pouvons distinguer deux grandes approches pour l’interprétation de diagrammes manuscrits, les approches statistiques et les approches structurelles. Les approches statistiques se basent sur des méthodes d’apprentissage automatique capables déterminer une forme dans son ensemble. Le principe consiste à extraire un ensemble de caractéristiques pour décrire la forme, cet ensemble représentant la signature de la forme. Les approches classiques suivent un processus en deux étapes :
— Extraction des caractéristiques ;
— Entraînement d’un modèle statistique sur une base de données.

Le modèle ainsi construit sera capable de classifier les formes : symboles, écritures, croquis… La tâche la plus importante est donc l’apprentissage de caractéristiques discriminantes. Les méthodes classiques se basent sur extraction « empiriques » de caractéristiques. On peut distinguer deux types de caractéristiques:

— Caractéristiques statiques : ces caractéristiques s’intéressent à l’aspect visuel de la forme, et ne tiennent pas compte de la nature dynamique du tracé, ce qui les rend robuste à la variabilité des styles de composition des symboles (un même schéma peut être composé de manière différente selon le scripteur). Ces caractéristiques sont traditionnellement utilisées pour la reconnaissance hors-ligne d’images (telles que SIFT [Low04] ou HOG [DT05]) ;
— Caractéristiques dynamiques : ces caractéristiques prennent en compte la nature en-ligne du signal du tracé (e.g. premier et dernier point, proportion des tracés descendants, etc).

Dans [DA13], un ensemble de 49 descripteurs combinant ces deux types de caractéristiques a été couplé à un classifieur de type SVM (Support Vector Machine) [Wan05], avec comme résultat une méthode générique pour l’interprétation en-ligne de symboles manuscrits. Pour démontrer la générécité de leur méthode, les auteurs évaluent les performances en terme de reconnaissance sur des bases de symboles de différentes natures .

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Fondements pédagogiques de la thèse
1.1 Apprentissage actif et dessin génératif
1.2 L’intérêt du dessin libre et de la manipulation intuitive
1.3 L’intérêt de la supervision et du feedback immédiat
1.4 Bilan
2 Interprétation à la volée de tracés manuscrits
2.1 Définitions générales
2.1.1 Documents structurés
2.1.2 Composition de documents structurés
2.1.3 Interprétation en ligne de documents manuscrits
2.2 Approches pour l’interprétation en-ligne de diagrammes manuscrits
2.3 État de l’art des approches structurelles
2.3.1 Grammaires formelles
2.3.2 Grammaires à base d’opérateurs
2.3.3 Grammaires à base de fonctions
2.3.4 Grammaires à base de graphes
2.3.5 Bilan
3 État de l’art sur les systèmes tutoriels intelligents
3.1 Définitions générales
3.1.1 Qu’est ce qu’un système tutoriel intelligent ?
3.1.2 Historique des STI
3.1.3 L’architecture en quatre composants des STI
3.2 Approches et philosophies des STI
3.2.1 Tuteurs à base de règles
3.2.2 Tuteurs à base de contraintes
3.2.3 Tuteurs à base de traçage d’exemples
3.2.4 Approches basées sur les données
3.3 Systèmes tutoriels dédiés à l’apprentissage de la géométrie
3.4 Systèmes tutoriels basés sur du dessin
3.5 Discussion et bilan
3.6 Préambule de la suite du manuscrit
4 GMC-PC : Grammaire Multi-ensembles à Contraintes Pilotée par le Contexte
Conclusion

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *