Lorsqu‟un utilisateur souhaite composer un document numérique (schéma, diagramme ou autres), plusieurs options s‟offrent à lui. La première, qui est aujourd‟hui la plus courante, consiste à utiliser des logiciels dédiés basés sur une interaction clavier/sourie. Ces logiciels offrent de nombreuses possibilités de représentation et fournissent de bons résultats. Mais ils imposent à l‟utilisateur un apprentissage approfondi pour la manipulation du logiciel et une mémorisation des fonctionnalités offertes. La seconde consiste à dessiner le document sur une feuille de papier, de la numériser et d‟utiliser un logiciel d‟interprétation d‟images dédié pour reconnaitre le document. Cette méthode ne demande aucun effort à l‟utilisateur, pour la composition du document, mais nécessite un temps de traitement qui peut être élevé avec un résultat d‟interprétation qui n‟est souvent pas très satisfaisant [1-2]. La troisième méthode, celle qui nous intéresse dans ce travail, est la composition directe, à la volée, du document sur surfaces tactiles. Cette méthode consiste à composer le document à main levée directement sur le système informatique et à utiliser un logiciel d‟interprétation en-ligne de tracés manuscrits. Cette technologie vise à se rapprocher le plus possible d‟une utilisation simple et naturelle, non pas en demandant à l‟utilisateur d‟apprendre son fonctionnement, mais en adaptant le fonctionnement aux utilisateurs. Ces systèmes de reconnaissance de formes commencent à faire leur apparition [3]. Ces interfaces sont dites orientées stylo et n‟autorisent souvent qu‟un seul point de contact pour l‟interaction.
L‟arrivée sur le marché en 2007 des nouvelles tables et tablettes tactiles multipoints (permettant plusieurs points de contact), ont ouvert un nouveau champ de possibilités d‟usage pour la composition et la manipulation des documents numériques. Jusqu‟ici ces interfaces n’autorisent souvent uniquement que des commandes basiques de manipulation, comme par exemple agrandir une image en utilisant deux doigts ou encore passer d‟une page à l‟autre en glissant le doigt sur la surface de l‟écran. Nous visons à travers ce travail l‟exploration de ce domaine en approfondissant l‟élaboration, la modélisation et la reconnaissance de commandes gestuelles graphiques multipoints plus évoluées.
Composition sur surfaces sensitives ou tactiles
L’encre électronique
Le résultat de l‟acquisition des tracés dessinés par un utilisateur, généralement à l‟aide d‟un stylo sur une surface dédiée, est un signal dit en-ligne. Le terme encre électronique, est aussi souvent utilisé pour désigner le rendu visuel de ce signal. Le terme tracé désigne les coordonnées des points, ordonnées dans le temps, représentant le parcours du stylo entre un poser et un lever. Les tracés que nous manipulons sont représentés comme une séquence de segments reliant ces points.
Interfaces de saisie monopoints
Les interfaces d‟interaction dites monopoint sont des surfaces tactiles qui ne permettent qu‟un seul point de contact : un stylo ou un doigt.
Un mot ou un symbole saisi peut être représenté par un seul tracé, ou par une combinaison de ces derniers. on parle de geste mono-stroke, alors que le mot IMADOC est représenté par la combinaison de six tracés, cette composition est appelé geste multi-stroke. Nous présentons plus en détail ces deux typologies de tracés dans la suite de ce document.
Geste mono-stroke
Les premiers systèmes de reconnaissance de formes en ligne proposés étaient généralement monostroke . Cette approche consiste à associer à chaque symbole du langage visuel considéré, un tracé manuscrit permettant de le dessiner. Cette approche très simple est aujourd‟hui encore très souvent utilisée.
Parmi les travaux de reconnaissance de formes basés sur les approches mono-stroke, citons : le système de conception de diagrammes UML [5] ; Le système de reconnaissance de formules mathématiques [6] ; le système permettant la conception d‟interfaces graphiques SILK [7]. Dans le domaine de la composition musicale, nous pouvons citer le système de Ng et al, appelé Presto [8], et celui d‟Anstice et al [9]. Ces systèmes consistent à définir des formes spécifiques pour chaque symbole reconnus à partir d‟un seul trait. Les approches mono-stroke restent encore loin de l‟objectif initial qui est l‟adaptation du système aux habitudes des utilisateurs. Celles-ci demandent une forte implication de la part de l‟utilisateur [10], car celui-ci doit souvent apprendre une nouvelle façon de dessiner les symboles d‟un domaine .
Geste multi-stroke
L‟approche qui a suivi le mono-stroke et qui est actuellement beaucoup utilisée dans les systèmes de composition manuscrite sur surface tactile, est celle du multi stroke . Contrairement à la première approche où un symbole doit être saisi par un seul trait, cette méthode donne la possibilité de dessiner un symbole en plusieurs traits. Ces traits seront combinés pour former le symbole. Le regroupement des traits est un problème complexe.
Plusieurs approches de combinaison ont été utilisées dans la littérature. La première méthode demande une forte implication de la part de l‟utilisateur, en lui demandant de préciser chaque début et fin de symbole en pressant un bouton par exemple : citons les travaux de Kurtoglu et al [11] sur la composition des circuits pour la physique. Une autre approche consiste à définir un délai minimum entre la saisie consécutive de deux symboles différents : la fin de la composition d‟un symbole et le début de celle d‟un autre sont espacés d‟une durée dépassant un seuil prédéfini [4]. Cette approche est utilisée par Fonseca et al [12] pour leur système de reconnaissance de formes géométriques. La difficulté de cette méthode réside dans le choix du délai entre la saisie de deux symboles : trop petit, cela oblige l‟utilisateur à saisir rapidement, ce qui peut générer des erreurs, trop long l‟utilisateur est contraint d‟attendre entre chaque symbole. Bien que ces approches soient moins contraignantes que les approches mono-strokes, elles nécessitent toujours une implication forte de la part de l‟utilisateur [4].
Après avoir regroupé les traits qui forment un symbole, le problème est maintenant d‟interpréter le symbole composé de ces trais. La troisième méthode de regroupement est une approche automatique qui combine à la fois regroupement et reconnaissance. Elle consiste à décomposer chaque forme saisie en un ensemble de primitives, cette phase nécessite un système de reconnaissance permettant de bien segmenter. Les primitives seront combinées par la suite pour former le symbole. Nous présentons l‟approche en détail dans la section « Approches structurelles à base de grammaire ».
Interfaces de saisie multipoints
Les surfaces d‟interaction multipoints autorisent contrairement à celle monopoints, plusieurs points de contacts simultanés . Cette technologie est actuellement beaucoup utilisée dans les téléphones portables et sur les tablettes numériques. Leurs utilisations résident principalement dans des dispositifs de navigation et de commandes gestuelles très simples.
L‟exploitation de la technologie d‟acquisition multipoint dans le contexte des systèmes de reconnaissance de formes est au cœur de ce travail. Nous allons donc étudier de plus près la nature des tracés multipoints. Les gestes multipoints sont composés de plusieurs tracés, un pour chaque trajectoire induite par chacun des points de contact (doigt). Un geste multipoint se caractérise donc non seulement par la forme graphique de chacune de ses traces mais aussi par leur positionnement relatif, leur synchronisation ou encore leur dynamique relative.
|
Table des matières
Introduction générale
1. Composition sur surfaces sensitives ou tactiles
Introduction
1.1. L‟encre électronique
1.2. Interfaces de saisie monopoints
1.2.1. Geste mono-stroke
1.2.2. Geste multi-stroke
1.3. Interfaces de saisie multipoints
1.1. Manipulation tactile multipoint : état de l‟art
Conclusion
2. Systèmes de reconnaissance en ligne
Introduction
2.1. Reconnaissance de gestes multipoints : état de l‟art
2.2. Problématique
2.3. Systèmes de reconnaissance en-ligne de formes monopoints : état de l‟art
2.3.1. Approche « statistique » de reconnaissance de symboles
2.3.2. Approche « structurelle » de reconnaissance de symboles
2.3.3. Reconnaissance de symboles par alignement de séquences
Conclusion
3. Contribution
Introduction
3.1. Architecture du système proposé
3.2. Description des graphes utilisés
3.2.1. Construction des graphes
3.2.2. Etiquetage des graphes
3.3. Projection des graphes
3.4. Phase d‟apprentissage
3.5. Phase de reconnaissance
Conclusion
4. Expérimentations
4.1. Objectifs
4.2. Base de gestes
4.3. Protocole
4.3.1. Evaluation de l‟importance de l‟information topologique
4.3.2. Evaluation de l‟importance de l‟information liée à l‟étiquetage
4.3.3. Découpage de l‟ensemble des données
4.4. Expériences
Conclusion
Conclusion générale
Bibliographie