En Ligne, Hors Ligne
On a coutume de distinguer deux parties dans le domaine de la reconnaissance de l’écriture manuscrite, les reconnaissances en-ligne et hors-ligne. La reconnaissance dite en-ligne s’effectue en même temps que les mots sont écrits, elle concerne les nombreux objets électroniques de poche permettant de saisir du texte sans clavier. La reconnaissance dite hors-ligne concerne tout document déjà écrit comme des formulaires, des livres, des chèques. La reconnaissance en-ligne commence à apparaître au travers des annuaires portatifs où la saisie s’effectue en majuscule et lettre par lettre. Elle utilise un stylo et un mécanisme de repérage qui mémorise le tracé. Privée de ces informations, la reconnaissance hors-ligne est plus difficile, elle se retrouve souvent cantonnée, à des problématiques très précises telles que la lecture d’adresses postales, de montants littéraux de chèques. La gamme de ces problèmes s’étend au fur et à mesure que la puissance des ordinateurs s’accroit.
Segmentation explicite_implicite
La littérature (voir [vinciarelli 02]), distingue parfois deux types de segmentations : implicite et explicite, lorsque la segmentation en graphèmes a pour objectif de découper de l’image d’un mot directement en lettres, celle-ci est explicite. La reconnaissance de ce mot est alors réduite à une reconnaissance de caractères. En revanche, lorsque la segmentation en graphèmes découpe cette image en lettres ou en morceaux de lettres, la reconnaissance statistique doit intégrer le fait qu’une lettre est constituée d’un ou plusieurs morceaux. Par conséquent, la segmentation est dite implicite car les lettres n’apparaissent jamais de manière explicite. L’article [Sayre 73] souligne le paradoxe de la segmentation implicite qui se résume par cette phrase : une lettre ne peut être segmentée avant d’avoir été reconnue et ne peut être reconnue avant d’avoir été segmentée. Par conséquent, les segmentations explicites sont plutôt un compromis, par assez précises pour définir explicitement des lettres, mais suffisamment pour avoir une association graphèmelettres relativement simple. En règle générale, elles tentent de segmenter l’image d’un mot en morceaux qui sont inclus dans le dessin d’une lettre. Ces segmentations sont souvent regroupées sous le terme sur segmentation.
Les systèmes de reconnaissance On-line
Pendant que l’utilisateur est en train d’écrire, le système capte les informations temporelles ou dynamiques de l’écriture à travers un dispositif temps réel. Ces informations comprennent le nombre, la durée, et l’ordre de chaque tracé (un tracé est une suite de points entre deux levés de stylet). Typiquement, dans ce type de systèmes, on utilise soit une tablette à digitaliser soit des écrans/digitalizer, qui affichent instantanément ce que l’utilisateur écrit. L’information traitée dans ce cas est mono-dimensionnelle, i.e., un vecteur ordonné de points (X, Y). Les performances d’une tablette graphique sont exprimées en termes de résolution et vitesse d’échantillonnage. Pratiquement, la résolution atteint jusqu’à 200 points par pouce, tandis que le taux d’échantillonnage atteint jusqu’à 100 points par seconde [ALB1 95]. Les systèmes on-line sont pratiquement limités à la reconnaissance de texte manuscrit. Certains systèmes sont limités à la reconnaissance des caractères isolés [AMI 80, ElW 89], d’autres reconnaissent les mots cursifs [AMI 82, AMI 85].
Les approches de l’extraction des primitives
En fonction de l’objectif fixé et de la méthode d’extraction choisie, l’approche de l’extraction des primitives peut être systématique ou heuristique.
– La modélisation et le codage conduisent à une approche systématique dans la mesure où l’objectif fixé est la détermination d’une représentation complète de la forme, même de façon approximative. Dans la modélisation, les primitives sont obtenues a posteriori, par le résultat de l’approximation, tandis que, en ce qui concerne le codage, les catégories de primitives sont définies a priori. Un test, qui est par exemple réalisé à l’aide d’une sonde, permet de valider la présence de chacune des primitives sur l’ensemble de la forme.
– Le paramétrage conduit plutôt à une approche heuristique. Dans ce cas, on ne cherche pas nécessairement une représentation complète mais seulement des indices significatifs. De même que dans le cas du codage, ces indices sont des primitives définies a priori. Au-delà de cette classification un peu formelle, la différence entre les approches systématique et heuristique comme entre le caractère a priori ou a posteriori, s’avère plus nuancée dans la pratique.
Conception du réseau de neurones
Le module d’apprentissage est un simulateur du réseau de neurones multicouches adapté à la classification. Il permet de concevoir le réseau et de faire l’apprentissage. Pour simuler le réseau destiné à l’apprentissage et le test on a choisi les réseaux de neurones multicouches à une couche cachée et la fonction d’activation Logistic pour tous les neurones du réseau. L’algorithme de rétro_propagation avec moment « momentum » est l’algorithme choisi pour faire l’apprentissage. Les paramètres donnés en entrée pour ce module sont :
• La taille du vecteur des caractéristiques.
• Le nombre de neurones dans la couche cachée.
• Le nombre de neurones dans la couche de sortie.
• β : Le momentum.
• L’erreur de sortie pour la fin d’apprentissage d’un exemple.
|
Table des matières
Introduction Générale
Chapitre 1 : LA RECONNAISSANCE DE L’ECRITURE : PROBLEMES ET SOLUTIONS EXISTANTES
1.1 Vue d’ensemble
1.1.1 En Ligne, Hors Ligne
1.1.2 Styles d’écriture
1.1.3 De l’image Au Résultat
1.1.4 Constat et Limites
1.2 Les prétraitements D’image
1.2.1 Graphèmes
1.2.2 Segmentation explicite_implicite
1.2.3 Caractéristiques
1.3 Reconnaissance statistique
1.3.1 Classification en mots
1.3.2 Séquence et forme
1.3.3 Choix d’une modélisation
1.4 Modélisation
1.4.1 Modèles de Markov cachés hybrides et classifieur quelconque
1.4.2 Modèles de Markov cachés hybrides et lois gaussiennes
1.4.3 Modèles de Markov cachés hybrides et réseau de neurones
1.4.4 Réseau de neurones incluant des prétraitements d’images
CHAPITRE 2 : RECONNAISSACE AUTOMATIQUE DE L’ECRITURE ARABE
2.1 Introduction
2.2 Caractéristiques de l’écriture Arabe
2.3. Un modèle général pour la reconnaissance optique de textes Arabes (AOTR)
2.3.1. Acquisition
2.3.2. Prétraitement
2.3.3. Segmentation
2.3.4. Extraction de caractéristiques
2.3.5. Classification
2.3.6. Les approches hybrides
2.3.7. Apprentissage
2.3.8. Post-traitement
2.4 Les Perspectives
2.5 Conclusion
CHAPITRE 3 : Methodes et outils actuels de la reconnaissance des textes manuscrits
3. Introduction
3.1. Les primitives, outils de la reconnaissance
3.1.1. Les objectifs de l’extraction des primitives
3.1.2. La problématique de l’extraction de l’information
3. 2. L’extraction des primitives
3.2.1. Les approches de l’extraction des primitives
3. 2.2. Les catégories de primitives
3.2.3. Les étapes de l’extraction des primitives
3.3 Conclusion
Chapitre 4 : Extraction des paramètres et méthodes de reconnaissance 36
4.I.1-Introduction
4.I.2-Prétraitement
4.I.3- Segmentation en Graphèmes
4.I.4- Les Différents Groupes de Segments
4.I.5-Les caractéristiques extraites des images binaires
4.I.6-Les Caractéristiques Extraites des Contours
4.I.7- Représentation par le squelette
4.I.8. Conclusion
Chapitre 5 : Application : Reconnaissance par modèles de Markov cachés et réseaux de neurones
5.1 Introduction
5.2. Reconnaissance des graphèmes par des réseaux de neurones
5.3- Modèles de Markov cachés
5.4- Reconnaissance de mots
5.5- Résultats expérimentaux
Partie II : Reconnaissance de chiffres manuscrits
5.II.1. Conception et réalisation
5.II.2. Reconnaissance de chèque
5.II.3. Conception et réalisation
5.II.4 Module du prétraitement local
5.II.5 Module d’extraction des caractéristiques
5.II.6 Module d’apprentissage
5.II.7 Conception du réseau de neurones
5.II.8. Description générale des expériences
5.II.9. Test et résultat
5.II.10. Analyse des résultats
Conclusion générale
Bibliographie
Télécharger le rapport complet