L’écriture manuscrite: un moyen de caractérisation des individus

L’écriture manuscrite: un moyen de caractérisation des individus

Le terme ’’écriture’’ peut se référer aux mouvements complexes effectués par la main au cours de la production d’un texte [SES 12] ou aux résultats de ce processus. En tant que processus, l’écriture est une tâche perceptivo-motrice complexe, une compétence qui s’acquiert généralement à l’école. La main est un mécanisme extrêmement complexe et délicat qui contient 27 os contrôlés par plus de 40 muscles différents [HUB 99], la plupart de ces muscles sont situés dans l’avant bras et sont connectés aux doigts par un ensemble complexe de tendons. Elle est innervée par 3 nerfs qui exercent des fonctions sensorielles et motrices différentes.

L’écriture a reçu beaucoup d’attention à partir du moment où les êtres humains ont commencé à écrire [GIL 11]. Son individualité, ainsi que sa facilité l’ont rendue un moyen de communication majeur. Avec l’avènement de supports électroniques de communication et de stockage rapides et faciles à utiliser, l’écriture est devenue un centre d’intérêt pour les chercheurs du domaine de l’analyse et la reconnaissance automatique de l’écriture manuscrite. L’écriture manuscrite peut contenir divers types d’informations, on peut citer, par exemple, les informations sur ce qui a été écrit (le texte), les informations sur celui qui a écrit, telles que son identité, son genre, son âge ainsi que sur sa personnalité. L’extraction du premier type d’information se fait par le biais de techniques de reconnaissance de l’écriture manuscrite alors que le deuxième type d’information peut être exploité par des systèmes de classification des scripteurs.

Bien que la tâche de classification des scripteurs soit liée étroitement à celle de la reconnaissance de l’écriture manuscrite [SID 10, BUL 07, BEN 04], elle ne semble pas poser le même type de difficultés. Le but dans la reconnaissance de l’écriture est d’obtenir l’invariance et la généralisation, alors que, dans la classification de scripteurs, on essaye d’obtenir tout à fait l’opposé dans le but d’exploiter au maximum les variabilités des écritures manuscrites pour la discrimination et la classification de leurs scripteurs. Il est important, cependant, de mentionner que la classification de scripteurs pourrait réduire certaines ambiguïtés dans le processus de reconnaissance de l’écriture si les informations sur les habitudes et les particularités générales de l’écriture d’un scripteur, ou d’une catégorie de scripteurs, sont disponibles au système de reconnaissance de l’écriture [CRE 95, NOS 99, BUL 07a, SID 10].

Facteurs causant la variabilité des écritures manuscrites

Quatre facteurs influençant la production de l’écriture ont été identifiés par Schomaker [SCH 98]: Le premier facteur de variation des écritures concerne les transformations affines que le scripteur impose à l’écriture  et qui sont sous son contrôle volontaire. Parmi ces transformations, on peut citer, les transformations de taille, de translation, de rotation, et de cisaillement. Elles représentent certainement une nuisance pour la classification des écritures manuscrites, mais pas un obstacle fondamental. En particulier, l’inclinaison de l’écriture constitue un paramètre habituel qui peut être exploité par les systèmes de classification de scripteurs.

La variabilité neuro-biomécanique  représente le facteur le plus fréquemment rencontré causant de nombreuses variations des écritures manuscrites. Cette variabilité est assimilée à un manque de soin dans la production des formes des différents caractères à cause d’un effort irrégulier produit par le scripteur, ce qui influe remarquablement sur la lisibilité de son écriture. Ce facteur est davantage lié à l’état du scripteur qu’à son identité.

Différents types de variations des écritures manuscrites

Bien que les individus d’un pays donné reçoivent une éducation commune, et subissent, notamment, un apprentissage commun de l’écriture, les graphismes qu’ils produisent sont extrêmement variables [CRE 98]. Il existe trois types de variabilités des écritures manuscrites : la variabilité inter-scripteurs qui dénote la variation du style d’écriture entre différentes personnes, la variabilité intra-scripteur qui représente les variations de l’écriture d’une même personne au cours du temps et qui dépend de son état physique et psychologique (variations intrinsèques à chaque scripteur) ainsi que la variabilité inter-classes qui dénote la variation du style d’écriture entre les deux catégories de scripteurs (masculine et féminine).

La reconnaissance de scripteurs est seulement possible dans la mesure où la variabilité interscripteurs excède la variabilité intra-scripteur [SID 10]. Autrement dit, la capacité des systèmes de reconnaissance de scripteurs à reconnaître une personne repose essentiellement sur la capacité à discriminer les personnes grâce aux variabilités des écritures. Nous considérons la superposition d’un mot écrit six fois par le même scripteur  et celle produite par six scripteurs différents . Ces figures illustrent les variations intra et interscripteurs et montrent une stabilité relative de l’écriture pour un même scripteur.

Catégorisation des systèmes de classification de scripteurs

Sur le plan méthodologique, la complexité des systèmes de classification de scripteurs peut être évaluée en tenant compte d’un ensemble de critères dont les plus connus sont : la tâche de reconnaissance (identification ou vérification), la dépendance du texte (dépendant ou indépendant du texte) et enfin le mode d’acquisition de l’écriture (en-ligne ou hors-ligne).

Catégorisation par tâche

La classification de scripteurs est un terme générique qui répond à plusieurs définitions selon le scénario applicatif envisagé. Les scénarios applicatifs qui seront abordés dans ce mémoire peuvent être regroupés en trois catégories principales :
o L’identification de scripteurs.
o La vérification de scripteurs.
o La classification de scripteurs en fonction de leur sexe.

Pour la tâche de l’identification du scripteur [SID 10], étant donné un échantillon de document manuscrit S  inconnu et une base de données contenant des échantillons de documents manuscrits appartenant à N  scripteurs connus, l’objectif est de trouver le scripteur (ou la liste probable de scripteurs) du document manuscrit  S dans la base de données.

Deux modes sont possibles en identification de scripteurs: l’identification en ensemble fermé dans laquelle on suppose que le document manuscrit est effectivement écrit par un scripteur connu du système et l’identification en ensemble ouvert dans laquelle le scripteur peut ne pas être connu. Il est important de noter que tous les travaux présentés jusqu’à présent dans le domaine de l’identification du scripteur procèdent à une identification en ensemble fermé à l’exception de ceux présentés par Schlapbach et al. [SCL 04a, SCL 04b, SCL 05, SCL 06, SCL 07b, SCL 07a].

Lors du développement d’un système de classification de scripteurs, quatre étapes principales peuvent être distinguées :

Prétraitements : Cette étape implique la collecte et la préparation des données dans une forme appropriée [GIL 11] afin qu’elles soient facilement utilisables. Cette étape est évidemment très spécifique au type de données à classifier (en-ligne ou hors-ligne). Pour la classification de scripteurs en utilisant des images de documents, l’étape de prétraitements peut inclure la numérisation des images de documents, l’élimination du bruit, la normalisation, la correction de l’inclinaison, la sélection de régions d’intérêt, la binarisation, ainsi que toute autre opération permettant de soutenir les étapes ultérieures.

Extraction de caractéristiques : Généralement, les échantillons de textes présents en entrée d’un système de classification de scripteurs contiennent beaucoup d’informations qui ne peuvent pas être utilisées pour leur classification, et une grande partie de ces informations n’est pas assez pertinente pour déterminer la bonne classe. L’objectif essentiel de cette étape repose sur l’extraction, à partir de l’échantillon de texte, d’un ensemble d’attributs qui sont des indicateurs utiles sur la classe à laquelle il appartient [GIL 11, SCL 07a]. Ces attributs sont connus comme des ‘‘caractéristiques’’, et leur choix représente une étape importante dans le domaine de la classification de scripteurs. En outre, il y a quelques étapes facultatives qui peuvent être effectuées en dérivant des caractéristiques améliorées de celles initialement extraites. Les caractéristiques peuvent être combinées (combinaison de caractéristiques) de différentes manières pour générer des caractéristiques plus performantes, ou elles peuvent être soumises à une phase de test préliminaire afin de choisir les attributs les plus précis et les plus discriminatoires (sélection de caractéristiques).

Apprentissage (ou entraînement): Dans cette étape, et pour chaque classe, un modèle est construit et entraîné en utilisant des échantillons de textes issus de cette classe [SCL 07a]. Le modèle représente la distribution des vecteurs de caractéristiques extraites à partir échantillons de textes de l’ensemble d’apprentissage. À la suite de l’étape d’apprentissage ou d’entraînement, un modèle représentant chaque classe (scripteur ou catégorie de scripteurs) est obtenu. Ce modèle sera utilisé lors de l’étape suivante (de classification) pour la classification d’échantillons inconnus.

Classification : Une fois que l’échantillon de texte en entrée du système de classification de scripteurs est représenté par un ensemble de caractéristiques, il peut être comparé avec les modèles de référence générés par l’étape précédente (étape d’apprentissage) afin de déterminer à quelle classe il appartient. Dans la reconnaissance de scripteurs, ces classes correspondent à des individus (scripteurs): chaque personne est modélisée comme un générateur d’un ensemble de formes particulières d’écriture décrivant son style personnel d’écriture. Dans la classification de scripteurs en fonction de leur sexe, les classes correspondent à deux catégories différentes (masculine et féminine): chaque catégorie est modélisée comme un générateur d’un ensemble de formes particulières d’écriture décrivant cette catégorie particulière. Le processus d’attribution d’une classe à un échantillon d’écriture inconnu représente l’étape de ‘‘classification’’.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
1. Contexte de la recherche
2. Objectifs de la recherche
3. Organisation du mémoire de thèse
Chapitre 1. Analyse de l’écriture manuscrite pour la classification de scripteurs: Concepts et outils
1.1. L’écriture manuscrite: un moyen de caractérisation des individus
1.1.1. Facteurs causant la variabilité des écritures manuscrites
1.1.2. Différents types de variations des écritures manuscrites
1.2. Catégorisation des systèmes de classification de scripteurs
1.2.1. Catégorisation par Tâche
1.2.2. Catégorisation par dépendance du texte
1.2.3. Catégorisation selon le mode d’acquisition des données
1.3. Evaluation de performances des systèmes de classification des scripteurs
1.3.1. Evaluation de l’identification
1.3.2. Evaluation de la vérification
1.4. Les applications possibles de la classification des scripteurs
1.4.1. Systèmes adaptatifs de reconnaissance de l’écriture manuscrite
1.4.2. Examen forensique de documents
1.4.3. Reconnaissance biométrique
1.4.4. Bibliothèque numériques
1.4.5. Salles de réunions intelligentes
1.4.6. L’intelligence ambiante
1.5. Systèmes existants de la classification des scripteurs
1.5.1. Le système WANDA
1.5.2. Le système CEDAR-FOX
1.5.3. Le système FLASH ID
1.5.4. Le système SCRIPT
1.6. Principales bases de données
1.6.1. CEDAR Database
1.6.2. IAM Database
1.6.3. RIMES Database
1.6.4. BFL Database
1.6.5. CVL Database
1.6.6. KHATT Database
1.6.7. IFN/ENIT Database
1.6.8. QUWI Database
1.6.9. CASIA Database
1.6.10. CVCMUSCIMA Database
1.6.11. FIREMAKER Database
1.6.12. CEDARABIC Database
1.7. Conclusion
Chapitre 2. Approches de classification de scripteurs: Un état de l’art
2.1. Introduction
2.2. Analyse locale pour la classification de scripteurs
2.2.1. Travaux d’Audrey Seropian (2003)
2.2.2. Travaux de Bensefia et al (2004)
2.2.3. Travaux de Pervouchine & al (2007)
2.2.4. Travaux de Tan & al (2009)
2.2.5. Travaux de Woodard & al (2010)
2.2.6. Travaux de Jain & al (2011)
2.3. Analyse globale pour la classification de scripteurs
2.3.1. Travaux de Zois & al (2000)
2.3.2. Travaux de Said & al (2000)
2.3.3. Travaux de Marti et al (2001)
2.3.4. Travaux de Srihari & al (2002)
2.3.5. Travaux de Gazzah & al (2005, 2006)
2.3.6. Travaux de Feddaoui & al (2006)
2.3.7. Travaux de Schlapbach & al (2007)
2.3.8. Travaux de Bertolini & al (2013)
2.3.9. Travaux de Chabouni & al (2014)
2.3.10. Travaux de Wang et al (2003 & 2004)
2.3.11. Travaux de Garain et al (2009)
2.3.12. Autres travaux
2.4. Analyse combinée pour la classification de scripteurs
2.4.1. Travaux de Bulacu & al (2007)
2.4.2. Travaux de Siddiqi et al (2010)
2.5. Compétitions sur la classification de scripteurs
2.5.1. Compétitions sur l’identification de scripteurs
2.5.1.1. Compétitions sur l’identification de scripteurs à partir de documents arabes
2.5.1.2. Compétitions sur l’identification de scripteurs à partir de documents multilingues (latins et grecs)
2.5.1.3. Compétition sur l’identification de scripteurs à partir de partitions musicales
2.5.1.4. Compétition sur l’identification de scripteurs à partir des écritures de styles différents issues du même scripteur
2.5.2. Compétition sur la prédiction du genre
2.6. Synthèse de travaux de classification de scripteurs
Chapitre 3. Reconnaissance du scripteur en mode indépendant du texte en utilisant des documents multi-scripts
3.1. Introduction
3.2. Base de données utilisée
3.2.1. Description de la base de données
3.2.2. Similitudes et différences entre les scripts latins et grecs
3.3. Extraction de caractéristiques
3.3.1. Distribution de longueurs de segments (Run-length)
3.3.2. Caractéristiques de l’état de l’art
3.4. Indépendance des caractéristiques proposées du script considéré
3.4.1 Expérimentations sur la base IFN-ENIT
3.4.2 Expérimentations sur la base KHATT
3.4.3 Expérimentations sur la base CVL
3.4.4 Expérimentations sur les bases des compétitions ICDAR et ICFHR contenant des documents latins et grecs
3.5. Reconnaissance du scripteur
3.5.1 Identification du scripteur
3.5.1.1. k Plus Proche Voisins (k-NN)
3.5.1.2. Séparateurs à vaste marge multi-classes (SVM)
3.5.2. Vérification du scripteur
3.6. Résultats expérimentaux et discussion
3.6.1. Expérimentations dépendantes de la langue
3.6.2. Expérimentations Multi-scripts (Grec vs Anglais et inversement)
3.6.3. Stabilité des caractéristiques proposées
3.6.3.1. Performances en fonction de la quantité du texte
3.6.3.2. Influence du bruit sur les performances des caractéristiques proposées
3.7. Conclusion
Conclusion générale

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *