Systèmes d’assistance visuelle basés sur une approche holistique

Systèmes d’assistance visuelle basés sur une approche holistique 

Lorsque les causes de malvoyance ou de cécité ne sont pas traitables et que le déficit restera permanent, comme dans le cas de la dégénérescence maculaire, des glaucomes ou de nombreuses opacités de la cornée, différentes solutions ont été proposées pour compenser la perte visuelle, et restaurer, si ce n‘est un réel sens visuel, au moins certaines des fonctions perdues. Deux catégories de systèmes se démarquent. D‘une part, les approches holistiques, visant à restituer l‘information visuelle dans sa globalité. C‘est la démarche commune des systèmes de substitution sensorielle et des neuroprothèses que nous développerons ici.

Substitution sensorielle

Les systèmes de substitution sensorielle sont des dispositifs qui permettent que des informations normalement acquises par un organe sensoriel défaillant soient restituées vers une autre modalité perceptive. Dans le cas des aveugles ou des malvoyants, ils consistent par exemple à transmettre des informations visuelles via le système auditif ou somesthésique. Ces systèmes reposent tous sur une architecture en 3 étapes, commençant par l‘acquisition de l‘information (traditionnellement une caméra embarquée), puis la conversion et/ou le traitement de celle-ci pour la retransmettre à la modalité sensorielle de sortie, et finalement par sa restitution via un dispositif adapté.

Substitution visuo-tactile

Le Braille, inventé en 1929 et toujours largement employé de nos jours, constitue une des premières tentatives visant à présenter des informations de nature visuelle (en l‘occurrence du texte) sous forme tactile. Le système Braille, composé de cellules de 6 points, permet de coder 64 combinaisons sur chacune d‘elles, et donc de représenter l‘ensemble des lettres de l‘alphabet, ainsi que les chiffres, les caractères spéciaux propres à chaque langue, et même les notations musicales ou mathématiques.

Le Braille en tant que tel ne peut être considéré comme de la substitution sensorielle, car il n‘est pas possible de convertir directement de l‘information visuelle en codage Braille, néanmoins différents outils complémentaires permettent de lui apporter cet aspect dynamique. Il existe par exemple de nombreux logiciels appelés lecteurs d‘écrans, permettant de retranscrire à la volée le contenu d‘un écran sous forme parlée, ou par le biais d‘une plage Braille telle que celle présentée dans la Figure I-9. Il est également possible d‘utiliser des systèmes de reconnaissance de caractères permettant de convertir en texte un document scanné ou une image, qui à son tour pourra être restitué en langage Braille. Un des premiers dispositifs reposant sur ce principe a été commercialisé en 19711 par la compagnie américaine Telesensory System. Baptisé Optacon, il consistait en un stylet équipé d‘une caméra que l‘utilisateur déplaçait le long du texte, et d‘une matrice de picots vibrants reproduisant la forme des caractères [Goldish and Taylor, 1974]. Ce système ne reposait pas sur le codage braille, ni sur la reconnaissance automatique de caractères, mais directement sur la forme des lettres et des motifs transposée sur une matrices de 6 colonnes et 24 rangées (visible sur la Figure I-9). L‘utilisation de ce dispositif nécessitait un long entraînement, et la vitesse de lecture restait relativement faible y compris pour un utilisateur expérimenté, entre 20 et 80 mots à la minute.

Les approches de réelle substitution visuo-tactile, ne se limitant pas à la lecture, ont été initiées par Paul Bach-y-Rita et ses collaborateurs dans les années 70. Le dispositif proposé, appelé Tactile Vision Substitution System (TVSS), convertissait des informations visuelles capturées par une caméra en des sensations tactiles appliquées à la surface du corps [Bach-y-Rita et al., 1969a, 1969b]. Dans le premier dispositif, une grille de stimulation électro-tactile était montée sur une chaise de dentiste afin de stimuler le dos du sujet, et la caméra utilisée était fixe .

Par la suite, différents prototypes se sont succédés. Le deuxième, également présenté dans la Figure I-10, ne stimulait non plus le dos mais l‘abdomen [Bach-y-Rita, 1983]. La différence majeure résidait dans le fait que la caméra était mobile et manipulée par l‘utilisateur. Différentes expériences ont effectivement montré que ce contrôle était nécessaire à l‘utilisation d‘un système de substitution sensorielle [Arno et al., 2001a; Auvray and Myin, 2009; Bach-y-Rita, 2002; Guarniero, 1974]. Non seulement les performances de discrimination de formes s‘en trouvent très largement augmentées (par rapport à une caméra fixe ou actionnée par une autre personne que le sujet), mais la nature même de la perception rapportée par l‘utilisateur s‘avère radicalement différente. Les sujets témoignent de ce changement de perception [Bach-y-Rita, 1983] :

When the camera was either immobile or under the control of another person the subjects reported experiences in terms of sensations on the area of skin which was receiving the stimuli. However, when they could easily direct the camera at will, their reports were in terms of objects localized externally in space in front of them. The provision of a motor linkage (camera movement) for the sensory receptor surface on the skin produced a surrogate « perceptual organ « .

La manipulation de la camera permet non seulement la mise en place d‘une boucle sensori-motrice nécessaire à l‘extériorisation de la perception, mais également l‘enrichissement des informations acquises dans le cadre des premiers dispositifs à résolution limitée (du fait du nombre d‘éléments des matrices de stimulation et de la faible qualité des jugements tactiles dans les régions du dos ou de l‘abdomen). La quantité d‘information perçue à un instant donné étant trop faible pour l‘interprétation de la scène, les utilisateurs se trouvaient contraints de balayer l‘espace pendant 30 à 60 secondes afin d‘identifier les objets présents, et ce en se basant sur les changements de contours résultant du mouvement de la caméra. Un dernier type de dispositif fut développé à la fin des années 90 par l‘équipe de Bach-Y-Rita, pour compenser cette faible acuité somesthésique au niveau du dos ou de l‘abdomen. Baptisé Tongue Dispay Unit (TDU), il consistait en une matrice de stimulation de 49 électrodes disposée sur la langue. Un système très similaire, mais appliqué sur le palais, a été développé plus tard par Tang et Beebe [Tang and Beebe, 2006, 2003]. En effet, la cavité buccale est un des organes ayant la plus forte densité de récepteurs tactiles, ce qui permet une plus grande résolution de perception et demande moins d‘énergie de stimulation.

La première version du TDU avait une résolution de 7×7 électrodes de stimulation et permettait la reconnaissance de formes simples, en l‘occurrence des ronds, carrés et triangles [Bach-y-Rita et al., 1998]. Ces résultats sont comparables aux résultats rapportés dans une autre étude [Kaczmarek et al., 1997] avec le même protocole et le même dispositif expérimental, mais appliqué sur le bout d‘un doigt. Les performances de reconnaissance des motifs sont alors très proches (90% environ pour des grandes tailles de stimuli) de celles obtenues avec une stimulation de la langue.

Au début des années 2000, une nouvelle version du TDU (voir Figure I-12) est créée avec une matrice de 144 électrodes de stimulation (12×12) connectée à une caméra de faible résolution (240×180) et de 54° d‘angle de vue [Sampaio et al., 2001]. L‘acuité « visuelle » avec un tel système a été mesurée grâce au test standard de Snellen. Deux groupes de sujets n‘ayant jamais utilisé ce type de dispositif ont été constitué, l‘un comportant 6 voyants et l‘autre 6 non-voyants congénitaux. Les stimuli étaient dérivés du ‗E‘ de Snellen, dans six tailles (5 ; 3,6 ; 2,5 ; 1,8 ; 1,5 et 0,85 cm) et quatre orientations différentes. Les sujets pouvaient faire bouger manuellement la caméra, fixée à 40 cm de la source par un bras articulé. Avant tout apprentissage du système, l‘acuité des sujets était proche de 20/860 (seuls les plus grands stimuli, de 5*5 cm, étaient différenciables), et similaire dans les deux groupes. Après un apprentissage de neuf heures consistant en la détection de lignes de taille et d‘orientation différentes, l‘acuité visuelle avait doublé (20/430) mais restait néanmoins très faible.

Substitution visuo-auditive 

Apparus plus tard, d‘autres systèmes pour non-voyants utilisent l‘audition plutôt que le toucher pour restituer l‘information visuelle. Le système auditif montre en effet des seuils de discrimination d‘intensité, de fréquence et de position extrêmement fins, et il est capable de traiter des motifs sonores complexes et changeants comme la parole même dans des environnements bruyants [Hirsh, 1988]. La plupart des aveugles utilisent d‘ailleurs les sons pour la navigation, ceux du bruit de leurs pas ou de leur canne sur le sol, ainsi que ceux de leur voix ou des activités de la ville, qui les informent sur l‘environnement et les obstacles susceptibles d‘être rencontrés. Ces capacités auditives d‘écholocalisation ont été observées dès 1947 dans [Worchel and Dallenbach, 1947]. De plus, systèmes de substitution visuoauditive ont l‘avantage de consommer peu d‘énergie et d‘utiliser des technologies courantes, compactes et peu coûteuses (généralement une caméra/webcam, des écouteurs et un ordinateur portable ou un téléphone). Néanmoins, les images numériques étant par nature bidimensionnelles, la transcription des informations visuelles en informations auditives est donc plus délicate que dans le cas de la substitution visuo tactile. Une interface tactile possède en effet une structure spatiale bidimensionnelle sur laquelle on peut simplement recopier l’image, ce qui n’est pas le cas d’une interface sonore. La substitution de la vision par l‘audition s‘obtient en transformant l‘image vidéo provenant d‘une caméra en un signal sonore complexe transmis via des écouteurs, en utilisant quatre propriétés des sons: la fréquence, l‘intensité, le délai et les différences inter-aurales.

Un grand nombre de prototypes reposant sur la substitution sensorielle ont été proposé depuis les années 90 (et particulièrement après les années 2000, voir par exemple la revue de [Maidenbaum et al., 2014]), mais nous ne présenterons ici que quatre d‘entre eux, ayant connu un fort succès :
1. Le plus connu, ‗The vOICe‘ (les lettres capitales étant lues « Oh I see » ) [Meijer, 1992], est développé depuis 1992 par l‘ingénieur Peter Meijer, au sein du laboratoire Philips Research à Eindhoven.
2. Le système PSVA [Arno et al., 1999] a été mis au point en 1999 par Capelle et ses collaborateurs à l‘Université Catholique de Louvain.
3. Un système plus récent, ‗The Vibe‘ [Durette et al., 2008], est issu d‘une collaboration entre le laboratoire de Neurophysique et Physiologie du Système Moteur (Sylvain Hanneton) et le laboratoire de Psychologie Expérimentale, tous deux à l‘Université René Descartes de Paris (Sylvain Haupert, J. Kevin O‘Regan, Malika Auvray).
4. Enfin, le système See ColOr (Seeing Colors with an Orchestra), conçu à l‘université de Genève par Thierry Pun, Guido Bologna et leur groupe [G. Bologna et al., 2009; Bologna et al., 2007], qui fait toujours l‘objet de recherches actives et a profité de nombreuses évolution au cours des dernières années [Gomez Valencia, 2014].

Les trois premiers présentent des architecture relativement semblables, et diffèrent principalement par leur codage de l‘information : le premier, the vOice, repose sur un balayage séquentiel de l‘image, alors que les deux suivants sont « simultanés », chaque image étant retransmise sous la forme d‘un seul son complexe. Le dernier, d‘un concept assez différent, sera détaillé un peu plus loin.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
I. CONTEXTE ET ETAT DE L’ART
1. LE HANDICAP VISUEL
1.1 Classification des déficiences visuelles
1.2 Causes de déficiences visuelles
1.3 Handicap et autonomie
2. SYSTEMES D’ASSISTANCE VISUELLE BASES SUR UNE APPROCHE HOLISTIQUE
2.1 Substitution sensorielle
2.2 Neuroprothèses
2.3 Conclusion sur l’approche holistique
3. SYSTEMES D’ASSISTANCE BASES SUR UNE APPROCHE FONCTIONNELLE
3.1 Aides à la navigation
3.2 Aides basées sur la vision artificielle
3.3 Conclusion sur l’approche fonctionnelle
4. SYNTHESE ET POSITIONNEMENT
II. CONCEPTION D’UN SYSTEME DE SUPPLEANCE BASE SUR LA VISION ARTIFICIELLE
1. LE PROJET NAVIG
1.1 Scénarios d’usage
1.2 Architecture générale
1.3 Matériel
1.4 Interface utilisateur
1.5 Contrôleur de dialogue
1.6 Système d’information géographique
1.7 Calcul et suivi d’itinéraire
1.8 Guidage
2. LA VISION DANS NAVIG
2.1 Traitements visuels
2.2 Localisation d’objets
2.3 Positionnement utilisateur
2.4 Moteur de fusion
2.5 Résultats
3. DISCUSSION
3.1 Composantes visuelles
3.2 Multi-caméras
III. DEVELOPPEMENT D’UN ALGORITHME DE RECONNAISSANCE DE FORMES MULTI-RESOLUTIONS
1. INTRODUCTION
2. VISION ARTIFICIELLE
2.1 Recherche d’image par le contenu
2.2 Classification d’images
2.3 Descripteurs
2.4 Classifieurs
2.5 Localisation
3. SPIKENET MULTIRES, UNE APPROCHE BIO-INSPIREE
3.1 Etude préliminaire sur l’architecture MultiRes
3.2 Méthodes
3.3 Résultats
4. CONCLUSION
IV. CONCLUSION GENERALE

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *