Représentations visuelles précoces dans la catégorisation rapide de scènes naturelles chez l’homme et le singe

Catégorisation sans indice de couleur

Pour essayer d’aller plus loin dans la compréhension des mécanismes mis en œuvre dans le système visuel, il est essentiel de déterminer quels sont les attributs les plus importants dans une image pour effectuer une tâche donnée. On peut imaginer manipuler une partie du contenu des images et observer l’impact de cette modification sur les performances et l’activité cérébrale pour savoir si ces informations sont essentielles au fonctionnement du système. C’est ce type de manipulation qu’ont fait Delorme et ses collègues dans une étude parue en 2000 (Delorme et al., 2000). Testés sur des images présentées aléatoirement en couleur ou en niveaux de gris, les sujets (hommes ou singes) se sont montrés aussi rapides (TR minimal) et pratiquement aussi précis dans les deux conditions de présentation. Ainsi de manière surprenante, retirer une importante partie des informations de l’image, qui peuvent sembler très utiles pour interpréter la scène ou lever des ambiguïtés, ne ralentit pas la vitesse du traitement. Il existe une hypothèse assez simple pour expliquer ce résultat, qui fait appel aux caractéristiques respectives des deux systèmes principaux qui transmettent les informations de la rétine au cortex visuel. Au niveau de V1, les informations magnocellulaires ont 10 à 20 ms d’avance sur les informations parvocellulaires, ce qui peut s’avérer un avantage primordial lors de processus de traitement très rapides. Si l’on fait l’hypothèse que le système visuel doit tirer partie des toutes premières informations disponibles pour traiter aussi rapidement les images, la catégorisation pourrait avantageusement s’appuyer sur les informations transmises par le système magnocellulaire. Étant donné que les informations qu’il transporte sont achromatiques, la suppression de la couleur ne ralentirait pas la catégorisation des images. Il faut cependant noter que le système parvocellulaire encode à la fois des contrastes de couleur et des contrastes de luminance. Le résultat précédent sur les images en noir et blanc et en couleur pourrait donc être expliqué sans faire appel au système magnocellulaire si les contrastes de luminance sont encodés aussi rapidement que les contrastes de couleur dans le système parvocellulaire. Cette question n’est pas entièrement tranchée, mais certains travaux laissent penser qu’il pourrait effectivement exister un avantage d’environ 5 ms pour les contrastes de luminance par rapport aux contrastes chromatiques au sein du système parvocellulaire (Benardete & Kaplan, 1997 ; Benardete & Kaplan, 1999). L’absence d’effet dela suppression des informations de couleur sur la catégorisation ne constitue donc pas une preuve formelle de l’implication du système magnocellulaire dans la catégorisation visuelle rapide, mais elle permet néanmoins de proposer cette hypothèse comme meilleure candidate en explication du phénomène.

Les premières informations visuelles

L’architecture générale du système visuel apparaît optimisée pour que les informations en provenance de la rétine parcourent très rapidement les diverses étapes des voies visuelles. Certains auteurs avancent sur la base de localisations précises de sources EEG (Foxe & Simpson, 2002 ; Di Russo et al., 2001) que l’ensemble de la voie ventrale pourrait être activée en seulement 100 à 120 ms chez l’homme. Les premières informations disponibles dès cette période sont cependant en quantité limitée et la description du monde qu’elles reflètent est rudimentaire et incomplète. Nous avons vu dans les chapitres précédents que ces informations grossières peuvent néanmoins suffire pour effectuer des tâches complexes, comme la catégorisation d’images naturelles, avec un pourcentage de réussite tout à fait satisfaisant. Les expériences rapportées plus haut sur le rôle négligeable de la couleur dans une tâche de catégorisation ainsi que l’influence modérée de l’excentricité et de la réduction de contraste permettent d’avancer que le système magnocellulaire, dont les informations circulent plus rapidement dans le système visuel, joue un rôle important dans les premiers traitements visuels en fournissant une ébauche de la scène visuelle dans laquelle viennent s’ancrer ultérieurement des informations plus détaillées (Sherman, 1985). A travers ce protocole de catégorisation, nous cherchons à comprendre comment le système visuel extrait les informations de la scène visuelle pour construire une représentation de plus en plus aboutie et quels sont les différents éléments qui permettent une compréhension globale de la scène. Jusqu’à quel niveau de représentation faut-il détailler la scène visuelle pour effectuer une tâche de catégorisation ? Ce niveau de détail est-il le même quel que soit l’objet cible considéré ? Nous avons vu dans le 1er chapitre que les singes réalisent la tâche avec des performances tout à fait comparables à celles des humains (et même bien meilleures si l’on considère les temps de réaction), comment faut-il interpréter le fait qu’une espèce dépourvue de langage puisse effectuer des tâches de catégorisation supposées impliquer une capacité d’abstraction relativement avancée ? Quelles sont les étapes de traitement qui permettent à leur système visuel de reconnaître et catégoriser des objets ?

A quoi correspondent ces 150 ms ? Quelle est l’origine de la différentielle ?

L’activité différentielle à 150 ms qui apparaît dans tant de tâches de catégorisation est intéressante parce qu’elle est le reflet de processus cognitifs à une latence relativement courte. Des études reposant sur l’IRMf (Fize et al., 2000) ou la localisation de source (Delorme et al., 2004) ont montré que cette activité différentielle prend principalement son origine dans le cortex inféro-temporal, une partie de la voie ventrale dans laquelle des neurones sélectifs à des objets ont été enregistrés. L’amplitude de cette activité différentielle est d’ailleurs fortement corrélée à la précision des sujets dans la tâche effectuée (expérience sur le contraste dans le 1er chapitre et expérience de masquage ci-dessous), ce qui peut laisser penser que la bonne perception d’un objet cible est directement liée au niveau d’activation des représentations des objets stockées dans le cortex inféro-temporal. Plusieurs hypothèses ont été avancées pour expliquer à quoi correspond cette activité différentielle à 150 ms. La première idée est développée dans l’article de 1996 de Thorpe et al. qui se concentre principalement sur les activités différentielles frontales. Ne constatant pas de corrélations entre le temps et réaction et la latence de l’activité différentielle, les auteurs avaient proposé l’idée qu’elle résulte d’une inhibition massive de la réponse lorsque la scène présentée ne contient pas de cible. D’autres expériences avaient mis en évidence en frontal des effets très semblables d’inhibition de réponse (Gemba & Sasaki, 1989 ; Sasaki et al., 1993). Nous pouvons cependant douter de cette interprétation puisque nous savons désormais que : (1) l’activité différentielle frontale est majoritairement le reflet antérieur de dipôles occipitotemporaux (Rousselet et al., 2004), et (2) les latences de décharge des neurones dans le cortex inféro-temporal sont bien plus fortement corrélées à l’apparition du stimulus qu’à la réponse motrice, rendant ainsi logique l’indépendance observée (DiCarlo & Maunsell, 2005). La catégorisation peut très bien intervenir autour de 150 ms de manière pratiquement indépendante du temps de réaction si la variabilité des TR prend son origine dans la variabilité motrice plutôt que dans celle du traitement des informations visuelles. Il est alors naturel de ne pas trouver de corrélation entre la latence de l’activité différentielle et celle des temps de réaction si l’on admet que cette activité est générée par des neurones dans la voie ventrale. Le signal à 150 ms pourrait être constitué à la fois par la vague d’activation feed-forward parcourrant le système visuel et par le flux d’informations en feedback provenant du cortex préfrontal (Barcelo et al., 2000 ; Moore & Armstrong, 2003) ou d’aires impliquées dans la mémoire qui viendraient activer les représentations du cortex inférotemporal utiles pour la tâche à accomplir. Ces deux flux d’informations pourraient interagir de manière complexe dans la voie ventrale et donner lieu à l’activité différentielle observée. Rousselet et al. (Rousselet et al., 2004) proposent une variante de cette hypothèse dans laquelle l’activité différentielle à 150 ms serait postérieure à la première vague d’activation du système visuel et correspondrait à la sélection spatiale par voie descendante de la zone du champ visuel contenant l’objet cible. Il ne nous est pas possible à l’heure actuelle de trancher entre ces différentes hypothèses sur l’origine de l’activité différentielle, mais il est en revanche tout à fait possible d’étudier plus en détail la durée minimale pendant laquelle l’information visuelle doit être traitée pour permettre une catégorisation.

Modèle d’Ullman

Ullmann (Ullman, 1998), lui aussi dans le cadre théorique d’une reconstruction géométrique des objets, s’appuie sur d’autres propriétés invariantes de l’image (3D) pour construire une représentation du monde environnant. L’idée la plus intéressante dans le modèle d’Ullman concerne le flux de données à l’intérieur du système visuel. L’appariement entre les objets reconstruits depuis l’entrée du système et les modèles stockés en mémoire ne se ferait pas obligatoirement en haut de l’architecture visuelle, mais à des niveaux intermédiaires en fonction de la complexité des objets à traiter et de leur degré de préactivation. Les représentations des objets dont la présence est la plus probable dans la scène seraient sélectionnées par une première vague de traitement rapide à travers le système grâce à desprojections directes vers des aires intermédiaires (V1-V4 / V2-IT). L’activation de chacun de ces modèles pourrait générer un grand nombre de variations à partir de la vue stockée. Ces variations seraient propagées dans le système visuel par des voies descendantes en direction des représentations en cours de construction. Des algorithmes d’alignements de vues et de comparaisons seraient alors utilisés pour trouver la meilleure correspondance entre les représentations construites à partir de la perception et les représentations construites à partir des modèles. On peut souligner tout de suite un important problème qui apparaît avec ce modèle : il est théoriquement impossible de reconnaître un objet du monde si son modèle n’a pas été pré-activé puis propagé à travers le réseau. Une autre difficulté survient si l’on fait l’hypothèse que certaines situations induisent une préactivation massive d’un grand nombre de modèles (foule, environnement complexe ou changements rapides) qui pourraient engendrer une confusion totale dans le système.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
1 – Quel rôle pour le système magnocellulaire dans la catégorisation visuelle rapide ?
1.1 – Catégorisation visuelle rapide
1.1.1 – Catégorisation sans indices de couleur
1.1.2 – Catégorisation en périphérie
1.1.3 – Implications pour la catégorisation visuelle
1.2 – Architecture générale du système visuel
1.3 – Flux magno- et parvo-cellulaires dans les voies visuelles
1.3.1 – Connexions anatomiques
1.3.2 – Caractéristiques physiologiques
1.3.3 – Modèles de traitement rapide de l’information visuelle
1.4 – Catégorisation ultra-rapide : robustesse aux variations de contraste
1.4.1 – Expériences chez l’homme et le singe : article n°1
1.4.2 – Les activités différentielles précoces et le contraste
1.5 – Catégorisation ultra-rapide : robustesse aux variations de luminance
1.5.1 – Expériences chez l’homme et le singe
1.5.2 – Les activités différentielles précoces et la luminance
2 – Dynamique des premiers traitements visuels
2.1 – Latences de réponses dans le système visuel
2.1.1 – Enregistrements cellulaires et EEG
2.1.2 – Les activités différentielles avant 150 ms
2.1.3 – Les activités différentielles après 150 ms
2.1.4 – Encore et toujours 150 ms !
2.2 – Pré-activation du système visuel…
2.2.1 – En simplifiant les cibles et les distracteurs
2.2.2 – En faisant intervenir l’apprentissage
2.2.3 – En maximisant les influences descendantes : articles n°2 et 3
2.2.4 – En simplifiant la tâche à l’extrême
2.3 – A quoi correspondent ces 150 ms ? Quelle est l’origine de la différentielle ?
2.4 – Peut-on décomposer ces 150 premières millisecondes ? Article n°4
2.5 – 150 ms de traitement … une surévaluation ?
2.6 – Conclusion générale sur la vitesse de traitement
3 – Représentations accessibles avec les informations précoces
3.1 – Modèles de la reconnaissance d’objets
3.1.1 – Théorie de Marr
3.1.2 – Théorie des géons
3.1.3 – Modèle d’Ullman
3.1.4 – Remise en cause de l’invariance à la vue et de la reconstruction géométrique
3.1.5 – Modèles de reconnaissance par indices ou par vues
3.1.6 – Modèle de Thorpe et Gautrais : codage par rang
3.1.7 – Modèle de Riesenhuber et Poggio
3.1.8 – Avantages et inconvénients des modèles par vues
3.1.9 – Identification et catégorisation dans les modèles par vues
3.2 – Comparaison entre niveaux de catégorisation : article n°5
3.3 – Diagnosticité
3.4 – Un cas particulier : la catégorisation des visages. Articles n°6 & 7
3.5 – Les activités différentielles précoces dans une double tâche
3.6 – Conclusion générale
Synthèse et perspectives