Les implémentations de mécanismes d’attention visuelle

Télécharger le fichier pdf d’un mémoire de fin d’études

La morphologie d’un neurone

Les neurones sont des cellules et possèdent donc une structure commune à celle de la plupart des cellules. Le corps cellulaire, ou soma, contient le noyau et les organites que l’on retrouve dans toute cellule (mitochondrie, appareil de Golgi, réticulum endoplas-mique, ribosome, etc). La diﬀérence principale entre les neurones et les autres cellules tient à leur spécialisation qui consiste à intégrer et propager des signaux électriques. Ainsi, la diﬀérence la plus notable concerne la morphologie des neurones (figure 1.1). Ils sont pourvus de ramifications plus ou moins importantes qui peuvent, dans les cas les plus extrêmes, dépasser un mètre de long. Ces ramifications sont constituées par les dendrites, qui reçoivent les courants entrants, et par l’axone, unique, qui propage la dépolarisation sortante 1.

Le potentiel électrique transmembranaire

Dendrites et axones convoient l’information sous forme de variations de potentiel et, comme la communication entre neurones est au cœur des modèles présentés ci-après, il est important d’expliquer en détail les mécanismes mis en jeu. Ces mécanismes permettent de propager des dépolarisations sur de longues distances, sans diminution d’intensité.
Pour dépasser cette limite physiologique, la propagation du potentiel utilise un sys-tème d’amplification qui s’explique par la perméabilité sélective des neurones à certains ions et par la distribution de ces ions entre l’intérieur et l’extérieur de la membrane. Le milieu intracellulaire est séparé du milieu extracellulaire par la membrane plasmique qui est semi-perméable aux ions, à cause des canaux qui la traversent. Ces canaux peuvent transporter passivement ou activement certains ions, c’est-à-dire qu’un type de canal donné est spécialisé dans le transport d’un type d’ion physiologique donné (Na+, K+, Ca2+ ou Cl−). La concentration des ions est diﬀérente de part et d’autre de la membrane et comme cette membrane n’est perméable qu’à certains ions, le système atteint un état d’équilibre électrochimique. Le gradient chimique qui pousse les ions à traverser la membrane est compensé par le gradient électrique qui les empêche de la traverser, comme le montre la figure 1.2 [Purves et al., 1997]. L’état d’équilibre électro-chimique atteint en l’absence de stimulation extérieure est appelé potentiel de repos du neurone. Une remarque importante concernant cet équilibre : il suﬃt que très peu d’ions traversent la membrane pour modifier de façon importante le potentiel de membrane.
FIGURE 1.2 À gauche : aux conditions initiales, une membrane perméable uniquement aux ions potassium K+ sépare le cytosol, ou milieu intracellu-laire, et le milieu extracellulaire (Extracellular fluid ). Les ions M− repré-sentent ici un anion , comme par exemple le chlorure Cl−. La diﬀérence de concentration pousse les ions à s’équilibrer de part et d’autre de la mem-brane. À droite : aux conditions d’équilibre, une petite quantité d’ions K+ a traversé la membrane jusqu’au moment où la force électrostatique agis-sant sur K+ équilibre le gradient de concentration et annule le mouvement d’ions. [Source : Principles of Cell Biology, copyright Pearson Education, Inc 2005]
Les canaux ioniques qui percent la membrane plasmique du neurone sont des pro-téines membranaires intrinsèques, qui peuvent être plus ou moins complexes. On peut cependant distinguer les canaux passifs des pompes à ions, ces dernières permettant de rééquilibrer les concentrations ioniques de part et d’autre de la membrane [Catterall, 1988]. Les canaux passifs peuvent être séparés en trois grandes catégories, en fonction de ce qui cause l’ouverture de ces canaux : les canaux ouverts par des ligands intracellu-laires, ceux ouverts par des ligands extracellulaires et ceux commandés par le voltage. On parle de canaux ouverts par des ligands intracellulaires car ce sont des protéines dont le site fonctionnel est situé sur la face interne de la membrane. Les ligands extracel-lulaires font principalement référence aux neuromédiateurs que l’on détaillera dans la partie 1.1.6. Les canaux activés par le voltage (dits voltage-gated ) s’ouvrent en fonction du potentiel membranaire ou, plus exactement, la probabilité que ces canaux laissent passer des ions dépend du voltage.

Le potentiel de repos

Ce sont les canaux activés par le voltage qui expliquent l’origine du potentiel d’équi-libre, en particulier ceux qui gèrent les flux de potassium. En eﬀet, la membrane est plus perméable aux ions potassium qu’aux autres ions autour du potentiel de repos et il y a plus de potassium à l’intérieur qu’à l’extérieur de la cellule, grâce aux pompes à ions [Hodgkin et al., 1952]. Ce potentiel peut s’exprimer par l’équation de Goldman ([Goldman, 1953] cité dans [Purves et al., 1997]) 2 :
V = RT log PK[K]ext + PNa[Na]ext + PCl[Cl]int (1.1)
F PK[K]int + PNa[Na]int + PCl[Cl]ext
où V est le voltage transmembranaire, R est la constante des gaz parfaits, T la tempéra-ture, F la constante de Faraday, PX désigne la perméabilité de la membrane à l’ion X et [X] indique la concentration de l’ion X à l’intérieur ou à l’extérieur de la cellule. Comme Cl− est de valence opposée aux autres ions, les concentrations intérieure et extérieure sont inversées.

Le potentiel d’action

Les changements de perméabilité des canaux activés par le voltage ont été décrits par Hodgkin et Huxley [Hodgkin et Huxley, 1952b; Hodgkin et Huxley, 1952a; Hodgkin et Huxley, 1952c; Hodgkin et Huxley, 1952d]. Les auteurs sont partis de l’hypothèse que les courants ioniques sont dûs à des changements de la conductance membranaire, celle-ci étant l’inverse de la résistance membranaire. Cette conductance capture bien les eﬀets de la perméabilité, bien qu’elle ne soit pas strictement identique à cette quantité. En utilisant la loi d’Ohm, il est possible de décrire la relation entre un le courant d’un ion X et la conductance membranaire avec IX = gX(Vm − EX) (1.2)
où IX est le courant ionique, gX la conductance membranaire, Vm le potentiel de mem-brane et EX le potentiel d’équilibre de l’ion X.
Ce potentiel d’équilibre est donné par l’équation de Nernst : EX = RT ln [X]ext (1.3)
À partir de mesures expérimentales, les auteurs ont pu déterminer les conductances pour les ions sodium gNa et potassium gK [Hodgkin et Huxley, 1952b]. Ces conductances mettent un certain temps à s’activer, et en particulier l’activation de la conductance potassique est plus lente que l’activation de la conductance sodique.
Si un neurone est soumis à un courant d’entrée suﬃsamment fort, il déclenche un potentiel d’action ou spike. Le potentiel d’action est un mécanisme en tout ou rien, c’est-à-dire que tant que le courant d’entrée ne modifie pas suﬃsamment le potentiel membranaire, celui-ci revient vers le potentiel d’équilibre. Si le courant dépasse un cer-tain seuil, la conductance sodique s’active et accroît l’entrée de sodium dans la cellule, ce qui dépolarise encore plus la membrane et ouvre donc encore plus les canaux sodiques. Comme l’activation des conductances sodiques est plus rapide que celle des conduc-tances potassiques, la conductance sodique atteint son maximum plus rapidement. ENa étant positif et supérieur à EK, le potentiel membranaire croît rapidement vers ENa. La conductance potassique, plus lente, fait alors redescendre le potentiel vers EK, qui est généralement inférieur au potentiel de repos. Cette brève période pendant laquelle le neurone est hyperpolarisé s’accompagne d’une inactivation des canaux sodiques. Cette période est appelée période réfractaire et l’on distingue généralement la période réfrac-taire absolue, pendant laquelle le neurone ne répond plus aux excitations, de la période réfractaire relative, où le neurone est diﬃcilement excitable car les canaux sodiques sont inactivés et les canaux potassiques ouverts poussent le potentiel vers EK.

Les aires visuelles

La plupart des informations visuelles traitées par le CGL arrivent dans l’aire vi-suelle primaire ou V1, et constituent la voie rétino-géniculo-striée – de la rétine au corps genouillé latéral puis vers le cortex strié, c’est-à-dire V1. On retrouve au niveau anatomique et fonctionnel la séparation entre les voies magno- et parvocellulaire que nous avons vue. C’est vers V1 que la plupart des informations visuelles convergent et c’est de loin l’aire corticale la plus étudiée du système visuel. En particulier, l’étude de la structure de V1, de son organisation topologique, a donné lieu à de nombreux travaux. Une des caractéristiques les plus marquantes est que, pour un hémichamp donné, la topologie de V1 est similaire à celle de la rétine ; ainsi si un motif particulier est projeté sur la rétine, les neurones activés par ce stimulus dans V1 ont une disposition similaire au motif projeté sur la rétine, comme illustré sur la figure 1.10. La relation topologique qui lie la rétine à V1 est de type log polaire [Tootell et al., 1982], car la zone fovéale est sur-représentée et les zones périphériques sont d’autant moins représentées que l’on s’éloigne de la fovéa.
La notion de champ récepteur est aussi utilisée pour caractériser les neurones de V1 et Hubel et Wiesel [Hubel et Wiesel, 1962] ont montré que de nombreux neurones de V1 répondaient fortement quand on leur présentait des stimulus avec une orientation particulière dans leur champ récepteur. Toutes les cellules ne réagissent pas à la même orientation ni de la même façon ; ainsi on distingue classiquement trois types de cellules. Les cellules simples possèdent un champ récepteur on-oﬀ allongé et permettent ainsi de détecter les lignes orientées. Les cellules complexes répondent à des lignes de contrastes orientés et sont souvent spécifiques à une direction particulière du mouvement. En eﬀet, ces cellules ne présentent pas de répartition particulière de leurs zones on et oﬀ et sont sensibles à l’orientation dans une région spatiale donnée. Le dernier type regroupe les cellules hypercomplexes ou end-stop donnant une réponse maximale quand un stimulus recouvre seulement une partie du champ récepteur, ce qui les rend sensibles aux fins de lignes ou à la courbure [Gilbert et Wiesel, 1989]. Une revue récente des propriétés des cellules de V1 est proposée dans [Hirsch et Martinez, 2006].
Les neurones de V1 sont donc organisés de façon rétinotopique et pour chaque posi-tion spatiale les neurones forment des hypercolonnes pour traiter diﬀérents types d’in-formations visuelles. Ces hypercolonnes (figure 1.11) regroupent des neurones dont les champs récepteurs occupent une même région spatiale mais qui sont sensibles à des informations diﬀérentes comme l’orientation, la dominance oculaire 5, l’opposition de couleur [Kandel et al., 2000], la direction principale du mouvement ou la fréquence spa-tiale [Purves et al., 1997]. Cette organisation en hypercolonnes permet des interactions latérales et met en compétition les diﬀérentes localisations spatiales. On a supposé pen-dant longtemps que V1 recevait la plupart de ces informations du CGL, alors que les interactions latérales sont extrêmement nombreuses et que V1 reçoit aussi beaucoup d’informations d’autres aires corticales, comme le montre la figure 1.12. Pour donner un ordre de grandeur, environ 10% des neurones corticaux reçoivent des informations senso-rielles du thalamus, le reste de l’information provient d’interactions locales ou distantes [Douglas et Martin, 2004].
Malgré cette structure à la topographie apparemment bien organisée, avec des zones de dominance oculaire et des hypercolonnes, bien des résultats expérimentaux restent diﬃciles à expliquer. Il est en eﬀet assez tentant de se représenter V1 comme une col-lection de filtres qui entrent en compétition pour trouver les informations les plus perti-nentes. La réalité est beaucoup plus complexe. Les neurones répondent par des potentiels d’action et non par des activations graduées, ce qui apporte une forte non linéarité à leurs réponses, en plus du fait qu’ils adaptent ces réponses au cours du temps et qu’ils sont très largement influencés par les interactions locales. Il reste donc encore beaucoup à apprendre de V1 [Olshausen et Field, 2005].
Les aires corticales impliquées dans la vision sont nombreuses et distribuées sur toute la surface corticale. La figure 1.12 propose un schéma de ces aires corticales ainsi que des connexions connues qui les relient. Elle illustre bien le fait qu’il est diﬃcile de comprendre le rôle particulier de chacune d’elle étant donné les influences réciproques qu’elles peuvent exercer les unes sur les autres. Il est cependant couramment admis qu’elles traitent l’information à des niveaux d’abstraction distincts et que certaines aires semblent être dévolues à des traitements plus spécifiques, comme par exemple la perception du mouvement, le choix du stimulus le plus pertinent ou la reconnaissance d’objets spécifiques.

L’attention visuelle

Avant de commencer cette partie, il est important d’établir une distinction entre les sens ascendant et descendant du traitement de l’information. Les processus ascen-dants, ou bottom-up, font référence à tous les traitements qui utilisent uniquement les informations entrantes. Ce sont des processus complètement dirigés par les données (data-driven). Les processus descendants, ou top-down, désignent les traitements qui in-tègrent des éléments de décision issus de traitements de plus haut niveau. Par exemple, l’influence d’un but général ou d’un contexte connu durant la réalisation de la tâche en cours. Contrairement aux processus ascendants, ils impliquent généralement l’utili-sation de connaissances préalables, comme dans le cas on l’on cherche à retrouver un objet particulier – ses clefs par exemple – dans une scène visuelle.
Lors d’une recherche visuelle, le déplacement du focus d’attention peut prendre deux formes appelées overt attention et covert attention. La première désigne les cas où l’œil réalise une saccade pour mettre la région désirée dans le focus d’attention, par opposition à la seconde pour laquelle le focus d’attention se déplace sans impliquer de saccades oculaires [Posner, 1980]. L’attention comme objet d’étude a une longue histoire en psychologie et la diﬃculté que pose sa définition est bien exprimée par cette citation classique de [James, 1890] :
« Every one knows what attention is. It is the taking possession by the mind, in clear and vivid form, of one out of what seem several simultaneously possible objects or trains of thought. Focalization, concentration, of consciousness are of its essence. It implies La mise en évidence expérimentale de certains mécanismes attentionnels à partir des années 1980 [Posner et al., 1980] a permis de proposer diﬀérentes théories de l’attention, que nous verrons dans la partie 1.3.3. Ces théories supposent, pour la plupart, que la sélection attentionnelle soit spatiale. Cette sélection spatiale est souvent décrite en utilisant une métaphore, celle du faisceau attentionnel [Crick, 1984] : l’attention se porterait sur diﬀérentes régions de l’espace comme le ferait le faisceau d’une lampe qui éclairerait un tableau. Ainsi l’attention pourrait être portée sur une seule région à la fois 6, appelée focus d’attention, et se déplacerait dans le champ visuel d’une région d’intérêt à l’autre, de façon indépendante des mouvements oculaires [Pylyshyn et Storm, 1988].

Être attentif pour percevoir

Si l’on accepte l’hypothèse de la focalisation attentionnelle unique, ceci implique que l’environnement visuel soit exploré de façon séquentielle, le focus d’attention se déplaçant d’une région spatiale à l’autre sans jamais pouvoir embrasser l’intégralité de la scène visuelle « d’un seul coup d’œil ». Que se passe-t-il si une partie de la scène visuelle est modifiée brutalement pendant une saccade oculaire ou pendant le clignement des yeux ? Est-il possible de détecter ce changement ? Dans [Rensink et al., 1997; Rensink et al., 2000], les auteurs ont proposé une expérience simple, illustrée par la figure 1.13, dans laquelle un sujet voit une image puis la même image modifiée. Si on intercale un écran blanc entre les images 7, ces changements sont extrêmement diﬃciles à détecter, même s’ils occupent une partie importante de l’image ou qu’ils sont présentés de façon répétée. Ce phénomène, appelé cécité aux changements ou change blindness, semble confirmer qu’une focalisation attentionnelle est nécessaire pour percevoir explicitement les changements [Rensink, 2000].
C’est d’autre part un outil expérimental intéressant pour évaluer diﬀérentes théo-ries explicatives de la vision, en particulier concernant la nature des représentations internes. Dans [O’Regan, 1992], puis dans [O’Regan et Noë, 2001; Noë, 2002], les au-teurs défendent l’idée que nos représentations internes ne sont pas des reconstructions complètes de ce que nous voyons, mais plutôt une représentation clairsemée que nous pouvons compléter si nécessaire en déplaçant nos yeux ou notre attention : le monde peut être ainsi vu comme une « mémoire externe » que nous interrogeons au gré de la précision des informations dont nous avons besoin pour interagir avec notre environ-nement [O’Regan, 1992]. Une présentation du phénomène de cécité aux changements – avec des exemples vidéos – et de ses diﬀérentes implications théoriques est disponible sur la page Internet [O’Regan et Noë, 2000] et l’état de l’art de [Simons, 2000] propose une bonne vue d’ensemble des enjeux théoriques.

Modèles explicatifs ou modèles PER SE ?

Du réel au modèle

Une fois connu les diﬀérents aspects physiologiques des neurones, nous pouvons prendre un peu de distance pour décrire le traitement de l’information réalisé par ces cellules nerveuses. Un premier point de comparaison intéressant entre neurones biolo-giques et réalisations informatiques concerne leur vitesse de traitement. Les neurones biologiques sont lents, surtout si on les compare à des circuits intégrés : l’intégration des informations prend plusieurs millisecondes et même s’il suﬃt que très peu d’ions traversent la membrane pour modifier le potentiel, ce mécanisme est lent. D’autre part, la période réfractaire qui suit l’émission d’un potentiel d’action contraint grandement le nombre maximum de potentiels d’action que peut envoyer un neurone en un temps donné. Il est ainsi rare de trouver des neurones qui dépassent une fréquence de décharge de 100 Hz, c’est-à-dire qui émettent plus de 100 potentiels d’action en 1 seconde.
De plus, une fois un potentiel d’action émis, sa vitesse de propagation dépend prin-cipalement de la taille et de la myélinisation 1 de l’axone. Les vitesses de propagation les plus basses sont atteintes dans un axone fin et non myélinisé et sont de l’ordre de 1 m/s. Ce type d’axone « lent » est très fréquent dans les aires corticales pour les connexions locales. Ainsi les neurones mettent un temps non négligeable à intégrer les informations entrantes, ils sont limités dans leur taux de décharge maximum en sortie et les potentiels d’action se propagent lentement entre les diﬀérents neurones.
Pourtant, si au niveau unitaire les neurones ne sont pas rapides, quand on les consi-dère à l’échelle d’une population, ils sont beaucoup plus eﬃcaces. L’ensemble des neu-rones du cerveau permet de traiter de grandes quantités d’information car sa structure est très bien adaptée : diﬀérents circuits de traitement spécialisé fonctionnent en paral-lèle.
L’observation des diﬀérents circuits corticaux semble montrer que les neurones d’une aire cérébrale sont généralement aﬀectés à une seule et unique tâche. Les neurones ne sont pas « reprogrammables » à souhait. Bien que le cerveau montre une certaine plasticité, c’est-à-dire que les neurones puissent être « réaﬀectés » à une autre tâche, cette plasticité est limitée. Elle ne peut pas concurrencer les approches mettant en œuvre un apprentissage en ligne (ou on-line) comme celles proposées en intelligence artificielle.
Il est intéressant de constater que, parmi les contraintes auxquelles sont soumis les neurones, la consommation d’énergie, qui est une contrainte importante, est particuliè-rement basse. Les neurones utilisent en moyenne 10−15 Joule par opération [Churchland et Sejnowski, 1994], c’est-à-dire à chaque fois qu’un neurone en active un autre par l’intermédiaire d’une synapse. Si l’on compare cette donnée à celles concernant les mi-croprocesseurs, elle est extraordinairement basse : un microprocesseur consomme en moyenne 10−7 Joule par opération, au sens d’opération élémentaire comme l’addition ou la multiplication. La diﬀérence est donc de 7 à 8 ordres de grandeur en faveur du cer-veau.
Cette faible consommation d’énergie rend possible la mise en parallèle d’un nombre important de neurones. Ainsi quand les ordinateurs de bureau réalisent environ 109 opérations par seconde, les neurones d’une mouche domestique eﬀectuent en moyenne 1011 calculs par seconde lorsque la mouche est au repos 2 [Churchland et Sejnowski, 2. il est intéressant de constater que le microprocesseur le plus puissant d’un ordinateur actuel est 1994]. D’autre part, même lorsque le cerveau est en pleine activité, seule une petite partie des neurones est active.
L’observation des neurones a permis de développer des modèles neuronaux pour tester et valider des hypothèses formulées par les neurobiologistes. La mise au point de techniques d’observation de plus en plus performantes, spatialement et temporellement, pour étudier les structures et les fonctions cérébrales ont poussé les modèles à être plus réalistes biologiquement. Il est donc possible de mieux cerner le fonctionnement de ces unités de traitement neuronal et la compréhension de ces mécanismes fins peut inspirer de nouvelles approches pour le traitement de l’information ou la cognition artificielle. Nous allons voir les diﬀérents modèles neuronaux qui ont été proposés et la façon dont ils traitent l’information.

Diﬀérents niveaux de représentation

La mise au point d’un modèle suppose de choisir un niveau de représentation. Pour le SNC, il est classiquement admis que nous pouvons distinguer diﬀérents niveaux d’in-teractions, depuis les molécules jusqu’au système nerveux dans son ensemble.
Les modèles neuronaux s’intéressent à certains de ces niveaux d’interactions, nous en distinguerons trois : les niveaux microscopique, mésoscopique et macroscopique [Meunier et Paugam-Moisy, 2008] (voir figure 2.1). Le niveau microscopique désigne l’étude des propriétés d’une cellule. Au niveau mésoscopique on s’intéresse aux interactions entre ces cellules, c’est le niveau d’étude d’une population. Le dernier niveau, macroscopique, décrit les interactions entre les populations.
Dans le cadre de ce travail, nous avons pris comme hypothèse que les eﬀets obser-vables aux niveaux méso- et macroscopique sont le résultat de propriétés émergentes, induites par le niveau microscopique. Dans cette optique, nous avons choisi d’utiliser des modèles explicatifs, les neurones impulsionnels, pour évaluer les implications des choix de modélisation au niveau d’un neurone sur l’ensemble du réseau. En particulier, nous avons recherché pour le choix du modèle de neurone un ensemble de propriétés qui soit restreint mais suﬃsant pour obtenir les résultats souhaités au niveau du réseau.
En eﬀet, même s’il est nécessaire de comprendre le niveau microscopique pour pro-poser une explication complète des observations expérimentales, la seule connaissance des mécanismes locaux ne suﬃt pas nécessairement à expliquer les observations ma-croscopiques. L’exemple le plus célèbre provient sans doute de l’étude des ganglions stomatogastriques de la langouste : ce réseau de 28 neurones contrôle les contractions de l’estomac et sa sortie est une oscillation qui rythme les muscles gastriques. Les carac-téristiques de chaque neurone sont très bien détaillées, car on peut retrouver les mêmes neurones et les mêmes connexions sur tous les individus. Pourtant, même une modélisa-tion très complète de ce réseau ne permet pas forcément de reproduire l’activité globale observée. En eﬀet, aucun neurone en particulier n’est responsable de l’oscillation, c’est la dynamique du réseau qui produit ce comportement [Selverston, 1988]. Cet exemple montre qu’une analyse uniquement ascendante ne permet pas toujours d’expliquer la totalité du phénomène. La dynamique d’un réseau dépend à la fois des paramètres de chaque unité et des interactions entre les unités qui le composent.

Des inspirations pluridisciplinaires

Les modélisations de neurones nécessitent de constants aller-retours entre plusieurs champs disciplinaires. Les observations faites à diﬀérents niveaux, que ce soit au niveau d’un bouton synaptique [Bi et Poo, 1998; Bi et Poo, 2001] ou du temps de réponse d’un sujet [Thorpe et al., 1996], peuvent changer la vision que nous avons de certains mé-canismes et nous amener à développer des modèles radicalement diﬀérents. L’approche qui consiste à proposer des modèles pour reproduire les données observées est similaire à celle du reverse engineering. Les modèles mis au point selon ce principe mettent à la disposition de la communauté scientifique des outils permettant la compréhension fine des mécanismes mis en jeu. Une fois ceux-ci compris, il est possible de concevoir des modèles a priori eﬃcaces, tirant parti des mécanismes étudiés.
Les disciplines intervenant dans la mise au point d’un modèle de neurone sont nombreuses et une liste non exhaustive inclurait la psychologie cognitive, les neuros-ciences computationnelles et l’informatique. L’interdisciplinarité semble indispensable pour faire progresser la compréhension des mécanismes cérébraux et faciliter leur trans-fert pour diverses applications [Alexandre, 1997; Hérault, 1999; Cuperlier et al., 2007]. La vision artificielle bio-inspirée, qui constitue le fil directeur de cette thèse, a bé-néficié des apports de ce type d’approches interdisciplinaires [Beaudot et al., 1993; Alleysson et al., 2005].

Des modèles à taux de décharge

Une lecture historique des diﬀérents modèles de neurones montre que les premiers modèles se sont inspirés de la biologie pour mieux s’en abstraire ensuite, une fois que les propriétés importantes ont été identifiées et qu’il a été possible de construire des modèles a priori qui soient eﬃcaces. [McCulloch et Pitts, 1943] ont proposé un modèle mathématique de neurone, le premier neurone formel, dans lequel le neurone « filtre » les informations en appliquant une fonction non-linéaire sur la somme pondérée de ses entrées.
Dans le cas où la fonction non-linéaire utilisée est une fonction sigmoïde [Hopfield, 1984; Rumelhart et McClelland, 1986], il est possible d’interpréter la valeur résultante comme représentant l’activité moyenne du neurone, c’est-à-dire son taux de décharge. Cette interprétation du codage neuronal de l’information provient d’observations bio-logiques. Certaines cellules nerveuses sensorielles, comme les corpuscules de Pacini qui sont sensibles à la pression et aux vibrations, encodent l’intensité du stimulus en faisant varier leur taux de décharge. Dans le cortex, un tel codage a été observé par [Hubel et Wiesel, 1962] qui ont montré que les neurones du cortex visuel primaire font varier leur taux de décharge en fonction de l’orientation du stimulus visuel qui est présenté.
Les modèles de neurones et les diﬀérents réseaux de neurones artificiels (RNA), qui utilisent ce codage par taux de décharge, ont beaucoup évolué depuis la proposition de [McCulloch et Pitts, 1943]. Ils ont été largement utilisés en modélisation, que ce soit en biologie ou en psychologie. À mesure que les capacités de ces RNA ont été de mieux en mieux comprises, aussi bien expérimentalement que théoriquement, ils sont peu à peu devenus des outils de calcul et de modélisation. L’inspiration biologique s’est progressivement eﬀacée et la communauté qui travaillait sur les RNA a progressivement perdu l’ancrage biologique des premiers modèles. L’étude des RNA sort du cadre de cette thèse et ces réseaux sont l’objet de très bons ouvrages, comme par exemple [Freeman et Skapura, 1991; Haykin, 1994; Bishop, 1995; Arbib, 1998; Dreyfus et al., 2002].
Une approche alternative est de modéliser un réseau comme un “champ neuronal” : les neurones sont vus comme un champ continu de potentiels, dont l’activité en un point dépend de l’activité du voisinage [Amari, 1977]. L’évolution du potentiel de membrane u observé à la position spatiale r ∈ M est décrite par l’équation diﬀérentielle suivante : τ ∂u(r, t) = −u(r, t) + M wM (r − r′)f [u(r′, t)]dr′ ∂t +s(r, q)I(q, t)dq + h (2.1)
où τ est le taux de relaxation du réseau et h une constante négative. L’influence des connexions latérales est décrite par la première intégrale, où f est une fonction d’acti-vation qui permet d’obtenir le taux de décharge en fonction du potentiel d’une position spatiale donnée, wM décrit le poids des connexions latérales en fonction de la distance |r−r′|. Les stimuli externes sont pris en compte dans le second terme intégral, avec I(q, t) la stimulation à la position spatiale q ∈ M ′ et s la fonction de poids de connexion. L’acti-vité du réseau en un point peut être interprétée comme reflétant le taux de décharge. Ce type de réseau permet de modéliser les dynamiques plus ou moins complexes qui ont lieu au sein d’une population de neurones, comme les compétitions locales dues aux interac-tions latérales qu’il est possible d’observer dans les aires corticales [Stemmler et al., 1995; Sirosh et al., 1996].
Les RNA traditionnels ont cependant montré leurs limites, en particulier pour expliquer certaines observations expérimentales sur la vitesse de traitement [Thorpe et Imbert, 1989], sur la synchronisation [Gray et Singer, 1989] ou sur la plasticité [Edeline, 1996] des neurones biologiques. Le codage par taux de décharge ne per-met pas de capturer certains phénomènes qui requièrent une discrimination tem-porelle plus précise. Ces phénomènes nécessitant une précision temporelle accrue, comme la synchronie, peuvent apporter des solutions à plusieurs questions classiques dans le domaine de la perception [von der Malsburg, 1981; von der Malsburg, 1995; von der Malsburg, 1999].

Les modèles de neurones impulsionnels

Caractéristiques des modèles de neurones impulsionnels

Une des caractéristiques essentielles des neurones impulsionnels est qu’ils capturent plus finement que les neurones à taux de décharge le traitement de l’information réalisé par les neurones biologiques. En eﬀet, les neurones biologiques produisent une sortie discrète à partir d’une entrée continue. Bien que l’importance de cette caractéristique ait été comprise depuis longtemps [Abu-Mostafa, 1989; Abu-Mostafa et Schweizer, 1990], les modèles de neurones utilisé dans les RNA ne capturaient pas correctement cet aspect. Les modèles explicatifs du niveau microscopique, comme celui bien connu de Hodgkin-Huxley [Hodgkin et al., 1952; Hodgkin et Huxley, 1952b; Hodgkin et Huxley, 1952d], reproduisent de façon extrêmement précise les mesures de voltage enregistrées 3, prenant en compte les diﬀérents courants membranaires. Cependant, le neurone de Hodgkin-Huxley est un modèle régi par 4 équations diﬀérentielles couplées et il est beaucoup trop complexe et coûteux en calculs pour être mis en œuvre dans un réseau de grande taille.

Les modèles de neurones impulsionnels

Les modèles impulsionnels, au niveau microscopique, ne sont pas explicatifs : le but recherché avec ces modèles n’est en aucun cas d’expliquer les mécanismes électrochi-miques qui conduisent les neurones à décharger. Le but recherché est de décrire le plus précisément possible les trains de potentiels d’action émis en fonction des stimulus. Les potentiels d’action doivent évidemment être décrits avec leurs étiquettes temporelles, correspondant à leurs instants d’émission, c’est pourquoi ces modèles sont communé-ment appelés spiking neurons.
Les modèles impulsionnels sont caractérisés par les propriétés suivantes :
– une prise en compte explicite du temps ;
– une règle de décision spécifiant quand le neurone émet un potentiel d’action ;
– une explication des changements déclenchés par l’émission d’un potentiel d’action (généralement le retour du potentiel à un niveau proche du potentiel de repos).

Le modèle d’intégrateur à fuite

Un des modèles les plus simples vérifiant ces conditions est le modèle « intègre-et-décharge à fuite » [Abbott, 1999; Gerstner et Kistler, 2002], aussi appelé intégrateur à fuite ou leaky integrate-and-fire (LIF). La figure 2.2 montre le circuit électrique qui est utilisé pour modéliser la membrane d’un neurone intègre-et-décharge 4. Il est possible de décrire les variations du potentiel de membrane à l’aide de l’équation diﬀérentielle suivante :
FIGURE 2.2 Circuit électrique permettant de modéliser les variations du potentiel de membrane V d’un neurone intègre-et-décharge soumis à un courant I , où C est la capacité membranaire, R la résistance membranaire et Vrest le potentiel de repos. Extrait de [Abbott, 1999]. C dV = gl(V − El) + I(t), si V 6 ϑ dt (2.2) dans laquelle V est le potentiel de membrane, C est la la capacité de la membrane, gl est la conductance de fuite (ou leak en anglais), El est le potentiel de repos et I(t) est le courant injecté dans la membrane à l’instant t. Cette équation décrit les variations subliminaires du potentiel de membrane, c’est-à-dire tant que le neurone n’émet pas de potentiel d’action. Ces variations sont déterminées par deux termes. Le premier terme décrit le courant de fuite, qui tend à ramener le potentiel du neurone à sa valeur de repos, avec une « force » inversement proportionnelle à la diﬀérence entre la valeur courante du potentiel et le potentiel de repos. Le second terme décrit le courant injecté dans le neurone : si le potentiel de membrane dépasse un seuil fixé ϑ, alors le neurone émet un potentiel d’action et son potentiel est réinitialisé à une valeur de potentiel arbitraire Vreset, généralement proche de El.

Les variantes des modèles intègre-et-décharge

Il existe beaucoup de variantes de ces modèles intègre-et-décharge, ces variantes tendent à modéliser plus exactement les trains de potentiels d’action générés en fonc-tion des entrées. Parmi ces variantes, les intègre-et-décharge quadratiques ([Gerstner et Kistler, 2002, chapitre 4.1.2] et [Ermentrout et Kopell, 1986; Ermentrout, 1996]) sont beaucoup plus fiables pour reproduire la dynamique d’un réseau de neurones de type Hogkin-Huxley au niveau mésoscopique [Latham et al., 2000; Feng, 2001]. C dV = gl(V − El)(V − ϑ) + I(t), si V 6 ϑ dt (2.3)
Pour le niveau microscopique, dans [Fourcaud-Trocmé, 2003; Fourcaud-Trocmé et al., 2003], les auteurs proposent un modèle d’intègre-et-décharge exponentiel qui pré-dit bien les temps d’émission de potentiel d’action quand le neurone est soumis à des variations rapides de ses entrées : C dV = gl(V − El)e(V −El ) + I(t), si V 6 ϑ dt (2.4)
Un autre modèle, le neurone d’Izhikevich, propose une approche alternative. En ef-fet, son auteur est parti d’observations biologiques des motifs d’émission de potentiels d’action d’un neurone. Après les avoir séparés en 20 catégories diﬀérentes (voir la fi-gure 2.3), il propose un modèle impulsionnel [Izhikevich, 2003] qui permet de reproduire tous ces motifs diﬀérents [Izhikevich, 2004]. Ce modèle décrit l’évolution du potentiel

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Du neurone à l’attention visuelle
1.1 Les neurones biologiques
1.1.1 Propos liminaire sur la complexité du système nerveux central
1.1.2 La morphologie d’un neurone
1.1.3 Le potentiel électrique transmembranaire
1.1.4 Le potentiel de repos
1.1.5 Le potentiel d’action
1.1.6 Les synapses
1.2 L’architecture du système visuel
1.2.1 L’œil
1.2.2 La rétine
1.2.3 Le corps genouillé latéral
1.2.4 Les aires visuelles
1.3 L’attention visuelle
1.3.1 Être attentif pour percevoir
1.3.2 Mise en évidence expérimentale de la préattention
1.3.3 Les théories de la préattention
1.4 Synthèse
2 Les modèles de neurones impulsionnels
2.1 Modèles explicatifs ou modèles per se ?
2.1.1 Du réel au modèle
2.1.2 Différents niveaux de représentation
2.1.3 Des inspirations pluridisciplinaires
2.1.4 Des modèles à taux de décharge
2.2 Les modèles de neurones impulsionnels
2.2.1 Caractéristiques des modèles de neurones impulsionnels
2.2.2 Le modèle d’intégrateur à fuite
2.2.3 Les variantes des modèles intègre-et-décharge
2.2.4 Le modèle SRM
2.3 Les modèles de synapses
2.3.1 Les courants synaptiques
2.3.2 La plasticité synaptique
2.4 Synthèse
3 Les implémentations de mécanismes d’attention visuelle
3.1 Quels intérêts pour la vision artificielle ?
3.2 Les modèles attentionnels
3.2.1 Les modèles neuropsychologiques
3.2.2 Les systèmes de traitement d’images
3.2.3 Les approches bio-inspirées
3.3 Une architecture de la vision préattentive avec des neurones impulsionnels
3.3.1 Intérêts d’une implémentation impulsionnelle
3.3.2 Un système anytime
3.3.3 Méthode d’implémentation du système
4 Filtrage neuronal d’image
4.1 Le filtrage neuronal
4.1.1 La transduction
4.1.2 L’intégration
4.2 Les codages impulsionnel et fréquentiel
4.2.1 Codage des entrées
4.2.2 Caractérisation du codage impulsionnel pour le filtrage
4.2.3 Utilisation du codage fréquentiel
4.2.4 Une approche anytime
4.3 Résultats expérimentaux
4.3.1 Méthodes
4.3.2 Comparaison des méthodes de filtrage
4.3.3 Études de paramètres
4.4 Conclusion
5 Architecture préattentionnelle
5.1 Description de l’architecture
5.1.1 Transduction artificielle
5.1.2 Décomposition en traits caractéristiques
5.2 Extraction des saillances
5.2.1 Mécanismes mis en jeu
5.2.2 Résultats de l’extraction de saillances
5.3 Focalisation préattentionnelle
5.3.1 Sélection et suivi d’une région saillante
5.3.2 Évaluation de la robustesse de la focalisation
5.3.3 Focalisation sur une séquence d’images naturelles
5.4 Conclusion
6 Conclusions et perspectives
6.1 Conclusions
6.2 Perspectives
Publications
Bibliographie