Intégration audiovisuelle dans le traitement du langage

En 2020, la France est touchée par une pandémie due au COVID-19. Cette crise sanitaire mène alors à la mise en place de mesures spécifiques, et notamment le port d’un masque couvrant le nez et la bouche dans l’espace public. Dans le cadre d’une conversation, l’absence de perception visuelle des lèvres et de la bouche de l’interlocuteur ou de l’interlocutrice peut cependant entraver la compréhension du message linguistique perçu. Audelà de la nécessité d’une telle mesure visant à freiner la progression du COVID-19, nous pouvons alors nous questionner sur l’influence possible du port d’un masque sur la communication verbale, à partir de cette période.

La parole, expression physiologique du langage

Lors d’une situation de conversation orale, chaque auditeur ou auditrice s’appuiera sur plusieurs types d’informations pour appréhender le message linguistique qui lui est adressé, que nous réduisons souvent aux seules informations auditives. Ces informations auditives peuvent être de nature verbale, correspondant aux mots et phrases prononcés, et paraverbales, comme la prosodie ou l’intonation. A ces informations s’ajoutent néanmoins d’autres aspects, perceptibles visuellement, comme les mimiques et expressions du visage, ou encore les différentes configurations articulatoires observables. C’est l’ensemble de ces informations auditives, verbales et paraverbales, et visuelles qui nous permettront de segmenter le signal de parole en unités discrètes infra-lexicales, puis d’apparier ces unités avec les représentations lexicales vers une compréhension du message linguistique.

La réception du message linguistique véhiculé par la parole est donc conditionnée par la perception de diverses informations, qu’elles soient auditives ou visuelles. Ce message peut être analysé par le prisme d’une approche multimodale et multisensorielle (Rosenblum, 2019). Notre perception de la parole est conditionnée par l’analyse de ce que nous entendons, c’est-à-dire par l’information auditive, ainsi que par l’information visuelle, qui nous permet d’obtenir divers indices essentiels à la bonne intégration du message.

Selon le Dictionnaire d’Orthophonie (Brin-Henry et al., 2011), la parole correspond à l’action de parler. Sa production se définit comme un acte physiologique volontaire, visant à produire un message grâce à la mise en jeu de divers procédés anatomiques, neurologiques et culturels. La parole, et donc l’acte de parler, pourrait être définie comme l’agencement dynamique, complexe et volontaire de mouvements articulatoires produisant un signal acoustique de parole continue. Ce flux de parole peut être décomposé en unités sonores minimales distinctives appelées phonèmes. Leur production implique cependant des phénomènes de coarticulation entraînant des modifications mutuelles articulatoires et acoustiques importantes. En effet, le passage d’un phonème à l’autre, dans un flux de parole continu, induit des changements spécifiques aux caractéristiques articulatoires des phonèmes concernés. Ces phénomènes répondent notamment à l’importance de minimiser, ou “lisser”, l’effort articulatoire lors de la production de la parole et ont pour conséquence qu’un même phonème puisse posséder des propriétés articulatoires et donc acoustiques différentes selon les phonèmes qui le précèdent et le suivent. Face à ce phénomène de coarticulation, si la multitude des schémas articulatoires envisageables et la dynamique complexe de ces mouvements ne permettent pas de décrire avec exactitude la construction articulatoire d’une succession de sons, certains traits articulatoires peuvent tout de même être isolés. C’est cette base phonémique qui permettra à son tour de former des mots, puis des phrases, pour ainsi construire le sens du message prononcé.

L’intégration audio-visuo-faciale

Après avoir présenté brièvement les mécanismes articulatoires mis en œuvre lors de la production de parole, nous nous attarderons sur l’apport des informations visuelles des mouvements articulatoires lors de la perception de la parole. Il a notamment été montré que l’information visuelle seule permettrait de discriminer 40% à 60% des phonèmes d’une langue et 10% à 20% des mots de la langue française (Schwartz, 2011, op. cit. in Fort, 2011).

Différentes études se sont intéressées à l’influence de la perception du visage entier comme indice visuel facilitant la compréhension de la parole. Dans un premier temps, il semble important de percevoir la différence entre “speechreading” (i.e. la lecture visuelle de la parole, avec la possibilité de voir le visage entier) et “lipreading” (i.e. lecture labiale) (Strelnikov, 2009). Dans ce paragraphe, nous parlerons de “speechreading”. De manière générale, les performances en speechreading sont meilleures par comparaison avec une situation où seule la zone orale (i.e. les lèvres, soit en “lipreading”) du visage est visible (Jordan et Thomas, 2011). Cependant, dans le cas de la perception d’un visage où la zone orale est cachée, l’identification visuelle reste possible. Bien que le masquage des lèvres réduise l’identification visuelle du message produit, les autres indices situés au niveau du visage nous permettent d’émettre des hypothèses quant à la configuration des articulateurs cachés, comme les lèvres (Jordan et Thomas, 2011). Ces données nous permettent donc d’appréhender l’importance de l’apport du visage entier dans notre compréhension du message : les indices visuels ne se résument pas aux seuls mouvements labiaux.

L’importance de ces éléments visuels prend tout son sens lorsque nous décrivons les stratégies mises en place par des personnes malentendantes lors de situations de communication orale. Les indices visuels permettent de pallier le manque d’informations auditives, pour ainsi permettre un meilleur accès au sens. De même, il a été démontré que, chez des personnes implantées, l’apport de l’information visuelle reste essentiel pour permettre aux personnes malentendantes de mieux percevoir le message (Strelnikov, 2009). D’autres expériences ont pu également montrer l’importance de la modalité visuelle en situation acoustique bruitée ou lors de l’apprentissage d’une seconde langue (Fort, 2011).

La perception audiovisuelle de la parole a également fait l’objet d’études explorant l’usage de stimuli incongruents. Une étude a notamment mis en évidence que, lorsqu’un message auditif est présenté en même temps que des mouvements labiaux correspondant à un message différent, une “fusion perceptive” pouvait avoir lieu dans notre perception de cet ensemble syllabique : c’est l’effet McGurk (McGurk et MacDonald, 1976). Ainsi, lorsqu’un /ba/ auditif est présenté en même temps qu’un /ga/ visuel, le phonème /da/ pourra être perçu par la personne. Il est à noter que cet effet diffère d’un sujet à l’autre, ainsi qu’en fonction des stimuli présentés. Cette illusion perceptive nous permet d’appréhender l’influence qu’a l’information visuelle sur l’intégration d’un message, et ce même lorsque le stimulus auditif est parfaitement audible (McGurk et MacDonald, 1976 ; Rosenblum, 2019 ; Treille, 2017).

Une des caractéristiques de l’intégration audio-visuelle est son aspect prédictif. En effet, notre cerveau possède la capacité d’anticiper et d’émettre des hypothèses sur la suite des informations produites. Par exemple, en perception de la parole, il a été admis que l’information auditive succédait l’information des lèvres, avec une différence d’environ 200ms (Van Wassenhove et al., 2007). Certaines situations non verbales nous permettent d’appréhender cette notion d’intégration prédictive. Par exemple, visualiser un applaudissement induit l’arrivée du signal acoustique à mesure que les mains se rapprochent. A l’inverse, l’action de déchirer une feuille ne permet pas cette prédiction, et ce puisque l’arrivée de l’information auditive se fait en même temps que le début de l’action (Stekelenburg et Vroomen, 2007).

Le langage écrit, système graphique du langage

Le langage écrit, quant à lui, est apparu phylogénétiquement après le langage oral. L’invention d’un système d’écriture permet alors un nouvel accès à de nombreuses connaissances, et ainsi de stocker des informations jusqu’ici conservées par la tradition orale. En français, son apprentissage se fait sur la base d’un code graphique alphabétique, enseigné à l’école et au cours du développement de l’enfant. On peut le désigner comme le deuxième code visuel (i.e. après le code naturel visémique), à la fois artificiel, non naturel et sans aspect dynamique. Malgré un processus d’apprentissage intensif, il devient quasiment automatique une fois maîtrisé. Nous étudierons donc dans cette partie les caractéristiques qui décrivent son apprentissage et son effet sur le langage oral. D’après le Dictionnaire d‘Orthophonie (BrinHenry et al., 2011), le langage écrit “recouvre à la fois la compréhension (i.e. la lecture) et la production ou l’expression (i.e. l’écriture), d’un système codé en signes graphiques permettant, sur tout support possible, la transmission d’informations et la communication entre individus d’une même communauté linguistique ayant reçu un enseignement dans ce domaine”.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
REMERCIEMENTS
TABLE DES MATIÈRES
PARTIE THÉORIQUE
1. La parole, expression physiologique du langage
a. Mouvements articulatoires et nature visémique de la parole
b. L’intégration audio-visuo-faciale
2. Le langage écrit, système graphique du langage
a. De la littératie au langage parlé
b. L’intégration audio-visuo-orthographique
3. Apport de l’électroencéphalographie dans l’étude de l’intégration audiovisuelle
OBJECTIFS DE CETTE ÉTUDE
MÉTHODOLOGIE
1. Population
a. Description
b. Critères d’inclusion et d’exclusion
c. Considérations éthiques
2. Matériel
a. Stimuli auditifs
b. Stimuli visuels
3. Protocole expérimental
4. Enregistrement EEG
5. Situation sanitaire
6. Traitement des données EEG
PRÉSENTATION DES RÉSULTATS
1. Analyse des données comportementales
a. Reconnaissance des visèmes
b. Tâches principales
2. Analyse des données EEG
a. N1 : 70-150 ms
b. P2 : 150-250 ms
DISCUSSION DES RÉSULTATS
1. Résultats EEG
2. Résultats comportementaux
3. Limites et extensions de l’étude
4. Apports pour la pratique de l’orthophonie
CONCLUSION
RÉFÉRENCES
ANNEXES
RÉSUMÉ

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *