Il est rare que nous parlions dans le silence. La plupart du temps, nos paroles se mélangent à d’autres sons avant de parvenir aux oreilles de nos auditeurs. Pourtant, même lorsque ces sons perturbateurs sont très importants, les auditeurs peuvent parvenir à saisir le contenu du message. Or les caractéristiques de propagation des sons ne permettent pas d’expliquer ces performances d’intelligibilité. En effet, en enregistrant plusieurs locuteurs simultanés avec un seul microphone, on peut supprimer toute la nature directionnelle de la propagation et ne conserver que les fluctuations de pression instantanées en un point de l’espace. En écoutant cet enregistrement (à l’aide d’un casque), un auditeur pourra cependant distinguer les différents locuteurs et comprendre ce qu’ils disent. Ainsi, le système auditif est capable de distinguer deux sources acoustiques, même si elles sont virtuellement placées au même point.
La psychoacoustique est un outil efficace pour comprendre comment le système auditif parvient à classifier les sources sonores et à les séparer. Au cours des 50 dernières années, des recherches ont porté sur les paramètres utilisés par le système auditif pour séparer différentes sources. Une première approche a consisté simplement à faire varier certaines caractéristiques des sons et à observer leur influence sur la capacité des auditeurs à séparer plusieurs sources, ou plus particulièrement plusieurs locuteurs . Cependant ces études ne permettent pas de comprendre comment le système auditif exploite ces caractéristiques pour distinguer et séparer les différentes sources.
En abordant le problème par un biais plus fondamental, il est apparu que l’auditeur a la capacité de former des flux auditifs. C’est-à-dire qu’il peut assembler des parties du signal acoustique, concentrer son attention sur ces parties et ignorer le reste du signal. Il lui est même possible de faire passer volontairement son attention d’un sous-ensemble du signal à un autre. Ce phénomène a d’abord été mis en évidence avec des sons simples de synthèse, ce qui a permis d’aboutir à la théorie de l’analyse des scènes auditives . Cette théorie a conduit à dégager deux familles de mécanismes impliqués dans la formation de flux auditifs : la ségrégation simultanée et la ségrégation séquentielle. En étudiant ces mécanismes, certaines caractéristiques acoustiques permettant à des sons d’être séparés ont pu être associées à des variables ou fonctions auditives. Ainsi, il a été montré que la sélectivité fréquentielle était un des facteurs déterminant pour la perception de la hauteur fondamentale . Outre la clarification de nos connaissances sur le fonctionnement de l’appareil auditif, ces études ont ouvert des pistes de réflexion pour améliorer la réhabilitation des malentendants, et plus particulièrement en milieu bruyant.
Depuis l’apparition de la théorie de l’analyse des scènes auditives, la ségrégation simultanée et la ségrégation séquentielle ont été étudiées séparément. Pourtant, quand plusieurs personnes parlent en même temps, les événements sonores ne sont ni purement simultanés, ni purement séquentiels. Dans les situations naturelles, si ces deux mécanismes sont réellement impliqués alors ils interagissent, ou tout du moins ils coexistent. Pour comprendre comment s’opère cette interaction, on peut faire converger l’étude de la ségrégation simultanée et l’étude de la ségrégation séquentielle vers l’étude de situations plus écologiques où deux locuteurs sont en compétition. Cependant, si la ségrégation simultanée a été largement étudiée avec des signaux de parole, la ségrégation séquentielle, quant à elle, n’a bénéficié que de très peu d’études impliquant de tels sons. Les conséquences que peuvent avoir les spécificités des signaux de parole sur la ségrégation séquentielle sont donc largement méconnues. Dans l’objectif de rapprocher la ségrégation simultanée et la ségrégation séquentielle de la perception de voix concurrentes, la première étape consiste donc à éclaircir le phénomène de ségrégation séquentielle pour des signaux de parole .
Les sons que nous percevons proviennent généralement d’un ensemble de sources acoustiques. Les ondes acoustiques émises par chacune de ces sources se propagent jusqu’à l’entrée de l’oreille où elles se combinent pour former un signal sonore unique appelé mixture (Bregman, 1990). Cependant, l’auditeur ne perçoit généralement pas cette mixture comme un signal unique. De façon volontaire ou non, l’auditeur réalise une analyse et une décomposition du signal en objets sonores qui correspondent idéalement à chacune des sources acoustiques. La situation d’écoute la plus commune est une situation où l’auditeur cherche à comprendre ce qu’un locuteur dit alors que ses paroles sont noyées dans un bruit de fond. Il est généralement fait référence à ce genre de situation sous l’appellation cocktail party (Cherry, 1953).
Ce phénomène peut être étudié simplement en observant l’intelligibilité d’un message parlé présenté dans un bruit de fond. Cette approche très similaire à une situation écologique permet de déterminer les principales caractéristiques acoustiques qui permettent à un son d’être extrait de la mixture . En revanche, elle ne permet pas d’observer les mécanismes impliqués dans cette tâche. Pour étudier plus en détails ces mécanismes, une autre approche est utilisée, théorisée sous l’appellation d’analyse des scènes auditives .
|
Table des matières
Introduction
1 Perception de voix concurrentes et ségrégation séquentielle
1.1 Perception la parole dans le bruit
1.1.1 Cocktail party et situation expérimentale
1.1.2 Influence de la fréquence fondamentale
1.1.3 Analyse des scènes auditives
1.2 Ségrégation séquentielle
1.2.1 Streaming de sons purs
1.2.2 Streaming de sons complexes
1.2.3 Streaming et perception de voix concurrentes
1.2.4 Théorie des canaux et modèles
1.3 Perte auditive et sélectivité fréquentielle
1.3.1 Altération des indices perceptifs
1.3.2 Perception de voix concurrentes
1.3.3 Ségrégation simultanée
1.3.4 Ségrégation séquentielle
1.4 Conclusion
2 Effet du lissage spectral sur la ségrégation perceptive de séquences de voyelles
(2.)1 Introduction
(2.)1.1 Segregation with reduced spectral cues
(2.)1.2 Streaming with speech stimuli
(2.)1.3 Rationale
(2.)2 Experiment 1 : Intact vowel sequences
(2.)2.1 Subjects
(2.)2.2 Stimuli
(2.)2.3 Procedure
(2.)2.4 Results
(2.)2.5 Discussion
(2.)3 Experiment 2 : Smeared vowel sequences (hearing-loss simulation)
(2.)3.1 Subjects
(2.)3.2 Stimuli
(2.)3.3 Procedure
(2.)3.4 Results
(2.)3.5 Discussion
(2.)4 General discussion
Conclusion
Télécharger le rapport complet