Télécharger le fichier pdf d’un mémoire de fin d’études
La différence interaurale d’intensité (ILD)
La tête de l’auditeur agissant comme un obstacle face à l’onde acoustique incidente, la différence d’intensité entre les signaux captés à chaque oreille est dépendante de la position de la source. Cet indice est valable sur toute la gamme de fréquences audibles, néanmoins, aux basses fréquences (λ < r), l’ILD est très faible car la tête ne diffracte pas l’onde incidente. L’efficacité de cet indice intervient donc à partir de 1500 Hz, lorsque les longueurs d’ondes sont inférieures à la taille de la tête. La surface de la tête réfléchit alors parfaitement l’onde incidente. Il en résulte une différence de niveau d’environ 20 dB pour une source située sur l’axe interaural.
Fonction de transfert acoustique
Notre morphologie est donc à l’origine d’un encodage spatial binaural duquel dépend notre aptitude à localiser des sons dans l’espace. Les indices, interauraux et monauraux, liés au dia-mètre de la tête ainsi qu’à l’ensemble torse – tête – oreille externe sont à l’origine de ce qu’on appelle les HRTF, pour Head Related Transfert Function (fonction de transfert relative à la tête) [Batteau, 1968, Begault, 1994, Blauert, 1997].
D’un point de vue signal, les phénomènes acoustiques observés entre la source et l’entrée des conduits auditifs d’un auditeur peuvent être modélisés comme deux systèmes linéaires invariants, caractérisables par leurs réponses impulsionnelles hL(t) et hR(t), tels que : xL,R(t) = hL,R ∗ x(t) où x(t) correspond au signal acoustique émis par la source et xL(t) et xR(t) sont les signaux reçus aux oreilles gauche et droite.
Sous sa forme fréquentielle, le problème est défini par les relations : XL,R(jω) = HL,R(jω) X(jω) où HL et HR sont les fonctions de transfert traduisant les phénomènes acoustiques subis par le signal x(t) entre la source et l’entrée des deux oreilles. Les signaux xL(t) et xR(t) étant dépendant de la direction, il existe un couple de fonction de transfert pour chaque direction (θ, φ). L’ensemble de ces fonctions de transfert pour toutes les directions est appelé “jeu d’HRTF”. Leurs versions temporelles hL et hR sont appelées Head Related Impulses Responses ou HRIR (pour réponses impulsionnelles liées à la tête).
Les HRTF offrent une approche globale de la perception auditive spatiale, étant donné qu’elles contiennent toutes les informations acoustiques dont le système auditif a besoin pour localiser une source fixe dans une position donnée de l’espace. Néanmoins, à cause des variations morphologiques observables entre les individus, les HRTF peuvent être très différentes d’un individu à un autre.
Indices de perception de la distance
La variation de la distance d’une source sonore affecte de multiples façons les propriétés acous-tiques du son atteignant les oreilles d’un auditeur [Zahorik et al., 2005]. Il existe donc plusieurs indices permettant de percevoir la distance r d’une source sonore, l’influence de ces indices peut varier en fonction du milieu d’écoute (intérieur ou extérieur), de la proximité de la source (proche ou lointaine) et de la familiarité de l’auditeur avec celle-ci :
1. L’intensité : Lorsque la distance augmente, le niveau sonore de la source acoustique décroît. La nature précise des variations d’intensité dépend des conditions environnementales ainsi que des propriétés acoustiques de la source. Pour une source en champ libre, la perte d’intensité est inversement proportionnelle au carré de la distance. Le niveau de perte en décibel lorsque la source passe d’une distance r1 à une distance r2 peut s’exprimer ainsi [Coleman, 1963] : “perte en dB” = 20 log ( r2 ).
Par conséquent, lorsque la distance source/observateur est doublée, le niveau d’intensité de la source subit une atténuation de 6 dB.
Cette loi n’est applicable que pour des distances supérieures à 1 m. Pour les sources situées en champ proche, la présence de la tête de l’auditeur influe sur le niveau d’intensité arrivant aux deux oreilles et rend difficile la perception de la distance sur la seule base de l’intensité. L’intensité n’apporte, de plus, qu’une information relative sur la distance. Si la source est fixe, cet indice peut être confondu au niveau d’intensité sonore de la source. Ainsi, il est difficile d’estimer la distance égocentrique d’une source peu familière en champ libre [Mershon et King, 1975].
2. Le rapport “champ direct” sur “champ réverbéré” : dans un environnement réverbé-rant, la décroissance de l’intensité avec la distance est plus faible qu’en champ libre, mais un autre indice intervient : le rapport d’énergie entre le champ direct et le champ réverbéré. À proximité de la source, le champ direct est prépondérant dans le signal perçu. Au fur et à mesure que la distance augmente, l’intensité du son direct diminue et la part relative au champ réverbéré augmente. La pertinence perceptive de cet indice a été démontrée par [von Békésy, 1960] en mixant des signaux sonores enregistrés en chambre anéchoïque et en chambre réverbérante. Une étude de [Mershon et King, 1975] réalisée sur 160 sujets a permis de montrer que le jugement de la distance est plus précis dans un environnement réverbéré que dans un environnement anéchoïque. Cette étude montre aussi que contrairement à l’in-tensité, le rapport champ direct/champ réverbéré est un indice de jugement absolu et que peu d’écoutes suffisent pour évaluer, au moins grossièrement, la distance. La perception de la distance dépend cependant du niveau de réverbération de la salle [Nielsen, 1992], mais [Shinn-Cunningham, 2000] a montré que les auditeurs sont capables d’adapter leur percep-tion en fonction de la salle d’écoute.
3. Contenu spectral : Pour des distances supérieures à 15 m, les propriétés d’absorption de l’air modifient considérablement le spectre de la source sonore. Cette absorption étant dépendante de la longueur d’onde, les hautes fréquences sont plus vite atténuées que les basses fréquences. À ces modifications, dues à l’absorption, peuvent s’ajouter des filtrages entraînés par les éventuelles réflexions sur des surfaces non idéales [Blauert, 1997]. Comme pour l’intensité, le spectre de la source doit être connu pour que cet indice soit informatif. Il s’agit donc d’un indice de localisation relatif.
4. Indices binauraux : Pour des sources en champ proche (<1.5 m), il a été montré dans plusieurs études que les indices binauraux (ITD et ILD vus précédemment) permettent éga-lement de percevoir la distance [Brungart et al., 1999, Coleman, 1968]. En effet, lorsque la source est proche et en dehors de l’axe médian les indices binauraux varient significativement en fonction de la distance et constituent un indice de perception absolue de la distance d’une source sonore. Une étude de [Shinn-Cunningham et al., 2000] fournie une analyse détaillée de la variation de ces indices binauraux en fonction de la position des sources et met en évidence la dépendance de ces indices en fonction de la distance.
5. Indices dynamiques : Dans la vie quotidienne, les auditeurs et les sources sonores sont rarement stationnaires. Les mouvements de translations et de rotations de l’auditeur (ou de la source) entraînent des variations des indices acoustiques vus précédemment, augmentant ainsi la quantité d’information disponible.
La parallaxe de mouvement, qui induit un changement de direction de la source sonore, entraîne un déplacement relatif plus important pour les sources proches que pour les sources lointaines ; c’est un indice permettant d’estimer la distance absolue d’une source sonore. L’apport de cet indice a notamment été étudié par [Kim et al., 2001].
Enfin, l’effet Doppler, qui introduit une variation continue du spectre de la source sonore lors des déplacements rapides de celle-ci peut aussi permettre un jugement relatif de la distance. Cependant cet effet n’a qu’une faible influence sur la perception de la distance [Rosenblum et al., 1987].
Mesure, égalisation et interpolation des HRTF
Afin de pouvoir effectuer l’opération de filtrage de la synthèse binaurale, il est nécessaire de disposer d’une base de donnée d’HRTF. Une base ou un jeu d’HRTF est constituée d’un cer-tain nombre de paires d’HRTF (pour les oreilles gauche et droite) correspondant chacune à des positions (θ, φ). Ce jeu d’HRTF peut être obtenu soit par un modèle, soit par la me-sure. Dans les deux cas, il faut avoir recours à un échantillonnage discret de l’espace. L’ob-tention d’un jeu d’HRTF par la mesure s’effectue en réalisant une série de mesures de ré-ponses impulsionnelles pour un ensemble de directions de l’espace avec des microphones om-nidirectionnels miniatures placés à l’entrée des conduits auditifs du sujet après les avoir bou-chés [Wightman et Kistler, 1989a, Djelani et al., 2000, Pernaux, 2003]. La mesure des HRTF né-cessite une chambre anéchoïque, avec une installation mécanique lourde et complexe, dont la précision est fondamentale pour obtenir de bons résultats (comme le montrent les travaux de [Bronkhorst, 1995]). Plusieurs bases de données d’HRTF mesurées sur des humains ou sur des têtes artificielles existent. Parmi les plus connues, nous pouvons citer la base CIPIC [Algazi et al., 2001b], la base [LISTEN, 2003] de l’IRCAM (dont le système est représenté figure 2.5) ou la base [Tohoku, 2001].
Afin de compenser les réponses en fréquence des différents éléments de la chaîne de mesure (haut-parleur, microphones), il est nécessaire de procéder à une égalisation des HRTF à partir d’une mesure de référence du système d’acquisition. Plusieurs méthodes, telles que l’égalisation en champ libre ou l’égalisation en champ diffus sont exposées dans la thèse de [Larcher, 2001]. Une autre méthode consiste à compenser chaque mesure indépendamment en réalisant une mesure des fonctions de transfert haut-parleur/microphones de toutes les positions avec les microphones placés aux mêmes positions que pour la mesure du sujet [Dobrucki et al., 2010].
La synthèse de sons spatialisés dans toutes les directions de l’espace nécessite une grille de mesure très fine et donc un temps d’acquisition du jeu d’HRTF très long. Les mesures sont généralement espacées de 5 à 15◦ en azimut et en élévation. Pour placer des sources virtuelles entre ces points, les mesures doivent être interpolées. Un grand nombre de manières d’effectuer l’interpolation spatiale des filtres HRTF existe. Pour plus d’information, le lecteur pourra se référer à [Larcher et Jot, 1997, Carlile et al., 2000].
Implémentation
Il existe plusieurs méthodes d’implémentation de la synthèse binaurale. Les plus fréquentes, sont : la convolution directe et l’utilisation de filtres à phase minimale et de retards purs. Quelque soit la technique d’implémentation choisie, cette opération requiert des ressources non négligeables, d’autant plus qu’il est en général nécessaire de pouvoir la réaliser en temps réel afin de pouvoir effectuer des manipulations dynamiques des sources sonores virtuelles. Le moteur de synthèse binaurale doit donc être capable de réaliser ce filtrage pour des positions de sources (fixes ou mouvantes, équipées d’un capteur de position) en fonction de la position de la tête (équipée d’un capteur de position et d’orientation). Afin d’obtenir un rendu correct, il est nécessaire que la latence du système soit minimale. Cette latence est définie par le temps qui s’écoule entre l’instant où l’auditeur effectue un mouvement de la tête et celui où les filtres correspondants aux nouvelles positions sont mis à jour. [Sandvad, 1996] a montré que le premier facteur de dégradation de la perception d’une source virtuelle binaurale correspond à la latence. Une valeur de latence acceptable pour la synthèse de tout type de son semble être de 75 ms selon [Brungart et al., 2004] (d’autre études, telles que [Wenzel, 1999] ont montré que pour des sons relativement long, une latence de 250 ms peut être acceptable). Afin d’obtenir des mouvements lisses et réalistes, il est aussi nécessaire de recalculer la position de la source en fonction de la position de la tête avec une fréquence minimum de 50 Hz.
Comme nous l’avons mentionné section 2.2.1.c), les HRTF dépendent de la morphologie des sujets. Elles sont donc individuelles. Pour obtenir des sources virtuelles les plus réalistes possibles, il est nécessaire de disposer des HRTF individuelles de l’auditeur. Les systèmes de mesures étant peu nombreux et l’acquisition d’un jeu d’HRTF étant relativement longue, il est compliqué d’effectuer la synthèse binaurale avec des HRTF individuelles dans le cadre d’une utilisation commerciale. Il en résulte des dégradations dans la perception des sources virtuelles qui seront détaillées dans la section 2.2.3. Plusieurs méthodes d’individualisation des HRTF existent, celles-ci seront détaillées dans le chapitre 3 avec la méthode proposée dans cette thèse.
Performances de localisation auditive
L’estimation des performances de localisation du système auditif a fait l’objet de nombreuses études perceptives, tant au niveau de la localisation de sons réels (avec des haut-parleurs) en champ libre (ou environnement anéchoïque) ou en environnement clos (avec le champ réverbéré), qu’au niveau de la localisation avec des sons virtuels (issus de la synthèse binaurale). Après avoir évoqué quelques considérations sur les tests perceptifs permettant de quantifier les performances de localisation, nous détaillerons, dans cette section, les performances moyennes du système auditif en écoute naturelle, puis nous les comparerons aux résultats obtenus en écoute avec de la synthèse binaurale. Nous nous restreindrons pour cet exposé à la localisation de sources sonores en champ libre et au cas où une seule source sonore est présente.
Tests perceptifs
Afin d’estimer les limites du système auditif, il est nécessaire de mesurer les performances de localisation pour un certain nombre de sujet. Deux catégories de tests perceptifs sont utilisées en localisation sonore : les tests de localisation relative et les tests de localisation absolue.
La localisation relative consiste à évaluer l’angle minimum audible entre deux sources sonores identiques situées à la même distance de l’auditeur [Mills, 1958, Hartmann, 1989]. Ce protocole, basé sur une tâche de discrimination, a l’avantage de réduire la composante motrice de la réponse (celle-ci pouvant introduire un biais dans les expériences de localisation absolue). Cependant, les indices utilisés par le sujet pour discriminer les deux sources ne sont pas forcement des indices de localisation et cette tâche peut être réalisée sans que le sujet ne localise correctement les deux sources [Makous, 1990].
Les tests de localisation absolue visent à évaluer la capacité du sujet à désigner la position d’une source sonore dans l’espace. Ils consistent à faire écouter un certain nombre de stimuli spatialisés pour différentes directions de l’espace et à demander au sujet de reporter à chaque fois la direction perçue du stimulus. L’erreur angulaire moyenne de localisation commise par les sujets testés est ensuite estimée à partir de tests statistiques. Selon l’objet de l’étude, il est aussi nécessaire de s’intéresser au temps de réponse des sujets, ou à des critères de facilité de localisation, de crédibilité ou de bonne externalisation pour les sources virtuelles.
Pour les travaux de cette thèse, nous nous sommes intéressé à la localisation auditive absolue. Nous nous focaliserons donc sur les résultats de ce type de test dans la suite du document. Plusieurs techniques de report du jugement de la position perçue ont été utilisées dans les dif-férentes études de la littérature sur les performances de localisation auditive absolue. La tech-nique de report doit permettre au sujet d’exprimer le plus fidèlement possible la position perçue tout en étant intuitive et rapide. Du simple report verbal (en degrés ou en heure), utilisé par [Wightman et Kistler, 1989a, Wenzel et al., 1993], aux techniques de pointages égocentrées utili-sant la tête, le torse ou le bras [Makous, 1990, Brungart et al., 1999], en passant par l’utilisa-tion d’une interface physique [Djelani et al., 2000] ou graphique [Larcher, 2001, Pernaux, 2003], ces techniques ont toutes des avantages et des inconvénients. Plusieurs études ont cependant mis en évidence de meilleures performances pour les techniques de reports égocentrés faisant inter-venir une partie du corps (pointage avec la main ou la tête) [Haber et al., 1993, Pernaux, 2003, Majdak et al., 2010]. Afin de réduire l’incertitude de la mesure liée à la méthode de recueil des réponses et à l’adaptation au protocole expérimental, plusieurs auteurs ont fait répéter la tâche de localisation pendant plusieurs heures aux auditeurs avant que les réponses ne soient enregistrées [Makous, 1990, Wightman et Kistler, 1989b], parfois avec un retour sur la qualité de la réponse [Carlile et al., 1997, Martin et al., 2001, Brungart et Simpson, 2009].
Localisation de sons réels
La majeure partie des expériences décrites dans cette partie ont été réalisées dans des conditions “idéales” de laboratoire (avec la tête fixe, dans le silence, en condition anéchoïque, avec une seule source statique généralement et avec un spectre large bande).
Performances de localisation en azimut
Dans son ouvrage de référence sur la perception spatiale du son, [Blauert, 1997] fait un rapport exhaustif des études sur la localisation auditive. Il y introduit la notion de flou de localisation (ou localization blur, en anglais), comme étant l’erreur de localisation perçue dans une zone de l’espace. La figure 2.6 reporte les flous de localisation dans le plan horizontal calculés à par-tir des résultats des expériences de [Preibisch-Effenberger, 1966] (réalisée sur 600 sujets) et de [Haustein et Schirmer, 1970] (réalisée sur 900 sujets). Sur cette figure sont représentées les posi-tions moyennes et les écarts types des réponses des sujets à des stimuli auditifs (bruit blanc de 100 ms) provenant de quatre directions différentes (0◦, 90◦, 180◦ et 270◦). On constate que la pré-cision de localisation est maximale dans la direction frontale (azimut 0◦) où le flou de localisation est de ±4◦, plus faible à l’arrière (flou de localisation de ±6◦) et minimale pour les positions la-térales (flou de localisation de ±10◦). [Blauert, 1997] montre que suivant le stimulus utilisé le flou de localisation pour une source frontale peut varier de 0.75◦ (pour des impulsions) à 12◦ (pour des fréquences pures).
Performances de localisation en élévation
Au niveau de l’élévation, les performances de localisation du système auditif sont plus floues que pour la localisation en azimut. La figure 2.7, tirée de [Blauert, 1997], présente les résultats d’une campagne de tests de localisation de [Damaske et Wagener, 1969] réalisée sur sept sujets pour des sources sur le plan médian avec un signal de parole. De nouveau, l’erreur est minimale pour les cibles situées devant et à faible élévation (flou de localisation de ±9◦), elle augmente en fonction de l’élévation (±10◦ à 36◦, ±13◦ à 90◦) et est maximale dans l’hémisphère arrière (±15◦ à 36◦ pour un azimut de 180◦).
Une expérience réalisée par [Oldfield et Parker, 1984] sur huit sujets avec un bruit blanc pour des élévations allant de -40 à 40◦ a permis de dresser une cartographie détaillée de l’acuité de localisation dans une grande partie de la sphère auditive. Leurs résultats vont dans le même sens que les études résumées par [Blauert, 1997] mais ajoutent plus de détails sur le flou de localisation en azimut en dehors du plan horizontal ainsi que sur les erreurs en élévation en dehors du plan médian.
Localisation de sons virtuels
Bien que reproduisant théoriquement tous les indices acoustiques de localisation, les performances de localisation de sons virtuels générés avec de la synthèse binaurale sont en général beaucoup plus mauvaises que les performances de localisation de sons réels. Dans cette partie, nous allons voir les dégradations dues à la synthèse binaurale avec des HRTF individuelles et non-individuelles.
Performances de localisation en direction
La comparaison de la localisation de sons réels (diffusés par des haut-parleurs en chambre ané-choïque) à la localisation de sons virtuels (avec des HRTF individuelles) a été réalisée pour des positions similaires par [Wightman et Kistler, 1989b]. Dans cette étude de référence, les auteurs ont observé les artefacts les plus significatifs de la synthèse binaurale : un pourcentage plus impor-tant de confusions avant/arrière (11% pour les sons virtuels contre 5% pour les sons réels) et une erreur angulaire plus grande en élévation. La localisation en azimut n’est par contre quasiment pas modifiée. Ces dégradations de performances peuvent être expliquées par la précision des mesures réalisées, la quantification de la grille de mesure (les HRTF ne peuvent pas être mesurées de façon continue dans toutes les directions), par l’influence de la fonction de transfert du casque ou par d’autre facteurs tels que l’absence d’indices visuels corrélés aux indices auditifs.
L’utilisation d’HRTF non-individuelles introduit de grandes distorsions dans la perception des sources virtuelles. [Middlebrooks, 1999b] a comparé les performances de localisation avec HRTF personnalisées et non personnalisées sur un grand nombre de position en azimut et en élévation. Ses résultats mettent en évidence une grande augmentation du taux de confusion (les auteurs ne dis-tinguent pas les inversions avant/arrière des inversions haut/bas) qui passe de 5% pour les HRTF in-dividuelles à 20% pour les HRTF non-individuelles ; une dégradation des performances en élévation (avec une erreur d’environs 25◦ pour les HRTF individuelles contre 40◦ pour les non-individuelles) ; et une légère dégradation des performances en azimut (l’erreur augmente d’environs 4◦). D’autre études réalisées uniquement avec des HRTF non-individuelles [Zahorik et al., 2006] ou comparant la localisation de sources virtuelles non-individuelles à des sources réelles [Wenzel et al., 1993] confirment ces résultats.
Les études de localisation avec des sons virtuels reportent aussi d’autre problèmes perceptifs, tels que l’altération du timbre, le manque d’externalisation de la source (la source paraît être située dans la tête, entre les deux oreilles) ou encore une grande taille apparente de la source [Begault, 1994, Larcher, 2001].
Performances de localisation en distance
Étant donné que les HRTF sont mesurées à distance fixe et en chambre anéchoïque, les perfor-mances de localisation en distance avec des sons virtuels ont été peu étudiées et sont très faibles. Il est néanmoins possible par l’ajout de l’indice d’intensité (loi en 1/r2 citée dans le para-graphe 2.2.1.d)) et de l’effet d’absorption par l’air, d’approcher la perception de distance avec des sons réels en champ libre [Brungart, 1993, Zahorik, 2002]. La variabilité des résultats reste néanmoins très grande à cause du manque d’externalisation des sons pour les sources frontales. [Begault, 1992] a montré que l’ajout d’un effet de salle dans la synthèse binaurale pouvait améliorer la perception de la distance ainsi que la sensation d’externalisation du son. Ses résultats ont été confirmés par plusieurs études de [Kopčo et al., 2008, Kopčo et Shinn-Cunningham, 2011] utilisant des réponses impulsionnelles binaurales enregistrées dans des salles réverbérantes. Il apparait né-cessaire pour simuler correctement la distance en environnement virtuel binaural d’ajouter un effet de salle, bien que cet ajout entraîne une dégradation des performances de localisation en azimut.
L’effet du casque
La synthèse binaurale étant diffusée sur un casque, la fonction de transfert de celui-ci peut avoir une grande influence sur le spectre des HRTF. Il peut donc être nécessaire de la com-penser pour pouvoir contrôler finement la pression acoustique aux tympans de l’auditeur. De nombreuses études se sont penchées sur la question de la compensation du casque pour la synthèse binaurale [Møller et al., 1995, Pralong et Carlile, 1996, Kulkarni et Colburn, 2000, McAnally et Martin, 2002, Schonstein et al., 2008, Schärer et Lindau, 2009, Paquier et al., 2011]. La réponse fréquentielle du casque n’est en général pas plate. De plus, le couplage entre le casque et les pavillons peut entrainer des résonances et des antirésonances prononcées qui peuvent ressembler fortement aux caractéristiques spectrales des HRTF. Il semble être établi que la non compensa-tion du casque peut entraîner une dégradation de la localisation des sources virtuelles, cependant les études de la littératures ne sont pas forcement en accord sur les indices à compenser (seule-ment la fonction de transfert du casque ou l’ensemble casque et couplage casque/oreilles). Selon [Kulkarni et Colburn, 2000], la difficulté à évaluer de manière fiable la fonction de transfert de l’ensemble casque et couplage reste un problème majeur notamment à cause de son caractère indi-viduel et des différentes manières de positionner le casque (voir [Paquier et al., 2011], pour l’effet de la position du casque). Selon [McAnally et Martin, 2002], les variations fréquentielles engendrées par le casque sont généralement moindres que les colorations des HRTF et ne posent donc pas de problèmes insurmontables. [Pralong et Carlile, 1996] montrent, quant à eux, qu’une calibration non-individuelle du casque peut engendrer une dégradation de qualité de la localisation équivalente à celle provoquée par l’utilisation d’HRTF non-individuelles. [Wightman et Kistler, 2005] montrent que sans calibration du casque, les performances de localisation en élévation se dégradent et le taux de confusions avant/arrière augmente. Les variations fréquentielles entraînées par le casque étant individuelles et fortement liées à la position du casque, une compensation systématique de cette fonction de transfert semble difficile à mettre en place. De plus, dans le cadre d’un projet com-mercial, les utilisateurs n’utiliseront pas les mêmes casques et la calibration sera donc impossible. Nous avons donc, pour la suite du document, choisi de ne pas effectuer de calibration du casque, considérant que de toute manière, les effets du casque et du couplage casque/auditeur ne dépendent pas de la position de la source.
Les fonctions de la sonification
Étant donné que la modalité auditive a des propriétés inhérentes qui peuvent se révé-ler bénéfique pour l’affichage d’informations, nous allons examiner ici quelques types de fonctions que l’affichage auditif et la sonification peuvent effectuer. [Buxton, 1989] puis [Edworthy, 1998, Walker et Kramer, 2004] ont décrit les fonctions de la sonification en terme de trois grandes catégories : (1) alarmes, alertes et avertissements, (2) messages d’état, de processus et de suivi d’une tâche, et (3) exploration de données ; auxquels ont été rajoutées plus tard [Walker et Nees, 2011] : (4) le divertissement, le sport et l’exercice.
Fonction de notification
La première catégorie de fonction de la sonification, correspond aux notifications. Du simple avertissement, à l’alarme ou l’alerte, les notifications sonores permettent d’indiquer qu’un évé-nement vient de se produire ou va se produire. Le message véhiculé par les alertes est gé-néralement relativement pauvre et a pour but d’indiquer une information simple à l’auditeur [Buxton, 1989, Sorkin, 1987]. Le plus commun des exemples d’alerte sonore est le « ding-dong » de la sonnette de porte qui indique la présence d’une personne derrière la porte. Ce type de signal est aussi utilisé par les micro-onde pour indiquer la fin du temps de cuisson ou par les téléphones portables pour indiquer l’arrivée d’un message texte. Les alarmes et avertissements sont des no-tifications sonores destinées à véhiculer l’apparition d’une classe restreinte d’événements, le plus souvent urgent et défavorable, qui exigent une réponse immédiate ou au moins une grande atten-tion [Haas et Edworthy, 2006]. Pour ce type de notification, [Spence et Driver, 1997] ont montré que la modalité auditive capte plus facilement l’attention du sujet que la modalité visuelle et qu’elle permet d’éviter les problèmes dus à la limitation du champ de vision. Les alarmes doivent pouvoir véhiculer plus d’informations que les alertes, tel que le niveau d’urgence ou le type de problème. De nombreuses études (telles que [Edworthy et al., 1991, Suied et al., 2008]), ont exploré la relation entre les sons utilisés et le degré d’urgence ressenti par les auditeurs.
Fonction d’indication de statut ou de progrès
Généralement la notification seule ne permet pas de donner suffisamment de détails sur l’infor-mation qui doit être transmise via la modalité audio. Dans de nombreux cas, il est nécessaire que la sonification puisse donner plusieurs informations sur l’état d’un système, d’un processus ou sur une série d’événements. Dans ces cas, la modalité audio tire profit de la capacité de l’auditeur à détecter de petits changements dans les événements sonores et permet à l’utilisateur d’avoir les yeux libres pour d’autre tâches [Kramer et al., 1999]. Les systèmes d’exploitation informatiques tels que Windows ou MacOs utilisent depuis de nombreuses années des “grammaires” de signaux auditifs pour donner des indications de statuts ou de tâches. Ces “grammaires” sonores consti-tuent un ensemble de notifications audio portant chacune un sens particulier faisant référence à une tâche ou un état. Les différentes manières de créer un ensemble de notifications audio ont été étudiées par [Gaver, 1986, Blattner et al., 1989, Dingler et al., 2008] et sont détaillées dans la section 2.3.2.d). L’affichage auditif a aussi été étudié pour présenter des menus [Helle et al., 2001, Walker et Kogan, 2009, Langlois et al., 2010], des barres de progrès [Peres et al., 2007], pour sur-veiller l’état de différents processus dans une usine [Walker et Kramer, 1996] ou pour indiquer l’horizon artificiel en aviation [Brungart et Simpson, 2008].
Fonction d’exploration de données
La troisième fonction de la sonification consiste à permettre l’exploration de données complexes et multidimensionnelles. Alors que l’exploration de données par la modalité visuelle est limitée à deux ou trois dimensions, la modalité audio permet d’explorer et d’étudier des données évoluant temporellement selon de multiples dimensions. Cette fonction se distingue des précédentes étant donnée qu’elle est utilisée pour afficher une vue global des données plutôt qu’un résumé ou un état momentané du système. De l’exploration de données scientifiques [Flowers et Hauer, 1993, Brown et al., 2003, Stockman et al., 2005] à l’écoute de données médicales [Hermann et al., 2002, Baier et al., 2007, Pauletto et Hunt, 2009], ce type de sonification permet de suppléer ou même de remplacer la vision lorsque celle-ci se révèle insuffisante pour analyser des données.
Fonction de divertissement
Plus récemment, la sonification a été appliquée au domaine des loisirs, des activités sportives et même de l’art. Les interfaces auditives, d’abord utilisées pour générer des sons environnementaux et accompagner l’image dans les jeux vidéos [Röber et al., 2006, Verron et al., 2010] ont été utilisées avec la sonification pour créer des jeux auditifs (ou audio games) [Friberg et Gärdenfors, 2004, Gaudy et al., 2006]. Ces jeux électroniques basés uniquement sur le son permettent de faciliter l’accès des jeux aux non-voyants et parfois même faciliter l’interaction directe entre des joueurs voyants et non-voyants [Stockman et al., 2007].
Au niveau des activités sportives, les études de [Schaffert et al., 2009] sur l’aviron ou de [Godbout et Boyd, 2010] sur le patinage de vitesse, ont montré le potentiel de la sonification à fournir un retour sonore permettant aux sportifs d’améliorer leurs mouvements. La sonification du mouvement peut aussi être utilisée pour informer du bon déroulement d’une tâche comme, par exemple, de la justesse du geste d’écriture chez les enfants atteints de troubles dysgraphiques [Thoret et al., 2012].
Techniques et approches de sonification
Différentes techniques de sonifications peuvent être utilisées en fonction du type d’information à afficher (i.e. message de notification ou variation d’une donnée continue). Nous allons dans cette partie décrire les principales approches utilisées en sonification.
Les systèmes d’aide aux non-voyants
Les systèmes d’aide aux non-voyants ont pour objectif de restituer certaines fonctions assurées par le système visuel et dont l’absence peut engendrer un besoin chez les déficients visuel. Ces aides techniques sont des moyens destinés à permettre à la personne de compenser l’absence de vision. Elles doivent fournir une information équivalente à celle fournie par la vision par l’intermédiaire d’une autre modalité sensorielle telle que l’audition ou la somesthésie.
Des montres braille ou parlantes, aux logiciels de lecture d’écrans et claviers braille, en passant par les aides au déplacement, il existe de nombreux dispositifs commercialisés et de nombreux projets de recherche visant à augmenter l’accessibilité des informations visuelles pour les personnes non-voyantes. Ces systèmes peuvent être basés sur la somesthésie (en convertissant une image ou un texte en stimuli tactiles, comme par exemple le braille), ou sur l’audition (moteurs de synthèse transformant une chaîne de caractères en information vocale). Ils sont en général basés sur la même architecture : une chaîne d’acquisition, une chaîne de transformation de l’information et un module de restitution de l’information traitée.
Au cours des dernières décennies, le développement des systèmes de guidage par satellite (Global Positioning Systems GPS), des caméras portatives et des systèmes de captation du mouvement, ainsi que la réduction de la taille et l’augmentation de la puissance des ordinateurs personnels ont conduit à l’élaboration d’un grand nombre de projets d’aide à la navigation pour les non-voyants. Une étude récente sur les systèmes d’aide à la mobilité existants pour les non-voyants [Roentgen et al., 2008] identifie plus de 140 dispositifs d’assistance. Ces dispositifs visent à ai-der les non-voyants dans une des trois phases du modèle de la navigation pédestre proposé par [Adams et Beaton, 2000]. Ce modèle stipule que le déplacement de manière autonome d’un point A vers un point B est une tâche cognitivement complexe qui nécessite plusieurs comportements distincts :
– la planification d’itinéraire : l’individu doit prendre en compte son point de départ et son point d’arrivée, comparer les différentes routes permettant de joindre ces deux points et décider, sur la base de critères de distance, de temps de parcours et de sécurité de l’itinéraire, quelle est la meilleure route à emprunter. De cette phase de préparation résulte la mentalisation de l’itinéraire à suivre, composé d’un certain nombre de points de réorientation reliés entre eux par des segments de route plus ou moins long.
– la navigation fine : qui consiste à éviter les imprévus et obstacles ainsi qu’à gérer les difficul-tés rencontrées aux différents croisements (passages piétons, feux tricolores, obstacles, trafic routier, etc.).
– la navigation globale : qui consiste à relier entre eux les différents points de réorientation, se rappeler de la direction à emprunter aux intersections et garder cette direction pour rester sur le chemin.
La recherche sur les systèmes de suppléance visuelle permettant d’aider les non-voyants dans ces trois phases a conduit à deux catégories de systèmes : les systèmes de substitution sensorielle et les systèmes d’augmentation sensorielle [Kaczmarek, 2000]. Apparus dans les années 1970, les systèmes de substitution sensorielle restituent les informations habituellement acquises par une modalité sensorielle en utilisant directement une autre modalité sensorielle. Pour les non-voyants, ils sont en général basés sur les substitutions visuo-tactile et visuo-auditive. Apparus un peu plus tard, les systèmes d’augmentation sensorielle restituent des informations extraites de la modalité visuelle (par exemple), en utilisant une autre modalité. Contrairement aux dispositifs de substitution, ils ne restituent pas l’intégralité du message capté et nécessitent donc une étape de traitement des données visant à extraire l’information pertinente à transmettre.
Nous allons, dans cette section, donner quelques exemples de systèmes de suppléances permettant de fournir une aide au déplacement pour la navigation fine (Electronic Travel Aids – ETA) et une aide à l’orientation pour la navigation globale (Electronic Orientation Aids – EOA), en séparant dans le cas des ETA, les systèmes de substitution et les systèmes d’augmentation sensorielle.
Les aides au déplacement
Les dispositifs d’aide au déplacement ont pour objectif de permettre au non-voyant de se déplacer de manière autonome dans l’espace proche (entre 1 et 20 mètres) et reposent sur la détection des obstacles ou sur la description de l’environnement proche du sujet par une appréciation du relief ou des objets environnants. Ces aides sont, en général, des compléments à la canne blanche ou au chien.
Les premières idées d’expérimentations sur les aides au déplacement sont apparues avec l’émer-gence de la substitution sensorielle introduite dans les années 60 par Paul Bach-y-Rita. Ces systèmes reposent sur une (ou plusieurs) caméra, considérée comme capteur de substitution de la vision hu-maine déficiente. Les images, brutes ou peu filtrés, sont directement reproduites sous la forme d’un signal tactile ou auditif. Apparus un peu plus tard, les systèmes d’augmentation sensorielle nécessitent une transformation de l’image ou des données issues de capteurs spécifiques afin de transmettre uniquement les informations pertinentes.
Les systèmes d’aide aux non-voyants
Les systèmes de substitution sensorielle
Les premières tentatives de substitution sensorielle avaient pour but d’utiliser la plasticité céré-brale des non-voyants afin de restaurer leurs capacités visuelles sur la base de stimulations tactiles. Premier système, le TVSS, réalisé par [Bach-y Rita et al., 1969] était constitué d’un fauteuil de dentiste équipé d’actuateurs tactiles permettant de convertir les informations visuelles capturées par une caméra en des sensations tactiles à la surface du corps (sur le dos). Dans sa première version, la caméra était fixe et les sujets avaient de grandes difficultés à percevoir des formes. [Bach-y Rita, 1983] puis plus tard [Auvray et al., 2007] ont montré que la manipulation du cap-teur d’image ou d’information par le sujet est essentielle pour la perception des formes provenant de la scène visuelle. Ce dispositif a ensuite été adapté à l’abdomen [Bach-y Rita, 1983], puis à la langue [Bach-y Rita et al., 1998, Kupers et Ptito, 2004] et au palais [Tang et Beebe, 2003]. Étant donné la faible résolution tactile du dos ou de l’abdomen, [Bach-y Rita et al., 1998] proposent d’utiliser la langue (car c’est un des organes avec la plus forte densité de récepteurs tactiles, permettant ainsi une plus grande résolution de stimulation) et montrent qu’il est possible de reconnaitre des formes simples après un certain temps d’apprentissage avec le dispositif.
Apparus un peu plus tard, les systèmes de substitution visuo-auditive convertissent l’image cap-turée en information sonore en préservant le maximum d’information spatiale et lumineuse de l’image. Ces systèmes utilisent, en général, la fréquence, l’intensité, le temps et la stéréophonie pour restituer la position des pixels et leur intensité lumineuse.
Le plus connu de ces systèmes, “The vOICe” [Meijer, 1992], est développé depuis 1992 par Peter Meijer. Avec ce système, l’image est convertie en matrice de niveau de gris de 64×64 pixels. La position verticale est codée sur 64 fréquences différentes (plus le motif visuel est haut, plus le son est aigu) et la position horizontale est codée de manière temporelle (le balayage d’une image est réalisé en une seconde). Le niveau de gris de chaque pixel est restitué avec l’intensité du son. Ainsi, plus le niveau de gris d’un pixel est clair, plus le niveau sonore de la fréquence correspondant à ce pixel sera élevé. [Auvray, 2004] a montré qu’il est possible avec ce dispositif de localiser (avec un temps moyen de 100 ± 70 secondes et une erreur de 7 ± 5 cm) et de reconnaitre un objet parmi une dizaine en manipulant la caméra avec la main. Un système similaire, “The Vibe” a été développé par [Hanneton et al., 2010] en utilisant une restitution stéréophonique pour coder la position horizontale des pixels. L’efficacité de ce système sur l’évitement d’obstacles a été validée en condition réelle dans une tâche de navigation réalisée avec 20 non-voyants [Durette et al., 2008]. Le système EAV [Gonzalez-Mora et al., 2006], quant à lui, constitué de caméras portées sur des lunettes, utilise la stéréoscopie pour localiser la surface des objets présents dans la scène visuelle et du son binaural pour synthétiser des sons comme s’ils provenaient de petites enceintes placées à la surface des objets.
Ces différents systèmes permettent de localiser et de reconnaitre des objets à partir d’images avec des règles de conversion très simples ne nécessitant que très peu de ressources et un temps de calcul réduit. Ils ne permettent cependant que de reconnaitre des motifs simples et sont donc difficilement utilisable en environnements naturels. La différence entre la résolution nécessaire pour percevoir un objet dans une image et la résolution de la modalité sensorielle cible est aussi un frein important. De plus, la somme d’information présente à l’image dans un environnement complexe est trop importante pour pouvoir être interprétée aisément. Il est donc nécessaire d’utiliser des traitements pour sélectionner les informations pertinentes avant de les présenter.
Les systèmes d’augmentation sensorielle
Plutôt que de chercher à transcrire l’intégralité de la modalité visuelle à travers une autre moda-lité, les systèmes d’augmentation sensorielle visent à restituer certaines fonctions du système visuel parmi les plus utiles aux non-voyants. En général, ces systèmes suivent une approche basée sur les télémètres ou une approche basée sur les systèmes de vision artificielle.
L’approche basée sur les télémètres vise à restituer la fonction de détection des obstacles de la vision en calculant la distance aux objets présents dans une zone frontale à l’utilisateur. Il existe principalement deux technologies permettant d’estimer la distance à des objets environnants avec précision : les télémètres à ultrasons et les télémètres laser. Dans chacun des cas, le principe du télémètre est le même : un signal sonore ou lumineux envoyé par un émetteur se réfléchi sur les objets environnant le sujet et sont captés par un récepteur placé à côté de l’émetteur. Le déphasage entre le signal émis et le signal réceptionné permet d’estimer la distance des objets environnants. Les télémètres à ultrasons permettent d’estimer des distances inférieures à 20 mètres avec une précision fortement dépendante des facteurs environnementaux (température, humidité) ; les télémètres laser, qui ont une portée de quelques centaines de mètres, sont plus directionnel et plus précis mais plus chers et inopérant pour détecter les surfaces transparentes (comme les vitres).
De nombreux systèmes basés sur l’approche du télémètre ont été développés dans le cadre de projets de recherche. Certains comme l’Ultracane ont même abouti à une commercialisation (par la société Foresight 3). L’Ultracane est une canne blanche augmentée d’un télémètre à ultrason res-tituant la distance avec un retour tactile via des boutons vibrants placés sur la poigné de la canne. Utilisant le principe de triangulation par profilométrie laser, le Télétact [Farcy et Damaschini, 1997] développé par René Farcy (laboratoire Aimé Cotton) a permis d’explorer plusieurs types de modali-tés de restitution de la distance. Déclinée sous plusieurs versions (Mini Tact, Tom Pouce et Télétact, [Farcy et al., 2006]) permettant un apprentissage graduel du système, cette canne donne des in-formations sur la distance en utilisant, soit des stimuli tactiles (sur quatre doigts correspondant à quatre plages de distances), soit des stimuli audio (32 notes permettant de représenter des distances allant de 0 à 15 mètres) [Jacquet et al., 2006]. [Farcy et al., 2003] ont montré que l’expertise ac-quise sur ce système permettrait de reconnaitre certaines formes par exploration de celles-ci en les balayant avec le faisceau. D’autre projets tels que “The GuideCane” de [Borenstein et Ulrich, 1997] ou “The Navbelt” de [Shoval et al., 1998] ou [Bensaoula et al., 2006] utilisent une combinaison de capteurs à ultrasons et de télémètres laser afin de couvrir une plus grande zone. Étant donné la a) Valeur de la distance prise tout les 5◦. b) Séquence de note correspondant aux distances de la figure a). Les balayages sont effectués de droite à gauche. Sur la figure b), l’axe temporel en abscisse va de droite à gauche et l’ordonnée correspond à la hauteur du son.
taille et surtout le nombre des capteurs, leurs dispositifs souvent volumineux doivent être portés en ceinture ou sur un chariot à roulette ce qui représente une grosse contrainte pour les utilisateurs. Ces systèmes, bien que permettant de détecter des obstacles, ne remplacent pas la canne blanche ou le chien et restent très limités dans la mesure où ils ne permettent pas de lire les noms des rues ou de s’orienter dans les environnements inconnus.
L’approche basée sur les systèmes de vision artificielle consiste à traiter les signaux provenant d’une caméra afin d’en extraire une information qualitative sur les éléments composant l’image. Elle est plus complexe et demande souvent beaucoup de ressources au système ; de plus, elle re-quiert deux caméras afin d’utiliser une carte de disparité pour déterminer la distance des objets détectés. Les premiers systèmes de ce type ont cherché à déterminer la position de l’objet le plus proche afin de donner sa position avec du son 3D [Kawai et al., 2000, Fontana et al., 2002a], des sons stéréophoniques [Balakrishnan et al., 2004] ou une interface tactile [Costa et al., 2008]. [Alba et al., 2008] utilisent cette technique pour localiser trois à cinq objets et leur associer des sons différents (en utilisant des sons issus de synthèse FM spatialisés en binaural). Au niveau de la restitution des informations, [Bujacz, 2010] a testé, dans le cadre de sa thèse, différentes méthodes de sonifications 3D des informations extraites de la scène visuelle [Bujacz et al., 2011]. La première méthode, présentée dans [Pelczynski et al., 2006] consiste à utiliser de la synthèse vocale générée par formants et présentée en binaural avec des HRTF individuelles. Les voyelles permettent de différencier les différentes plages de distances et le type de voix (masculine ou féminine) permet de donner une information sur la taille des objets. Dans [Bujacz et Strumillo, 2006], les auteurs présentent une autre méthode de sonification utilisant des sons MIDI. La scène visuelle est balayée périodiquement (de la même façon que pour le système “The vOICe”) de droite à gauche et les obstacles rencontrés sont sonifiés séquentiellement. La distance vers les objets est codée par la note du son (plus l’objet est proche, plus la note est aigue) et la direction est codée en binaural. Plusieurs scans de la scène peuvent être effectués en même temps (avec différentes élévations), différents instruments MIDI sont alors attribués à chacun de ces balayages. Les figures 2.9 a et b représentent le balayage d’un environnement (en a) et la représentation sonore en fonction du temps (en b).
Une autre approche, basée sur des algorithmes de “pattern matching” (confrontation d’un motif avec l’image dans laquelle il est cherché), consiste à rechercher des objets spécifiques dans la scène visuelle. Un des premiers dispositifs à utiliser cette technique de reconnaissance d’objets à été développé par [Hub et al., 2006]. Ce projet est dédié à l’analyse de scènes en intérieur et à la détection d’objets mobiles (ex. chaises), semi mobiles (ex. porte ouverte ou fermée) ou fixes (ex. bureau), il ne traite cependant pas de la manière de restituer l’information.
|
Table des matières
1 Introduction
1.1 Contexte
1.2 Objectifs
1.3 Organisation du manuscrit
2 Sonification 3D et aide aux non-voyants : état de l’art
2.1 Introduction
2.2 Son 3D
2.2.1 La localisation auditive
2.2.2 La synthèse binaurale
2.2.3 Performances de localisation auditive
2.3 La sonification
2.3.1 Les fonctions de la sonification
2.3.2 Techniques et approches de sonification
2.4 Les systèmes d’aide aux non-voyants
2.4.1 Les aides au déplacement
2.4.2 Les aides à l’orientation
3 Individualisation des HRTF : Adaptation auditive
3.1 Introduction
3.2 L’individualisation des HRTF
3.2.1 Imperfections de la spatialisation avec des HRTF non-individuelles
3.2.2 Individualisation des HRTF : état de l’art
3.3 Adaptation rapide aux HRTF en utilisant un environnement virtuel
3.3.1 Apprentissage en localisation sonore
3.3.2 Construction d’un VAE permettant une adaptation audio-spatiale
3.4 Expérience
3.4.1 Sujets
3.4.2 Design et procédure
3.4.3 Classification des HRTF non-individuelles (C)
3.4.4 Tâche d’adaptation (A)
3.4.5 Tâche de localisation (L)
3.5 Résultats
3.5.1 Observations générales
3.5.2 Différences entre les groupes
3.5.3 Effets de la tâche d’apprentissage
3.6 Discussion
3.7 Conclusion
4 Amélioration des indices de perception de la distance en champ proche par l’utilisation de la sonification
4.1 Introduction
4.2 Contexte
4.2.1 Navigation en champ proche
4.2.2 Performances de localisation des sons en champ proche
4.3 Étude des mouvements de saisie vers des cibles sonores réelles
4.3.1 Description du dispositif utilisé pour les expériences
4.3.2 Les expériences préliminaires menées à l’IRIT
4.3.3 Étude des performances en fonction de la main utilisée
4.3.4 Discussion
4.4 Localisation et saisie de cibles virtuelles et sonification de la distance
4.4.1 Sonification des indices de localisation
4.4.2 Métaphores de sonification basées sur des effets audio
4.4.3 Expérience
4.4.4 Discussion
4.5 Conclusion
5 Les morphocons : une sonification personnalisable basée sur des earcons morphologiques
5.1 Introduction
5.2 La navigation en champ lointain
5.2.1 Les informations à fournir
5.2.2 Les besoins des utilisateurs
5.3 Contexte bibliographique
5.3.1 Utilisation du son dans les systèmes d’aide à la navigation
5.3.2 Sonification
5.3.3 La notion de satisfaction des utilisateurs dans les interfaces sonores
5.4 Les morphocons
5.4.1 Concept
5.4.2 Application au projet NAVIG
5.5 Expérience
5.5.1 Méthode
5.5.2 Résultats
5.5.3 Discussion
5.6 Conclusion
6 Conclusion générale
6.1 Contributions de la thèse
6.1.1 Amélioration du rendu binaural avec des HRTF non-individuelles
6.1.2 Amélioration des indices de localisation par l’utilisation de la sonification
6.1.3 Sonification personnalisable par les utilisateurs
6.2 Perspectives de recherche
6.2.1 Mise en place et test d’un dispositif de navigation en situation réelle
6.2.2 Généralisation de la méthode d’apprentissage des HRTF non-individuelles
6.2.3 Évaluation de l’ergonomie des méthodes de sonification mises en place
6.3 Publications liées à la thèse
6.3.1 Articles de revue à comité de lecture
6.3.2 Conférences avec actes
6.3.3 Conférences sans actes
A Besoins utilisateur et conception participative
A.1 Brainstorming sur les informations à donner
A.2 Séance de production d’idée : la notion de “guidage idéal”
A.2.1 Méthodologie
A.2.2 Résultats principaux
A.3 Bilan des sessions de conception participative
A.3.1 Les informations à transmettre
A.3.2 Comment transmettre les informations
B Les différents éléments du système NAVIG
B.1 Vision artificielle
B.2 Système de géolocalisation avec précision piéton
B.3 Système d’Information Géographique piéton
B.3.1 Le SIG NAVIG
B.3.2 Planification d’itinéraire
B.4 Contrôleur de dialogue
B.5 Interaction homme-machine
B.5.1 Interface en entrée
B.5.2 Interface en sortie
Télécharger le rapport complet