Le son 3D pour la vidéo à 360°
« La VR est un nouveau média qui propose une nouvelle manière de raconter des histoires, une nouvelle manière de faire vivre aux spectateurs des expériences de manière beaucoup plus immersive qu’auparavant. »
Dans cette définition proposée par Pierre Lapeyrade, réalisateur 360 et directeur de productions chez FishEye VR, le mot « immersion » cristallise à lui seul tout l’enjeu de la réalité virtuelle. Toutefois, il nous faut d’ores et déjà préciser cette citation offerte suite à une question mal posée de ma part à l’époque : « Que-ce pour vous la VR ? » est une question tout à fait différente de « Qu’est-ce pour vous la vidéo 360 ? ».
En effet, au cours de l’année 2016, le terme « VR » a rapidement dérivé vers une généralisation de deux techniques distinctes:
« First, it’s important to differentiate between 360 video experiences and VR. 360 videos essentially wrap a screen around you (in every direction), and you as the viewer can sit back and turn your head all around to experience the film/game. VR on the other hand allows you to move and walk through the environment changing your perspective to both the visual elements and the sound sources. 360 allows you to change your perspective, but only on the axis of your head. You can’t travel through a 360 video. »
Dans le cadre de ce mémoire, nous nous intéressons exclusivement à la vidéo 360° et non pas à la VR qui induit de fait d’autres paramètres qu’il nous est malheureusement nécessaire de mettre ici de côté.
Pour en revenir à notre définition de la vidéo 360 donc, cette notion d’immersion qui est permise dans un premier temps par l’image, va être amplement renforcée par la bande son également à 360° : « Le son c’est 50% voire plus de l’immersion ».« En tout cas ce qui est sûr c’est que le son c’est la base de tout en VR . »
Il est également important dès le début de notre développement de bien préciser ce qu’est « le son 3D pour la vidéo à 360° ». En effet, la notion de son 3D englobe de nos jours plusieurs techniques bien distinctes: la Wave Field Synthesis (WFS), le Dolby Atmos, le binaural, l’Ambisonic etc… Toutes ces techniques « permettent de créer des illusions sonores localisées dans l’espace tout autour de l’auditeur. »
Dans le cadre de la « 360 », c’est à dire d’un flux vidéo majoritairement visionné à l’aide d’appareils mobiles (Smartphones, Tablettes, Masque de réalité virtuelle) il est important de se poser la question du système de diffusion sonore. La vidéo à 360° nous propose un point de vue permettant de pivoter sur un axe fixe, le point de vue sonore se doit donc de respecter cet axe. Or, si la diffusion est assurée par un ensemble de hautparleurs, le déplacement du spectateur influerait sur ce point d’écoute. De plus, l’utilisation d’enceintes tout autour d’un auditeur impose un autre problème qui est le fameux « sweet spot ».
« It is a tiny space and you get occlusion really quickly if you have another person sitting next to you »11
Ainsi pour ces deux raisons parmi tant d’autres (le coût financier d’un système de haut-parleurs à 360° en est un autre), il est préférable que le son d’une vidéo à 360° soit lui aussi diffusé via un dispositif mobile, en l’occurrence des écouteurs ou un casque audio. Or, comment peut-on, par l’intermédiaire d’un dispositif de restitution stéréophonique, diffuser du son 3D ?
La solution se trouve du côté de l’Ambisonic. Nous nous épargnerons une approche centrée sur les sombres calculs mathématiques et présenterons cette technologie comme « une technique de capture, de synthèse et de reproduction d’environnement sonore à 360°. »
LE SON AMBISONIC POUR LA 360°
L’analogie avec le format numérique RAW utilisé par les capteurs d’appareil photo ou de caméra permet de décrire l’Ambisonic de manière relativement simple. Tout comme le format RAW, l’Ambisonic enregistre les informations d’un champ sonore à 360° tel quel, afin de permettre par la suite de « travailler » le matériau capté. Alors que le format RAW apporte une plus grande souplesse au moment de l’étalonnage des images, le flux sonore Ambisonic peut être quant-à lui, suite à un décodage adéquat, diffusé par n’importe quel système de diffusion: d’un format 22.2 jusqu’à une simple stéréo par exemple. Par l’utilisation de l’Ambisonie, il est ainsi possible, suite à une binauralisation du flux audio, de proposer un rendu 3D au casque.
Toutefois, la précision avec laquelle le champ sonore est enregistré varie. Elle varie en fonction du nombre de capsules microphoniques utilisées pour l’enregistrement, du nombre de canaux utilisés pour le traitement du fichier et enfin de la qualité du système de diffusion utilisé. Cette précision est échelonnée sous différents ordres: le premier ordre « First Order Ambisonics » (FOA) puis d’autres paliers de précision permis par le Higher Order Ambisonics (HOA) Heureusement pour nous, dans la jungle des formules mathématiques du format Ambisonic, le calcul permettant de déterminer l’ordre avec lequel le champ sonore est capté puis restitué est basique:
FIRST ORDER AMBISONICS & HIGH ORDER AMBISONICS
Actuellement, l’industrie de la 360 utilise majoritairement le premier ordre de l’Ambisonie, le FOA donc, qui permet un rendu 3D à partir de seulement 4 canaux. Ces canaux sont nommés W, X, Y, Z et correspondent respectivement à la pression acoustique mesurée à l’endroit de la captation (s’apparentant donc à un microphone omnidirectionnel), à un pattern bidirectionnel pour la gauche et la droite, un pattern bidirectionnel pour l’avant et l’arrière et enfin à un pattern bidirectionnel pour le haut et le bas.
DU FORMAT-A AU FORMAT-B
L’idée d’une captation audio à 360° en un point de l’espace est la théorie portant le format Ambisonic. Il est bien évidement nécessaire d’adapter cette théorie au monde réel. En effet, il est à ce jour impossible de capter une scène sonore 3D à l’aide d’une seule membrane microphonique. L’ensemble des dispositifs de captation présentés par la suite proposent une association de plusieurs capsules afin de capter la scène sonore.
Ainsi, il est nécessaire de prendre en compte la distance séparant les différentes capsules du microphone.
Le Format A correspond au fichier audio brut obtenu à la sortie du microphone Ambisonic, chaque canal correspondant donc à une des membranes du microphone. Suite à l’enregistrement, un algorithme doit être appliqué à ce flux audio afin d’adapter le fichier aux propriétés intrinsèques du microphone utilisé. On passe ainsi du format A (spécifique à chaque micro) à un format normaliséqui est le Format B.
Pour cela, certains constructeurs proposent d’utiliser un plug In, ou un logiciel alors que d’autres microphones disposent d’un boîtier externe permettant la conversion du format A vers le Format B avant l’enregistrement.
Avec l’explosion de la vidéo à 360° et du son 3D, deux normalisations du Format B se sont faites concurrence: le FuMa et l’Ambix. Les principales différences entre ces deux normalisations sont:
– l’ordre des canaux : WXYZ pour le Fuma et WYZX pour l’Ambix – une atténuation des canaux arrières pour le format Ambix.
Là encore, YouTube et Facebook ont permis de mettre tout le monde d’accord en choisissant l’Ambix, imposant ainsi l’utilisation de ce format.
LA CAPTATION SONORE POUR LA 360
Suite à l’engouement autour de la 360, de nombreux systèmes de captation audio ont vu le jour. Des systèmes préexistants comme le Double MS Shoeps permettent, suite à un matriçage des 3 canaux, d’obtenir un champ sonore horizontal à 360° (le canal Z du format B restant alors muet).
D’autres dispositifs ont pu bénéficier d’une mise à jour de leur Firmware (le zoom H2N par exemple) permettant également d’enregistrer un champ sonore horizontal à 360°.
À côté de cela, d’autres microphones ont été développés spécialement afin de répondre aux contraintes actuelles c’est à dire de fournir un son Ambisonic du premier ordre. Ces microphones comportent 4 capsules réparties sur un tétraèdre. Core Audio propose le microphone Ambisonic probablement le plus compact du marché : 12cm de long et moins de 4 cm de large, ce qui est, lors d’une « cohabitation » avec une caméra 360, plus qu’un atout !
L’impact du son 3D sur le plateau de tournage
Comme nous avons pu le mentionner en introduction, la confrontation du dispositif de captation audio et vidéo à 360° et d’un plateau de tournage n’est pas sans conséquences. Avec la disparition du hors cadre, lieu sacré du cinéma où tous les artifices se retrouvent, il est nécessaire d’adapter le dispositif de captation audio.
Tout d’abord, un microphone Ambisonic, même placé au plus proche d’une caméra filmant le champ visuel à 360°, sera forcément visible.
L’utilisation donc d’un microphone positionné au plus proche d’une caméra à 360° (afin de faire correspondre les points de vue sonores et visuels) impose de fait un traitement spécifique en post production afin de masquer le dispositif de captation. Une solution à ce problème serait d’intégrer les capsules microphoniques dans le corps de la caméra, ce que propose notamment Nokia avec sa caméra Ozo.
De plus, bien que les microphones Ambisonics permettent de capter l’empreinte sonore d’un lieu, leur utilisation sur un plateau de tournage comportant ne serait-ce qu’une équipe de techniciens moyenne (une dizaine de personnes) semble presque être une mission impossible. En dehors des bruits inhérent à l’équipe de tournage, le son produit par les caméras constitue également un enjeu ! Etant donné que les points de vue visuels et sonores doivent être concordants, le micro se trouvera juste au dessus ou en dessous des caméras: la moindre ventilation de machine posera un problème !
Ainsi, au cours de différents entretiens avec des professionnels du son, l’utilisation de tels dispositifs est discutable et discuté. Arsène Lefrançois, ingénieur du son au studio 31dB m’a confié que « l’utilisation d’un micro Ambisonic ou d’un double MS pouvait apporter un certain confort », même si celui-ci venait à être sous mixé en post production. Et il est vrai qu’il vaut mieux plus que pas assez !
La vidéo à 360° et la VR: des marchés en plein développement
Le caractère nouveau de la technologie 360 lui confère un pouvoir relativement magique. Un tel niveau d’immersion n’ayant jamais été expérimenté par le public, celui-ci est avant tout émerveillé par ce qu’il voit et ne cherche pas forcément à suivre un quelconque fil narratif.
« Peu importe ce que tu regardes, la première fois que tu mets un casque de VR, tu es assez subjugué. »
Comme nous avons pu le dire plus tôt, la posture finalement passive du spectateur convient parfaitement à des productions type sports extrêmes, ou découverte de paysages inconnus. En revanche, si le film comporte une narration établie avec des personnages construits, il est primordial de capter son attention afin de faciliter la compréhension de l’histoire. L’idée n’est évidemment pas de le priver de la possibilité de regarder où il veut mais de parvenir à doser entre des séquences d’errance au sein du flux audio/vidéo 360 et des séquences plus narratives, où des actions doivent être vues et entendues afin que l’histoire puisse avancer et être comprises par tous. « C’est vraiment très compliqué de savoir comment faire pour laisser la liberté au spectateur de regarder là où il veut (ce qui est génial dans la VR) car en même temps, si je veux raconter une histoire, je suis obligé d’avoir des pivots dramatiques pour faire avancer l’histoire. Il faut donc trouver le bon équilibre ».
MIEUX CONNAITRE LE SPECTATEUR POUR MIEUX LE MANIPULER
« Pour moi, un réalisateur en VR est un peu comme un toréador, on doit agiter un chiffon rouge suffisamment pour que le taureau vienne vers vous. Alors évidemment ça ne marche pas à tous les coups. C’est pour ça que dans mes prochaines expériences je vais essayer de mettre en place un chemin critique, un chemin directeur. Et si les gens décrochent, il y aura des trucs qui leur donneront tout de même un peu d’informations et qui les renverront dans le lit du fleuve qu’on a envie de leur faire suivre. »
Au fil des ans, les metteurs en scène de cinéma sont parvenus à établir des techniques permettant de focaliser l’attention du spectateur dans une partie de l’image.
Dans le cadre de la VR et de la vidéo à 360°, ces chiffons rouges attirant l’attention s’appellent des points d’intérêts (ou Point Of Interest (POI) en anglais). Ces derniers peuvent tout aussi bien être visuels que sonores.
Cette grammaire de l’image et du son à 360°qui permet de manipuler les POI est actuellement en pleine écriture ! Or, le fait que le spectateur participe et s’investisse désormais physiquement dans l’histoire modifie de fait l’impact de la narration sur sa perception du film. Pour cela, il semble qu’il faille étudier la manière avec laquelle le cerveau du spectateur reçoit un tel contenu audiovisuel.
À l’instar d’Emmanuel Kuster, project manager chez Fiction Lab, les spécialistes des sciences cognitives ont commencé à se pencher sur la question: leur but étant d’analyser les flux d’informations que traite le cerveau et les réactions de celui ci. Ces derniers sont parvenus à estimer que la transcription de l’information reçue lors d’une discussion classique entre deux personnes était aux alentours de 200 mots par minute alors qu’un spectateur face à un film 2D serait aux alentours de 800 mots/minutes, représentant un maximum avant que le cerveau ne « perde les pédales ». Des prochaines études permettront très certainement de comparer ces données avec celles d’une projection filmique à 360°.
L’utilisation de masque de réalité virtuelle influe également sur la zone du cerveau sollicité. En effet, étant donné que la totalité du champ visuel est couverte par l’écran de diffusion, le cerveau n’interprète plus les données visuelles comme fictives (comme c’est le cas au cinéma) mais comme réelles. Ce paramètre engendre une tout autre sollicitation du cerveau qu’il serait intéressant d’étudier.
« Nous n’avons pas une capacité d’attention infinie. Parce que l’on immerge les personnes dans une images à 360° avec du son spatialisé on ne va pas pouvoir faire joujou avec toute la sphère en permanence. Sinon je pense qu’on va très vite perdre leur l’attention. »
On peut alors se questionner sur le dosage d’informations qu’il ne faut pas dépasser avant de surcharger les capacités d’analyse du spectateur. Lors de notre entretiens, Fabienne Tsaï nous a confié que « cette limite est très difficile à estimer mais des études sur le 360 ont montré que plus il y a de choses à regarder et moins le spectateur ne percute sur le sens, moins il mémorise. Il semblerait pour l’instant qu’il faille rester dans des histoires assez simples »
L’évolution et la complexification des histoires pourrait donc suivre le même schéma qu’a connu le cinéma : « Au cinéma, on a commencé avec des histoires super simples que l’on a compliquées petit à petit. Si la VR, pour ce qui concerne la partie narration fiction, trouve une véritable place dans les médias, on finira par prendre l’habitude de ce genre de contenu et l’Homme comprendra tout beaucoup plus vite. »
La notion de pause dans le récit pourrait également être une solution permettant au spectateur de reprendre ses esprits. En effet, les séquences narratives pourraient être en alternance avec des passages plus contemplatifs:
« Je pense qu’il faut jouer entre des moments qui soient purement narratifs c’est à dire que vous allez d’un point A à un point B et des moments où vous êtes totalement pris par l’ambiance, pris par l’espace. Ca c’est pour moi quelque chose qu’on doit parfaitement intégrer à la narration. »
Actuellement, il semble donc important de préserver les spectateurs de cette surcharge d’informations qui pourrait les dégouter de la vidéo à 360°. Dans ce sens, il nous a paru intéressant de nous entretenir avec Aminata Dabo, technicienne VR chez
Diversion&Cinéma, qui s’occupe des séances de diffusion de films en 360°. De par ce travail, Aminata se trouve au contact direct des spectateurs. Lors de notre entretien Aminata nous a dit qu’en grande majorité, le public est composé de personnes curieuses voulant voir à quoi correspond cette fameuse « VR » dont tout le monde parle découverte du média n’est pas sans heurt ! En effet, Aminata nous as confié que lorsque les gens n’étaient pas au courant qu’il fallait tourner la tête, beaucoup restaient figé sur place. Chez les personnes plus initiées ou peut être plus aventureuses, une partie va chercher à tourner la tête dans tous les sens de manière à couvrir autant de points de vue possible alors que d’autres baladeront leur regard de manière beaucoup plus timide.
Cette différence d’appréciation du film entre deux spectateurs aux attentes et aux expériences passées différentes constitue également un enjeu de taille ! « Pour ce qui est de la durée d’un plan et justement de la force d’un point d’attention, le problème c’est que c’est extrêmement subjectif !
Ce qui va titiller une personne ne va pas forcément titiller une autre et là où l’un va avoir besoin de 10 secondes pour être haletant devant une situation, l’autre en aura fait le tour en 2 secondes et sera déjà en train de regarder ailleurs […] Mais petit à petit, je pense que les choses vont évoluer, que les réalisateurs vont réussir à dompter le truc et à faire en sorte que le spectateur ne décroche pas. »
Toutefois, ces observations en disent long sur la période d’apprentissage par laquelle il est actuellement nécessaire de passer avant de compliquer les histoires. En effet, il faudra peut être attendre que la vidéo à 360° perde de sa superbe avant de pouvoir exprimer son potentiel narratif; il semblerait que dans certaines situations, la magie de la vidéo à 360° l’emporte pour le moment sur l’histoire qui est racontée
LA FICTION À 360° A-T-ELLE UNE RÉELLE CHANCE DE S’IMPOSER ?
Avec le développement éclair de la vidéo à 360° et de la VR, il n’était pas étonnant de voir émerger différents salons ou autres tables rondes au sujet de ces technologies. Du 24 au 26 Février 2017 s’est notamment déroulé le salon Virtuality à Paris qui regroupait plus d’une centaine d’exposants venus présenter leurs contenus VR.
Ce salon a été la parfaite occasion de voir où en était le marché de la vidéo à 360° et ce qui était actuellement possible de faire en terme de son spatialisé. Le constat a été le suivant: la majorité des réalisations présentées pouvait se regrouper sous deux grandes catégories:
– la première cherchait avant tout à offrir une expérience spectaculaire au public en utilisant des installations dynamiques du type fauteuil de voiture de course monté sur pistons afin de reproduire les mouvements de la voiture dans le film. Ces installations proposaient donc une interaction entre les mouvements mécaniques de l’installation et ce que voyait le spectateur à travers le masque de réalité virtuelle, le tout agrémenté d’un ventilateur en face du spectateur pour renforcer le réalisme.
– La seconde catégorie regroupait des utilisations tout à fait différentes de la technologie 360. Un grand nombre d’entreprises a dores et déjà perçu le potentiel de la réalité virtuelle dans des domaines pédagogiques, médicales ou encore marketing. En effet, des entreprises entrevoient d’utiliser la VR pour développer des formations à distance permettant par exemple d’apprendre en manipulant virtuellement des objets en question (machines, moteurs etc…)
L’utilisation de vidéo de synthèse pour soigner des cas de phobies n’est pas nouvelle mais connait actuellement un regain tout naturel. Enfin, des agences immobilières ou de tourisme ainsi que les agences de marketing ont également pris le pas en voyant toutes les possibilités que la vidéo à 360° pouvait leur apporter en terme de séduction auprès du client.
Ainsi, seuls deux ou trois stands proposaient eux des expériences narratives, des fictions à 360°. Cette rencontre avec la réalité m’a fait me questionner sur ma problématique: « est-ce que l’industrie de la vidéo à 360° a déjà abandonné l’idée de raconter des histoires et ne produira en majorité que des expériences immersives sensationnelles ? »
En en discutant avec certains professionnels, je me suis finalement aperçu que tout n’était pas encore fait et que si la narration à 360° avait toujours une place à prendre dans le paysage audiovisuel, cela se jouait dès maintenant.
L’impact du son 3D sur le dispositif narratif d’un film 360
Afin de mettre en lumière des techniques permettant d’inclure le son 3D dans la narration d’un film 360, j’ai commencé par m’intéresser au traitement de la bande son de film classique afin de relever les points communs et les différences concernant ces deux médias. Mes recherches m’ont conduit à m’intéresser au travail de Daniel Deshays et plus particulièrement à son ouvrage Pour une écriture du sonqui questionne la place du son au théâtre ainsi qu’au cinéma et nous offre une réflexion qu’il est intéressant d’adapter au monde de la 360.
|
Table des matières
Résumé
Introduction: une nouvelle grammaire à inventer
Le son 3D pour la vidéo à 360°
Le son ambisonic pour la 360°
First order Ambisonics & High order Ambisonics du Format-A au Format-B
La captation sonore pour la 360
L’impact du son 3D sur le plateau de tournage
La vidéo à 360° et la VR: des marchés en plein développement
Mieux connaitre le spectateur pour mieux le manipuler
La fiction à 360° a-t-elle une réelle chance de s’imposer ?
L’impact du son 3D sur le dispositif narratif d’un film 360
Vers une écriture du Son
La disparition du hors champ sonore ?
Quels outils pour attirer l’attention visuelle ?
Quels types de sons pour attirer l’attention
Les réalisateurs et leur rapport à la bande son ambisonic
Vers la création d’un marché à deux vitesses ?
Conclusion
Bibliographie
Netographie
Interviews réalisées