Limites liées à la modélisation de la source et de la propagation
Ces modèles sont basés sur des mesures et des études physiques du trafic. Comme tout modèle simulant la réponse d’un système physique, il n’est pas possible d’en générer un universel qui puisse s’adapter à l’ensemble des scénarios possibles. Des simplifications sont ainsi réalisées, par exemple en classifiant les routes et le parc automobile en un nombre réduit de catégories ou bien en considérant (ou non), en plus des conditions atmosphériques homogènes, des conditions favorables à la propagation. Ce sont d’autant de simplifications qui, certes, facilitent l’implémentation et l’utilisation des modèles mais qui sont aussi vecteurs d’incertitudes. De plus, ces catégorisations prennent le risque de mal prendre en compte certains cas limites qui ne correspondent pas spécifiquement à ceux définis. Un second aspect, évoqué dans les parties 1.2.1 et 1.2.2 est celui de l’existence de plusieurs modèles d’émission et de propagation au sein de plusieurs pays européens. Avant même la mise en place de la directive, [Steele, 2001] en avait comparé plusieurs selon différents aspects (données d’entrée, type de cartographie, méthode de propagation des différents logiciels). Parmi ces différents outils, l’auteur met en avant le problème, soulevé également par [King et al., 2011], de la diversité des méthodes de calculs qui peuvent être employées : quelle méthode, parmi celles existantes, doit-être utilisée ? Dans un premier temps, ce choix a été laissé libre par la directive européenne. Les premières cartes de bruits ont donc été établies sur des modèles différents : par exemple pour la même année, dans [Kliučininkas et Šali¯unas, 2006], le modèle RLS-90 est employé pour calculer la carte de bruit dans le centre-ville de Kaunas, en Lituanie, alors que dans [Murphy et al., 2006], la carte de bruit de trafic dans la ville de Dublin, en Irlande, est construite sur la base du modèle Harmonoise. Une comparaison exhaustive de 8 modèles (FHWA, CoRTN, RLS-90, ASJ, Harmonoise/Imagine, Son Road, Nord 2000 et NMPB-Routes-2008) a également été réalisée par Garg et Maji [Garg et Maji, 2014] selon un plus grand nombre de critères (modélisation des sources sonores, vitesse des véhicules (constantes, accélération/décélération, intersection. . .), modèle de propagation, modélisation des effets de sol, effets météorologiques. . .). À travers leur comparaison, les auteurs relèvent ainsi les nombreuses différences notamment entre les modèles de propagation du son. Les auteurs de l’étude précisent tout de même qu’il est difficile de déterminer un « meilleur » modèle par rapport aux autres, chacun ayant ses avantages et ses limites. Afin de résoudre ces problèmes, la méthode Cnossos-Eu [CNO, 2012, Kephalopoulos et al., 2012] a ainsi été développée, basée sur les méthodes déjà existantes en vue d’harmoniser la construction des cartes de bruit des villes à l’échelle européenne pour faciliter leur comparaison. Toutefois, quel que soit le modèle choisi, la confrontation des niveaux sonores prédits face à des mesures faites en ville reste à réaliser même si l’ensemble de ces modèles d’émission et de propagation a été développé et validé à partir de mesures faites dans des conditions optimales. Mais, la comparaison entre les niveaux sonores calculés et mesurés reste délicate. Premièrement, les mesures présentent l’inconvénient d’être soumises à d’autres sources sonores qui ne sont pas liées au trafic et qui viennent donc fausser les estimations des niveaux sonores. De plus, il faut s’assurer, lors des mesures, que les données d’entrée des modèles correspondent bien aux conditions expérimentales, afin de comparer correctement les mesures et les estimations simulées, ce qui n’est pas facile. Enfin, ces modèles dépendent des données d’entrée relevées in situ s’exprimant sous la forme de moyennes et qui induisent donc des écarts-types qui se propagent dans les étapes suivantes du calcul. [Van Leeuwen et Van Banda, 2015] proposent un résumé et un schéma détaillé de la propagation de ces erreurs sur l’ensemble du modèle.
Intérêts et limites des mesures faites en ville
L’ensemble de ces dispositifs permet d’aborder l’ESU par une nouvelle approche en s’affranchissant des limitation liées à la modélisation des sources et de leur propagation dans l’environnement urbain. Si les mesures participatives permettent d’estimer des niveaux sonores toutes sources confondues, les réseaux de capteurs et les mesures mobiles permettent une meilleure description dynamique et spatiale des ESU qui sont impossibles à obtenir avec les modèles prédictifs. Leurs utilisations offrent donc une représentation globale des ESU et ouvrent donc la voie vers de nombreuses applications :
— estimation des niveaux sonores du trafic et amélioration de la cartographie de bruit,
— identification et détection des sources sonores spécifiques,
— évaluation et classification plus complète des ESU par des indicateurs physiques,
— et représentation possible des ESU selon la perception des citadins.
Ces méthodes ne sont toutefois pas exemptes de défauts. Les réseaux de capteurs sont des systèmes complexes à gérer par leur installation et leur entretien. De plus, la question de l’interpolation entre les points de mesures reste une source d’approximation. À l’inverse, les mesures mobiles permettent de mieux estimer les variations spatiales aux dépends des variations à longterme. Mais elles restent très couteuses en temps à réaliser à l’échelle d’une ville. Enfin les mesures participatives présentent de nombreuses incertitudes quant à la qualité de la mesure dues aux performances des capteurs des smartphones ou de la mesure réalisée qui nécessitent un traitement du signal important. Toutefois, s’il existe déjà des outils destinés à évaluer les ambiances sonores urbaines ou qui lient leur perception par les citadins à des indicateurs physiques, la description des ESU selon les différentes sources sonores présentes nécessitent de disposer d’outils de traitements du signal adaptés afin d’en extraire leur contributions. Or, l’ESU est un milieu complexe, composé d’une multitude de sources variées (trafic routier, voix, oiseaux, klaxon, bruit de pas. . .) dont leurs allures temporelles (parfois brèves pour le retentissement d’un klaxon ou longues pour le passage d’une voiture) et fréquentielles (dans les basses fréquences pour le trafic, dans les hautes fréquences pour le sifflement des oiseaux) diffèrent, voir Figure 1.7. L’ensemble de ces sources est aussi susceptible d’être généré simultanément. La création d’outils adaptés à cet environnement n’est donc pas triviale. Des outils d’identification ou de détection ont déjà été développés pour des sons environnementaux [Mesaros et al., 2015, Chachada et Kuo, 2014, Cakir et al., 2015], mais la tâche de séparation de tels signaux au sein de mélanges sonores urbaines reste, quant à elle, pour l’instant peu étudiée. Dans le cas d’étude perceptive, réussir à isoler et caractériser les différentes sources sonores seraient très utile afin de relier l’évaluation perceptive des citadins réalisé lors de marches sonores non plus à des niveaux sonores globaux mais soit à celui de certaines sources ou bien en fonction de leur temps de présence comme dans [Aumond et al., 2017a]. Développer de tels outils serait également nécessaire et utile, pour l’amélioration de la cartographie du bruit de trafic par exemple. Car s’il existe des endroits où celui-ci est prépondérant sur les autres sources sonores (périphérique, grand boulevard) et donc que son niveau sonore peut être estimé facilement, de nombreux autres lieux (dans des rues calmes, au niveau de parc) contiennent majoritairement d’autres sources sonores (voix, oiseaux. . .). Ne pas réussir à isoler la contribution du trafic routier des autres sources dans ces environnements risque alors de mener à de mauvaises estimations de son niveau sonore et de son temps de présence.
Analyse Computationnelle de Scènes Auditives
L’Analyse de Scènes Audio Computationnelle (abrégé CASA pour Computational Auditory Scene Analysis en anglais) est une des premières techniques numériques cherchant à séparer les différentes sources composant un signal. Elle fut proposée par Brown et Cooke [Brown et Cooke, 1994] et se base sur la simulation de la réponse auditive humaine. La méthode CASA est inspirée de l’Analyse de Scènes Auditives de Bregman [Bregman, 1990] qui explore les façons dont le cerveau humain comprend et organise les sons qui l’entourent. L’architecture de la CASA se décompose en 4 parties [Wang et Brown, 2006] :
— un filtrage cochléaire qui consiste en une suite de filtres passe-bas qui modélisent l’oreille externe et moyenne, et d’un filtre gammatone qui simule les réponses impulsionnelles de chaque cellule ciliée. Le signal obtenu est exprimé, en sortie, au travers d’un cochléogramme.
— Une analyse temps-fréquence qui permet, au travers différents outils, d’augmenter les dimensions du problème et de mettre en évidence la présence de sons harmoniques notamment :
• la corrélation croisée entre les canaux fréquentiels proches pour faire émerger la présence des formants,
• la corrélation croisée entre les deux canaux des deux capteurs pour localiser la source grâce à leur déphasage,
• la fonction d’autocorrélation dans chaque canal pour faire émerger des maximas à des positions correspondant aux périodes d’un son,
• un lissage temporel afin de faire apparaitre des phénomènes de modulation.
— Un groupement de sources qui ré-organise ensuite les objets élémentaires pour construire les sources sonores en appliquant, par exemple, une contrainte temporelle sur les représentations spectrales. Ce groupement peut se faire à partir de stimuli (CASA de type bottom-up) ou bien à l’aide de schéma déjà établi (CASA de type top-down).
— Un masquage binaire temps-fréquence construit pour chaque source identifiée qui, appliqué sur le spectrogramme initial, permet d’isoler les différentes sources sonores.
Développée à partir de la compréhension de certains aspects des capacités d’analyse des sons par notre cerveau, la méthode CASA a notamment trouvé des applications dans le domaine de la parole [Ellis, 1999, Brown et Wang, 2005, Shao et al., 2010] ou pour la reconnaissance de scènes sonores [Peltonen et al., 2002].
Auralisation d’ESU
Une des premières approches possibles pour restituer un ESU est d’utiliser les techniques d’auralisation [Forssén et al., 2009]. Cette méthode vise à modéliser l’évolution temporelle d’un signal sonore Mi(t) en un point i en prenant en compte les différentes sources sonores sj (t) présentes ainsi que l’environnement spatial et les effets qu’ils génèrent sur la propagation des sources sonores δij (t). Cette méthode équivaut à modéliser les équations 1.1b et 1.1c. En choisissant le type et le nombre de sources et l’environnement urbain, il est alors envisageable de déterminer l’environnement Mi(t). Pour cela, on réalise un produit de convolution entre la réponse impulsionnelle d’une rue, obtenue soit par sa mesure soit par sa modélisation par un logiciel (CATT-acoustics, I-Simpa . . .), avec un signal sonore, enregistré dans des conditions d’anéchoïcité ou bien synthétisé. Cette étape correspond à l’équation 1.1b du chapitre 1. La restitution de l’ESU et son évolution dans le temps peuvent alors être écoutés [Vorländer, 2007]. Cette tâche reste toutefois complexe pour un tel environnement :
— La mesure de réponses impulsionnelles des rues [Picaut et al., 2005] est une tâche complexe à réaliser puisqu’elle nécessite un dispositif expérimental conséquent qui doit être utilisé avec des conditions les plus neutres possibles (faible bruit de fond, conditions météorologiques neutres).
— La modélisation numérique des rues est alors la voie la plus souvent choisie car elle offre plus de possibilité, mais cela nécessite tout de même de simplifier l’environnement (allure des façades, présence de petits mobiliers urbain) afin de limiter les temps de calculs.
— Les effets de propagation du son en tenant en compte des phénomènes de diffusion, de réflexions dans un milieu urbain sont encore difficile à modéliser avec un rendu réaliste [Schissler et al., 2014].
— La modélisation dynamique des sources sonores n’est faite que pour certaines sources sonores, comme le trafic routier ou ferroviaire, en utilisant des modèles dynamiques pour simuler leur déplacement. Ce sont alors parfois des enregistrements audio qui permettent de modéliser les autres sources sonores, ce qui permet de simplifier la modélisation mais restreint également le contrôle par l’utilisateur.
[Stienen et Vorländer, 2015] résument ces différents aspects, les questions soulevées et les champs d’applications que permet l’auralisation des environnements sonore urbains. Si cette tâche reste complexe, il existe tout de même quelques outils comme le logiciel MithraSON du CSTB qui propose de générer des ESU . À partir d’un quartier modélisé, les sources sonores liées au trafic sont générés en temps réel à l’aide d’une synthèse granulaire et d’un modèle dynamique de trafic. L’ensemble des autres sources sonores (voix, oiseaux, cloche. . .) est basé sur des enregistrements audio qui sont ensuite intégrés à l’ESU. La propagation des signaux est générée à l’aide d’une méthode de tirs de rayons. Même si les résultats permettent une forte immersion, grâce à la spatialisation du son par l’écoute binaurale, cette méthode reste complexe à implémenter et nécessite des ressources numériques importantes.
|
Table des matières
Introduction
1 Connaitre l’environnement sonore urbain : modèles de prédiction et mesures
1.1 Définition formelle du problème
1.2 Utilisation de modèles prédictifs
1.2.1 Modèle d’émission du trafic routier
1.2.2 Modèle de propagation
1.2.3 Réaliser des cartes du bruit de trafic en ville
1.2.4 Vers la modélisation d’autres sources sonores ?
1.2.5 Limitations des modèles prédictifs
1.2.5.1 Limites liées à la modélisation de la source et de la propagation
1.2.5.2 Limites liées à la simulation et à la représentation
1.3 Utilisation de mesures acoustiques
1.3.1 Déploiement de réseaux de capteurs fixes
1.3.2 Mesures mobiles
1.3.3 Mesures participatives
1.3.4 Intérêts et limites des mesures faites en ville
1.4 Estimation du niveau sonore du trafic routier
1.5 Méthode proposée
1.6 Conclusion du chapitre
2 Méthodes de séparation des sources sonores
2.1 Analyse Computationnelle de Scènes Auditives
2.2 Algorithme DUET
2.3 Analyse en Composantes Indépendantes
2.4 Factorisation en Matrices Non-négatives
2.5 Détection d’évènements sonores
2.6 Comparaison des approches
3 La Factorisation en Matrices Non-négatives
3.1 Principe de fonctionnement de la Factorisation en Matrice Non-négatives
3.2 Fonction de coût et familles de divergences
3.3 Une sous-classe des divergences de Bregman : la β-divergence
3.3.1 Distance Euclidienne
3.3.2 Divergence de Kullback-Leibler
3.3.3 Divergence d’Itakura-Saito
3.3.4 Autres familles de divergences
3.4 Mise à jour des formes de W et de H
3.4.1 Algorithme heuristique par descente de gradient
3.4.2 Algorithme multiplicatif par majorisation-minimisation
3.4.2.1 Définition de la fonction auxiliaire
3.4.2.2 Construction de la fonction auxiliaire
3.4.3 Autres approches
3.5 Analyse Probabiliste en Composantes Latentes
3.6 Apprentissage du dictionnaire
3.6.1 Apprentissage supervisé et non-supervisé
3.6.2 Apprentissage semi-supervisé
3.7 NMF initialisée seuillée
3.8 NMF avec contraintes
3.8.1 Contrainte de parcimonie
3.8.2 Contrainte de régularité temporelle
3.8.3 Autres contraintes
3.9 Conlusion du chapitre
4 Création de corpus de mixtures sonores urbaines
4.1 Création de scènes sonores : choix d’une méthode
4.1.1 Auralisation d’ESU
4.1.2 Simulateur de scènes sonores
4.2 Présentation de SimScene
4.3 Création d’un corpus élémentaire d’échantillons audio
4.3.1 Recherche en ligne des échantillons audio
4.3.2 Enregistrements de passages de véhicules
4.3.3 Composition du corpus élémentaire complet
4.4 Corpus d’évaluation Ambiance
4.5 Corpus d’évaluation de scènes sonores urbaines réalistes
4.5.1 Présentation des enregistrements audio de références
4.5.2 Écoutes des scènes sonores
4.5.3 Annotation des enregistrements sonores
4.5.4 Reproduction des enregistrements audio
4.6 Validation du réalisme du corpus d’évaluation SOUR par un test perceptif
4.6.1 Mise en place du test
4.6.2 Résultats
4.6.2.1 Constitution du panel
4.6.2.2 Distribution des notes des scènes enregistrées et répliquées
4.7 Conclusion du chapitre
5 Étude du comportement de la NMF sur le corpus d’évaluation ambiance
5.1 Rappel de la méthode employée
5.2 Estimateur de référence
5.3 Estimateur basé sur la NMF
5.3.1 Constitution du dictionnaire
5.3.2 Réalisation de la NMF
5.3.3 Résumé des facteurs expérimentaux
5.4 Performances de l’estimateur baseline
5.5 Performances de l’estimateur basé sur la NMF
5.5.1 Erreurs MAEg
5.5.2 Influence des facteurs expérimentaux wt et K
5.5.3 Influence de l’initialisation de la NMF IS
5.5.4 Erreurs MAET IR et fonctions de coût
5.5.5 Erreurs MAE pour chaque ambiance et valeur du T IR
5.6 Conclusion du chapitre
6 Performances de la NMF sur le corpus d’évaluation SOUR
6.1 Rappel de l’expérience menée
6.2 Erreurs MAEg obtenues par l’estimateur baseline
6.3 Erreurs MAEg obtenues par l’estimateur NMF
6.4 Erreurs MAE60 par ambiance sonore
6.5 Comparaison des niveaux sonores Leq,tr.,1s pour plusieurs scènes sonores
6.6 Pistes d’amélioration
6.6.1 Contrainte de régularité temporelle
6.6.2 Optimisation par les environnements sonores
6.7 Conclusion du chapitre
Conclusions générales et perspectives
Télécharger le rapport complet