Télécharger le fichier pdf d’un mémoire de fin d’études
Perception artificielle et science des données
Exemple historique et trilogie de Jeff Wu
L’exemple historique suivant présente les enjeux de la perception au travers du cas concret de l’estimation de la houle dans les îles Marshall par la population locale, et leurs relations avec la science des données. En effet, le processus de création de connais-sances naturellement mis en place par les Marshallais esquisse les principes du formalisme actuellement admis dans le monde de la recherche et de l’ingénierie.
Exemple historique : cartes à bâtonnets des îles Marshall
La navigation a toujours été un enjeu crucial dans les îles du Pacifique. Afin de faciliter leur déplacement d’îles en îles, les Marshallais confectionnaient des « cartes à bâtonnets » de la houle – conséquence de l’interaction entre terre, mer et vent –, transmises de père en fils. La culture du secret qui entoure ces cartes a conduit à de nombreuses variantes et leur découverte par l’Occident ne date que de 1862. Elles furent utilisées jusqu’après la Seconde Guerre Mondiale car de qualité comparable aux cartes produites par les technologies contemporaines.
Ces cartes étaient fabriquées avec des matériaux locaux rudimentaires, généralement à partir de tiges de cocotiers pour représenter l’énergie des vagues (front d’onde et rayon d’onde après réfraction, mais aussi réflexion et diffraction) et de coquillages ou intersections de bâtonnets pour représenter les sources de perturbations (atolls, récifs. . .).
Pour les élaborer, les Marshallais devaient se géolocaliser et estimer l’intensité de la houle. Pour cela, ils se servaient d’étoiles fixes et de chansons rythmées pour mesurer le temps et l’espace ; et stimulaient leur sensation de l’énergie des vagues en s’allongeant dans leur pirogue (Davenport, 1960). Les informations ainsi collectées étaient mémorisées directement sous forme de cartes schématiques (Feinberg et al., 2003).
Cette représentation abstraite, entre les cartes et les graphes, se focalise sur ce qui est jugé comme essentiel : la géométrie de la dynamique des vagues induite par la forme des îles et non les distances absolues. Elle est le fruit de la compréhension et de la modélisation du phénomène par les navigateurs (Ascher, 1995).
Enfin, trois types de cartes existent : le rebbelith, qui décrit un ou plusieurs archi-pels ; le meddo, qui se concentre sur une zone plus réduite ; le mattang, qui a pour vocation l’enseignement des concepts fondamentaux. Ainsi, les mattangs permettent de transmettre les connaissances acquises sur la houle et les dynamiques couram-ment rencontrées aux abords des îles, mais aussi sur le système de représentation. Les rebbeliths et meddos, eux, sont plus épurés et indiquent les spécificités de la région.
Paradigmes retenus
La doctrine non-absolutiste du jaïnisme, l’Anekãntavãda présentée en annexe 1, met en scène six aveugles rencontrant pour la première fois un éléphant et proposant des modèles de représentation de ce nouvel objet par comparaison avec des objets déjà connus : l’un fait référence à un mur lorsqu’il heurte le corps de la bête, un autre évoque une lance lorsqu’il touche une défense, etc. Localement, leur description est correcte ; mais elle ne suffit pas à d’écrire l’objet dans sa globalité.
La description du global à partir du local est une problématique fondamentale de la science des données et commune aux paradigmes retenus.
Apprentissage automatique
L’apprentissage automatique est un type d’intelligence artificielle qui épargne l’inter-vention d’un expert en généralisant des observations.
A partir d’un ensemble X = {xi}, xi ∈ D de données associées chacune à un avis de l’expert à émuler Y = {yi}, yi ∈ E, nous « paramètrons » un sous-ensemble de l’espace des fonctions de D dans E. A chaque jeu de paramètres w correspond une fonction fw : D → E ; nous cherchons alors w tel que |fw (X ) − Y | soit faible.
Domingos (2012) propose une vision simple de l’apprentissage automatique au travers de la formulation suivante : apprentissage = représentation + évaluation + optimisation.
Le système de représentation permet de définir l’ensemble des modèles envisageables. La fonction d’évaluation permet de mesurer la vraisemblance d’un modèle au regard des observations. La fonction d’optimisation permet de naviguer dans l’ensemble des modèles envisageables pour trouver celui qui simule au mieux les observations.
La complexité du système de représentation est à adapter au problème. Par exemple, les réseaux de neurones utilisent une structure particulière de graphes pondérés comme système de représentation ; un jeu de données de test pour évaluer la proximité entre la prédiction et la valeur cible ; et un algorithme de descente de gradient, pour pondérer la structure du graphe. Dans le cas où la structure du graphe n’est composée que d’un neurone, seuls les séparateurs linéaires seront « apprenables ». De plus, si la complexité du système de représentation est plus élevée que celle du problème i.e. |w| >> |X ||D| , le mo-dèle choisi par l’algorithme d’apprentissage aura un comportement très fortement lié aux observations et une faible capacité de généralisation. Cela s’appelle le surapprentissage.
En outre, plus les observations sont décrites dans un espace à grande dimension, plus elles paraissent éloignées dans l’espace car ont moins de chance d’être similaires. Ce ques-tionnement autour de la représentation des observations en grande dimension est connu sous le nom de malédiction de la dimensionnalité.
De surcroît, la nature du système de représentation f. impacte directement la fonction apprise et l’optimisation de la recherche de celle-ci (vanishing gradient problem).
Encore aujourd’hui, ces questions demeurent essentielles en apprentissage automa-tique. La force des algorithmes d’apprentissage profond est de considérer de très nombreux systèmes de représentation, de façon générique, à l’aide de neurones (Bengio et al., 2012).
Cette approche souligne le fait que la modélisation reste une approximation et permet de guider l’évaluation des modélisations.
Exploration de fichiers de journalisation et détection d’anomalies
Cette section présente brièvement une publication publiée à ISSRE2017 A (cf. annexe 2) qui n’est pas directement reliée à la perception de l’environnement urbain.
Il s’agit d’une méthode de détection automatique d’anomalies d’un système in-formatique par le traitement en langage naturel des fichiers de journalisation. Les fichiers de journalisation décrivent les évènements qui surviennent dans un système. Ils sont difficilement lisibles par l’Homme car générés par une machine et difficile-ment interprétables par une machine car à destination de l’Homme. L’idée originale de cette publication est de considérer que l’ensemble des fichiers de journalisation définit une nouvelle langue, comparable au français ou à l’anglais. Dès lors, nous utilisons une méthode du domaine du traitement du langage naturel (Natural Lan-guage Processing), word2vec développée par Google, pour transformer un fichier de journalisation en un point d’un espace vectoriel. Ensuite, nous comparons plu-sieurs algorithmes d’apprentissage supervisé pour la détection d’anomalies à partir de ces points de l’espace vectoriel. Les données d’entraînement et de validation sont générées par des systèmes virtuels sur lesquels nous pouvons simuler des anoma-lies (problème de mémoire, de temps de communication, etc). La classification des anomalies donne de bons résultats et cette technique semble prometteuse.
Bien que le lien ne soit pas direct avec la perception de l’environnement urbain, la notion de détection en apprentissage automatique est une notion élémentaire qui permet de bien appréhender les tenants et aboutissants de la modélisation.
Réseaux de capteurs et systèmes répartis
Un réseau de capteurs est un ensemble de capteurs qui mettent en commun leurs données collectées, soit en alimentant une base de données partagée, soit en communicant entre eux. Leur répartition échantillonne une zone de l’espace et influence le traitement ultérieur.
Il peut alors être intéressant de représenter le réseau de capteurs comme un système réparti. En effet, du point de vue de la mesure, l’avantage est de considérer chaque capteur comme un système autonome qui communique son point de vue aux autres. Cela peut par exemple permettre de détecter des capteurs défectueux (Saukh et al., 2014) ou de considérer des réseaux de capteurs de types différents (réseaux hétérogènes). D’un point de vue statistique, cela suggère de ne pas traiter tous les capteurs comme des variables identiquement distribuées (Predd et al., 2006; Radosavljevic et al., 2010).
Les méthodes d’ensembles reposent sur la même idée. Elles permettent de construire un nouveau modèle à partir d’un ensemble de modèles et tirer partie au maximum d’un mo-dèle là où il est le plus certain (Dietterich, 2000). Une nouvelle technique d’apprentissage automatique qui vise à intégrer davantage cette notion de subjectivité de la perception, l’apprentissage fédéré, est actuellement développée par Google (McMahan et al., 2016). L’idée est que le modèle de chaque utilisateur est composé d’un modèle générique et de paramètres confidentiels, et seulement les modèles génériques sont partagés pour en construire un meilleur. Il en résulte un nombre de communications plus faible pour un modèle de qualité équivalente.
De plus, la mobilité d’un système de mesure peut être intéressante pour couvrir une zone de l’espace plus grande qu’avec un réseau de capteurs statiques et éventuellement échantillonner plus finement le phénomène spatial. Les systèmes répartis étudient la mo-bilité notamment au travers du déplacement d’une flotte de robots dans l’espace.
Par exemple, un objectif récurrent est leur rencontre au bout d’un certain temps (Kranakis et al., 2006). Cela s’appelle un Rendez-Vous. Cette notion permet d’ordonner partiellement les évènements rencontrés par les robots (« happened-before »).
Les types de capteurs embarqués sur les systèmes mobiles étant souvent sujets à un biais de mesure, cette notion de Rendez-Vous appliquée à la mesure permet d’imaginer des algorithmes d’étalonnage collaboratif, pour passer d’observations subjectives à des ob-servations objectives, ou d’étalonnage lors du « Rendez-Vous » avec un étalon (étalonnage indirect).
En reprenant les illustrations de Xiang et al. (2012) pour formaliser ce problème (cf. Figure 1.2), considérons un exemple de trois capteurs mobiles qui souffrent d’un biais de mesure qui s’aggrave avec le temps (une dérive) et d’une station fixe de référence. Les mouvements des capteurs considérés sont tracés Figure 1.2a. Leurs erreurs au cours du temps sont tracées Figure 1.2b. Bien que les capteurs mobiles souffrent d’une erreur de mesure incompressible, leur rencontre assure qu’ils captent le même signal et permet dans le meilleur des cas de réduire l’erreur de mesure à 0. Lorsque le capteur rouge puis le capteur vert rencontrent la station de référence, au mieux leurs mesures sont parfaitement étalonnées ensuite et l’erreur de mesure est nulle. Lorsque le capteur vert et le capteur bleu se rencontrent, ils peuvent collaborer et espérer obtenir un étalonnage meilleur que leur étalonnage individuel. Leur erreur de dérive est donc au mieux inférieure à l’erreur minimale pour les deux systèmes. Ces algorithmes peuvent être appliqués directement en temps réel pour les systèmes de mesure quelque soit la taille du réseau de capteurs (Hasenfratz et al., 2012; Xiang et al., 2012).
Législation relative à la surveillance des polluants atmo-sphériques
Depuis 1987, l’OMS publie des lignes directives concernant la qualité de l’air 6 . « Ces lignes directrices visent à informer les responsables de l’élaboration des politiques et à fournir des cibles appropriées à toute une série d’actions à mener pour la prévention de la pollution atmosphérique dans les différentes parties du monde. Elles constituent l’évaluation la plus largement reconnue et la plus actuelle des effets de la pollution aérienne sur la santé. Elles préconisent des objectifs de qualité de l’air qui réduisent fortement les risques sanitaires. ».
Les nouvelles directives (2005) ont vocation à s’appliquer au monde entier. Ces di-rectives proposent un ensemble de valeurs cibles pour les principaux polluants atmo-sphériques, au-dessus desquels des effets néfastes pour la santé humaine sont clairement identifiés. Néanmoins, les études épidémiologiques montrent qu’en dessous de ces seuils les effets pourraient rester non négligeables.
En France, la loi LAURE de 1996 reconnaît le droit de respirer un air sain. Elle marque le début du cadre réglementaire français en terme de pollution de l’air. Cette loi s’accompagne d’un dispositif de surveillance de la qualité de l’air. Les Associations Agréées Surveillance Qualité de l’Air (AASQA) sont des associations agréées par l’État. Elles se répartissent la surveillance et la prévention en terme de pollution de l’air à l’échelle régionale Elles sont réunies au sein de la Fédération ATMO FRANCE et coordonnées techniquement et scientifiquement par le laboratoire central de surveillance de la qualité de l’air (LCSQA).
Les normes de gestion de qualité de l’air sont, elles, définies à l’échelle européenne. Ces normes, à titre indicatif pour certains polluants et obligatoires pour d’autres, sont retranscrites en France dans le Code de l’environnement. Elles régulent les émissions par pays (directive (EU) 2016/2284 en vigueur) et cadrent la surveillance de l’air ambiant, en indiquant le nombre de capteurs et leurs incertitudes attendues, leurs emplacements et les méthodes de référence (directives 2004/107 et 2008/50/CE en vigueur, révision en cours). Cette surveillance permet de contrôler l’écart aux seuils définis. Les seuils sont de plusieurs types :
— le seuil d’alerte est le seuil au-dessus duquel il y a un risque pour la santé humaine à court terme,
— la valeur limite est le seuil au-dessus duquel il y a un risque pour la santé humaine à long terme,
— le niveau critique est le seuil au-dessus duquel il y a un risque pour l’écosystème,
— la valeur cible est la valeur de mesure à atteindre à court terme,
— l’objectif à long terme est la valeur de mesure à atteindre à long terme,
— le seuil d’évaluation inférieur et supérieur sont des pourcentages de la valeur limite au-dessus desquels les contraintes de collecte se durcissent et l’estimation de la qualité de l’air par modélisation ne suffit plus.
La Table 1.1 (source AirParif) présente les valeurs limites et les seuils d’alerte pour les polluants qui nous intéressent dans ce travail, le dioxyde d’azote (NO2 ), le monoxyde de carbone (CO), et les particules en suspension (PM10 ). Ces trois polluants sont sélectionnés pour 2 raisons. Premièrement, ces polluants sont des traceurs de l’émission par le trafic routier. La majeure partie des NOX (NO et NO2 ) sont formés lors de la combustion à haute température en présence d’air (moteur thermique et chauffage, cimenterie). Les PM10 sont également largement émises par le trafic routier, notamment via la formation de suie (moteur diesel), l’usure des véhicules (carrosserie, plaquettes de frein. . .) et la remise en suspension des poussières sur la chaussée. Enfin, le CO est également émis lorsque la combustion ne s’effectue pas en condition stœchiométrique et dépend de la richesse du mélange (rapport entre le nombre de moles d’hydrocarbure et d’oxygène), majoritairement par les véhicules essence. Deuxièmement, ces composés peuvent être mesurés à partir de capteurs portatifs simples et à bas coût (cf. chapitres suivants).
En 2018, ATMO Occitanie (AASQA région Occitanie) indique que pour la métropole de Toulouse, les niveaux relevés en PM10 respectent la valeur limite de 40 µg/m3 . Les valeurs maximales sont enregistrées sur la station en proximité du périphérique avec une moyenne annuelle de 28 µg/m3 . Le niveau de fond urbain (moyenne en dehors des zones intenses d’émission) est environ de 15 µg/m3 . La valeur moyenne de NO2 pour l’agglomé-ration de Toulouse se situe à 17 µg/m3 , en deçà de la valeur limite. Cependant, la station en bordure de périphérique affiche une moyenne annuelle de 68 µg/m3 . De même la sta-tion située en proximité de l’autoroute A620 dépasse la valeur limite avec une moyenne annuelle de 47 µg/m3 .
Le cas du CO est un peu particulier. Il existe une valeur de fond en CO liée à la forma-tion de ce composé dans l’atmosphère lors de son cycle naturel. Les concentrations atmo-sphériques de ce gaz sont assez faibles du fait de son temps de résidence (cf. ci-dessous) relativement long. Cette valeur de fond est située entre 0,05 et 0,15 ppm (rapport de mé-lange exprimé en partie par millions). En raison de la très haute toxicité de ce composé, les émissions par les véhicules à moteur ont très largement diminué en zone urbaine. Le niveau de CO en ville se situe entre 0,5 et 2 ppm (environ 1 ppm pour l’agglomération de Toulouse). Les concentrations les plus élevées sont malheureusement rencontrées en air intérieur (tabagie, manque de ventilation des locaux, appareil de combustion défec-tueux. . .), pouvant mener à des situations dramatiques. Très localement, le niveau de CO peut augmenter à cause de la congestion du trafic. La valeur limite pour le CO donnée dans la Table 1.1 est exceptionnelle en milieu ouvert. La correspondance entre ppm et µg/m3 est donnée dans l’annexe 4.
Représentations des concentrations à l’échelle de la ville
A partir du cadastre des émissions, il est alors possible d’obtenir une estimation des concentrations atmosphériques en prenant en compte le phénomène de dispersion, de transformation chimique et de dépôts. Dans l’hypothèse de dilution, nous séparons l’équa-tion d’évolution des champs descriptifs de l’écoulement atmosphérique (vitesse du vent, densité, température, humidité) de celle des espèces chimiques. L’évolution de la concen-tration ci d’une espèce chimique est alors donnée par une équation de dispersion réactive, de type advection-diffusion-réaction. L’advection correspond au transport dans le champ du vent V , la diffusion au mélange turbulent et la réaction aux modifications physico-chimiques (Sportisse, 2008).
Cette équation prend la forme d’une équation aux dérivées partielles (Équation 1.2) : ∂ci + div(V (x, t)ci) = div(Kmolec∇ci) + χi(ciT (x, t), t) + Si(x, t) − Λici (1.2) .
Nous retrouvons les termes liés à l’advection div(V (x, t)ci), à la diffusion molécu-laire div(Kmolec∇ci), aux paramétrisations physico-chimiques χi(ciT (x, t), t)− Λici, et aux termes sources Si(x, t).
Les modèles tridimensionnels qui résolvent cette équation de manière numérique sont généralement appelés modèles de chimie-transport (Chemistry–Transport model en an-glais, CTM). Les CTM modélisent de manière déterministe les concentrations et néces-sitent pour ce faire un grand nombre de variables d’entrée concernant les données météo-rologiques et les sources de polluants. Il existe une grande diversité de CTM.
Le modèle national CHIMERE 8 (Menut et al., 2013) permet d’effectuer des simula-tions à l’échelle régionale (quelques milliers de km) avec une résolution spatiale de quelques km. En dessous de ces échelles, les processus turbulents doivent être explicités, rendant le coût numérique de calcul beaucoup plus important. La simulation numérique à l’échelle urbaine fait appel à d’autre types de modèles spécifiquement adaptés pour représenter les sources urbaines et leur dispersion (e.g. ADMS–urban, Sirane. . .).
Réseau de capteurs mobiles en zone urbaine
Il existe une littérature assez abondante sur l’utilisation de systèmes portables pour la mesure de la qualité de l’air en réseau. La Table 2.1 présente un échantillon de projets de type CSN et VSN basés sur l’utilisation de capteurs de qualité de l’air – sur la base du travail de Yi et al. (2015). De nombreux autres projets visent l’estimation de la pollution de l’air à l’échelle urbaine. Google & Aclima (partenariat entre Google et une startup), par exemple, tente de cartographier la ville de Denver aux USA en disposant des capteurs de pollution sur des Google StreetCar. Le projet BeMap, réalisé par des étudiants de l’EPFL, embarque des capteurs sur des vélos, les déploie temporairement à Sao Paolo et Rio de Janeiro au Brésil, puis récupère les données pour les afficher. Concernant les CSN, le projet hackAir (Kosmidis et al., 2018) est sans doute le plus avancé à l’heure actuelle à l’échelle planétaire. Il donne la possibilité au citoyen de construire facilement son propre module transportable de captation de la pollution et de transmission des données. CitiSense (Bales et al., 2012) et AirVisual (startup) fournissent aux citoyens un boîtier mobile permettant de capter respectivement O3 , CO et CO2 , PM2.5 , météorologie. Les informations sont collectées et diffusées en l’état sur une application mobile ou un site web. Cependant ces projets, donnent seulement une vision du phénomène de pollution avec une faible granularité.
Nous remarquons que de nombreux modes de transport sont étudiés (voiture, vélo, bus, tramway, taxi, piéton, oiseau. . .), avec une préférence pour la voiture, principalement car elle assure une source d’énergie fiable. Mais pour l’instant seules de petites flottes de systèmes mobiles (au mieux, de l’ordre de la dizaine de systèmes) sont utilisées. La grande majorité des systèmes mobiles embarquent des micro-capteurs (semi-conducteurs, électrochimique, à absorption infrarouge et à photo-ionisation). En effet, ils font partie de ceux qui consomment le moins d’énergie et sont les moins encombrants. Une comparaison des différents types de capteurs de gaz est présentée au chapitre 3.
Dans l’étude bibliographique établie, il apparaît que le projet suisse OpenSense est celui de type VSN qui a la méthodologie la plus aboutie. Hasenfratz et al. (2012) ont mené une première étude de faisabilité basée sur l’utilisation de capteurs d’ozone connectés à un smartphone. L’étalonnage des capteurs est effectué par comparaison avec un capteur fixe de référence lors de Rendez-Vous (cf. section 1.3.2). L’impact du déplacement sur la précision de la mesure est également étudié brièvement.
Un appareil de mesure de la pollution atmosphérique beaucoup plus développé (O3 , particules ultrafines, CO, NO2 ) a ensuite été installé sur le réseau de tramway de la ville de Zurich (Hasenfratz et al., 2015) permettant la production d’un jeu de données de 3 000 000 de points en 6 mois (Li et al., 2012). En reprenant la taxonomie proposée par Delaine et al. (2019), les différents aspects pratiques inhérents à l’étalonnage collaboratif des capteurs mobiles sont abordés par ce groupe de travail : étalonnage entre paire de capteurs (pairwise calibration) ou étalonnage par étude de l’ensemble des capteurs (macro calibration), étalonnage entre capteurs mobiles et/ou à l’aide de stations fixes, étalonnage entre capteurs de même qualité (blind calibration) ou à l’aide d’un instrument de référence.
L’étalonnage par Rendez-Vous permet de confronter les valeurs de deux systèmes lorsqu’ils se trouvent dans une même région de l’espace en même temps. Les Rendez-Vous permettent également de détecter des capteurs défectueux. Saukh et al. (2014) étudient la définition optimale de la taille de la région et de la durée d’un Rendez-Vous par rapport à leur jeu de données. Ils introduisent également la notion de propagation « multi-hop » de l’erreur d’étalonnage par Rendez-Vous dans un réseau (Saukh et al., 2015). Cette notion est très importante dans le cadre de vastes réseaux ayant des capteurs sujets à dérive temporelle. Ils montrent que la régression linéaire, généralement utilisée pour déterminer les coefficients d’étalonnage, provoque l’accumulation d’erreurs lors de la multiplication du nombre de Rendez-Vous. Une méthode basée sur la régression géométrique est plus adaptée pour limiter ce problème. Les mesures en particules ultra-fines (ultrafine par-ticles, UPF) issues du réseau de tramway sont utilisées pour créer des cartes statistiques (Hasenfratz et al., 2015; Mueller et al., 2016) ou des graphes du réseau routier (Marjovi et al., 2015) de la pollution de l’air à Zurich. Ces résultats ont largement inspiré ce travail et les modèles utilisés sont davantage présentés section 2.2.2.
Ainsi, nous avons choisi, au travers du projet BICLUE, d’embarquer des micro-capteurs sur des vélos. En effet, le vélo est une plateforme de transport intéressante car (i) relativement peu de projets l’étudient, (ii) les distances des trajets sont plus grandes qu’à pied et moins contraintes qu’en voiture, (iii) ne pollue pas (et donc ne biaise pas la collection des données), (iv) couvre naturellement les zones les plus fréquentées et (v) dis-pose de communautés de cyclistes soucieux de l’air qu’ils respirent. La Figure 2.2 reprend le diagramme de Kiviat présenté section 1.5.3 et positionne notre ambition au regard des six contraintes définies. Comme les CSN, nous souffrons de problèmes de maintenance et de qualité de la donnée au prix de l’avantage financier. Néanmoins, nous nous en distin-guons de par la plateforme de transport utilisée, le vélo, qui améliore la mobilité. De plus, l’utilisation d’une dynamo peut permettre de réaliser un système autonome en énergie, donc plus endurant et plus utilisé, et ainsi avec une meilleure résolution temporelle.
Familles de méthodes statistiques de spatialisation
L’objectif de la méthode de spatialisation est d’obtenir une prévision sur l’ensemble du domaine du niveau des polluants à partir des mesures mobiles.
Lorsque des mesures de la variable explicative sont disponibles, les techniques clas-siques de régression et d’approximation sont couramment utilisées et éventuellement adap-tées à l’aspect géolocalisé du problème. Il s’agit de méthodes modélisant la variable ex-plicative 1 dans l’espace par une fonction continue passant aux abords des dites mesures de la variable explicative. Deux sous-catégories se distinguent : les modèles de proximité et les modèles de type Land-Use Regression (LUR).
Sans doute la plus utilisée (Jerrett et al., 2004) des méthodes de proximité, le Krigeage minimise la variance spatiale du résidu (erreur d’estimation) sans biais. De nombreuses autres versions sont possibles. Janssen et al. (2008) proposent une version améliorée du Krigeage en éliminant les tendances locales au regard des données sur l’utilisation des sols. Une autre méthode très populaire pour sa simplicité est l’Inverse Distance Weighting. Sivaraman et al. (2013) la comparent au Krigeage. Ce dernier est plus facile à mettre en œuvre, mais le Krigeage ordinaire obtient des résultats plus robustes.
Les LUR sont un ensemble de techniques basées sur des variables explicatives liées aux données de terrain, telles que le type de végétation, l’activité humaine (zone industrielle, résidentielle. . .), la proximité à des axes routiers, l’intensité du trafic routier, la vitesse du vent, la densité de population. . ., qui tirent partie des corrélations entre ces variables explicatives. Ce type de modèle a très largement été appliqué (Su et al., 2009; Hasenfratz et al., 2015), comparé (Hoek et al., 2008; Ghassoun et al., 2015) et couplé avec d’autres modèles (Adams et Kanaroglou, 2016; Janssen et al., 2008). Traditionnellement les LUR utilisent des techniques de régression multi-linéaire qui relient la concentration du pol-luant à des estimateurs spatiaux. Des techniques basées sur des régressions non-linéaires sont également utilisées, telles que les modèles additifs généralisés (Generalized Additive Model, GAM). Les GAM sont appréciés pour leur capacité à capturer des phénomènes non linéaires (Hasenfratz et al., 2015; Mueller et al., 2016), et étendus en les couplant à l’analyse en composantes principales (PCA) pour diminuer la dimension de l’espace des variables explicatives (Li et al., 2017). Ces approches peuvent être combinées, par exemple en modélisant la dérive spatiale du phénomène dans le cas du Krigeage Universel et du Krigeage avec dérive externe. Mercer et al. (2011) comparent le Krigeage Universel avec les LUR.
Enfin, les méthodes d’apprentissage statistique, où chaque donnée vient affiner la mo-délisation, sont de plus en plus en vogue et redorent les méthodes de classification. Les réseaux de neurones (Adams et Kanaroglou, 2016; Kurt et al., 2008) ont été le plus rapi-dement adoptés. Un design de neural network spécifique aux stations fixes pour la qualité de l’air (Zheng et al., 2015) et une approche pour designer les neural network en fonction d’une simulation à l’aide d’algorithmes génétiques ont été proposés (Niska et al., 2004). D’autres méthodes ont également été testées, telles que les Probabilistic Graph Model (PGM) (Marjovi et al., 2015) ou la logique floue à partir de données discrétisées (Onkal-Engin et al., 2004), voire même développées particulièrement pour le domaine de l’étude de la pollution de l’air (Hsieh et al., 2015).
|
Table des matières
Introduction
1 De la collecte de l’information au modèle
1.1 Introduction
1.2 Perception artificielle et science des données
1.2.1 Exemple historique et trilogie de Jeff Wu
1.2.2 Développement de la science des données
1.3 Paradigmes retenus
1.3.1 Apprentissage automatique
1.3.2 Réseaux de capteurs et systèmes répartis
1.3.3 Création de connaissances
1.4 Problématique de la qualité de l’air en zone urbaine
1.4.1 Législation relative à la surveillance des polluants atmosphériques
1.4.2 Émissions de polluants atmosphériques en zone urbaine
1.4.3 Représentations des concentrations à l’échelle de la ville
1.5 Vers de nouvelles observations en réseau
1.5.1 Capteurs
1.5.2 Réseaux participatifs
1.5.3 Plateforme de mobilité
1.5.4 Mobilité : vie privée versus utilité
1.6 Conclusion et consécution des chapitres suivants
2 Approche théorique d’un réseau de capteurs mobiles
2.1 Introduction
2.2 État de l’art
2.2.1 Réseau de capteurs mobiles en zone urbaine
2.2.2 Familles de méthodes statistiques de spatialisation
2.3 Génération des observations synthétiques
2.3.1 Zone d’étude
2.3.2 Extraction des variables explicatives de la ville depuis OSM
2.3.3 Simulation des trajets à vélo
2.3.4 Observations synthétiques à partir d’un modèle numérique de qualité de l’air
2.4 Spatialisation des observations mobiles
2.4.1 Sensibilité au nombre de trajets
2.4.2 Sensibilité à la fréquence d’échantillonnage
2.5 Analyse de la spatialisation
2.5.1 Cartes prédites par spatialisation
2.5.2 Sources d’erreur de spatialisation
2.5.3 Détection d’une perturbation spatiale
2.6 Conclusion
3 Conception d’un système embarqué pour la pollution de l’air en zone urbaine
3.1 Introduction
3.2 Micro-capteurs low-cost de pollution de l’air extérieur
3.2.1 Comparaison des familles de micro-capteurs
3.2.2 Les capteurs à Métal-Oxyde Semi-conducteur
3.2.3 Le capteur MiCS-4514
3.3 Prototypage
3.3.1 Analyse du besoin
3.3.2 Réalisation du prototype
3.3.3 Modifications apportées
3.3.4 Fonctionnement final
3.4 Retour d’expérience
3.4.1 Solution de bout en bout et simplifications
3.4.2 Alimentation : dynamo et batteries
3.4.3 Réalisation du boîtier et appareillage
3.4.4 Synchronisation d’un récepteur GPS en mouvement dans un milieu urbain
3.5 Évaluation des performances de nos capteurs en situation contrôlée
3.5.1 En laboratoire
3.5.2 In situ
3.6 Conclusion
Bibliographie
4 Application à la métropole de Toulouse
4.1 Introduction
4.2 Stratégies de mesure
4.2.1 Association de location de vélos
4.2.2 « vélo-taffeurs » scientifiques
4.3 Jeu de données collecté
4.3.1 Formatage des données
4.3.2 Filtrage et reconstruction des trajets
4.3.3 Profils utilisateurs
4.4 Évaluation de l’état de la pollution dans Toulouse
4.4.1 Analyse temporelle des mesures ATMO Occitanie sur Toulouse
4.4.2 Analyse de trajets particuliers
4.4.3 Étalonnage collaboratif par Rendez-Vous
4.4.4 Analyse des mesures de polluants sur vélo
4.4.5 Spatialisation des mesures du réseau de capteurs
4.5 Conclusion
Conclusion et perspectives
Annexes
1 Anekãntavãda
2 Rapport d’expérience : exploration de fichiers de journalisation à l’aide du traitement en langage naturel et application à la détection d’anomalies
3 Leçons tirées de la conception d’un capteur réparti pour la recherche en aérologie
4 Table de conversion ppm – μg/m3
5 Compléments sur le Krigeage
6 Figures complémentaires pour notre simulation sur la ville de Marseille (chapitre
6.1 Schéma de notre réseau de neurones
6.2 Taux de couverture du jeu de mesures synthétiques en fonction du nombre de trajets
6.3 Taux de couverture du jeu de mesures synthétiques en fonction de l’échantillonnage
6.4 Bruit blanc et perturbation spatiale sphérique
7 Exemple de séquence d’enregistrement d’un de nos systèmes embarqués
8 Figures complémentaires pour notre expérience dans la ville de Toulouse (chapitre 4)
8.1 Diagramme de dispersion entre les réponses normalisées de nos capteurs et les concentrations réelles
8.2 Variables explicatives pour la ville de Toulouse
9 Implémentation informatique : README GitHub
Bibliographie
Télécharger le rapport complet