Télécharger le fichier pdf d’un mémoire de fin d’études
La pression atmosphérique
La pression atmosphérique est la pression exercée par la colonne d’air se situant au dessus d’une surface. Elle dépend des conditions météorologiques et elle diminue avec l’altitude. Elle est couramment mesurée en hectopascals (hPa) à l’aide d’un baromètre. Le baromètre à colonne de mercure est le plus connu. Une pression qui monte est signe de beau temps, même si la pression est basse en valeur absolue. De même, une pression haute mais en baisse est signe de dégradation de la situation météorologique. La pression moyenne est de l’ordre de 105 N (newton) par mètre carré, ce qui était autrefois appelé le bar (son millième est le millibar) et qui vaut 105 Pa (pascal), soit 1000 hPa (hectopascal).
La vitesse du vent
Le vent est un mouvement horizontal de l’air sur la surface de la terre. Il naît d’une différence de pression, et se propage perpendiculairement aux isobares, des pressions hautes vers les basses, de façon à réduire les écarts de pression. Le vent peut être défini par sa direction (le plus souvent son origine) et par sa vitesse (en Beaufort, en kilomètre par heure, en mètre par seconde…). On utilise pour mesurer la direction du vent une girouette et pour la vitesse un anémomètre.
La pollution atmosphérique
L’air que nous respirons n’est jamais totalement pur. Si l’azote et l’oxygène représentent environ 99 % de la composition totale de l’air, on trouve dans le 1 % restant une grande variété de composés plus ou moins agressifs pour l’homme et son environnement [10], [11].
Depuis le début du siècle dernier l’accroissement démographique et le développement industriel sont à l’origine d’importantes émissions de gaz et d’aérosols (particules en suspension dans l’air). Les modifications de la constitution de l’atmosphère qui en découlent, peuvent avoir des répercussions aussi bien à l’échelle locale (conséquences sur la santé humaine, les végétaux ou les matériaux) qu’à l’échelle planétaire (modification du climat : effet de serre, diminution de la couche d’ozone stratosphérique).
Les principales émissions anthropiques concernent le dioxyde de soufre (SO2), les oxydes d’azote (NOx), le monoxyde de carbone (CO), les composés organiques volatils (COV), les aérosols… Certains polluants sont émis directement par une source. C’est le cas notamment du dioxyde de soufre (SO2) et du monoxyde d’azote (NO). Ils sont dits primaires. Les concentrations dans l’air de ces polluants sont maximales à proximité des sources, puis tendent à diminuer au fur et à mesure que l’on s’éloigne de celles-ci du fait de leur dilution dans l’air. Des polluants peuvent évoluer chimiquement après leur émission, se transformer ou produire d’autres composés. Ce sont des polluants dits secondaires. L’ozone, qui se forme à partir des oxydes d’azote et des COV sous l’action du rayonnement solaire, appartient à cette famille [10].
Le monoxyde de carbone (CO)
Le monoxyde de carbone résulte d’une combustion incomplète des combustibles et carburants. Dans l’air ambiant, on le rencontre essentiellement à proximité des voies de circulation routière. Il provoque maux de tête, vertiges. Il est mortel, à forte concentration, en cas d’exposition prolongée en milieu confiné.
L’ozone (O3)
L’ozone provient de la réaction des polluants primaires (issus de l’automobile ou des industries) en présence de rayonnement solaire et d’une température élevée. Il provoque toux, altérations pulmonaires, irritations oculaires.
Le dioxyde d’azote (NO2)
Les oxydes d’azote proviennent des combustions et du trafic automobile. Le dioxyde d’azote provient à 60% des véhicules. Ils affectent les fonctions pulmonaires et favorisent les infections.
Le dioxyde de soufre (SO2)
Le dioxyde de soufre (SO2) provient essentiellement de la combustion des combustibles fossiles contenant du soufre tels que le fuel et le charbon. Il est émis par les industries, le chauffage urbain. Il irrite les muqueuses, la peau et les voies respiratoires supérieures.
Particules en suspension (Particulate Matter PM 10)
Les particules en suspension proviennent du trafic automobile, des chauffages fonctionnant au fioul ou au bois et des activités industrielles. Plus elles sont fines, plus ces poussières pénètrent profondément dans les voies respiratoires. Les émissions de poussières sont scientifiquement mal connues. En effet, les tailles et natures des particules sont diverses, il est donc difficile de quantifier leur origine et les quantités émises [11].
Base de données
Les données utilisées dans le cadre de cette étude ont été collecté par la station météorologique de l’aéroport d’Annaba, et la station SAMASAFIA de Sidi Amar.
la station météorologique de l’aéroport
La base de données collectée par cette station contient 04 paramètres météorologiques captés pendant 60 mois (1995- 1999) avec une échéance de 3 heures. Donc chaque individu de la base météorologique (un jour quelconque inclut dans cette période) est caractérisé par 32 paramètres durant les 24 heures, ces paramètres météorologique sont: la pression mesurée en dixièmes de millibar ; la température mesurée en dixièmes de °C ; l’humidité mesurée en centièmes et la vitesse du vent mesurée en nœuds.
la station SAMASAFIA de Sidi-Amar
La base de données collectée par la station SAMASAFIA (structure responsable de la surveillance de la qualité de l’air en Algérie) d’Annaba sur une base de mesure continue de 24 heures pendant la période 2003-2004. Les polluants atmosphériques surveillés en continu inclut les concentrations du : monoxyde d’azote (NO), monoxyde de carbone (CO), l’ozone (O3), particule en suspension (PM10), oxydes d’azote (NOx), dioxyde d’azote (NO2), dioxyde de soufre (SO2). Cette base de données contient également trois paramètres météorologiques : la vitesse de vent, la température et l’humidité relative.
Concepts et définitions utiles
La classification est une étape importante pour l’analyse de données. Elle consiste à regrouper les objets d’un ensemble de données en classes homogènes. Il existe deux types d’approches : la classification supervisée et la classification non supervisée. Ces deux approches se différencient par leurs méthodes et par leur but. La classification supervisée (ang. classification) est basée sur un ensemble d’objets L (appelé ensemble d’apprentissage) de classes connues, le but étant de découvrir la structure des classes à partir de l’ensemble L afin de pouvoir généraliser cette structure sur un ensemble de données plus large. La classification non supervisée (ang. clustering) consiste à diviser un ensemble de données D en sous-ensembles, appelés classes (clusters), tels que les objets d’une classe sont similaires et que les objets de classes différentes sont différents, afin d’en comprendre la structure [32].
Nous commençons par rappeler quelques concepts et définitions formelles essentielles pour comprendre les différentes méthodes et outils de classification avant de présenter quelques approches utilisées en classification automatique.
Qu’est ce qu’une classification
Le concept identification des types de jours météorologiques est étroitement lié à la notion de partition ou classification d’un ensemble fini et nous utiliserons ces deux termes de manières interchangeables tout au long de ce manuscrit. La définition qui suit correspond à la notion de classification dure mais ce qualificatif ne sera plus précisé dans la suite du papier.
Présentation des méthodes de classification de données
Une diversité de méthodes de classification non supervisée est proposée dans la littérature. Les premières approches proposées étaient algorithmiques, heuristiques ou géométriques et reposaient essentiellement sur la dissimilarité entre les objets à classer. Plus récemment les modèles probabilistes sont utilisés par l’approche statistique. Les méthodes de regroupement peuvent être classé selon [31] ; [37] :
– Le type de données d’entrée à l’algorithme de classification.
– Le critère de regroupement définissant la similarité entre les objets.
– Les théories et les concepts fondamentaux sur lesquels les techniques de regroupement sont basées (par exemple la théorie floue, statistique).
Ainsi selon la méthode adoptée pour définir les clusters, les algorithmes de regroupement peuvent être largement classés dans les catégories suivantes :
– Algorithmes hiérarchiques,
Procèdent successivement par fusionnement de plus petits clusters dans les plus grands, Le résultat de l’algorithme est un arbre de clusters, appelés le dendrogramme, qui montre comment les clusters sont reliés.
– Classification Hiérarchique Ascendante (CHA), -Clustering Using REpresentatives(CURE)
-Balanced Iterative Reducing and Clustering using Hierarchies (BIRCH) -Robust Clustering using links (ROCK)
– classification hiérarchique descendante (CHD)
– Williames et Lambert
– Tree Structured Vector Quantization (TSVQ)
– Algorithmes par partition
Tente à décomposer directement l’ensemble de données en un ensemble disjoint de clusters. Plus spécifiquement, ils essayent de déterminer un nombre entier de partitions qui optimisent une fonction objective.
– k-moyennes
– k-médoides,
– Partition Around Medoid(PAM).
– Clustering large applications based upon randomized search (CLARANS)
– Clustering LARge Applications (CLARA)
Algorithmes basées sur la densité
L’idée principale de ce type de regroupement est de regrouper les objets voisins d’un ensemble de données dans des clusters basés sur des états de densité.
– Classification basée sur la quantification par grille
L’idée de ces méthodes est qu’on divise l’espace de données en un nombre fini de cellules formant une grille. Ce type d’algorithme est conçu pour des données spatiales. Une cellule peut être un cube, une région, un hyper rectangle. Ces deux derniers types de méthodes ne seront pas détaillés par la suite.
Les méthodes de la classification automatique
L’approche neuromémitique
Source historique et principes :
Les cartes auto-organisatrices communément désigné par SOM (pour Self Organising Maps) ont été introduites par T.Kohonen en 1981 en s’inspirant du fonctionnement des systèmes neuronaux en biologie, plus précisément du fait que les zones du cerveau qui gèrent le fonctionnement du corps humain respectent la topologie du système physique. D’un point de vue informatique, on peut traduire cette propriété de la façon suivante : supposons que l’on dispose de données que l’on désire classifier. On cherche un mode de représentation tel que des données voisines soient classées dans la même classe ou dans des classes voisines. Ce type de réseaux de neurones artificiels a largement montré son efficacité pour la classification des données multidimensionnelles, mais malheureusement il a été resté ignoré de nombreuses années malgré son grand intérêt. Le principe des cartes de Kohonen est de projeter un ensemble de données complexe sur un espace de dimension réduite (2 ou3). Cette projection permet d’extraire un ensemble de vecteurs dites référents ou prototypes, ces prototypes sont caractérisés par des relations géométriques simples. La projection s’est produite tout en conservant la topologie et les métriques les plus importantes des données initiales lors de l’affichage, c’est-à-dire les données proches (dans l’espace d’entrée) vont avoir des représentations proches dans l’espace de sortie et vont donc être classés dans le même cluster ou dans des clusters voisins [38, 39, 40, 41, 42].
Architecture des cartes de Kohonen
La structure de base d’une carte de kohonen est composée de M neurones éparpillé sur une grille régulière de basse dimension, habituellement 1-ou 2 dimensions, les grilles de grandes dimensions sont possibles, mais elles ne sont pas généralement utilisées puisque leur visualisation est problématique [43]. Si la visualisation n’est pas nécessaire, les grilles dont la dimension est supérieure à trois peuvent être bénéficières [44].
La carte de kohonen se compose habituellement de deux couches de neurones une couche d’entrée et une couche de sortie. Dans la couche d’entrée tout individu à classer (dans notre cas, un jour de la semaine) est représenté par un vecteur multidimensionnel (voir section 1.4). Chaque individu va affecter un neurone qui représente le centre du cluster. La couche (topologique) d’adaptation ou la couche de sortie est composée d’un treillis de neurones selon la géométrie prédéfinie [14] ; [19]. Chaque neurone de la couche topologique est totalement connecté aux neurones de la couche d’entrée w.i= (w1i,…wni), les vecteurs poids de ces connexions forment le référent ou le prototype associé à chaque neurone, il est de même dimension que les vecteurs d’entrées. Pendant la phase d’apprentissage, le processus d’auto-organisation permet de concentrer l’adaptation des poids des connexions essentiellement sur la région de la carte la plus «active». Cette région d’activité est choisie comme étant le voisinage associé au neurone dont l’état est le plus actif on parle ainsi de neurone gagnant. Le critère de sélection du neurone gagnant est de chercher celui dont le vecteur poids est le plus proche au sens de la distance euclidienne de l’individu présenté. C’est l’utilisation de la notion de voisinage qui introduit les contraintes topologiques dans la géométrie finale des cartes de kohonen. Les différentes formes géométriques que peuvent avoir une carte de kohonen sont présentées dans la figure 2.5. Ainsi, La structure de base d’une carte de kohonen bidimensionnelle de voisinage rectangulaire avec M=3 (dimension des vecteurs d’entrées) et L=4*3=12 neurones est montrée par la figure 2.4. Un vecteur d’entré x(t) = [x1 ,..xM ]T est appliqué à la couche de sortie. Chaque entrée de la SOM est connectée à tous les neurones par des poids correspondants ( wji ) ou j = 1,..L et i = 1,.., M . Ainsi à
chaque neurone de la SOM un vecteur poids de dimension M est affecté w j = [w j1 ,.., w jM ]T .
Les méthodes de la classification automatique
L’approche neuromémitique
Source historique et principes :
Les cartes auto-organisatrices communément désigné par SOM (pour Self Organising Maps) ont été introduites par T.Kohonen en 1981 en s’inspirant du fonctionnement des systèmes neuronaux en biologie, plus précisément du fait que les zones du cerveau qui gèrent le fonctionnement du corps humain respectent la topologie du système physique. D’un point de vue informatique, on peut traduire cette propriété de la façon suivante : supposons que l’on dispose de données que l’on désire classifier. On cherche un mode de représentation tel que des données voisines soient classées dans la même classe ou dans des classes voisines. Ce type de réseaux de neurones artificiels a largement montré son efficacité pour la classification des données multidimensionnelles, mais malheureusement il a été resté ignoré de nombreuses années malgré son grand intérêt. Le principe des cartes de Kohonen est de projeter un ensemble de données complexe sur un espace de dimension réduite (2 ou3). Cette projection permet d’extraire un ensemble de vecteurs dites référents ou prototypes, ces prototypes sont caractérisés par des relations géométriques simples. La projection s’est produite tout en conservant la topologie et les métriques les plus importantes des données initiales lors de l’affichage, c’est-à-dire les données proches (dans l’espace d’entrée) vont avoir des représentations proches dans l’espace de sortie et vont donc être classés dans le même cluster ou dans des clusters voisins [38, 39, 40, 41, 42].
Architecture des cartes de Kohonen
La structure de base d’une carte de kohonen est composée de M neurones éparpillé sur une grille régulière de basse dimension, habituellement 1-ou 2 dimensions, les grilles de grandes dimensions sont possibles, mais elles ne sont pas généralement utilisées puisque leur visualisation est problématique [43]. Si la visualisation n’est pas nécessaire, les grilles dont la dimension est supérieure à trois peuvent être bénéficières [44].
La carte de kohonen se compose habituellement de deux couches de neurones une couche d’entrée et une couche de sortie. Dans la couche d’entrée tout individu à classer (dans notre cas, un jour de la semaine) est représenté par un vecteur multidimensionnel (voir section 1.4). Chaque individu va affecter un neurone qui représente le centre du cluster. La couche (topologique) d’adaptation ou la couche de sortie est composée d’un treillis de neurones selon la géométrie prédéfinie [14] ; [19]. Chaque neurone de la couche topologique est totalement connecté aux neurones de la couche d’entrée w.i= (w1i,…wni), les vecteurs poids de ces connexions forment le référent ou le prototype associé à chaque neurone, il est de même dimension que les vecteurs d’entrées. Pendant la phase d’apprentissage, le processus d’auto-organisation permet de concentrer l’adaptation des poids des connexions essentiellement sur la région de la carte la plus «active». Cette région d’activité est choisie comme étant le voisinage associé au neurone dont l’état est le plus actif on parle ainsi de neurone gagnant. Le critère de sélection du neurone gagnant est de chercher celui dont le vecteur poids est le plus proche au sens de la distance euclidienne de l’individu présenté. C’est l’utilisation de la notion de voisinage qui introduit les contraintes topologiques dans la géométrie finale des cartes de kohonen. Les différentes formes géométriques que peuvent avoir une carte de kohonen sont présentées dans la figure 2.5. Ainsi, La structure de base d’une carte de kohonen bidimensionnelle de voisinage rectangulaire avec M=3 (dimension des vecteurs d’entrées) et L=4*3=12 neurones est montrée par la figure 2.4. Un vecteur d’entré x(t) = [x1 ,..xM ]T est appliqué à la couche de sortie. Chaque entrée de la SOM est connectée à tous les neurones par des poids correspondants ( wji ) ou j = 1,..L et i = 1,.., M . Ainsi à chaque neurone de la SOM un vecteur poids de dimension M est affecté w j = [w j1 ,.., w jM ]T .
|
Table des matières
INTRODUCTION GÉNÉRALE
MÉTÉOROLOGIE ET POLLUTION ATMOSPHÉRIQUE DANS LA RÉGION D’ANNABA.
1.1. PROFILS GÉOGRAPHIQUE ET CLIMATIQUE
1.2. PARAMÈTRES MÉTÉOROLOGIQUES
1.2.1. L’HUMIDITE RELATIVE
1.2.2. LA TEMPERATURE
1.2.3. LA PRESSION ATMOSPHERIQUE
1.2.4. LA VITESSE DU VENT
1.3. LA POLLUTION ATMOSPHÉRIQUE
1.3.1. LE MONOXYDE DE CARBONE (CO)
1.3.2. L’OZONE (O3)
1.3.3. LE DIOXYDE D’AZOTE (NO2)
1.3.4. LE DIOXYDE DE SOUFRE (SO2)
1.3.5. PARTICULES EN SUSPENSION (PARTICULATE MATTER PM 10)
1.4. BASE DE DONNÉES
CLASSIFICATION NON SUPERVISÉE : ÉTAT DE L’ART.
2.1. INTRODUCTION
2.2. CONCEPTS ET DÉFINITIONS UTILES
2.2.1. QU’EST CE QU’UNE CLASSIFICATION
2.2.2. NOTION DE SIMILARITE
2.2.2.1. Définitions :
2.2.2.2. Similarité entre objets
2.2.2.3. Cohésion interne d’un cluster
2.2.2.4. Isolation externe d’un cluster
2.2.3 LES ETAPES D’UNE CLASSIFICATION AUTOMATIQUE
2.2.4. PRESENTATION DES METHODES DE CLASSIFICATION DE DONNEES
2.3. LES MÉTHODES DE LA CLASSIFICATION AUTOMATIQUE
2.3.1. L’APPROCHE NEUROMEMITIQUE
2.3.1.1. Source historique et principes :
2.3.1.2. Architecture des cartes de Kohonen
2.3.1.3. Matérialisation du Voisinage
2.3.1.4. Fonctions de voisinage
2.3.1.5. Algorithme d’apprentissage
2.3.1.6. Paramètres d’apprentissage
2.3.1.7. Visualisation
2.3.2. QUELQUES APPROCHES CLASSIQUES
2.3.2.1. La classification par partition
2.3.2.1.1. La méthode de k-moyennes
2.3.2.1.2. La méthode k-médoїdes
2.3.2.2. La classification hiérarchique
2.3.2.2.1. La classification hiérarchique ascendante
2.3.2.2.2. La classification descendante hiérarchique
2.3.3. COMPARAISON DES ALGORITHMES DE LA CLASSIFICATION AUTOMATIQUE
2.4.1. CONCEPTS FONDAMENTAUX DE LA VALIDITE DES CLUSTERS
2.4.1.1. Erreur quadratique moyenne
2.4.1.2. Indice de Davies-Bouldin
2.4.1.3. Indice de silhouette
2.4.1.4. Homogénéité et séparation
2.4.1.5. La méthode évolution de système
2.4.1.6. Indice inter-intra poids
2.4.1.7. Indices propres aux cartes auto-organisatrices
2.4.1.7.1. Erreur de quantification
2.4.1.7.2. Taux d’erreur topologiques
2.4.1.7.3. Mesure de distorsion
2.5. ANALYSE DE DONNÉES
2.5.1. ANALYSE EN COMPOSANTES PRINCIPALES
2.5.2. ANALYSE FACTORIELLE DES CORRESPONDANCES
2.5.3. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFM)
2.5.4. ANALYSE DE DONNEES EN UTILISANT LES CARTES DE KOHONEN
IDENTIFICATION DES TYPES DE JOURS MÉTÉOROLOGIQUE : APPROCHE PROPOSÉE.
3.1. APPROCHE PROPOSEE
3.2. EXTRACTION DES CARACTÉRISTIQUES PAR L’ACP
3.3. IDENTIFICATION DES TYPES DE JOURS MÉTÉOROLOGIQUES PAR SOM
3.3.1. PRETRAITEMENT DE DONNES
3.3.2. TOPOLOGIE DE LA CARTE DE KOHONEN
3.3.3. APPRENTISSAGE ET RESULTATS
3.3.4. AFFINAGE DES TYPES DE JOUR PAR LA METHODE K-MOYENNES
3.3.5. EVALUATION ET TEST DE L’APPROCHE PROPOSEE
INFLUENCE DES PARAMÈTRES MÉTÉOROLOGIQUES SUR LA POLLUTION ATMOSPHÉRIQUE POUR LA RÉGION D’ANNABA.
4.1. INTRODUCTION
4.2. POLLUTION ATMOSPHÉRIQUE DANS LA RÉGION D’ANNABA
4.3. ÉVALUATION DE DONNÉES
4.4. INFLUENCE DES PARAMÈTRES MÉTÉOROLOGIQUES SUR LA POLLUTION ATMOSPHÉRIQUE
4.5. APPLICATION DE L’ACP POUR L’ANALYSE ENVIRONNEMENTALE
4.6. MODÉLISATION DE L’INFLUENCE DES PARAMÈTRES MÉTÉOROLOGIQUES SUR LA POLLUTION ATMOSPHÉRIQUE À L’AIDE DES RÉSEAUX DE NEURONES ARTIFICIELS
4.6.1. INTRODUCTION
4.6.2. TYPES DES RNAS
4.6.3. MODELE DE NEURONE ET RESEAU
4.6.4. TOPOLOGIES DES RESEAUX DE NEURONES
4.6.5. APPRENTISSAGE
4.6.6. LE PERCEPTRON MULTICOUCHE
4.6.6.1. Apprentissage par retro-propagation
4.6.6.2. L’apprentissage : un problème d’optimisation
4.6.6.3. Sur apprentissage
4.6.6.4. Validation croisée
4.6.6.5. Evaluation de la qualité d’un modèle
4.6.7. APPLICATION DES RNAS
4.6.7.1. Architecture du modèle neuronal
4.7. CONCLUSION
CONCLUSION GÉNÉRALE
RÉFÉRENCES.
Télécharger le rapport complet