Critères pour évaluer une partition de l’espace des données

Télécharger le fichier pdf d’un mémoire de fin d’études

La surveillance et le diagnostic dans le cadre de la supervision

De manière générale, la supervision correspond à l’action de surveiller un système, afin de prendre des actions nécessaires si le système est hors de l’objectif de commande. De manière simple : la surveillance consiste à détecter le comportement présent du système en différenciant entre plusieurs états (normal et défaillants) du processus et le diagnostic est l’identification de la nature d’un dysfonctionnement, d’une difficulté.
On peut considérer aussi le diagnostic comme l’identification des causes des divers modes des processus, on inclut non seulement les modes de fonctionnement normal mais aussi les modes de défaillances, qui correspondent aux différents états que peut prendre un procédé affecté par une panne ou un dysfonctionnement, états qui sont beaucoup plus difficiles à prévoir [GEN07].
Dans ce contexte, il est important de définir quelques concepts associés à la supervision des processus [HER06] :
– Fonctionnement normal d’un système. Un système est dit dans un état de fonctionnement normal lorsque les variables le caractérisant demeurent au voisinage de leurs valeurs nominales. Le système est dit défaillant dans le cas contraire.
– Une défaillance est la cause d’une anomalie.
– Une dégradation d’un procédé caractérise le processus qui amène à un état défaillant du procédé.
– Un défaut se définit comme une anomalie du comportement d’un système sans forcément remettre en cause sa fonction.
– Une panne caractérise l’inaptitude d’un dispositif à accomplir une fonction requise. Un système est toutefois généralement considéré en panne dès l’apparition d’une défaillance.
– Un symptôme est l’événement ou l’ensemble de données au travers duquel le système de détection identifie le passage du procédé dans un fonctionnement anormal. C’est le seul élément dont a connaissance le système de surveillance au moment de la détection d’une anomalie.
Le défaut est constaté grâce à un indicateur de défaut, il révèle la présence d’une défaillance. L’indicateur de défaut est en pratique élaboré grâce aux variables mesurées de l’installation [GEN07]. Cet indicateur permet de détecter l’état présent du système et dans le cas de défaillance permet d’estimer les causes du problème.

Théorie générale du diagnostic et de la surveillance

L’objectif de la surveillance est de vérifier l’état courant du procédé en incluant la détection de l’apparition d’un défaut et le diagnostic permet d’en trouver la cause puis d’en déduire la marche à suivre afin d’assurer la sûreté de fonctionnement du procédé. En généralisant, on peut dire que le diagnostic consiste à identifier les états du système en utilisant des indicateurs qui sont élaborés grâce aux variables du procédé. Dans la plupart des cas, le système de diagnostic cherche à identifier surtout les états à éviter.
Dans la littérature, deux étapes très importantes pour la supervision sont généralement distinguées [GEN07]:
– La détection, qui consiste à utiliser un jeu de mesures (indicateurs de défauts) qui permettent d’engendrer des symptômes. On parle aussi d’attributs quand on fait référence à l’utilisation de méthodes de classification pour la détection.
– La localisation ou la classification, qui consiste à remonter d’un ensemble de symptômes à un ensemble minimal de composants matériels dont le dysfonctionnement est suffisant pour expliquer l’apparition des symptômes observés.
Il est évidemment souhaitable que cet ensemble de composants suspectés soit le plus réduit possible et contienne avec certitude le(s) composant(s) réellement défaillant(s) pour que le diagnostic soit précis et fiable. Des travaux sur ce sujet ont été abordés dans le groupe DISCO du LAAS [ORA05].
Une difficulté importante pour trouver la cause des défaillances, concerne le lien qu’il faut établir entre le modèle comportemental d’un procédé et son modèle structurel (connaissance de l’ensemble des composants qui le constitue et de leurs interconnections). Communément est appelé support d’un indicateur, l’ensemble des composants dont le modèle est utilisé pour construire cet indicateur. Dans la section 1.5, nous montrerons comment en utilisant les techniques de classification, l’association entre l’indicateur de défaillance (paramètres des classes) et le support de l’indicateur est plus directe que dans le cas d’autres méthodes.
Une des parties les plus importantes de la boucle de supervision est la partie diagnostic. Cette tâche permet d’identifier des causes de défaillance pour que l’expert puisse prendre une décision. Pour le diagnostic il est donc très important d’inclure l’expertise de l’expert du système, et les techniques employées doivent permettre une « communication » homme-machine efficace.
Si le procédé est supervisé par un opérateur humain, on peut comprendre aisément qu’il lui est difficile de surveiller en même temps un grand nombre de variables. Une technique de diagnostic est alors nécessaire pour faire l’analyse des variables pertinentes et donner une information plus claire, concise et utile pour que l’opérateur puisse prendre des décisions.
Comme on peut le constater la surveillance a besoin fortement de l’interaction homme-machine, c’est pourquoi il est important de développer et d’améliorer les techniques existantes pour faciliter cette relation et enrichir les tâches automatiques avec l’expertise humaine sur le procédé.
Un système de supervision avancé devrait intégrer toute sorte d’aides pour diminuer la charge de travail et la fréquence des erreurs humaines, sans toutefois viser à éliminer l’opérateur de la fonction de décision. Il y a une difficulté particulière des tâches liées à la détection des conditions anormales, l’identification de la situation (état) (diagnostic) en cours et l’anticipation de son évolution, il est donc important de développer et d’améliorer les outils pour ce travail en se basant sur une supervision fondée sur une coopération homme/machine où l’homme se voit assisté non seulement dans ses tâches routinières mais aussi dans ses tâches de raisonnement [GEN07].
Vu la difficulté existante de bien interpréter les alarmes à partir de l’analyse de variables individuelles, des outils permettant de relier des défauts aux différentes variables sont extrêmement utiles pour le diagnostic et la surveillance.
Nos travaux se situent dans le domaine de l’identification automatique des états (défaillants ou non), tout en donnant une aide à l’expert du procédé pour identifier les états et les inclure dans un système de surveillance et de diagnostic en vue d’effectuer une reconnaissance automatique des états en ligne. Nous recherchons des algorithmes qui permettent une interprétation facile des résultats pour effectuer, de manière plus directe l’identification des causes de l’état identifié automatiquement.
Pour accroître l’application des systèmes de surveillance, il est nécessaire d’introduire des techniques facilement utilisables par les experts des processus. Il y a un besoin de techniques qui soient facilement interprétables dans le contexte même du procédé où l’expert a une vaste connaissance. Nous prétendons en effet donner une aide à l’expert du procédé, qui n’est généralement pas un expert des techniques de surveillance, afin qu’il trouve une caractérisation adéquate des états, quand l’identification est basée sur des méthodes classification floues.
Un autre aspect important pour le développement des techniques de diagnostic est d’éviter les fausses alarmes. Dans la construction d’un système utile pour le diagnostic, il faut tenir compte de cet aspect. Des études pour enlever les fausses alarmes ont été implantées comme améliorations aux techniques de diagnostic [ISA07] mais ne seront pas expliquées de manière détaillées dans ce document parce qu’elles ne sont pas considérées comme une partie intégrante de la thèse.

Techniques employées pour le diagnostic automatique

Il y a plusieurs méthodes de diagnostic connues et de nouvelles techniques sont proposées constamment dans la littérature. La plupart des nouvelles techniques peuvent être vues comme des variantes ou des améliorations des précédentes. Par conséquent, il est important de faire un schéma des tendances générales de ces méthodes de diagnostic et de situer les méthodes de classification basées sur la fouille de données dans ce contexte.
Auparavant dans un système de supervision traditionnel, la tendance a été de surveiller simplement chaque signal pour vérifier que les variables restent à l’intérieur d’un domaine de valeurs caractéristiques du fonctionnement normal. Un seuil haut SH et un seuil bas SB sont fixés pour chaque variable et l’on vérifie qu’à chaque acquisition la variable appartient à l’intervalle [SB,SH]. Plusieurs seuils peuvent être établis pour générer des pré-alarmes au fur et à mesure que la variable s’écarte des limites établies (voir Figure 1.2).
Pour concevoir les alarmes traditionnelles, il n’est pas facile de choisir a priori les seuils de chaque variable. Avec cette technique, un mauvais paramétrage des seuils peut conduire à des alarmes répétitives non fondées dans par exemple 95% des cas ; la conséquence de ce type de biais entraîne à terme un acquittement systématique de la détection par les opérateurs, même pour les 5% de bonnes détections [GEN07].
De plus, les variables n’étant pas indépendantes mais liées par des relations d’influence, en toute logique, leurs seuils devraient être reliés par les mêmes relations. Cela suppose que l’on utilise un modèle du procédé pour gérer la cohérence des seuils (le problème est qu’il est très difficile de posséder un modèle précis pour les systèmes complexes) [GEN07][AKB01][KOU02].
Pour mettre en évidence l’intérêt de prendre en compte plusieurs variables et leur relation pour faire le diagnostic, nous présentons dans ce qui suit un exemple simple. Dans la plupart des cas, l’utilisation de l’analyse monovariable qui traite de manière indépendante chaque variable, génère la non identification des états anormaux. Ceci est dû à la non indépendance des variables qui sont normalement corrélées. La Figure 1.3. est une illustration classique du fait d’utiliser des diagrammes de diagnostic indépendants (separate control charts) pour deux variables (y1 et y2). Sur cette figure, les deux variables ont été tracées sur les axes (en haut à gauche), pour constituer les points (y1,y2) de la figure. Sur la même figure, le comportement des variables dans le temps a été tracé pour chacune d’elles (les graphiques vertical et horizontal), en incluant les seuils établis pour identifier les défaillances. Le graphique de chaque variable au cours du temps en y incluant les seuils correspond aux diagrammes de diagnostic indépendants (separate control charts). Quand une variation normale est présentée, les points constitués par les paires (y1,y2), correspondent à une distribution qui peut être associée à l’ellipse dessinée sur la figure tout en lui ajoutant une région de confiance. Le point marqué avec un « + », est clairement en dehors de la région de confiance établie par les caractéristiques statistiques des paires (y1,y2) en état normal, et pourtant lorsque l’on regarde les diagrammes de diagnostic indépendants (separate control chart) aucune des variables au moment de la défaillance (marquées aussi avec des « + ») n’est en dehors du seuil établi. De plus, ces valeurs sont plus basses que d’autres valeurs pour lesquelles le système a été dans un état normal. Comme conséquence, si le diagnostic est fait uniquement à partir des diagrammes de diagnostic indépendants (separate control chart), plusieurs défaillances ne seront pas détectées. D’autre part, les mesures marquées avec un ◊, sont en dehors des seuils minimaux établis pour chaque variable, mais en regardant le graphique qui symbolise la relation entres les deux variables, cet échantillon est dans l’état normal [KOU02].
En conséquence, plusieurs méthodes de diagnostic qui permettent d’analyser les relations entre plusieurs variables ont été proposées et il y a constamment des méthodes nouvelles ou des améliorations proposées.
Avoir une idée générale de l’organisation des méthodes utiles pour le diagnostic, permet de mieux choisir une méthode pour l’implanter dans un système de supervision. Une organisation des méthodes de diagnostic qui permet d’avoir une vision générale a été présentée par Venkatasubramanian et al. [VEN03]. La Figure 1.4 présente le schéma de classification des méthodes de diagnostic auxquelles nous avons ajouté les méthodes de classification par coalescence (clustering).

Méthodes basées sur des modèles

Traditionnellement, les problèmes de diagnostic ont été résolus par la construction de modèles très complets du procédé. La détection de défaillance en utilisant ces modèles, consiste à identifier l’écart entre le modèle et le système réel.
Néanmoins, quand les processus sont devenus plus complexes, l’obtention de modèles « classiques » est plus difficile en impliquant du temps et des efforts vraiment importants, qui ne sont pas justifiables pour l’industrie [KOU02].

Méthodes basées sur des modèles quantitatifs

Les méthodes basées sur des modèles quantitatifs comparent les valeurs des variables réelles avec les valeurs calculées en utilisant un modèle qui met en rapport les variables du processus. La comparaison des valeurs réelles à celles calculées donne des résidus. Si les résidus dépassent un seuil ou si leur valeur n’est pas très proche de zéro, la présence d’une défaillance est alors détectée.
Dans le cas de processus très complexes, multi-variables ou non linéaires, il n’est pas facile de construire un modèle suffisamment précis et/ou complet pour être utilisé lors de la comparaison avec le comportement du système réel afin de déterminer l’existence d’une défaillance.
Les équations théoriques représentent seulement une part du système (qui est la plus familière, masse, énergie, etc.). Plusieurs paramètres dans ce type de modèles doivent être fixés en utilisant des valeurs données par la littérature ou estimées en utilisant des historiques du fonctionnement du procédé. D’autre part, les tâches de diagnostic incluent l’analyse des actionneurs et des capteurs. Ces composants ne sont pas normalement pris en compte dans la modélisation du processus, et les inclure dégénère le modèle en une version très complexe difficile à utiliser pour des fins de diagnostic [KOU02].
Toutefois, s’il y a un modèle précis du système, les performances de ce type de méthodes sont très bonnes.

Méthodes basées sur des modèles qualitatifs

Les méthodes basées sur des modèles qualitatifs fonctionnent sur le même principe que celles basées sur des modèles quantitatifs, mais la relation entre les descripteurs est exprimée par des fonctions qualitatives. Ces méthodes ne sont pas basées sur l’écriture de lois physiques, par conséquent leurs performances dépendent fortement de la connaissance de l’expert qui formalise la relation entre variables.

Méthodes basées sur des données historiques (fouille de données)

Les automatismes récents incluent le stockage de plusieurs variables. C’est pourquoi, à l’heure actuelle, les industries disposent en général d’un vaste historique des processus en y incluant les comportements des variables en présence de défaillances. L’utilisation de ces données pour en extraire de la connaissance sur le procédé est donc amplement justifiable.
Les méthodes d’apprentissage et de reconnaissance de formes permettent à partir des données du processus, d’obtenir de l’information des états du système [KEM04a] [WAI00][LUR03][MARI03][CAS03].
Les méthodes basées sur la fouille de données effectuent le diagnostic à partir du traitement d’une grande quantité d’échantillons. Ces méthodes ont beaucoup de propriétés très utiles pour le diagnostic des processus. Elles peuvent travailler de manière indifférente avec des processus non linéaires parce qu’aucun modèle de processus n’est nécessaire, l’information est extraite des données d’entraînement (notion d’apprentissage) [KIO94].
Les techniques d’obtention d’information à partir de données, permettent de résoudre les problèmes d’extraction de la connaissance. Ces techniques sont intéressantes pour le développement de lois de supervision et de commande de systèmes pour lesquels il est difficile d’obtenir un modèle précis et utile pour le diagnostic. Ainsi, la connaissance est automatiquement extraite des données, où les classes obtenues correspondent à des situations de fonctionnement normal ou de défaillance [CHI01].
Il est important de remarquer que la caractérisation des systèmes complexes pour le diagnostic, doit inclure la connaissance de l’expert tout spécialement pour les méthodes de type flou.
Le grand inconvenant qui existe avec ces méthodes est la dépendance aux données d’entraînement. Elles ont besoin d’avoir des données d’entraînement qui permettent de caractériser chaque état ou défaillance. Néanmoins, il n’est pas nécessaire d’avoir un très grand nombre de données et il faut éviter le surentraînement (privilégier la généralisation). Certaines techniques permettent aussi de faire la mise à jour des classes (actualisation, apprentissage actif) en fonction de données reconnues (e.g. LAMDA).
Il est nécessaire de remarquer de plus, que leurs performances sont fortement liées à la bonne sélection des paramètres de chaque algorithme [BAB98][CAS03][FRA02][KAY95][LUR03].
Pour toutes les techniques basées sur la fouille de données, il faut différencier deux grandes phases : l’entraiment ou apprentissage afin d’établir les caractéristiques des classes et la reconnaissance de nouvelles données. La surveillance et le diagnostic correspondent à la phase de reconnaissance qui peut être faite en ligne et, en fonction de la méthode, peut posséder une procédure d’adaptation des classes.
Un prétraitement des données est fortement conseillé, d’une part pour établir les variables les plus pertinentes qui permettent de détecter les états du système, d’autre part pour éliminer des bruits et obtenir la meilleure information possible de chaque variable.
Dans le cas du diagnostic, un prétraitement des données est recommandé parce que les données brutes ne permettent pas toujours d’obtenir l’information nécessaire pour caractériser les classes. Ce problème se rencontre tout spécialement dans le cas de systèmes industriels, à cause du bruit de mesure qui est toujours présent sur les capteurs. Le prétraitement inclut des opérations classiques en automatique et en traitement du signal (filtrage, analyse fréquentielle, …)[CHI01].
Le prétraitement, peut être appelé aussi « mise en forme des données » [GEN07]. Cette mise en forme, éventuellement accompagnée d’un premier niveau de validation, peut être implantée au niveau des capteurs et des actionneurs, aujourd’hui dotés de capacités de traitement numérique et d’une interface bidirectionnelle de communication, et connus également sous le noms d’instruments « smarts » ou intelligents [RIV96].
Dans les systèmes de commande actuels, on peut accéder à des historiques des variables (enregistrement de la variable sur une durée paramétrable), ou de plusieurs variables à la fois s’il est intéressant de corréler leur évolution. Il peut être par exemple souhaitable de suivre une variable régulée en même temps que sa variable de commande et sa consigne. La durée de l’historique doit être choisie en fonction de la dynamique du procédé, en réaction à des changements de consigne, ou encore en réaction à certains défauts. En effet, les défauts les plus difficiles à détecter sont les défauts qui s’installent lentement, sous forme de dérive, car on peut mettre un certain temps à voir leurs effets apparaître clairement [GEN07]. Une alternative très intéressante pour prétraiter les variables en incluant l’évolution est d’analyser sa tendance pendant un période de temps déterminée et de classer une représentation qualitative de son comportement (e.g. tendance à augmenter, tendance à diminuer, etc.) Kemposky T. [KEM04a] présente deux exemples industriels où cette représentation permet d’identifier des états plutôt qu’en utilisant des variables numériques.
Les alternatives pour le prétraitement des données sont aussi très vastes. Par exemple, on peut effectuer une analyse en fréquence des signaux pour utiliser dans le diagnostic uniquement les fréquences les plus informatives. Un cas classique est d’analyser les fréquences parasites d’un signal, apportées par les vibrations de structures mécaniques ou dans les machines tournantes par exemple, pour en déduire des défauts. De même, des caractéristiques particulières, brutes ou issues du traitement des données, permettent de classer les observations pour établir les états comportementaux du système.

Diagnostic en utilisant des méthodes de classification

Les méthodes de classification sont une partie importante des méthodes basées sur la fouille des données.
Le principe de la surveillance d’un procédé dynamique à partir d’une méthode de classification, consiste à déterminer à chaque instant, la classe actuelle qui a préalablement été associée avec un état fonctionnel du système. La Figure 1.5. représente la supervision des processus utilisant des méthodes de classification.
Une vision synthétique du procédé ne peut pas être apportée par la visualisation des valeurs précises de centaines de variables sur un synoptique. La classification, qui permet de projeter ces nombreuses valeurs dans un espace de dimension réduite, est un outil très intéressant pour le diagnostic. Dans cette espace, l’opérateur peut apprendre à identifier des zones à risque ou relatives à des dysfonctionnements particuliers, il aura en conséquence des réactions beaucoup plus rapides aux problèmes.
Les méthodes de classification, spécialement les méthodes de type statistique, permettent d’établir un modèle des états du système (modèle comportemental), en incluant les états de défaillance. On peut recouvrir la connaissance de différents attributs relatifs à un comportement particulier, sans que ce comportement soit représenté par un ensemble de relations analytiques (modèle au sens classique de l’automatique). Ainsi, des caractéristiques statistiques d’un signal (e.g. moyenne et écart type) peuvent être considérées comme un « modèle » représentatif d’un comportement (normal ou non). Les modifications de ces caractéristiques permettent de détecter un fonctionnement anormal, que l’on pourra relier à certains défauts (variables en défaut) si l’on a une connaissance précise de leur influence [GEN07].
L’utilisation de techniques d’Intelligence Artificielle et de la Logique Floue pour le diagnostic de systèmes permet d’obtenir des résultats interprétables et offre une information utile pour la décision d’actions à effectuer en cas de défaillance.
Pour pouvoir réaliser un diagnostic en utilisant une méthode de classification, il y a deux phases principales: l’entraînement ou apprentissage et la reconnaissance.

Phase d’entraînement ou apprentissage

Dans la première phase (entraînement ou apprentissage), l’objectif est de trouver, à partir de l’ensemble de données, les caractéristiques du comportement du système qui vont permettre de différencier les états dans lesquels le système peut se trouver (Figure 1.6). Cette phase est réalisée hors ligne et l’intervention de l’expert sur le processus est déterminante.
Dans cette phase, les objets sont regroupés et discriminés pour arriver à la construction de classes. Le résultat de l’entraînement est un classifieur ; on peut l’associer au modèle comportemental du système. Selon la méthode utilisée, le classifieur peut correspondre à des paramètres d’une équation ou aux valeurs et à la structure d’un système (par exemple un réseau de neurones). Le classifieur permet d’associer aux différentes classes, de nouvelles observations qui correspondent aux valeurs présentes des variables et permet d’associer les causes des défaillances quand la classe correspond à un état de défaillance.
En ce qui concerne l’apprentissage, il y a certaines questions qui n’ont pas encore reçu de réponse définitive [DUD01]. Par exemple, comment déterminer si l’algorithme d’apprentissage a convergé dans le temps imparti ? Quel est le nombre adéquat de données d’entraînement ? Quel est le nombre de variables qui permet d’extraire l’information nécessaire pour caractériser les états ? Quel est le nombre de classes optimal ? La réponse à ces questions dépend presque toujours de l’application. Nos travaux qui constituent des compléments aux méthodes de classification, cherchent à répondre en partie à ces questions.
Les travaux effectués lors de cette thèse se situent dans l’optimisation de l’espace de partition obtenu avec des méthodes de reconnaissance de formes de type flou. Nous cherchons à diminuer la dépendance aux paramètres propres à chaque algorithme d’apprentissage et à traiter le problème de la détermination du nombre de classes pour les algorithmes de classification où ceci est nécessaire a priori. Pour l’entraînement, nous proposons d’inclure une étape de validation et d’ajustement des classes afin d’optimiser la partition obtenue sans relancer l’algorithme de reconnaissance.

Phase de reconnaissance

Lors de la deuxième phase, la reconnaissance de nouvelles données est effectuée. De cette manière, l’état présent du système est identifié. Les données sont classées en fonction du classifieur obtenu lors de la phase précédente. Cette phase de reconnaissance peut être effectuée en ligne.
Avec des méthodes de classification, dans la phase d’entraînement on obtient un modèle comportemental du procède en caractérisant les états (normaux ou non) par des paramètres extraits des variables du procédé. Dans la phase de reconnaissance quand un état est reconnu, si on parle d’un état de défaillance, les valeurs qui représentent la classe sont associées pour effectuer la localisation de la cause de la défaillance.

Méthodes d’apprentissage et de reconnaissance de formes utiles pour le diagnostic

Pour identifier les états des systèmes à partir de données, plusieurs algorithmes ont été proposés. Chacun permet d’obtenir une partition différente de l’espace des données. Dans ce qui suit, nous présentons une courte description de trois méthodes utilisées pour le diagnostic de systèmes qui permettent d’obtenir une partition floue.
– Méthodes basées sur l’analyse de distance (Méthodes de coalescence) :
Ces algorithmes ont comme paramètre d’entrée le nombre de classes K. Ils divisent l’ensemble de N objets dans K. D’abord ils proposent des centres des groupes et ensuite ils assignent chaque objet au centre le plus proche. Chaque classe est caractérisée par le centre ou prototype et par ses éléments.
C-Means est l’algorithme le plus connu parmi les méthodes basées sur la distance. Il fait une séparation de l’espace de type stricte (« dure »). La mesure de similitude qu’il emploie est la distance euclidienne, par conséquent les formes des groupes sont des hyper sphères. Une variation de C-Means est le Fuzzy C-Means (FCM) qui permet d’obtenir une matrice de partition floue (U=[ μkn ]) qui contient les degrés d’appartenance de chaque objet xn à chacune des k classes.
Un autre algorithme de ce type est le Gk-Means. Cet algorithme utilise une norme adaptive de la distance, en obtenant des classes hyper ellipsoïdales avec leurs axes inclinés par rapport aux axes de l’espace des données [BAB98]. Dans ces méthodes, la première sélection des centres est aléatoire, et les résultats sont sensibles à l’initialisation.
– Réseaux de Neurones :
Les réseaux de neurones ont montré depuis de nombreuses années de grandes capacités à résoudre des problèmes de classification pour le diagnostic de systèmes [LUR03][BEZ81]. La structure générale d’un réseau de neurones utilisé pour le diagnostic consiste en trois couches. Le nombre de neurones de la première couche (d’entrée) est le nombre de variables du problème (d=nombre d’éléments par chaque individu xn ) et le nombre de neurones de la couche de sortie correspond aux K classes.
Normalement la performance du réseau est directement liée à la taille de la couche cachée.
Dans la plupart des algorithmes d’apprentissage, il est nécessaire d’établir a priori le nombre de neurones de la couche cachée, mais les réseaux de neurones à fonctions de base radiales (RBF) trouvent automatiquement cette valeur [MARK96][JAN97]. Pour obtenir une partition floue avec les RBF, les neurones de la couche cachée ont des fonctions de base radiales (e.g. gaussiennes) et les fonctions de la couche de sortie sont de type linéaire. La partition de l’espace correspond à un ensemble de fonctions non linéaires.
– LAMDA (Learning Algorithm for Multivariate Data Analysis):
LAMDA [AGU82] est une technique de classification floue basée sur l’évaluation de l’adéquation des éléments à chaque classe. Les éléments peuvent être décrits aussi bien de façon numérique que qualitative. Les degrés d’adéquation globale (GAD) d’un élément à chaque classe sont une fonction des adéquations marginales (MAD) représentant la contribution de chaque composant de l’individu xn . Le résultat est une partition floue. La structure de l’algorithme est similaire à celle du réseau de neurones mais où les adéquations GAD et MAD sont des fonctions d’appartenance floue et leur agrégation se fait au moyen de connectifs de la Logique Floue (t-norme et sa duale).
L’avantage des techniques floues est que les résultats sont les appartenances des mesures courantes aux différents états fonctionnels identifiés sur des données historiques. Cette caractéristique permet d’avoir une connaissance plus complète de la situation réelle du système complexe et permet de prendre des décisions pour prévenir des changements vers des états non désirables (e.g. états de défaillance). Ceci est très intéressant parce que cela permet d‘anticiper le basculement vers un état de défaillance. En effet, si le système est dans un état de fonctionnement normal, mais qu’il présente un degré d’appartenance élevé à un état de défaillance, ceci permet de d’anticiper et prendre des mesures pour diminuer la tendance au basculement dans l’état de défaillance. Cette caractéristique d’anticipation inhérente aux méthodes de classification floue est très intéressante dans le cadre du diagnostic. De plus, la connaissance sur l’état complet du système est une aide importante pour la décision de l’opérateur, de cette manière l’opérateur a plus d’information (synthétique) sur les conditions du système et ses décisions seront plus acérées. Prédire le comportement du procédé est important dans l’aide à la décision de l’opérateur humain. Cela permet d’anticiper sur la propagation de certains défauts, d’évaluer les risques et de prendre les bonnes décisions dans le temps requis. Posséder un modèle du comportement du procédé est évidemment un atout important pour une telle prédiction. Il est risqué bien sur de prédire avec un modèle de comportement normal l’évolution d’une situation [GEN07]. C’est pourquoi il est important de remarquer que le modèle comportemental doit être obtenu en incluant les défaillances qui ont été présentes antérieurement sur le procédé.
C’est dans ce contexte que nous avons procédé par ailleurs à une comparaison raisonnée des algorithmes séquentiels existants: la méthode LAMDA [AGU82][WAI00][KEM03], d’autres approches floues [BAB98] [JAN97][BEZ81] et neuronales [JAN97][MIC94][BIS95][MAR96], ou des méthodes statistiques [LIM00][HAN01]. Nous présentons une description plus détaillée des méthodes et une comparaison entre elles dans le chapitre suivant.
Kempowsky T. [KEM04a] montre qu’un des inconvénients à utiliser des méthodes de classification pour le diagnostic est qu’en général, le nombre de classes est supposé connu au départ, i.e. la connaissance est supposée exhaustive. Toute observation doit appartenir à une des classes définies. Ceci est loin d’être le cas dans le contexte du diagnostic. Par ailleurs, il reste souvent des modes de fonctionnement dont nous ignorons les caractéristiques. Dans ce cas, il est nécessaire d’utiliser des techniques qui permettent de prendre en compte la détection de nouvelles classes, d’apprendre leurs caractéristiques et de les inclure dans le système de détection ; ce qui implique un système évolutif, capable de prendre en compte tout nouveau phénomène normal ou anormal présent dans le processus surveillé.

Contexte général des méthodes de classification basées sur la fouille de données

De manière générale, on peut diviser les méthodes de classification entre méthodes avec apprentissage supervisé et méthodes avec auto-apprentissage.
Les méthodes avec apprentissage supervisé ont besoin de connaître a priori les classes associées aux données d’entraînement. L’apprentissage est basé, pour la plupart des méthodes, sur la minimisation de l’erreur d’entraînement.
Pour les méthodes avec auto-apprentissage, l’étape d’entraînement est utile pour ajuster les paramètres de l’algorithme de classification. Il n’y a pas de « professeur », ni de classes établies a priori. L’algorithme de classification regroupe les données en fonction de caractéristiques semblables [DUD01]. Dans ce cas, l’apprentissage n’est pas basé sur une erreur d’entraînement. Dans certaines méthodes (e.g. LAMDA), la classification peut être effectuée chaque fois qu’une donnée est analysée, et les paramètres du classifieur sont mis à jour à chaque échantillonnage. Dans d’autres cas (e.g. GK-Means), la définition des classes est basée sur l’optimisation d’une fonction objectif (définie dans l’espace de données) : l’idée est de diminuer la distance entre les données d’une même classe. Ainsi de manière itérative et en utilisant tout l’ensemble des données, les classes sont adaptées pour regrouper les données qui sont les plus proches.
Dans tous les cas, un vecteur résumant l’information (individu) qui correspond aux échantillons du système, est analysé pour trouver les caractéristiques des classes. La différence entre les deux types de méthodes est la phase d’apprentissage.
Dans le contexte des méthodes basées sur la fouille de données, les méthodes qui se situent dans le “Machine Learning” permettent d’obtenir des règles ou des expressions de classification plus simples, de telle sorte que les résultats obtenus soient facilement interprétables. Un des objectifs de ces méthodes est que l’intervention humaine dans la phase d’entraînement soit minimale et qu’en même temps, les classes obtenues soient facilement interprétables.
C’est dans ce contexte, que ce chapitre procède à une comparaison raisonnée des algorithmes séquentiels existants, à savoir : la méthode LAMDA, des approches floues comme GK-Means, neuronales comme les réseaux de neurones à fonctions de base radial-RBF et des méthodes statistiques comme le discriminant linéaire. Une brève description des cinq méthodes employées pour la comparaison est donnée dans ce qui suit, avec tout d’abord les méthodes avec apprentissage supervisé, puis les méthodes avec auto-apprentissage.

Description des différents Méthodes

Méthodes avec Apprentissage Supervisé

Discriminant Linéaire – ACP

C’est la technique de classification la plus classique. Des travaux effectués sur la comparaison de méthodes de classification [LIM00][MIC94] et des travaux récents dans le cadre du diagnostic basé sur ces méthodes [MARI03][CAS03], concluent qu’il est important d’analyser le discriminant linéaire car dans plusieurs cas cette méthode a montré de très bonnes performances. Il s’agit d’un algorithme standard et qui est le plus utilisé dans différents systèmes de diagnostic industriel.
Le discriminant linéaire [FIS36] suppose une distribution normale des données avec des moyennes différentes. Ce type de distribution est justifié quand il y a une grande quantité de données. L’objectif est de trouver les hyperplans qui divisent l’espace des données. En principe, un hyperplan de dimension d (avec d égal au nombre de descripteurs) est tracé de telle manière qu’il passe par le milieu de la ligne qui unit les centres de chaque classe. L’algorithme cherche à obtenir des fonctions discriminantes paramétriques (hyperplans), à partir de la minimisation de l’erreur quadratique de classification. Par conséquent, c’est une technique qui requiert de connaître a priori les classes de l’ensemble des données d’entraînement.
Une fois la partition de l’espace obtenue, de nouvelles données peuvent être classées.

Les K plus proches Voisins (K- Nearest Neighbors)

C’est la première méthode de classification qui ne suppose pas un type de distribution des données et c’est la première à proposer une analyse de similitude entre des données en utilisant la distance entre elles [FIX51].
L’algorithme fait un calcul de distance entre tous les individus et chaque objet est classé dans le groupe où se trouvent ses K plus proches voisins. Les K plus proches voisins sont des individus de l’ensemble des données d’entraînement. Habituellement, la distance employée pour l’analyse est la distance euclidienne. Normalement le nombre des K voisins est un ou trois, mais cette valeur dépend de l’application [DUD01].

Réseaux de Neurones

Les réseaux de neurones ont montré depuis de nombreuses années de grandes capacités à résoudre des problèmes de classification pour le diagnostic de systèmes [LUR03]. Le traitement en parallèle et la distribution de l’information entre les neurones permettent d’avoir une grande robustesse et de diviser l’espace de données avec des fonctions non-linéaires.
La structure générale d’un réseau de neurones utilisée pour le diagnostic de systèmes, est généralement constituée de trois couches : une couche d’entrée, une couche cachée et une couche de sortie (Figure 2.1). Le nombre de neurones de la première couche correspond au nombre de descripteurs du problème (d=nombre de descripteurs de chaque individu xn) et le nombre de neurones de la couche de sortie correspond aux K classes.
yi(t) est l’état interne du neurone i et ui(t) est son état de sortie ou l’activation de sortie. L’apprentissage d’un réseau de neurones est basé sur l’ajustement des poids d’interconnexion wij entre les neurones. Pour l’entraînement, il y a différentes techniques d’apprentissage, qui se caractérisent par le besoin d’un grand nombre d’exemples d’entraînement et d’un temps de calcul souvent très long.
Normalement, les performances du réseau sont directement liées à la taille de la couche cachée. Pour la plupart des algorithmes d’apprentissage, il est nécessaire d’établir a priori la quantité de neurones de la couche cachée [LUR03] [BIS95]. Dans le cas du diagnostic, les algorithmes qui trouvent automatiquement cette valeur sont des plus intéressants; c’est le cas des réseaux de neurones à fonction de base radiale (RBF).
L’algorithme d’entraînement des RBF [POW87] détermine les poids de la couche cachée en utilisant la fonction de distance euclidienne. Les paramètres sont définis en utilisant les distances entre les données d’entraînement qui appartiennent à une même classe. L’algorithme d’apprentissage des RBF est plus rapide que ceux d’autres types de réseaux [CHE91], puisque leur apprentissage peut être réalisé à l’aide de la méthode des moindres-carrés ordinaires (MCO) et les RBF en général ont beaucoup moins de connexions que les réseaux multicouches, mais il sont aussi basés sur une minimisation de l’erreur d’entraînement, par conséquent il ont besoin d’un grand nombre d’itérations pour améliorer ses performances.
Pour la reconnaissance de nouvelles données, la classification est faite à partir de la structure de distribution des données d’entraînement.
Avec les RBF, pour obtenir une sortie non binaire, c’est-à-dire des valeurs entre 0 et 1, des fonctions de base radiale définies entre 0 et 1 (par exemple de type gaussienne) sont choisies pour les neurones de la couche cachée et les fonctions de la couche de sortie sont de type linéaire (voir Figure 2.1). La partition de l’espace correspond à un ensemble de fonctions non linéaires qui permettent d’obtenir des classes avec des formes très complexes.
Les applications des RNA dans le cas du diagnostic automatique montrent que grâce à la capacité de généralisation de cette technique, les résultats sont satisfaisants. Les inconvénients avec les RNA sont le temps d’apprentissage et la difficulté d’interprétation de la structure des classes, interprétation souvent nécessaire dans l’implémentation d’une technique de classification pour le diagnostic.

Arbres de Décision – CART

Les arbres de décision sont des techniques très employées dans les cas où il est important de trouver des règles afin de définir la classification. Les caractéristiques de la structure des arbres permettent une représentation interprétable des résultats.
Un arbre de décision correspond à une structure arborescente formée par des nœuds internes (unité de décision qui permet de déterminer le nœud suivant) et terminaux (lorsqu’il n’y a pas de nœud fils) reliés par des branches. Pour arriver à chaque nœud terminal, il y a une trajectoire unique qui débute avec le nœud racine. La trajectoire correspond à une règle de décision formée par une conjonction (ET) de plusieurs conditions de test.
Un arbre de décision divise l’espace des données en régions et associe à chacune un niveau ou une valeur qui caractérise les données du sous-espace.
Pour classifier en utilisant un arbre de décision, un objet se présente dans un nœud “racine” et en fonction du résultat d’une règle de décision effectuée par un nœud interne, est dirigé suivant la branche de l’arbre vers un des nœuds fils. Le processus est répété jusqu’à arriver à un nœud externe où une valeur ou un niveau est assigné à l’objet.
Dans les arbres de décision utilisés pour résoudre des problèmes de classification, chaque nœud externe a un niveau qui correspond à la classe de l’objet qui est analysé. Pour chaque objet à classer, il existe uniquement un chemin valable à travers l’arbre.
Les algorithmes les plus représentatifs des arbres de décision sont ID3 [QUI86], C4 et CART (Classification And Regression Trees) [LIM00] [JAN97] [LOP89].
CART est utilisé pour l’analyse de régression ou classification d’ensembles grands et complexes de données multi-variables [BRE84]. L’algorithme CART construit l’arbre en utilisant des partitions récursives. Lors de l’apprentissage, un premier arbre est créé en utilisant l’ensemble des données d’entraînement. L’algorithme cherche de manière récursive, les relations entre les variables pour obtenir une séquence optimale de divisions binaires, ce qui aboutit ainsi à un arbre très étendu. Ensuite l’arbre est réduit en tenant compte du principe de coût minimal de l’erreur.
Les arbres de décision permettent de travailler avec des données quantitatives et qualitatives. Pour les arbres de décision non flous, la classification est dite “dure” (un élément ne peut appartenir qu’à une seule classe), ce qui peut être un inconvénient surtout quand il s’agit de problèmes avec beaucoup de variables. En effet, un même élément peut être à la frontière de plusieurs classes sans que l’on ait cette information qui pourrait être très utile pour le diagnostic.

Méthodes avec Auto-Apprentissage

Méthodes de coalescence (clustering)

Ces algorithmes ont comme paramètre d’entrée le nombre de classes. Ils partagent l’ensemble de N objets en K groupes, ainsi la similarité à l’intérieur d’un même groupe est élevée mais faible entre les différentes classes. Pour ce faire, ces algorithmes itèrent en deux étapes, d’abord ils calculent les centres des groupes et deuxièmement ils assignent chaque objet au centre le plus proche. Chaque classe est caractérisée par le centre ou prototype et par ses éléments. Le prototype des classes est le point dans l’espace de dimension d (d correspond au nombre de descripteurs) où la somme des distances à tous les objets d’un même groupe est minimale.
La similarité est analysée au travers de la minimisation d’une fonction objectif qui est définie en fonction de la distance de chaque objet à l’élément prototype de chaque classe. La forme des groupes dépend du type de distance employée. Ces algorithmes fournissent une représentation géométrique des classes [BEZ05].
Parmi les différentes méthodes basées sur la distance, K-Means est sans nul doute l’algorithme le plus connu. Il effectue une séparation stricte de l’espace (c’est-à-dire chaque objet n’est associé qu’à une seule classe). La mesure de similarité utilisée est la distance, pour le calcul plusieurs mesures peuvent être utilisées (e.g. euclidienne, Mahalanobis, etc.), par conséquent la forme géométrique change en fonction de la mesure employée (e.g. pour le cas euclidien la géométrie des groupes est une hyper-sphère) [GEN07]. Une variante de K-Means est le Fuzzy K-Means (FKM) qui permet d’avoir un regroupement de type flou. FKM est un processus itératif qui permet d’obtenir comme résultat la matrice de partition floue (U=[µkn]) laquelle contient les degrés d’appartenance de chaque objet xn à chacune des K classes.
La fonction objectif sur laquelle est basée le FKM est formulée comme suit [BEZ81]: K N )m D k = 1 n = 1 kn nk J(X;μ,V) = ∑ ∑ ( μ 2 (2.2)
La mesure de distance D2nk est donnée par : 2 T − vk ) Dnk = (xn − vk ) A(xn (2.3)
Le plus souvent, la matrice A est la matrice identité, et dans ce cas on retrouve la définition de la distance euclidienne. V est le vecteur des centres ou des prototypes de chaque classe (vk). L’exposant de pondération (fuzziness) m (m>1) conduit à l’obtention d’une partition plus ou moins floue. Ce paramètre doit être choisi par l’utilisateur ainsi que le nombre K de classes.
Un autre algorithme de ce type, reconnu pour ses très bonnes performances, est le GK-Means [GUS92]. Cet algorithme utilise une norme adaptative de la distance, en obtenant des classes de géométrie hyper-ellipsoïdale avec des axes qui ne sont pas nécessairement parallèles aux axes de l’espace des données. Ceci constitue un avantage face à l’algorithme FKM parce que le GK-Means permet à chaque groupe d’adapter sa norme de distance en fonction de la structure topologique locale des données. Chaque groupe a une matrice de norme induite Ak qui permet d’obtenir la norme de distance D2nk propre à chaque classe.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction Générale
1. Surveillance et diagnostic de systèmes complexes
1.1 Introduction
1.2 Définition des systèmes complexes
1.3 La surveillance et le diagnostic dans le cadre de la supervision
1.3.1 Principes de la supervision
1.3.2 Théorie générale du diagnostic et de la surveillance
1.4 Techniques employées pour le diagnostic automatique
1.4.1 Méthodes basées sur des modèles
1.4.1.1 Méthodes basées sur des modèles quantitatifs
1.4.1.2 Méthodes basées sur des modèles qualitatifs
1.4.2 Méthodes basées sur des données historiques (fouille de données)
1.5 Diagnostic en utilisant des méthodes de classification
1.5.1 Phase d’entraînement ou apprentissage
1.5.2 Phase de reconnaissance
1.5.3 Méthodes d’apprentissage et de reconnaissance de formes utiles pour le diagnostic
1.6 Conclusion
2. Comparaison de méthodes de classification
2.1 Introduction
2.2 Contexte général des méthodes de classification basées sur la fouille de données
2.3 Description des différents Méthodes
2.3.1 Méthodes avec Apprentissage Supervisé
2.3.1.1 Discriminant Linéaire – ACP
2.3.1.2 Les K plus proches Voisins (K- Nearest Neighbors)
2.3.1.3 Réseaux de Neurones
2.3.1.4 Arbres de Décision – CART
2.3.2 Méthodes avec Auto-Apprentissage
2.3.2.1 Méthodes de coalescence (clustering)
2.3.3 LAMDA (Learning Algorithm for Multivariate Data Analysis)
2.3.3.1 Degré d’Appartenance Marginale – Fonctions MADs
2.3.3.2 Paramètres d’apprentissage
2.3.3.3 Degré d’Appartenance Globale – Fonction d’Agrégation Floue GAD
2.3.3.4 Similitude entre LAMDA et le Réseau de Neurones de type Perceptron
2.4 Comparaison des méthodes
2.4.1 Exemples
2.4.1.1 Critère d’évaluation
2.4.1.2 Résultats
2.4.2 Étude particulière des données qualitatives sur un exemple.
2.4.2.1 Résultats
2.5 Conclusion
3. Critères d’évaluation des partitions de l’espace de données
3.1 Introduction
3.2 Critères pour évaluer une partition de l’espace des données
3.3 Mesures pour évaluer les critères de qualité des partitions
3.3.1 Mesure de distance entre classes
3.3.2 Mesure de dispersion des classes
3.4 Indices d’évaluation de la qualité d’une partition
3.4.1.1 Indice de dissemblance entre partitions
3.4.1.2 Indices de qualité des partitions floues
3.4.1.3 Indice de qualité des partitions floues basé uniquement sur les degrés d’appartenance floue
3.5 Méthode d’optimisation des partitions
3.6 Conclusion
4. Applications de la méthode d’évaluation et d’optimisation des partitions floues
4.1 Introduction
4.2 Cas illustratifs avec données artificielles
4.2.1 Cas d’étude dans l’espace 2D
4.2.2 Cas d’étude dans l’espace 3D
4.3 Processus de production de propylène glycol.
4.3.1 Description du procédé.
4.3.2 Application de la méthode d’optimisation avec tous les descripteurs
4.3.3 Application de la méthode d’optimisation avec les descripteurs sélectionnés
4.4 Réaction d’Estérification utilisant la technologie “Open Plate Reactor”
4.5 Réaction du thiosulfate de sodium utilisant la technologie “Open Plate Reactor”
4.6 Conclusion
5. Conclusions et perspectives
Bibliographie