Réseau Anderson sous EMTP
L’idée
En utilisant la méthode de centre d’inertie, les simulations effectuées sont au préalable manuellement classées stables et instables. Pour les simulations stables, la variable à prédire de chaque individu et pour chaque générateur est définie à 0 alors que pour les cas instables celle-ci est définie à 1. Les individus instables avant la fin du court-circuit sont ignorés. Le modèle de prédiction est ensuite entraîné à classifier les cas individus après individus. Appliqué en temps réel, après un court-circuit, chaque nouvel individu échantillonné est classé par le modèle de prédiction dans un état stable ou instable jusqu’à ce qu’une décision d’ouverture des disjoncteurs soit prise.
L’élagage de l’arbre
Le sur-apprentissage consiste à mémoriser les liens entre la variable prédictive et la variable à prédire au lieu de comprendre et de généraliser. Dans le cas de notre arbre de décision, cela signifie que notre arbre de décision est trop grand et celui-ci épouse les fluctuations de l’échantillon d’apprentissage comme illustré dans la figure suivante.
La ligne verte correspond à un sur-apprentissage des données. Le taux d’erreur de classification est fiable, mais en contre partie, le modèle est complexe et il n’est plus capable de généraliser. La ligne noire est un bon compromis entre un modèle trop complexe et un modèle trop simple. Pour un arbre de décision, le principe d’élagage détermine le juste compromis d’un modèle. Concrètement, cela signifie que les noeuds terminaux trop spécifiques sont regroupés et généralisés dans des noeuds plus hauts dans la hiérarchie de l’arbre. Après avoir entraîné un arbre de décision et mesuré son taux d’erreur (courbe bleue) en fonction du nombre de branches de celui-ci, il faut ensuite le tester avec l’ensemble de test et déterminer l’erreur de test en fonction de la complexité. Comme illustré dans la figure suivante, la ligne pointillée représente le minima de l’erreur de test (courbe rouge) et par conséquent, la taille idéale de l’arbre.
ADABoost
Cette méthode utilise des règles simples pour faire une approximation des fonctions complexes. En effet, son principe est d’agréger ensemble une multitude de faibles hypothèses prédictives faites sur l’ensemble de données afin d’en créer une plus forte [10]. Pour le cas des arbres de décision, l’algorithme ADABoost construit une multitude de petits arbres de décision qui à eux seuls ont une capacité de prédiction faible, mais, mis ensemble, ceux-ci gagnent en performance. Au départ, tout l’ensemble d’apprentissage se voit distribuer un poids égal. Après avoir trouvé une hypothèse forte, l’algorithme augmente le poids des exemples ne satisfaisant pas 29 à l’hypothèse précédente et celui-ci cherche une autre hypothèse plus faible répondant au mieux au reste de l’ensemble et ainsi de suite. La prédiction finale est faite en pondérant les résultats des petits arbres.
ADTree Les arbres de décision alternatifs, ou ADTrees, offrent la lisibilité d’un arbre de décision classique jumelé aux bénéfices apportés par la méthode de boosting et contrairement aux arbres de tyle Adaboost, les ADTrees sont très rapides même sur une grande base de données. Leur principal désavantage est qu’ils ne supportent que des variables à prédire à deux classes. À la différence d’un arbre classique, les noeuds de prédiction peuvent être suivi d’un autre noeud de décision en alternance, d’où le nom arbre de décision alternatif. Après qu’un individu soit inséré dans le noeud racine, on lui comptabilise un score initial qui est le biais. Par la suite, une variable est testée et le score dans le noeud de prédiction est ajouté au score initial. S’il y a un autre noeud de décision après le noeud, l’algorithme teste la condition suivante et continue ainsi jusqu’au noeud feuille. Lorsque l’individu a atteint le noeud final, la prédiction de la classe est prise en comparant la somme des scores obtenus dans les noeuds de prédiction à +1 et à -1. Si le score est positif, telle décision est prise, sinon, c’est l’autre.
Forêt aléatoire
La méthode de random forest, ou forêt aléatoire, développée par Breiman [3] repose sur 3 principes soit : les arbres de décisions conventionnels, les méthodes de bagging ainsi qu’un sous-ensemble de variables prédictives aléatoires. D’abord, il faut échantillonner, avec remplacement, un nombre d’individus égal à l’ensemble d’apprentissage, soit n. Cette méthode est appelée bagging, ou Bootstrap Aggregating. Par la suite, un arbre de décision est construit sur cet échantillon, dans lequel un nombre M de variables aléatoires est utilisé dans chaque noeud de décision. Le nombre de variable M dépend du nombre total de variable d’entrée XP et est calculé par la formule suivante:
Cette opération est refaite afin de construire B arbres et la prédiction finale pour une entrée est la moyenne, dans le cas d’une régression, ou un vote dans le cas d’une classification parmi les B arbres. Cette méthode offre d’excellentes performances car elle permet de maintenir une variance constante dans tout l’ensemble de données. Malheureusement, étant donné que B arbres de décision doivent être construits, cette méthode est très lente et très gourmande en ressources informatiques. De plus, cette méthode n’est pas intuitive comme un arbre de décision classique.
Courbe ROC
La courbe ROC où Receiver Operating Caracteristic – Caractéristique de Fonctionnement du Récepteur est un outil inventé pendant la seconde guerre mondiale et servait à montrer la séparation d’un signal avec le bruit. Appliquée à notre cas, la courbe ROC nous indique l’indice de performance d’un modèle en comparant le taux de faux positif en abscisse et la sensibilité en ordonné. Cette courbe est obtenue en faisant varier le seuil de score. Pour chaque pas de score, une matrice de confusion est créée et le taux de faux positif et la sensibilité sont reportés sur le graphique [9]. Si pour chaque pas de seuil, le taux de faux positif est égal à la sensibilité et la réponse du modèle sera aléatoire. Ceci correspond à la diagonale du graphique précédent. Idéalement, pour un score très faible, il faut obtenir le maximum de sensibilité et un minimum de taux de faux positif, ce qui correspond à un point (0,1) sur l’image précédente. Pour comparer différents modèles l’un à l’autre, la matrice de confusion nous donne plusieurs coefficients de performances à comparer, tel que par exemple le taux de faux-positif ou la spécificité. La courbe ROC, quant à elle, grâce à son aire sous la courbe AUC (Area Under the Curve), centralise toutes ces données en un seul nombre compris de 0 à 1.
• 0.5 – si le modèle a une réponse aléatoire ;
• 1 – s’il s’agit d’un modèle parfait.
Linear Forward Selection
L’algorithme utilise une méthode filtre pour classer les N variables en fonction de leur pertinence. Par la suite, seules les k meilleures variables sont utilisées comme entrées à l’algorithme de sélection linéaire et à chaque boucle, la variable la plus intéressante est retirée. Il est aussi possible de garder k constant en ajoutant à chaque fois une variable restante de N-K. Cette méthode offre l’avantage de filtrer au préalable un grand nombre de variables et par conséquent de limiter le nombre de boucles dans l’algorithme de recherche. Une extension à cet algorithme s’appelle Subset Size Forward Selection. Il effectue à l’intérieur de l’algorithme une validation croisée et, dans chaque échantillon, l’algorithme effectue une Linear Foreward Selection afin de déterminer le meilleur sous-ensemble. Finalement, une Linear Forward Selection est effectuée dans tout l’ensemble de données afin de déterminer la taille du sous-ensemble optimal..
|
Table des matières
Introduction
1.Introduction théorique
1.1 Notation et concepts
1.2 L’idée
1.3 Arbre de décision classique
1.3.1 Principe général
1.3.2 Critères de segmentation
1.3.3 L’élagage de l’arbre
1.4 Technique de boosting
1.4.1 ADABoost
1.4.2 ADTree
1.5 Forêt aléatoire
1.6 Évaluation du modèle
1.6.1 Matrice de confusion
1.6.2 Courbe ROC
1.7 Sélection de variables
1.7.1 Filtre
1.7.2 Wrapper
1.7.3 Algorithme de recherche
2.Réseau de test
2.1 EMTP-RV
2.2 Le réseau Anderson
2.3 Réseau Anderson Sous EMTP
2.3.1 Description du réseau modélisé
2.4 Simulations
2.4.1 Load-Flows
2.4.2 Temporel
2.4.3 Fichier DWJ
3.Exploration des données
3.1 Importations des données sous MATLAB
3.2 Simulations non-terminées
3.3 Tri des simulations stables et instables
3.3.1 Introduction théorique au centre d’inertie
3.3.2 Critères d’instabilité
3.3.3 Application sur l’ensemble de données
3.3.4 Performances de discrimination
3.3.5 Vecteur Status
3.4 Ajout de nouvelles variables
3.4.1 Phi et Cosinus Phi
3.4.2 SCV et dSCV/dt
3.4.3 Fréquence inter-barres et fréquence filtrée
3.5 Création des différents ensembles
3.6 Exportation des données
4.Modélisation et évaluation du prédicteur
4.1 KNIME
4.2 Baisse de la fréquence d’échantillonage
4.2.1 C4.5 Pruned
4.2.2 C4.5 Unpruned
4.2.3 CART Pruned
4.2.4 CART Unpruned
4.2.5 ADABoost
4.2.6 ADTree
4.2.7 10 forêts aléatoires
4.2.8 100 forêts aléatoires
4.2.9 Résumé et analyse
4.3 Réduction du nombre de variables
4.3.1 CFS – Best First
4.3.2 CFS – Rank Search
4.3.3 Sym – FCBF
4.3.4 Consistency – Best First
4.3.5 Consistency – Rank Search
4.3.6 Résumé du nombre de variables slectionnées
4.3.7 Performances de prédiction
4.4 Validation
4.4.1 Générateur 1
4.4.2 Générateur 2
4.4.3 Générateur 3
4.4.4 Générateur 4
4.5 Réduction du taux de FP
Conclusion
Perspectives de recherches
Bibliographie
Annexe 1
Annexe 2
Annexe 3
Annexe 4
Annexe 5
Annexe 6
Télécharger le rapport complet