Dans cette thèse, on s’intéresse à l’estimation robuste de courbes moyennes ou totales de consommation électrique par sondage en population finie, pour l’ensemble de la population ainsi que pour des petites sous-populations, en présence ou non de courbes partiellement observées.
De nombreuses études réalisées à EDF R&D se basent sur l’analyse de courbes de consommation électrique moyennes ou totales, pour différents groupes de clients partageant des caractéristiques communes (par exemple des équipements électriques similaires ou un tarif commun). Ces estimations peuvent trouver de très nombreuses applications métier, que ce soit dans une optique de marketing et de connaissance client pour la direction commerciale de EDF ou dans le cadre de la gestion du réseau électrique par Enedis. Par exemple, dans une optique de connaissance client, ces analyses peuvent permettre de quantifier l’impact des équipements ou tarifs sur la consommation électrique, en comparant les courbes de consommation électrique de différents groupes de clients possédant différentes caractéristiques. En outre, dans une optique de prospective, l’étude de ces courbes moyennes peut permettre d’établir des scénarios d’évolution des consommations globales en fonction des évolutions des usages. Par ailleurs, dans le domaine de la gestion du réseau de distribution d’électricité, Enedis se doit d’assurer à tout moment l’équilibre entre offre et demande d’électricité; pour cela, il est nécessaire de savoir quelle quantité d’énergie a été consommée sur le réseau à chaque instant et, comme les consommations ne sont pas mesurées à un pas de temps fin sur l’ensemble du réseau pour l’ensemble des clients, il est nécessaire d’estimer les courbes de consommation à la maille de chaque fournisseur d’électricité.
Afin d’estimer les courbes de consommation électrique moyennes de nos différentes populations d’intérêt, nous disposons de panels de plusieurs milliers voire dizaines de milliers de clients, sélectionnés selon un plan de sondage aléatoire, et dont on mesure la courbe de consommation électrique individuelle globale (tous usages confondus) à un pas de temps demi-horaire pendant de longues périodes, souvent des années. On leur adresse éventuellement aussi un questionnaire concernant leurs caractéristiques socio démographiques, mais aussi celles de leurs logements et de leurs équipements et usages électriques. Enfin, on dispose en outre de variables explicatives associées provenant de la facturation (tarif, option et puissance souscrite, consommations annuelles).
État de l’art sur l’estimation par sondage pour des données fonctionnelles
Données fonctionnelles
L’analyse des données fonctionnelles est une branche de la statistique s’intéressant à l’étude de données de types courbes ou fonctions. Elle trouve des applications dans des domaines variés tels que la médecine (analyse de données d’électroencéphalogrammes par exemple), l’économie ou encore l’industrie (avec notamment la maintenance prédictive basée sur l’analyse de données de capteurs). Les premiers outils d’analyse de données fonctionnelles sont apparus dans les années 1970 (voir par exemple Deville (1974) ou Dauxois et al. (1982) mais se sont davantage développés dans les années 1990 et 2000 avec l’essor des capacités de traitement et de stockage des données et surtout la multiplication des données issues de capteurs dans différents domaines scientifiques et techniques. Les courbes de consommation électrique remontées par des compteurs communicants sont d’ailleurs un exemple typique de cette catégorie de données.
Le fait de traiter les courbes en tant que telles et non pas simplement par des méthodes de statistique multivariée a de nombreux avantages : cela permet d’exploiter les régularités des courbes et leur structure temporelle intrinsèque afin que les estimations des valeurs des courbes moyennes aux différents instants se consolident entre elles. De plus, cela permet d’éviter les problèmes de colinéarité que l’on rencontrerait en utilisant des méthodes multivariées sur les courbes discrétisées. Les principaux ouvrages de référence sur les données fonctionnelles sont Ramsay and Silverman (2005), Horváth and Kokoszka (2012) et Ferraty and Vieu (2006). Dans la suite de cette section, largement basée sur Ramsay and Silverman (2005), après avoir introduit quelques notations et explicité les spécificités du contexte des travaux EDF, on présente les principaux outils d’analyse des données fonctionnelles que nous utilisons dans le cadre de cette thèse pour adapter les méthodes usuelles de sondage à notre problématique : nous évoquons d’abord la question du passage en dimension finie avec notamment la projection des courbes sur des bases d’ondelettes, mais aussi l’Analyse en Composantes Principales Fonctionnelle qui est une méthode de réduction de dimension et enfin les modèles linéaires fonctionnels.
Application au contexte EDF
Dans le contexte EDF, les courbes considérées sont bien évidemment des courbes de consommation électrique, aussi appelées courbes de charge. Les courbes de charge totales et par abus de langage les courbes de charge moyennes sont aussi appelées « synchrones de consommation », ou tout simplement « synchrones ». De plus, la population U considérée est souvent une catégorie de clients présentant des caractéristiques communes (ensemble des clients résidentiels, ensemble des clients possédant un chauffage électrique, . . . ). Les valeurs des consommations électriques moyennes d’un groupe de clients à différents instants présentent bien évidemment des corrélations très fortes et de structures complexes (saisonnalités annuelles, hebdomadaires et infrajournalières, dépendance plus ou moins importantes aux températures extérieures,…) c’est pourquoi l’utilisation de méthodes d’analyse des données fonctionnelles apparaît ici judicieuse pour exploiter les fortes dépendances temporelles de notre problématique afin de tenter de gagner en précision. On remarque toutefois que, dans le cadre de certains cas d’applications tels que les mécanismes réglementaires, on souhaite en réalité estimer la valeur de la courbe moyenne non pas en chaque instant de l’intervalle [0,T] mais uniquement en chacun des instants de discrétisation 0 = t1 < … < tl < … < tL = T. On peut alors considérer que, en termes de finalité, notre problème relève plutôt de la statistique en grande dimension que de l’analyse des données fonctionnelles. L’aspect fonctionnel de notre problématique est dans ce cas un moyen et non une fin en soi (i.e. on utilise des méthodes issues de l’analyse des données fonctionnelles pour améliorer l’estimation de nos quantités d’intérêt que sont les vecteurs des valeurs des courbes moyennes ou totales de la population aux instants de discrétisation). Enfin, les courbes de consommation électrique que nous étudions sont souvent « chahutées », c’est pourquoi lorsque l’on souhaitera projeter des courbes dans un espace de dimension finie, on privilégiera l’utilisation de bases d’ondelettes à d’autres comme les bases de Fourier ou des B-splines par exemple.
Projection de courbes en dimension finie
La principale difficulté soulevée par l’analyse des données fonctionnelles réside dans le fait que l’on travaille sur des objets appartenant à un espace de dimension infinie. Une des premières étapes des méthodes d’analyse des données fonctionnelles va donc consister à se ramener à un espace de dimension finie, plus simple à appréhender et dans lequel on peut appliquer les outils classiques de statistique multivariée. Comme les instants de mesure sont identiques pour l’ensemble des unités de la population, la solution la plus simple pour cela est de travailler sur les vecteurs des L variables aléatoires correspondant aux valeurs de la courbe aux différents instants de discrétisation Y0i= (Yi(t1),…,Yi(tl),…,Yi(tL). Cependant, nous verrons que d’autres projections peuvent être plus pertinentes pour traduire les corrélations intertemporelles des consommations électriques.
Les techniques usuelles d’analyse de données fonctionnelles consistent en effet à projeter les courbes sur une base adéquate. Cela permet non seulement de se ramener à un problème de dimension finie mais également de réduire le bruit ou les erreurs de mesure potentielles en ne gardant que les caractéristiques les plus importantes de la courbe. Plus le nombre de fonctions de base est élevé, plus on se rapproche de la courbe mesurée mais plus on risque de conserver du bruit.
|
Table des matières
1 Introduction
2 État de l’art sur l’estimation par sondage pour des données fonctionnelles
2.1 Données fonctionnelles
2.1.1 Cadre de travail
Hypothèses et notations sur les données fonctionnelles
Application au contexte EDF
2.1.2 Projection de courbes en dimension finie
2.1.3 Réduction de dimension : Analyse en Composantes Principales fonctionnelle
2.1.4 Régression linéaire pour des données fonctionnelles
2.2 Sondages
2.2.1 Notations sur les sondages
2.2.2 Estimateur de Horvitz-Thompson
2.2.3 Estimateur de Horvitz-Thompson pour des données fonctionnelles
2.2.4 Prise en compte de variables explicatives
Au niveau de l’échantillonnage : sondage stratifié
Au niveau de l’estimation : estimateur par calage fonctionnel
Cas particulier du calage : estimateur de Hájek
Approche basée sur le modèle
2.2.5 Estimation de la variance sous le plan
Linéarisation en sondages
Bootstrap en sondages
3 Estimation par sondage de courbes moyennes ou totales de consommation électrique robuste aux unités influentes
3.1 Contexte et introduction
3.2 Robustesse en statistique
3.3 Biais conditionnel pour des courbes
3.4 Estimation robuste de la courbe totale
3.4.1 Estimation robuste de courbe totale, instant par instant
Démarche de construction d’estimateurs robustes de courbes totales, instant par instant Illustration sur des données réelles
Avantages et inconvénients de la méthode
3.4.2 Estimation robuste sur une base de projection
Analyse en Composantes Principales Sphériques
Des scores moyens à la courbe moyenne
Estimation sur la base de l’ACP sphérique : illustration sur des
données réelles
3.4.3 Troncature fonctionnelle basée sur la notion de profondeur
Notion de profondeur pour des données fonctionnelles
Modified Band Depth
Définition de profondeurs basées sur la projection en dimension
finie Troncature fonctionnelle à partir de la notion de profondeur
Illustration sur des données réelles
3.4.4 Proposition de nouveau critère pour le choix des constantes
d’ajustement
Nouveau critère pour l’estimation robuste instant par instant
Nouveau critère pour l’estimation robuste sur une base de projection
Nouveau critère pour l’estimation robuste par troncature fonctionnelle
3.5 Estimation d’erreur quadratique moyenne (EQM) pour les estimateurs
robustes de courbes
3.5.1 Estimateurs explicites d’erreur quadratique moyenne
Estimateurs explicites d’EQM pour l’estimation robuste instant
par instant
Estimateurs explicites d’EQM pour la troncature dans l’espace des
composantes principales
Estimateurs explicites d’EQM pour la troncature fonctionnelle
3.5.2 Estimateurs d’EQM par bootstrap populationnel
3.5.3 Estimateurs d’EQM par bootstrap généralisé
Construction des estimateurs non robustes dans les réplications
Estimation des biais conditionnels dans les réplications
Construction des estimateurs robustes dans les réplications
3.6 Application sur des jeux de données réelles
3.6.1 Présentation du jeu de données
3.6.2 Tests des estimateurs robustes de courbes moyennes
Protocole de test
Indicateurs de qualité
Résultats pour les estimateurs de courbe moyenne
3.6.3 Tests des estimateurs d’erreur quadratique moyenne
Procédure de test
Indicateurs de qualité
Résultats pour l’estimation d’erreur quadratique moyenne
3.7 Conclusions sur la robustesse
3.7.1 Conclusions méthodologiques
3.7.2 Cas d’application des méthodes robustes
3.7.3 Perspectives
4 Conclusion
Télécharger le rapport complet