Télécharger le fichier pdf d’un mémoire de fin d’études
Les distributions complexes elliptiques symétriques (CES)
Les distributions elliptiques symétriques (CES) ont été introduites par Kelker [64] et étudiées en profondeur par des auteurs tels que Cambanis [20] et Fang [36]. Deux très bonnes synthèses sont don-nées par les thèses de Frahm [38] et Mahot [71]. L’article [84] propose aussi une excellente synthèse et illustrent l’intérêt de considérer ce modèle dans des applications de traitement d’antenne (radar, sonar, localisation de source…).
La famille des distributions CES est très appréciée par les statisticiens, pour sa grande flexibilité et le fait qu’elle permette de représenter une multitude de distributions particulières, tout en ne dépendant que de peu de paramètres. Ces distributions permettent, en effet, de conserver une formalisation de la densité de probabilité similaire à – ou « généralisant » – la loi normale. Plus concrètement, les densités de probabilités considérées auront une forme de type :
Densité de probabilité gausienne ! Densité de probabilité elliptique symétrique f(z) / j j 1exp (z )H 1(z ) ! f(z) / j j 1g (z )H 1(z ) avec g une fonction appelée générateur de densité. S’affranchir de l’exponentielle, inhérente à la gaus-sienne, au profit d’une fonction générique g permet alors de modéliser des distributions à queues plus ou moins lourdes. Cette généralisation nécessite cependant plus de précisions pour être utilisable en pratique, ce qui sera l’objet des théorèmes de représentation détaillés dans cette section.
On rappelle que l’on considèrera uniquement des variables aléatoires circulaires (cf. définition 1.1.2.5). Les variables CES ne sont pas nécessairement circulaires, mais prendre en compte cette propriété conduit à une formalisation moins compacte et ne sert pas directement le propos de cette thèse. Nous renvoyons donc le lecteur aux références [84] [71] pour de plus amples précisions à ce sujet.
Définition 1.2.2.1 Fonction caractéristique d’un vecteur aléatoire suivant une distribution CES Un vecteur aléatoire z 2 CM à une distribution CES si sa fonction caractéristique est de la forme : pour une fonction : R + z(c) = exp jR cH cH c M (1.10).
R appelée générateur caractéristique, une matrice 2 S+ appelée matrice de dispersion et un vecteur 2 CM appelé centre de symétrie. On notera : z CE ( ; ; ) (1.11)
Le cas particulier des gaussiennes composées (CG)
La famille des gaussiennes composées (notée CG pour Compound Gaussian) forme une sous-classe importante des distributions CES. En effet, beaucoup de distributions CES classiques font partie de cette famille, mais pas toutes [88, 128]. Ces distributions, aussi appelée SIRVs [127], pour Spherically Invariant Random Vectors, ont beaucoup été étudiées par la communauté de Traitement du Signal, no-tamment en Radar [113, 51, 28, 32, 45]. L’idée principale est d’améliorer la modélisation du milieu en considérant que celui ci est localement gaussien, mais qu’il présente une variabilité spatiale de puis-sance, due par exemple, aux hautes résolutions. L’intérêt de cette modélisation est renforcée par une bonne correspondance avec des distributions empiriques de données réelles, comme en témoignent les nombreuses études : [58, 121, 123, 25, 26, 97, 44, 85]. Les CG suivent le théorème de représentation suivant [127] :
Définition 1.2.3.1 Représentation d’un vecteur aléatoire CG
Un vecteur aléatoire CG (ou SIRV) de matrice de dispersion et de moyenne est représenté par : d p x (1.21) avec x un vecteur aléatoire gaussien x CN (0; ) et une variable aléatoire positive et indépendante de x, appelée texture, de densité de probabilité f . On notera : z CG( ; ; f ) (1.22)
Ce Théorème de représentation est intéressant puisque conditionnellement à la texture, le vecteur aléatoire est simplement gaussien : (zj ) CN ( ; ) (1.23)
Au travers de cette représentation, il est aussi possible de faire directement le lien avec les distributions CES. Soit = AAH , une factorisation de telle que A 2 CM R, un vecteur aléatoire CG à la représentation stochastique suivante : d z = + p Ay avec y CN (0; IR). On rappelle alors l’identité U(R) d , conduisant alors à : = y=jjyjj2 d p d (R) z = + x = + RAU (1.24) (1.25)
Estimation de matrice structurées
Le problème du nombre limité d’échantillons n’est pas seulement lié aux questions d’existence d’es-timateurs. Il se pose en effet de manière récurrente en Traitement du Signal. Prenons un exemple concret : dans le cas gaussien, le filtre adaptatif construit avec la SCM requiert K ’ 2M pour atteindre des per-formances satisfaisantes 1. Si l’on considère un système radar utilisant 4 antennes et 64 impulsions, la taille des données est M = 256. Cela signifie que 512 échantillons sont théoriquement nécessaires pour effectuer un filtrage convenable. Bien évidemment, ce nombre conséquent d’échantillons n’est pas tou-jours disponible en pratique.
Afin de palier au problème, il est possible d’utiliser un a priori sur la matrice de covariance. La plupart des applications sont en effet associées à des structures particulières de matrice de covariance. Exploiter la connaissance de cette structure permet alors de réduire les degrés de liberté du problème d’estimation, ce qui se traduit par un traitement nécessitant moins de données secondaires.
Englobant les structures matricielles les plus utilisées, on peut citer les catégories suivantes :
– Les matrices appartenant à un groupe linéaire : S = f = PI aiBi ; ai 2 Rg avec une i=0 base de matrices fBig connue. Ce modèle décrit notamment les structures Toeplitz, circulantes, matrices bandes et les sommes de matrices de rang 1. La connaissance de la base fBig provient d’hypothèses sur le bruit ou sur la configuration du système (e:g: la géométrie de l’antenne [37]). Le problème d’estimation de la matrice de covariance pour ces structures revient alors à estimer les coefficients ai.
– Les matrices appartenant à un groupe symétrique [104] : FH = f j Hh HHh = ; 8 Hh 2 Hg avec H = fHhg un groupe multiplicatif de matrices orthogonales. Ce modèle décrit notamment les structures persymétriques [31, 87] et les matrices circulantes.
– Les matrices structurées au travers de leur spectre, c’est à dire dont les valeurs propres reflètent une structure particulière. Cette catégorie recouvre notamment les matrices de type : hermitienne plus identité (valeurs propres minorées), rang faible plus identité (valeurs propres égales à un après un certain indice) ainsi que les matrices ayant un conditionnement contraint.
Matrices structurées rang faible
Soit A une matrice hermitienne semi-définie positive, le théorème spectral énonce qu’elle admet l’unique décomposition suivante : M X A = cmvmvmH = VmCM VmH (1.60)
où fvmg est la base des vecteurs propres de A, concaténés en VM et vérifiant : VmHVm = IM (1.61)
et où cm 2 R+8m 2 [[1; M]] sont les valeurs propres correspondantes, avec CM = diag(fcmg). On adopte la convention c1 c2 : : : cM 0.
Le rang R d’une matrice est l’indice de sa dernière valeur propre non nulle. Une matrice A est dite de rang faible si R < M et peut donc se décomposer R Xr A = crvRvRH (1.62)
Inversement, si R = M, A est dite de rang plein, ou inversible.
Dans de nombreuses applications, le signal d’intérêt (parfois une perturbation) réside dans un sous-espace de dimension inférieure à la taille des données : sa matrice de covariance est donc de rang faible. Cette hypothèse se vérifie, par exemple, dans les problématiques d’estimation de direction d’arrivée [101]. C’est également le cas dans certaines applications où sont présents des brouilleurs ou interfé-rences [120]. On notera aussi que, pour les problèmes de démélange d’imagerie hyperspectrale, le si-gnal est modélisé comme la somme d’un nombre fini de contributions « sources » (les endmembers). Pour l’ensemble de ces applications peut donc raisonnablement considérer que le signal est composé d’une source (non nécessairement gaussienne) ayant une matrice de covariance rang faible c : R Xr c = crvrvrH (1.63)
Estimation de la matrice de covariance en contexte hétérogène rang faible : pro-blématique considérée dans cette thèse
Il est nécessaire d’insister sur le fait que l’approche précédemment évoquée ne reflète pas exactement le modèle réaliste que nous voulons considérer dans ces travaux. En effet, la vraisemblance contrainte de (1.68) correspond à un bruit CES ayant une matrice de covariance ayant une structure rang faible plus identité. Résoudre ce problème peut potentiellement conduire à un estimateur robuste aux diverses distributions.
Cependant un modèle plus réaliste correspond à des sources hétérogènes (CES ou CG) ayant une covariance c de rang faible, plus un bruit blanc gaussien indépendant : z = c + b (1.69)
où c CE(0; c; g) et b CN (0; IM ). La matrice de covariance totale du vecteur z observé tot = g c + IM est donc bien de structure rang faible.
Notons d’ores et déjà que la somme d’un CES et d’un bruit blanc gaussien ne peut pas s’exprimer simplement comme un CES et nécessite une étude à part entière. C’est pourquoi nous présenterons et considérerons la vraisemblance associée à ce modèle spécifique au cours des chapitres suivants. Pour tirer parti du théorème de représentation 1.2.3.1, nous nous limiterons néanmoins à la famille des CG pour modéliser les sources hétérogènes (modèle détaillé et justifié dans le chapitre suivant).
Premier algorithme : 2-Step approché
Relaxation au travers de variables indépendantes dkr = kcr
De prime abord, la vraisemblance initiale du modèle s’avère difficile à manipuler. Afin de palier les problèmes d’identifiabilité et de tractablité, nous avons donc envisagé dans un premier temps une relaxation du modèle en introduisant les variables dkr = kcr. Ces facteurs représentent la puissance du fouillis pour chaque réalisation k et direction vr. La vraisemblance relaxée apparaît alors comme : K R X X dk log f = r zkH vrvrH zk log(1 + drk) (2.16)
où les paramètres fdkrg sont considérés comme déterministes inconnus et positifs. Cette relaxation peut apparaitre plus « générale » puisqu’elle implique plus de degrés de libertés (R K au lieu de R + K). Cependant, ce modèle ne prend pas en compte le lien inhérent entre les dkr’s, ce qui peut conduire à une mauvaise estimation de ces paramètres. Ce problème sera discuté dans les sections suivantes.
Description de l’algorithme et propriétés
Ce premier algorithme visant à approcher l’EMV du modèle considéré est basé sur une approche 2-Step. Le principe général est de maximiser une vraisemblance relaxée (2.16) de manière alternée selon les paramètres d’intérêt fdkrg et fvrg. La relaxation considérée permet en effet d’obtenir une formule tractable de l’EMV des paramètres relaxés fdkrg. De plus, afin de recouvrer les vrais paramètres d’in-térêt, nous introduisons une méthode de régularisation « ad-hoc », conduisant à des estimateurs f kg et fcrg (qui ne sont donc pas des EMV). Nous vérifions a posteriori qu’alterner les étapes de maximisation-régularisation augmente bien la vraisemblance. Néanmoins, cet algorithme ne garantit pas d’atteindre un EMV car les paramètres régularisés f kg et fcrg ne sont pas des EMV.
Les deux étapes de l’algorithme sont décrites ci dessous et l’algorithme complet, résumant ces étapes est détaillé dans l’encadré 1 « MLE-2SD » (où D fait référence aux paramètres relaxés dkr).
Estimateurs considérés
Nous étudierons les estimateurs de la matrice de covariance suivants :
– SCM : la Sample Covariance Matrix, décrite section 1.3.2.
– FPE : l’estimateur du point fixe, décrit section 1.3.5. Pour les cas ou K < M, nous utiliserons le point fixe régularisé, décrit section 1.3.6. Comme il n’existe pas de règle de choix adaptatif « optimal » du paramètre de régularisation pour le contexte que nous considérons, nous utiliserons la valeur minimale requise pour son existence. L’estimateur considéré se définit donc comme le SFPE (pour Shrinkage FPE) utilisant le parmètre min = max(0; 1 K=M + ) (on fixe = 0:02).
– RC-ML : l’estimateur décrit section 1.4.3.
– MLE-2SD : le maximum de vraisemblance approché à l’aide de l’algorithme 1.
– MLE-2SR : le maximum de vraisemblance approché à l’aide de l’algorithme 2.
– MLE-MM1 : le maximum de vraisemblance calculé à l’aide de l’algorithme 3.
– MLE-MM2 : le maximum de vraisemblance calculé à l’aide de l’algorithme 4.
|
Table des matières
Introduction
1 Modélisation de bruit hétérogène et estimation de la matrice de covariance : état de l’art
1.1 Définitions et modèle des données
1.1.1 Modèle général
1.1.2 Définitions générales
1.2 Distributions de signaux
1.2.1 La distribution gaussienne
1.2.2 Les distributions complexes elliptiques symétriques (CES)
1.2.3 Le cas particulier des gaussiennes composées (CG)
1.2.4 Quelques exemples de distributions complexes elliptiques symétriques
1.3 Estimation de la matrice de covariance
1.3.1 Propriétés attendues des estimateurs
1.3.2 La Sample Covariance Matrix
1.3.3 La Normalized Sample Covariance Matrix
1.3.4 Le maximum de vraisemblance des distributions complexes elliptiques symétriques
1.3.5 Les M-estimateurs
1.3.6 Les Estimateurs Robustes Régularisés
1.4 Introduction de la problématique considérée
1.4.1 Estimation de matrice structurées
1.4.2 Matrices structurées rang faible
1.4.3 Estimation de covariance à structure rang faible : le cas gaussien
1.4.4 Estimation robuste de la matrice de covariance sous contrainte de structure rang faible : un problème ouvert
1.4.5 Estimation de la matrice de covariance en contexte hétérogène rang faible : problématique considérée dans cette thèse
1.5 Synthèse du chapitre 1
2 Estimation de la matrice de covariance en contexte hétérogène rang faible
2.1 Motivations
2.2 Modèle
2.3 Maximum de vraisemblance de la matrice de covariance du fouillis CG rang faible
2.4 Premier algorithme : 2-Step approché
2.4.1 Relaxation au travers de variables indépendantes dkr = kcr
2.4.2 Description de l’algorithme et propriétés
2.4.3 Étape 1 : Estimation des textures et valeurs propres via régularisation des EMV f ^ dkr
2.4.4 Étape 2 : Estimation du sous-espace fouillis pour textures et valeurs propres fixées
2.4.5 Dernière étape : Estimation de facteur d’échelle
2.5 Deuxième algorithme : 2-Step exact sous hypothèse de fort rapport fouillis à bruit
2.5.1 Seconde relaxation : hypothèse de fort rapport fouillis à bruit
2.5.2 Description et propriétés de l’algorithme
2.5.3 Étape 1 : Estimation des textures et valeurs propres grâce à la relaxation fort rapport fouillis à bruit
2.5.4 Étape 2 : Estimation du sous-espace fouillis pour textures et valeurs propres fixées
2.6 Algorithmes Majorization-Minimization
2.6.1 Motivations
2.6.2 Principe général des algorithmes MM par blocs
2.6.3 Algorithme MLE-MM1 – « direct block-MM »
2.6.4 Algorithme MLE-MM2 – « Eigenspace block-MM »
2.7 Simulations
2.7.1 Paramètres
2.7.2 Estimateurs considérés
2.7.3 Résultats
2.8 Synthèse du Chapitre 2
A Preuves du chapitre 2
A.1 Preuve du Théorème 2.3.1
A.2 Preuve du Théorème 2.4.1
A.3 Preuve du Théorème 2.5.1
B Article : Développement des Algorithmes MM1 et MM2
3 Estimation de projecteur sur le sous-espace fouillis en contexte hétérogène rang faible
3.1 Motivations
3.1.1 L’approximation rang faible et ses motivations
3.2 Relaxation sur l’orthogonalité entre sous-espaces : l’heuristique LR-FPE
3.3 Relaxation sur les valeurs propres : estimateur AEMV
3.3.1 Densité de probabilité de textures connue
3.3.2 Densité de probabilité de textures inconnue
3.3.3 Interprétations de AEMV
3.4 AEMV sous hypothèse de données contaminées
3.4.1 Problème de robustesse à la contamination : un bref état de l’art
3.4.2 Estimateur AEMV modifié
3.5 Simulations
3.5.1 Paramètres
3.5.2 Résultats
3.6 Synthèse du chapitre 3
C Preuves du chapitre 3
C.1 Preuve du théorème 3.3.1
4 Application au radar STAP
4.1 Présentation du système
4.1.1 Présentation du radar
4.1.2 Modèle des signaux
4.2 Application basée sur l’estimation de la matrice de covariance : détection
4.2.1 Problème considéré
4.2.2 Résultats de Simulations
4.2.3 Résultats sur données réelles
4.3 Application basée sur l’estimation du sous-espace fouillis : filtrage rang faible
4.3.1 Problème considéré
4.3.2 Résultats de simulations
4.3.3 Résultats sur données réelles
4.4 Synthèse du chapitre 4
Conclusion et perspectives
Télécharger le rapport complet