Estimation de la matrice de covariance en contexte hétérogène rang faible

Télécharger le fichier pdf d’un mémoire de fin d’études

Définitions et modèle des données

Modèle général

Comme évoqué précédemment, dans les applications de traitement de signal on s’intéresse très sou-vent à la distribution des données reçues. De manière très générale, les données sont modélisées par des vecteurs complexes z de taille M, z 2 CM : z = s + n (1.1) avec s le signal cible (ici considéré comme déterministe) et n le bruit additif (aléatoire) résultant de fluctuations de mesures ou servant à rendre compte des incertitudes de modèle. Selon l’application, diverses hypothèses sont faites sur ces deux quantités. Nous pouvons citer quelques exemples :

– Détection : Le problème de détection est de dire si oui ou non, un signal d’intérêt s est présent dans la mesure z. Le problème est généralement exprimé sous la forme d’un test d’hypothèse binaire 🙁

H0: z = n(1.2)

H1: z = s + n

– Estimation de paramètres du signal : dans ce type d’application, on dispose d’un modèle sur le signal s, généralement dépendant d’un vecteur de paramètres et noté s( ). Le problème est alors de retrouver ces paramètres au travers de mesures de s corrompue par le bruit n.

– Estimation de paramètres du bruit : dans cette application, c’est le bruit n qui dépend des para-mètres et est noté n( ). Le problème est alors de retrouver ces paramètres au travers d’obser-vations du bruit n. Dans ce cas de figure, on considère le plus souvent qu’aucun signal ne vient perturber la mesure de ce bruit, soit s = 0.

Avant d’aller plus loin, la section suivante définira quelques termes généraux dont nous aurons besoin pour poursuivre. Nous en profiterons pour poser dès à présent quelques hypothèses sur les types de signaux que nous considérerons au cours de cette thèse.

Définitions générales

Définition 1.1.2.1 Moyenne

La moyenne de la variable aléatoire considérée z est définie comme son espérance mathématique : = E(z) (1.3) elle est aussi appelée moment d’ordre 1, ou statistique d’ordre 1.

Dans de nombreuses applications la moyenne de la variable aléatoire observée est tout simplement considérée comme nulle : = 0. C’est d’ailleurs l’hypothèse que nous ferons tout au long de cette thèse car elle est vérifiée dans de nombreux cas pratiques, notamment pour les signaux ondulatoires (ondes sonores, électromagnétiques : : :). Cette hypothèse est aussi équivalente à celle de la moyenne connue, qui amène alors à considérer directement la variable recentrée z0 = z.

Cependant, notons tout de même que les extensions de résultats au cas de la moyenne non nulle ne sont pas toujours évidents et nécessitent un travail particulier [39].

Nous avons évoqué précédemment, les statistiques du second ordre des données reçues. De manière plus concrète, il s’agit de la matrice de covariance et de la matrice de pseudo-covariance. Avec ces deux paramètres, on est en mesure de décrire complètement les statistiques du second ordre d’un vecteur aléatoire complexe. Notons SM+ l’ensemble des matrices hermitiennes semi-définies positives de taille M M.

Circularité au second-ordre

Un vecteur z 2 CM est dit circulaire du second ordre si pcov(z) = 0

La circularité du second-ordre est une hypothèse très souvent exploitée en traitement de signal. En effet, le bruit additif est sans trop d’erreur, communément modélisé par une distribution circulaire. De plus, de nombreux signaux complexes synthétisés en communication sans fil ou en traitement d’antenne ont des propriétés de symétrie circulaire.

Dans ce document, les signaux seront toujours considérés comme circulaires. Pour se rapprocher des termes habituellement utilisés, nous utiliserons d’ailleurs simplement le terme de « circularité » lorsqu’il s’agit de circularité du second-ordre.

Afin de ne rien négliger, notons toutefois qu’il existe de nombreux exemples de signaux non-circulaires dans la littérature [103]. Prendre en compte cette non-circularité peut permettre d’améliorer considérablement les performances dans certaines applications [1], [21], [6]. Par ailleurs, des tests de circularité ont été établis pour vérifier si les signaux observés satisfont cette hypothèse : [5] chapitre 2, [78], [81]

Distributions de signaux

Hormis le modèle de signal considéré, c’est bien la distribution de ce signal qui joue un rôle clé puisque c’est elle qui conditionnera les méthodes à employer pour mener à bien le traitement désiré. Le choix de la distribution associée au bruit est donc crucial.

Classiquement, on utilise la distribution gaussienne, ou loi normale. Néanmoins, comme évoqué précédemment, cette modélisation peut s’avérer être une mauvaise approximation de la statistique des signaux observés. C’est pourquoi les distributions CES (famille très générale englobant la loi normale) ont attiré beaucoup d’intérêt dans la communauté de Traitement du Signal.

Les distributions complexes elliptiques symétriques (CES)

Les distributions elliptiques symétriques (CES) ont été introduites par Kelker [64] et étudiées en profondeur par des auteurs tels que Cambanis [20] et Fang [36]. Deux très bonnes synthèses sont don-nées par les thèses de Frahm [38] et Mahot [71]. L’article [84] propose aussi une excellente synthèse et illustrent l’intérêt de considérer ce modèle dans des applications de traitement d’antenne (radar, sonar, localisation de source…).

La famille des distributions CES est très appréciée par les statisticiens, pour sa grande flexibilité et le fait qu’elle permette de représenter une multitude de distributions particulières, tout en ne dépendant que de peu de paramètres. Ces distributions permettent, en effet, de conserver une formalisation de la densité de probabilité similaire à – ou « généralisant » – la loi normale.

On rappelle que l’on considèrera uniquement des variables aléatoires circulaires (cf. définition 1.1.2.5). Les variables CES ne sont pas nécessairement circulaires, mais prendre en compte cette propriété conduit à une formalisation moins compacte et ne sert pas directement le propos de cette thèse. Nous renvoyons donc le lecteur aux références [84] [71] pour de plus amples précisions à ce sujet.

Tout d’abord, remarquons que les distributions CES ne sont pas définies de manière unique. En effet, considérons les couple ( ; ) et ( 0; 0) tels que 0 = 2 et 0(t) = (t= 2) pour 2 R+ quel-conque : il y a un problème d’identifiabilité puisque ces deux couples définissent une même distribution. En termes de représentation stochastique, l’ambiguïté d’échelle se visualise aisément en remarquant qu’une constante peut être absorbée soit par la variable R, soit par le factorisation A. Afin de lever cette ambiguïté, il convient donc de fixer une convention préalable. Les conventions les plus répandues étant les normalisations E(R2) = 1 où Tr( ) = M (parfois j j = 1).

Le théorème de représentation stochastique permet une compréhension plus intuitive des distribu-tions CES : une réalisation peut se voir comme paramétrée par une direction et un module, tout deux aléatoires et indépendants. Cette représentation offre de plus un moyen simple de générer des vecteurs suivant une distribution CES. La distribution uniforme sur l’hypersphère peut s’obtenir depuis un vecteur gaussien y CN (0; IR) au travers le la relation U(R) = y=jjyjj2 variable aléatoire R, notée fR, est appelée fonction génératrice de distribution. C’est cette fonction qui caractérise une famille particulière de distributions CES. Elle peut être reliée directement au générateur caractéristique [84]. Comme nous allons le voir, fR peut aussi être directement reliée à la densité de probabilité de la variable z, si celle ci existe. En effet, de la définition au travers de la Fonction Carac-téristique , il ne ressort pas directement que la variable z ait une densité de probabilité. Cette dernière existe si est de rang plein et que la variable R est absolument continue.

Le cas particulier des gaussiennes composées (CG)

La famille des gaussiennes composées (notée CG pour Compound Gaussian) forme une sous-classe importante des distributions CES. En effet, beaucoup de distributions CES classiques font partie de cette famille, mais pas toutes [88, 128]. Ces distributions, aussi appelée SIRVs [127], pour Spherically Invariant Random Vectors, ont beaucoup été étudiées par la communauté de Traitement du Signal, no-tamment en Radar [113, 51, 28, 32, 45]. L’idée principale est d’améliorer la modélisation du milieu en considérant que celui ci est localement gaussien, mais qu’il présente une variabilité spatiale de puis-sance, due par exemple, aux hautes résolutions. L’intérêt de cette modélisation est renforcée par une bonne correspondance avec des distributions empiriques de données réelles, comme en témoignent les nombreuses études : [58, 121, 123, 25, 26, 97, 44, 85].

Quelques exemples de distributions complexes elliptiques symétriques

Cette section donne quelques exemples de distributions CES. Bien sûr, nous ne détaillerons pas toutes les lois pouvant être couvertes par cette formalisation. On notera cependant que de nombreuses distributions usuelles sont incluses dans cette famille, par exemple : la loi normale, la loi de Laplace, la loi de Student t, la loi de Weibull, la loi de Cauchy: : : L’expression de ces lois sous forme de distributions CES ou de CG (ainsi que d’autres exemples) peut se trouver dans la synthèse [84].

Estimation de la matrice de covariance

Nous introduisons dans cette section le problème majeur considéré dans cette thèse : l’estimation de la matrice de covariance. Ce problème est fondamental et apparaît dans de nombreuses applications. En effet, la plupart du temps, la matrice de covariance du signal est inconnue et doit donc être estimée en vue d’effectuer les traitements voulus.

Classiquement, on dispose de K échantillons zk; k 2 [[1; K]], appelées aussi données secondaires, que l’on assume indépendantes et identiquement distribuées (i:i:d:) et ayant une statistique d’ordre 2, (covariance ou dispersement), inconnue. Le problème est alors d’estimer la vraie matrice au travers de ces observations. L’estimateur, noté ^ , devant idéalement être le plus « précis » possible (selon un critère à définir).

Avant tout, effectuons un rappel des précédentes hypothèses (évoquées au cours des définitions) :

– Le moment d’ordre un de la distribution observée sera considéré comme nul (ou connu).

– Les signaux considérés sont circulaires à l’ordre 2, c’est à dire, ayant une matrice de pseudo-covariance nulle.

– Nous nous limiterons aux distributions CES dont la densité de probabilité existe.

Cet estimateur est facile à mettre en œuvre et a longtemps été utilisé dans la plupart des applications. En effet, dans le cas d’échantillons gaussiens, les performances de la SCM sont parfaitement connues, celle-ci est non-biaisée, consistante et suit une loi de Wishart [63] (gaussienne à distance finie). Cet esti-mateur est de plus efficace en termes d’erreur quadratique moyenne : il atteint la borne de Cramér-Rao.

Si la SCM est utilisée avec des échantillons issus d’une distribution CES (non nécessairement gaus-siens), sous condition que la matrice de covariance existe, la SCM conserve toujours ses propriétés de non biais, consistance ainsi que la gaussianité asymptotique, ceci grâce au théorème de la limite centrale.

Cependant les performances de la SCM peuvent être fortement dégradées à distance finie quand la distribution des échantillons est à queue lourde ou en présence des données aberrantes, même à faible pourcentage (comme illustré dans [71]). C’est pourquoi l’on se tourne désormais vers des estimateurs plus robustes à ces conditions.

La NSCM est donc indépendante de la loi de R (ou du générateur g) et se comportera identiquement au cas gaussien quelle que soit la distribution initiale des échantillons.

De part sa robustesse aux différentes distributions la NSCM semble intéressante. De plus, les perfor-mances asymptotiques de la NSCM sont connues : ses moment d’ordre un et deux ont été calculés dans [11]. Néanmoins, cet estimateur n’est pas sans défaut puisque s’avère être biaisé, ce qui peut conduire à de mauvaises performances des traitements s’appuyant dessus [46, 48, 50]
On remarque que les conditions M1 et M2 imposent une forme particulière sur la fonctionnelle . La condition M3 impose aussi K > M car 0 P2M (f0g) < 1 m=K. Cependant M3 est aussi une condition sur la « diversité spatiale » de l’ensemble des données secondaires. Si K = 1, M3 implique que ces données ne sont pas contenues dans un sous-espace de dimension inférieure à M (dans le cas où la matrice de covariance est de rang plein, la condition impose directement que le nombre de données K>M).

Les M-estimateurs

Les M-estimateurs ont été proposés comme estimateurs robustes de la matrice de covariance dans

[74]. Beaucoup étudiés dans la littérature statistique pour le cas réel [55, 65, 115, 116, 117, 118, 75], leur extension au cas complexe a été notamment considéré dans [80, 89, 79, 84]. Ces estimateurs ont été un sujet de recherche très actif au cours des dernières années pour des applications de Traitement du Signal comme l’estimation de direction d’arrivée, la détection radar [32, 45, 71] ou hyperspectrale [40, 41, 39], l’analyse en composantes indépendantes [79], ainsi que de nombreuses autres applications telles que l’optimisation de protfolio [38].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Modélisation de bruit hétérogène et estimation de la matrice de covariance : état de l’art
1.1 Définitions et modèle des données
1.1.1 Modèle général
1.1.2 Définitions générales
1.2 Distributions de signaux
1.2.1 La distribution gaussienne
1.2.2 Les distributions complexes elliptiques symétriques (CES)
1.2.3 Le cas particulier des gaussiennes composées (CG)
1.2.4 Quelques exemples de distributions complexes elliptiques symétriques
1.3 Estimation de la matrice de covariance
1.3.1 Propriétés attendues des estimateurs
1.3.2 La Sample Covariance Matrix
1.3.3 La Normalized Sample Covariance Matrix
1.3.4 Le maximum de vraisemblance des distributions complexes elliptiques symétriques
1.3.5 Les M-estimateurs
1.3.6 Les Estimateurs Robustes Régularisés
1.4 Introduction de la problématique considérée
1.4.1 Estimation de matrice structurées
1.4.2 Matrices structurées rang faible
1.4.3 Estimation de covariance à structure rang faible : le cas gaussien
1.4.4 Estimation robuste de la matrice de covariance sous contrainte de structure rang faible : un problème ouvert
1.4.5 Estimation de la matrice de covariance en contexte hétérogène rang faible : problématique considérée dans cette thèse
1.5 Synthèse du chapitre 1
2 Estimation de la matrice de covariance en contexte hétérogène rang faible
2.1 Motivations
2.2 Modèle
2.3 Maximum de vraisemblance de la matrice de covariance du fouillis CG rang faible
2.4 Premier algorithme : 2-Step approché
2.4.1 Relaxation au travers de variables indépendantes dkr
2.4.2 Description de l’algorithme et propriétés
2.4.3 Étape 1 : Estimation des textures et valeurs propres via régularisation des EMV
2.4.4 Étape 2 : Estimation du sous-espace fouillis pour textures et valeurs propres fixées
2.4.5 Dernière étape : Estimation de facteur d’échelle
2.5 Deuxième algorithme : 2-Step exact sous hypothèse de fort rapport fouillis à bruit
2.5.1 Seconde relaxation : hypothèse de fort rapport fouillis à bruit
2.5.2 Description et propriétés de l’algorithme
2.5.3 Étape 1 : Estimation des textures et valeurs propres grâce à la relaxation fort rapport fouillis à bruit
2.5.4 Étape 2 : Estimation du sous-espace fouillis pour textures et valeurs propres fixées
2.6 Algorithmes Majorization-Minimization
2.6.1 Motivations
2.6.2 Principe général des algorithmes MM par blocs
2.6.3 Algorithme MLE-MM1 – « direct block-MM »
2.6.4 Algorithme MLE-MM2 – « Eigenspace block-MM »
2.7 Simulations
2.7.1 Paramètres
2.7.2 Estimateurs considérés
2.7.3 Résultats
2.8 Synthèse du Chapitre 2
A Preuves du chapitre 2
A.1 Preuve du Théorème 2.3.1
A.2 Preuve du Théorème 2.4.1
A.3 Preuve du Théorème 2.5.1
B Article : Développement des Algorithmes MM1 et MM2
3 Estimation de projecteur sur le sous-espace fouillis en contexte hétérogène rang faible
3.1 Motivations
3.1.1 L’approximation rang faible et ses motivations
3.2 Relaxation sur l’orthogonalité entre sous-espaces : l’heuristique LR-FPE
3.3 Relaxation sur les valeurs propres : estimateur AEMV
3.3.1 Densité de probabilité de textures connue
3.3.2 Densité de probabilité de textures inconnue
3.3.3 Interprétations de AEMV
3.4 AEMV sous hypothèse de données contaminées
3.4.1 Problème de robustesse à la contamination : un bref état de l’art
3.4.2 Estimateur AEMV modifié
3.5 Simulations
3.5.1 Paramètres
3.5.2 Résultats
3.6 Synthèse du chapitre 3
C Preuves du chapitre 3
C.1 Preuve du théorème 3.3.1
4 Application au radar STAP
4.1 Présentation du système
4.1.1 Présentation du radar
4.1.2 Modèle des signaux
4.2 Application basée sur l’estimation de la matrice de covariance : détection
4.2.1 Problème considéré
4.2.2 Résultats de Simulations
4.2.3 Résultats sur données réelles
4.3 Application basée sur l’estimation du sous-espace fouillis : filtrage rang faible
4.3.1 Problème considéré
4.3.2 Résultats de simulations
4.3.3 Résultats sur données réelles
4.4 Synthèse du chapitre 4
Conclusion et perspectives