Télécharger le fichier pdf d’un mémoire de fin d’études
Ré-identification par caractéristiques biométriques
Biométrie : Le mot biométrie signifie littéralement « mesure du vivant », et désigne dans un sens très large l’étude quantitative des êtres vivants. Parmi les principaux domaines d’application de la biométrie, on peut citer l’agronomie, l’an-thropologie, l’écologie et la médecine.
L’usage de ce terme se rapporte de plus en plus à l’usage de ces techniques à des fins de reconnaissance, d’authentification et d’identification. Le Petit Robert la définit comme une « Science qui étudie à l’aide de mathématiques (statistiques, probabilités) les variations biologiques à l’intérieur d’un groupe déterminé ».
En Vision par Ordinateur, et plus particulièrement en vidéosurveillance, les techniques de biométrie classiquement utilisées reposent sur une reconnaissance faciale. Toutefois, ces méthodes requièrent des conditions d’acquisition partic-ulièrement contraintes comme une résolution importante du visage, une vue de face pour les méthodes 2D, etc. Des états de l’art récents sur ces méthodes sont présentés dans [Jafri et Arabnia, 2009, Germa et al., 2009]. La figure 2.1 illus-tre ce contexte applicatif à travers le portique destiné aux aéroports élaboré par la firme Morpho. Herold et al. présentent dans [Herold et al., 2011] une technique de suivi de visage en 3D au sein du portique, à des fins d’identification faciale. L’un des pré-requis est que la personne regarde la caméra. Le passage dans un portique étroit rend cette tâche plus aisée.
L’analyse de démarche [Kim et al., 2008] fait aussi partie des caractéristiques biométriques. Toutefois, il s’agit là d’investigations assez récentes, et difficilement applicables aux réseaux de caméras, ne supposant aucune collaboration de la part des usagers observés (contrairement au passage dans un portique tel que celui présenté en figure 2.1).
Dans notre contexte applicatif, la ré-identification intervient dans un réseau, i.e. entre plusieurs caméras aux réponses photométriques différentes et déployéees sur des lieux différents, donc avec une pose et un fond différents. De plus, l’environ-nement est beaucoup moins contraint. Il est en général très peu probable d’obtenir des images de visages fronto-parallèles, ou d’être en mesure de reconstruire des visages en 3D, nos caméras d’ambiance ayant un large champ de vue. Pour toutes ces raisons, les techniques de biométrie telles que la reconnaissance faciale ou l’ analyse de démarche sont donc écartées de notre étude.
Au delà de la biométrie : positionnement du problème
Ayant écarté les approches du type « biométrie à la volée » pour leur inadéqua-tion à notre problème, les verrous pour notre application demeurent toutefois :
⊲ comment décrire un individu pour le distinguer de ses semblables ? On retrouve l’un des problèmes auxquels fait face le MOT. Savoir identifier les personnes est un cas général de l’association de données du MOT.
⊲ comment intégrer dans cette description une robustesse aux changements de point de vue et à la réponse photométrique (capteurs différents) ?
Les attributs de description classiquement utilisés pour caractériser un indi-vidu en REID [Gray et al., 2007] sont proches de ceux utilisés en MOT, avec les distributions couleurs, introduites pour le suivi par [Pérez et al., 2002, Nummiaro et al., 2003] et la texture, e.g. au travers des points d’intérêt du traqueur KLT [Shi et Tomasi, 1994].
Au-delà de la description, le choix de la région ainsi décrite est aussi très im-portant. En effet, une distribution couleur perd la notion de spatialité des pixels. Décrire plusieurs régions par des distributions couleurs indépendantes augmente la précision de la description [Pérez et al., 2002]. Une autre solution consiste à décrire l’information par des distributions calculées dans un espace à cinq dimen-sions associant les trois canaux couleurs, e.g. RGB, aux positions x et y des pixels considérés. Ainsi la distribution modélise de manière conjointe la distribution de couleurs et sa répartition spatiale. Birchfield et Rangarajan proposent une version discrète de type histogramme étendu (appelé spatiogrammes par les auteurs) dans [Birchfield et Rangarajan, 2005] et Dickinson et al. modélisent ceci par des mix-utre de gaussiennes dans [Dickinson et al., 2009]. Nous verrons dans la suite que les travaux sur la ré-identification favorisent les modèles externalisant la localisa-tion des signatures calculées. Ceci s’explique en partie par le fait que les approches basées sur de l’apprentissage statistique nécessitent des caractéristiques simples et nombreuses (e.g. les classifieurs faibles pour Adaboost [Freund et Schapire, 1995]).
Un problème de rang : focalisation sur la ré-identification entre deux caméras
Lorsque l’on considère la ré-identification au sein d’une paire de caméras, le problème se définit classiquement comme : retrouver la bijection existant entre les deux ensembles d’observations issus des deux caméras. L’hypothèse sous-jacente est celle du « closed world », selon laquelle les caméras observent les mêmes personnes. Cette hypothèse est généralement réaliste, mais impacte les conditions d’acquisitions des données, ou d’installation des caméras, e.g. avec une caméra surveillant l’unique entrée d’un bâtiment, et permettant de constituer une base des personnes présentes.
C’est en 2006, avec les travaux de Gheissari et al. dans [Gheissari et al., 2006] que le communauté Vision commence véritablement à définir le problème comme tel. Ces derniers proposent deux signatures dédiées ré-identification, s’appuyant sur une segmentation en triangle de la silhouette. Le focus est ici mis sur une bonne localisation des signaux à comparer. Par ailleurs et principalement, il s’agit des premiers travaux introduisant les caractéristiques d’appariements cumulées (CMC pour « Cumulative Match Characteristic ») pour évaluer les performances. Ces ou-tils sont issus du domaine de la biométrie, où l’on cherche à quantifier la justesse d’appariements R-R entre deux ensembles de cibles segmentées a priori, appelés galerie et requêtes.
Ré-identification entre paires de caméras : méthodes supervisées
Lorsque l’on se focalise sur une paire de caméras, il devient envisageable de disposer d’un ensemble de paires d’images mises en correspondance a pri-ori, i.e. des paires vérité terrain pour lesquelles le problème de la ré-identification est résolu. Disposer d’une telle base labellisée permet de recourir à un apprentis-sage. Deux stratégies d’apprentissage supervisé sont à distinguer dans la littéra-ture : d’abord, celui d’une fonction de transfert colorimétrique pour la paire de caméras concernées, puis celui d’un modèle de description construit par appren-tissage statistique pour être spécifiquement invariant entre ces deux caméras (que nous pouvons voir comme la généralisation du premier).
Fonction de transfert colorimétrique entre caméras
Dans [Porikli, 2003], Porikli propose une méthode initiale de calibration col-orimétrique entre différentes caméras qu’il nomme « Brightness Transfer Function » (BTF). Il suggère que le changement d’illumination entre les vues peut être mod-élisé par une matrice de corrélation entre les histogrammes couleurs des deux im-ages à mettre en correspondance. Il n’y a pas de changement de pose entre les deux vues, seulement d’illumination. La matrice répertorie les distances entre les valeurs des cellules des histogrammes couleur. Le calcul du chemin de coût minimal d’un coin de la matrice à l’autre fournit la fonction de transfert. Pour des images RGB, la méthode calcule une fonction par canal couleur.
Gilbert et al. utilisent aussi des matrices de corrélation et étendent dans [Gilbert et Bowden, 2006] ce concept en incorporant une méthode d’apprentissage en ligne pour mettre à jour les changements d’illumination entre les caméras. Toutefois, leur méthode se base sur une bonne initialisation de la fonction de transfert, et requiert entre 5000 et 10000 trajectoires d’entrainement acquises a priori.
Javed et al. proposent aussi une extension des travaux de Porikli dans [Javed et al., 2005, Javed et al., 2008], avec une application au problème de la ré-identifica-tion entre caméras à champs disjoints. Les travaux de Javed et al. [Javed et al., 2005] basés sur les réponses radiométriques de caméras ont prouvé théoriquement que les BTF reliant deux caméras font partie d’un sous-espace de faible dimension. Supposant une approximation polynômiale de la réponse radiométrique, cette di-mension est bornée par le degré de ce polynôme plus un [Javed et al., 2005]. Ainsi, supposant disposer de paires d’observations des mêmes personnes dans les deux capteurs, il est possible d’estimer sur ces données cette fonction de transfert. Ils estiment donc plusieurs fonctions de transfert, une par appariement dont ils dis-posent. Puis ils réalisent une analyse en composantes principales pour obtenir la fonction de transfert représentant au mieux le changement de caméras.
Lors du calcul d’une BTF entre différentes caméras, les objets d’intérêts ne sont pas non plus vus sous le même point de vue, i.e. les proportions des dif-férentes couleurs ne sont plus forcément identiques. Pour dépasser cette difficulté, Prosser et al. proposent dans [Prosser et al., 2008] une BTF cumulative. Pour ce faire, ils accumulent dans un même histogramme plusieurs images de la même personne dans un même capteur avant d’appliquer la méthode de Porikli entre ces histogrammes cumulés. Contrairement à [Javed et al., 2005], plutôt que de cal-culer une moyenne dans l’espace des fonctions de transfert (par PCA probabiliste), la moyenne est calculée avant le calcul de la BTF, ce qui permet une meilleure prise en compte des cas rares [Prosser et al., 2008].
Ci-dessous, nous détaillons rapidement la méthode de [Prosser et al., 2008], que nous avons implémentée pour présenter des résultats sur VIPeR. Prosser et al. cal- culent un histogramme cumulé ˆ pour les 256 niveaux de couleurs Hi B1, …, Bm, …
Travaux inspirés de [Gray et Tao, 2008]
Ce chapitre se voulant faire un état de l’art relativement exhaustif sur les méth-odes de ré-identification, nous dressons dans cette sous-section un rapide panorama des évolutions proposées en terme de ré-identification entre une paire de caméra par apprentissage statistique.
RankSVM Dans [Prosser et al., 2010], Prosser et al. ont appliqué l’algorithme du rankSVM [Joachims, 2002] au problème de la ré-identification. La formulation du problème est similaire à [Gray et Tao, 2008], avec le calcul des mêmes carac-téristiques d’apparence, pour la même localisation dans des bandes sur la silhou-ette. Ici, les SVM viennent remplacer Adaboost pour l’algorithme d’apprentissage.
Comparaison de distances relatives probabilistes Par la suite, Zheng et al. ont formulé le problème dans [Zheng et al., 2011] comme un apprentissage de distance plutôt que d’une pondération des caractéristiques. À ce titre, ils proposent la PRDC (pour « Probabilistic Relative Distance Comparison ») qui cherche à minimiser les distances entre les silhouettes de paires vérité terrain.
Étude comparative
La figure 2.9 présente les courbes CMC des principales méthodes d’apprentis-sage pré-citées, sur les base VIPeR, avec 316 exemples d’apprentissage. Au fur et à mesure, les techniques d’apprentissage statistiques dédiées à la ré-identificaiton se sont affinées et c’est la PRDC qui présente les meilleures performances sur la base VIPeR. Par ailleurs, les performances sont vraiment supérieures à un appariement d’histogrammes RGB non supervisé.
Limitations des méthodes supervisées
Ces méthodes supervisées présentent cependant une limitation forte. En effet, qu’il s’agisse des BTF ou des apprentissages statistiques, ces méthodes reposent sur la mise en correspondance de silhouettes observées par différents capteurs. Dans le cadre d’un réseau à champs disjoints, cela suppose de disposer d’ap-pariements de silhouettes de personnes, i.e. avoir déjà résolu le problème de la ré-identification sur un ensemble d’entrainement, qui plus est, relativement con-séquent [Gilbert et Bowden, 2006] pour être pertinent.
Le second problème soulevé par ces méthodes est celui de la stabilité tem-porelle de la fonction calculée. En effet, le modèle appris est valable pour les exemples d’apprentissage considérés. En environnement non contrôlé, les condi-tions d’illumination sont amenées à changer de manière indépendante dans chaque caméra, la validité du modèle n’est pas assurée sur une longue période. Comme suggéré dans [Gilbert et Bowden, 2006], une mise à jour de cette BTF devient donc nécessaire.
Devant la difficulté de la construction de l’ensemble d’apprentissage pour un réseau tel que celui présenté en figure 2.10, nous rejetons pour le moment les méth-odes d’apprentissage supervisé pour notre objectif de surveillance de réseaux de caméras, car non applicables directement. Nous montrerons dans la suite que le système que nous mettons en place pourra bénéficier des avantages de telles méth-odes, une fois qu’il aura construit automatiquement ces ensembles d’apprentissage.
Méthodes non-supervisées pour la ré-identification dans un réseau
Par opposition aux approches reposant sur l’apprentissage, intrinsèquement dédiées à la paire de caméra considérée, certains travaux que nous listons ici présen-tent des approches directes. Les travaux [Madden et al., 2007, Ilyas et al., 2010] ont utilisé les distributions couleurs pour décrire directement l’apparence de per-sonnes entre plusieurs caméras, alors que [Hamdoun et al., 2008] ont utilisé des points d’intérêt. Bak et al. ont proposé dans [Bak et al., 2010] de décrire la couleur et la texture de l’apparence de manière conjointe au sein de matrices de covari-ance. Achard et al. proposent une catégorisation exhaustive de toutes les variantes de descriptions proposées dans [Achard et al., 2012].
Nous nous focalisons ici sur les travaux de Farenzena et al. dans [Farenzena et al., 2010] qui proposent une signature « directe », au sens où elle ne requiert pas de phase d’entrainement, obtenant des performances similaires aux approches basées apprentissage décrites en section 2.4. Nous détaillons dans cette partie le principe de cette signature, appelée SDALF (pour « Symmetry Driven Accumula-tion of Local Features »), ainsi que la manière dont ces travaux ont influencé notre recherche.
Principe de l’accumulation de caractéristiques locales dirigée par les symétries
Cette signature se compose de trois signaux complémentaires décrivant l’ap-parence d’une personne, et calculés relativement à des symétries de la silhouette.
Ces axes permettent aux auteurs de définir une localisation des signaux calculés plus fine qu’un simple découpage en bandes non recouvrantes de la silhouette. Nous commençons par décrire l’obtention de ces symétries, en accord avec [Faren-zena et al., 2010], puis nous présentons les signaux et enfin la manière dont deux signatures sont comparées.
Axes de symétrie/asymétrie
Le calcul des symétries de la silhouette suppose d’avoir obtenu une segmenta-tion fond/forme. L’article travaillant uniquement sur des bases d’images, la tech-nique appliquée est le STEL modèle (pour « STructure ELement ») [Jojic et al., 2009], une technique de segmentation non supervisée qui se base sur la recherche d’ « éléments de structure ». Dans un cas de suivi temporel, le STEL modèle sera remplacé par l’approche de modélisation du fond par mélange de gaussiennes de Stauffer et Grimson [Stauffer et Grimson, 1999].
Farenzena et al. définissent deux opérateurs. L’opérateur chromatique bilatéral : C(i, δ) = X d2(pi, pˆi) B i−δ,i+δ]
où d(., .) est la distance euclidienne évaluée entre les valeurs HSV des pixels pi et pˆi, situés symétriquement par rapport à l’axe horizontal, à la hauteur i. B[i−δ,i+δ] est la fenêtre glissante dans laquelle sont calculées les distances chromatiques entre les pixels. Le paramètre de largeur de fenêtre glissante δ est proportionnel à la largeur de la boite et fixé à δ = J/4. Le deuxième est l’opérateur de couverture spatiale : S(i, δ) = J δ |A(B[i−δ,i]) − A(B[i,i+δ])|
où A(B[i−δ,i]) représente le ratio de zone de premier plan (issue de la segmentation fond/forme) présent dans la boite de largeur J et de hauteur [i − δ, i].
La figure 2.11 détaille les différents axes de symétrie, ainsi que les zones dans lesquelles les distances entre les pixels sont calculées.
Les hauteurs des axes d’asymétries (séparations tronc/jambes i.e. « Torso/Legs » et tête/tronc i.e. « Head/Torso ») sont respectivement calculées à partir des opéra-teurs ci-dessus. iT L = arg min(1 − C(i, δ) + S(i, δ))
|
Table des matières
Notations
1 Introduction et contexte des travaux
1.1 Contexte général et enjeux
1.2 Que dit la législation ?
1.2.1 Droit à l’image (loi du 21 janvier 1995)
1.3 Positionnement de nos travaux
1.3.1 Vue d’ensemble
1.3.2 Suivi multi-cibles
1.3.3 Ré-identification
1.4 Contributions et organisation du manuscrit
I Traitements au niveau des caméras
2 Modèles de ré-identification
2.1 Introduction
2.2 Ré-identification par caractéristiques biométriques
2.3 Au delà de la biométrie : positionnement du problème
2.3.1 Un problème de rang : focalisation sur la ré-identification entre deux caméras
2.3.2 Quelques premiers constats sur la ré-identification
2.4 Ré-identification entre paires de caméras : méthodes supervisées .
2.4.1 Fonction de transfert colorimétrique entre caméras
2.4.2 Apprentissage statistique pour la ré-identification
2.4.2.1 Travaux inspirés de [Gray et Tao, 2008]
2.4.2.2 Étude comparative
2.4.3 Limitations des méthodes supervisées
2.5 Méthodes non-supervisées pour la ré-identification dans un réseau
2.5.1 Principe de l’accumulation de caractéristiques locales dirigée par les symétries
2.5.1.1 Axes de symétrie/asymétrie
2.5.1.2 Extraction des descripteurs
2.5.1.3 Comparaison de signatures
2.5.2 Extensions directes de l’approche
2.6 Choix de notre représentation
2.6.1 Influence des composantes de SDALF
2.6.2 Perspectives pour notre contexte de surveillance de réseaux de caméras
2.7 Conclusion
3 Estimation bayésienne de suivi et ré-identification dans une caméra
3.1 Introduction
3.2 État de l’art
3.3 Filtrage bayésien récursif
3.3.1 Formalisation du problème
3.3.2 Approximation particulaire
3.4 Extension au filtrage particulaire à état mixte
3.4.1 Modèle de prédiction à état mixte
3.4.2 Exploitation de la mesure dans le cas d’un état mixte
3.5 Transition vers le suivi multi-cibles
3.5.1 Gestion des détections
3.5.2 Modèle d’observation intégrant les détections
3.5.3 Notion d’identité d’une cible
3.6 Suivi et ré-identification conjoints
3.6.1 Association traqueurs mixtes/détections
3.6.2 Modèle d’observation mixte intégrant les détections
3.7 Implémentation
3.7.1 Modélisation de l’apparence d’une cible
3.7.2 Descriptions des identités du réseau
3.7.3 Vecteur d’état
3.7.4 Modèle de mouvement
3.7.5 Modèle d’observation
3.7.6 Caractérisation des paramètres libres de notre système
3.8 Évaluations et analyses associées
3.8.1 Jeux de données
3.8.2 Critères et modalités évalués
3.8.3 Performances de la méthode d’échantillonnage mixte
3.8.4 Performances du suivi par ré-identification
3.8.4.1 Performances quantitatives
3.9 Conclusion
II Système décisionnel haut-niveau
4 Supervision des identités : une approche réseau
4.1 Introduction
4.2 État de l’art et positionnement des travaux
4.2.1 Suivi de cibles multiples par logique différée à partir d’observations continues
4.2.1.1 Principes d’association de détections
4.2.1.2 Suivi monoculaire par logique différée
4.2.2 Suivi à partir d’observations discontinues : réseaux à champs disjoints
4.2.3 Notre approche
4.3 Définitions
4.3.1 Modélisation du réseau de caméra
4.3.2 Données propres aux superviseurs
4.4 Approche MAP trajectoriel
4.4.1 Formalisation de la programmation dynamique
4.4.2 MAP trajectoriel : mise en oeuvre
4.4.2.1 Intégration temporelle
4.4.2.2 Exclusivité de l’association
4.4.2.3 Optimisation des tracklets sur une séquence de suivi
4.4.3 Bilan du superviseur MAPT
4.5 Approche MCMC sur les trajectoires
4.5.1 Association de données MCMC
4.5.2 Formulation du problème
4.5.3 Modèle de vraisemblance
4.5.4 MCMC Data Association dirigé par apparence et topologie
4.6 Évaluations et discussions associées
4.6.1 Performances du MAPT
4.6.1.1 Performances quantitatives
4.6.1.2 Limitations du MAPT
4.6.2 Performances du MCMC
4.6.2.1 Tests sur données de synthèse
4.6.2.2 Tests sur données réelles
4.7 Conclusion
5 Vers un système évolutif
5.1 Introduction
5.2 Construction de la base d’identités
5.3 Filtrage des échantillonnages d’identité
5.4 Projection de la base d’identité par fonctions de transfert de luminance
5.5 Apprentissage statistique de modèle
5.6 Reconfiguration du réseau face à un capteur défaillant
5.7 Extensions des travaux
5.7.1 Reconnaissance d’activités / détection d’évènements dans un réseau de caméras
5.7.2 Au-delà du champ disjoint : utilisation de caméras PTZ
5.8 Conclusion
6 Conclusions et perspectives
Bibliographie 115Notations
Télécharger le rapport complet