Méthodes non-supervisées pour la ré-identification dans un réseau

Télécharger le fichier pdf d’un mémoire de fin d’études

Ré-identification par caractéristiques biométriques

Biométrie : Le mot biométrie signifie littéralement « mesure du vivant », et désigne dans un sens très large l’étude quantitative des êtres vivants. Parmi les principaux domaines d’application de la biométrie, on peut citer l’agronomie, l’an-thropologie, l’écologie et la médecine.
L’usage de ce terme se rapporte de plus en plus à l’usage de ces techniques à des fins de reconnaissance, d’authentification et d’identification. Le Petit Robert la définit comme une « Science qui étudie à l’aide de mathématiques (statistiques, probabilités) les variations biologiques à l’intérieur d’un groupe déterminé ».
En Vision par Ordinateur, et plus particulièrement en vidéosurveillance, les techniques de biométrie classiquement utilisées reposent sur une reconnaissance faciale. Toutefois, ces méthodes requièrent des conditions d’acquisition partic-ulièrement contraintes comme une résolution importante du visage, une vue de face pour les méthodes 2D, etc. Des états de l’art récents sur ces méthodes sont présentés dans [Jafri et Arabnia, 2009, Germa et al., 2009]. La figure 2.1 illus-tre ce contexte applicatif à travers le portique destiné aux aéroports élaboré par la firme Morpho. Herold et al. présentent dans [Herold et al., 2011] une technique de suivi de visage en 3D au sein du portique, à des fins d’identification faciale. L’un des pré-requis est que la personne regarde la caméra. Le passage dans un portique étroit rend cette tâche plus aisée.
L’analyse de démarche [Kim et al., 2008] fait aussi partie des caractéristiques biométriques. Toutefois, il s’agit là d’investigations assez récentes, et difficilement applicables aux réseaux de caméras, ne supposant aucune collaboration de la part des usagers observés (contrairement au passage dans un portique tel que celui présenté en figure 2.1).
Dans notre contexte applicatif, la ré-identification intervient dans un réseau, i.e. entre plusieurs caméras aux réponses photométriques différentes et déployéees sur des lieux différents, donc avec une pose et un fond différents. De plus, l’environ-nement est beaucoup moins contraint. Il est en général très peu probable d’obtenir des images de visages fronto-parallèles, ou d’être en mesure de reconstruire des visages en 3D, nos caméras d’ambiance ayant un large champ de vue. Pour toutes ces raisons, les techniques de biométrie telles que la reconnaissance faciale ou l’ analyse de démarche sont donc écartées de notre étude.

Au delà de la biométrie : positionnement du problème

Ayant écarté les approches du type « biométrie à la volée » pour leur inadéqua-tion à notre problème, les verrous pour notre application demeurent toutefois :
⊲ comment décrire un individu pour le distinguer de ses semblables ? On retrouve l’un des problèmes auxquels fait face le MOT. Savoir identifier les personnes est un cas général de l’association de données du MOT.
⊲ comment intégrer dans cette description une robustesse aux changements de point de vue et à la réponse photométrique (capteurs différents) ?
Les attributs de description classiquement utilisés pour caractériser un indi-vidu en REID [Gray et al., 2007] sont proches de ceux utilisés en MOT, avec les distributions couleurs, introduites pour le suivi par [Pérez et al., 2002, Nummiaro et al., 2003] et la texture, e.g. au travers des points d’intérêt du traqueur KLT [Shi et Tomasi, 1994].
Au-delà de la description, le choix de la région ainsi décrite est aussi très im-portant. En effet, une distribution couleur perd la notion de spatialité des pixels. Décrire plusieurs régions par des distributions couleurs indépendantes augmente la précision de la description [Pérez et al., 2002]. Une autre solution consiste à décrire l’information par des distributions calculées dans un espace à cinq dimen-sions associant les trois canaux couleurs, e.g. RGB, aux positions x et y des pixels considérés. Ainsi la distribution modélise de manière conjointe la distribution de couleurs et sa répartition spatiale. Birchfield et Rangarajan proposent une version discrète de type histogramme étendu (appelé spatiogrammes par les auteurs) dans [Birchfield et Rangarajan, 2005] et Dickinson et al. modélisent ceci par des mix-utre de gaussiennes dans [Dickinson et al., 2009]. Nous verrons dans la suite que les travaux sur la ré-identification favorisent les modèles externalisant la localisa-tion des signatures calculées. Ceci s’explique en partie par le fait que les approches basées sur de l’apprentissage statistique nécessitent des caractéristiques simples et nombreuses (e.g. les classifieurs faibles pour Adaboost [Freund et Schapire, 1995]).

Un problème de rang : focalisation sur la ré-identification entre deux caméras

Lorsque l’on considère la ré-identification au sein d’une paire de caméras, le problème se définit classiquement comme : retrouver la bijection existant entre les deux ensembles d’observations issus des deux caméras. L’hypothèse sous-jacente est celle du « closed world », selon laquelle les caméras observent les mêmes personnes. Cette hypothèse est généralement réaliste, mais impacte les conditions d’acquisitions des données, ou d’installation des caméras, e.g. avec une caméra surveillant l’unique entrée d’un bâtiment, et permettant de constituer une base des personnes présentes.
C’est en 2006, avec les travaux de Gheissari et al. dans [Gheissari et al., 2006] que le communauté Vision commence véritablement à définir le problème comme tel. Ces derniers proposent deux signatures dédiées ré-identification, s’appuyant sur une segmentation en triangle de la silhouette. Le focus est ici mis sur une bonne localisation des signaux à comparer. Par ailleurs et principalement, il s’agit des premiers travaux introduisant les caractéristiques d’appariements cumulées (CMC pour « Cumulative Match Characteristic ») pour évaluer les performances. Ces ou-tils sont issus du domaine de la biométrie, où l’on cherche à quantifier la justesse d’appariements R-R entre deux ensembles de cibles segmentées a priori, appelés galerie et requêtes.

Ré-identification entre paires de caméras : méthodes supervisées

Lorsque l’on se focalise sur une paire de caméras, il devient envisageable de disposer d’un ensemble de paires d’images mises en correspondance a pri-ori, i.e. des paires vérité terrain pour lesquelles le problème de la ré-identification est résolu. Disposer d’une telle base labellisée permet de recourir à un apprentis-sage. Deux stratégies d’apprentissage supervisé sont à distinguer dans la littéra-ture : d’abord, celui d’une fonction de transfert colorimétrique pour la paire de caméras concernées, puis celui d’un modèle de description construit par appren-tissage statistique pour être spécifiquement invariant entre ces deux caméras (que nous pouvons voir comme la généralisation du premier).

Fonction de transfert colorimétrique entre caméras

Dans [Porikli, 2003], Porikli propose une méthode initiale de calibration col-orimétrique entre différentes caméras qu’il nomme « Brightness Transfer Function » (BTF). Il suggère que le changement d’illumination entre les vues peut être mod-élisé par une matrice de corrélation entre les histogrammes couleurs des deux im-ages à mettre en correspondance. Il n’y a pas de changement de pose entre les deux vues, seulement d’illumination. La matrice répertorie les distances entre les valeurs des cellules des histogrammes couleur. Le calcul du chemin de coût minimal d’un coin de la matrice à l’autre fournit la fonction de transfert. Pour des images RGB, la méthode calcule une fonction par canal couleur.
Gilbert et al. utilisent aussi des matrices de corrélation et étendent dans [Gilbert et Bowden, 2006] ce concept en incorporant une méthode d’apprentissage en ligne pour mettre à jour les changements d’illumination entre les caméras. Toutefois, leur méthode se base sur une bonne initialisation de la fonction de transfert, et requiert entre 5000 et 10000 trajectoires d’entrainement acquises a priori.
Javed et al. proposent aussi une extension des travaux de Porikli dans [Javed et al., 2005, Javed et al., 2008], avec une application au problème de la ré-identifica-tion entre caméras à champs disjoints. Les travaux de Javed et al. [Javed et al., 2005] basés sur les réponses radiométriques de caméras ont prouvé théoriquement que les BTF reliant deux caméras font partie d’un sous-espace de faible dimension. Supposant une approximation polynômiale de la réponse radiométrique, cette di-mension est bornée par le degré de ce polynôme plus un [Javed et al., 2005]. Ainsi, supposant disposer de paires d’observations des mêmes personnes dans les deux capteurs, il est possible d’estimer sur ces données cette fonction de transfert. Ils estiment donc plusieurs fonctions de transfert, une par appariement dont ils dis-posent. Puis ils réalisent une analyse en composantes principales pour obtenir la fonction de transfert représentant au mieux le changement de caméras.
Lors du calcul d’une BTF entre différentes caméras, les objets d’intérêts ne sont pas non plus vus sous le même point de vue, i.e. les proportions des dif-férentes couleurs ne sont plus forcément identiques. Pour dépasser cette difficulté, Prosser et al. proposent dans [Prosser et al., 2008] une BTF cumulative. Pour ce faire, ils accumulent dans un même histogramme plusieurs images de la même personne dans un même capteur avant d’appliquer la méthode de Porikli entre ces histogrammes cumulés. Contrairement à [Javed et al., 2005], plutôt que de cal-culer une moyenne dans l’espace des fonctions de transfert (par PCA probabiliste), la moyenne est calculée avant le calcul de la BTF, ce qui permet une meilleure prise en compte des cas rares [Prosser et al., 2008].
Ci-dessous, nous détaillons rapidement la méthode de [Prosser et al., 2008], que nous avons implémentée pour présenter des résultats sur VIPeR. Prosser et al. cal- culent un histogramme cumulé ˆ pour les 256 niveaux de couleurs Hi B1, …, Bm, …

Travaux inspirés de [Gray et Tao, 2008]

Ce chapitre se voulant faire un état de l’art relativement exhaustif sur les méth-odes de ré-identification, nous dressons dans cette sous-section un rapide panorama des évolutions proposées en terme de ré-identification entre une paire de caméra par apprentissage statistique.
RankSVM Dans [Prosser et al., 2010], Prosser et al. ont appliqué l’algorithme du rankSVM [Joachims, 2002] au problème de la ré-identification. La formulation du problème est similaire à [Gray et Tao, 2008], avec le calcul des mêmes carac-téristiques d’apparence, pour la même localisation dans des bandes sur la silhou-ette. Ici, les SVM viennent remplacer Adaboost pour l’algorithme d’apprentissage.
Comparaison de distances relatives probabilistes Par la suite, Zheng et al. ont formulé le problème dans [Zheng et al., 2011] comme un apprentissage de distance plutôt que d’une pondération des caractéristiques. À ce titre, ils proposent la PRDC (pour « Probabilistic Relative Distance Comparison ») qui cherche à minimiser les distances entre les silhouettes de paires vérité terrain.

Étude comparative

La figure 2.9 présente les courbes CMC des principales méthodes d’apprentis-sage pré-citées, sur les base VIPeR, avec 316 exemples d’apprentissage. Au fur et à mesure, les techniques d’apprentissage statistiques dédiées à la ré-identificaiton se sont affinées et c’est la PRDC qui présente les meilleures performances sur la base VIPeR. Par ailleurs, les performances sont vraiment supérieures à un appariement d’histogrammes RGB non supervisé.

Limitations des méthodes supervisées

Ces méthodes supervisées présentent cependant une limitation forte. En effet, qu’il s’agisse des BTF ou des apprentissages statistiques, ces méthodes reposent sur la mise en correspondance de silhouettes observées par différents capteurs. Dans le cadre d’un réseau à champs disjoints, cela suppose de disposer d’ap-pariements de silhouettes de personnes, i.e. avoir déjà résolu le problème de la ré-identification sur un ensemble d’entrainement, qui plus est, relativement con-séquent [Gilbert et Bowden, 2006] pour être pertinent.
Le second problème soulevé par ces méthodes est celui de la stabilité tem-porelle de la fonction calculée. En effet, le modèle appris est valable pour les exemples d’apprentissage considérés. En environnement non contrôlé, les condi-tions d’illumination sont amenées à changer de manière indépendante dans chaque caméra, la validité du modèle n’est pas assurée sur une longue période. Comme suggéré dans [Gilbert et Bowden, 2006], une mise à jour de cette BTF devient donc nécessaire.
Devant la difficulté de la construction de l’ensemble d’apprentissage pour un réseau tel que celui présenté en figure 2.10, nous rejetons pour le moment les méth-odes d’apprentissage supervisé pour notre objectif de surveillance de réseaux de caméras, car non applicables directement. Nous montrerons dans la suite que le système que nous mettons en place pourra bénéficier des avantages de telles méth-odes, une fois qu’il aura construit automatiquement ces ensembles d’apprentissage.

Méthodes non-supervisées pour la ré-identification dans un réseau

Par opposition aux approches reposant sur l’apprentissage, intrinsèquement dédiées à la paire de caméra considérée, certains travaux que nous listons ici présen-tent des approches directes. Les travaux [Madden et al., 2007, Ilyas et al., 2010] ont utilisé les distributions couleurs pour décrire directement l’apparence de per-sonnes entre plusieurs caméras, alors que [Hamdoun et al., 2008] ont utilisé des points d’intérêt. Bak et al. ont proposé dans [Bak et al., 2010] de décrire la couleur et la texture de l’apparence de manière conjointe au sein de matrices de covari-ance. Achard et al. proposent une catégorisation exhaustive de toutes les variantes de descriptions proposées dans [Achard et al., 2012].
Nous nous focalisons ici sur les travaux de Farenzena et al. dans [Farenzena et al., 2010] qui proposent une signature « directe », au sens où elle ne requiert pas de phase d’entrainement, obtenant des performances similaires aux approches basées apprentissage décrites en section 2.4. Nous détaillons dans cette partie le principe de cette signature, appelée SDALF (pour « Symmetry Driven Accumula-tion of Local Features »), ainsi que la manière dont ces travaux ont influencé notre recherche.

Principe de l’accumulation de caractéristiques locales dirigée par les symétries

Cette signature se compose de trois signaux complémentaires décrivant l’ap-parence d’une personne, et calculés relativement à des symétries de la silhouette.
Ces axes permettent aux auteurs de définir une localisation des signaux calculés plus fine qu’un simple découpage en bandes non recouvrantes de la silhouette. Nous commençons par décrire l’obtention de ces symétries, en accord avec [Faren-zena et al., 2010], puis nous présentons les signaux et enfin la manière dont deux signatures sont comparées.

Axes de symétrie/asymétrie

Le calcul des symétries de la silhouette suppose d’avoir obtenu une segmenta-tion fond/forme. L’article travaillant uniquement sur des bases d’images, la tech-nique appliquée est le STEL modèle (pour « STructure ELement ») [Jojic et al., 2009], une technique de segmentation non supervisée qui se base sur la recherche d’ « éléments de structure ». Dans un cas de suivi temporel, le STEL modèle sera remplacé par l’approche de modélisation du fond par mélange de gaussiennes de Stauffer et Grimson [Stauffer et Grimson, 1999].
Farenzena et al. définissent deux opérateurs. L’opérateur chromatique bilatéral : C(i, δ) = X d2(pi, pˆi) B i−δ,i+δ]
où d(., .) est la distance euclidienne évaluée entre les valeurs HSV des pixels pi et pˆi, situés symétriquement par rapport à l’axe horizontal, à la hauteur i. B[i−δ,i+δ] est la fenêtre glissante dans laquelle sont calculées les distances chromatiques entre les pixels. Le paramètre de largeur de fenêtre glissante δ est proportionnel à la largeur de la boite et fixé à δ = J/4. Le deuxième est l’opérateur de couverture spatiale : S(i, δ) = J δ |A(B[i−δ,i]) − A(B[i,i+δ])|
où A(B[i−δ,i]) représente le ratio de zone de premier plan (issue de la segmentation fond/forme) présent dans la boite de largeur J et de hauteur [i − δ, i].
La figure 2.11 détaille les différents axes de symétrie, ainsi que les zones dans lesquelles les distances entre les pixels sont calculées.
Les hauteurs des axes d’asymétries (séparations tronc/jambes i.e. « Torso/Legs » et tête/tronc i.e. « Head/Torso ») sont respectivement calculées à partir des opéra-teurs ci-dessus. iT L = arg min(1 − C(i, δ) + S(i, δ))

Gestion des détections

Breitenstein et al. privilégient une stratégie « tracking-by-detection » via le détecteur classique proposé dans [Dalal et Triggs, 2005].

Détection de piéton par histogrammes d’orientation de gradients Le détecteur par histogrammes d’orientation de gradients (HOG) publié par Dalal et Triggs dans [Dalal et Triggs, 2005] est une approche par fenêtre glissante. Durant l’en-trainement, le détecteur divise la boite englobante à traiter en cellules de tailles con-stantes et calcule un histogramme d’orientation de gradients pour chacune. Suite à une normalisation, toutes ces caractéristiques sont accumulées dans un vecteur, utilisé pour entrainer un SVM linéaire.

La phase de détection est similaire. L’image à traiter est scannée par fenêtre glissante à différentes échelles. Les caractéristiques HOG sont calculées sur les boites englobantes à tester, puis classifiées comme piéton ou non-piéton par le SVM. Les détections finales sont produites suite à une phase de suppression des non-maximum.

Association aux détections/Gestion du caractère multi-cibles En accord avec [Breitenstein et al., 2010], ces détections HOG sont intégrées dans le processus de suivi par une étape préalable d’association aux traqueurs. À la fin de cette étape, chaque traqueur est potentiellement (il est possible qu’un traqueur ne reçoive au-cune détection) associé à une détection qui va servir à la mise à jour de ses partic-ules. Pour ce faire, nous construisons une matrice d’association entre les détections (lignes) et les traqueurs (colonnes). Le score de chaque paire détection d, traqueur tr donné par l’équation (3.17), fait intervenir :

⊲ la distance des particules du traqueur à la détection évaluée sous une loi normale pN (.) ∼ N (., σ2),

⊲ l’aire de la boîte du traqueur A(tr) relativement à celle de la détection aussi évaluée sous une loi normale,

⊲ l’évaluation du modèle d’apparence du traqueur en la détection (wApp(.)). N X pN (d − pi ) × pN |A(tr) − A(d)| × wApp (d, tr) (3.17)

S(d, tr) = {z} |{z} |

pi ∈trmodèle d’apparence taille relative|{z} distance euclidienne

Ainsi, le traqueur et la détection doivent présenter simultanément une cohérence en terme de position, de taille et de contenu colorimétrique. Une fois cette matrice de similarité construite, il faut réaliser l’appariement. En pratique, à la manière de [Breitenstein et al., 2010], une heuristique gloutonne de complexité en O(n) est généralement suffisante ([Wu et Nevatia, 2007] tirent des conclusions similaires) par rapport à la solution optimale fournie par l’algorithme Hongrois [Kuhn, 1955], de complexité O(n3) (avec n la plus grande dimension de la matrice d’association). L’heuristique consiste en une extraction itérative des maxima, avec suppression de leurs lignes et colonnes. Elle est itérée tant que les maxima sont supérieurs au seuil d’appariement.

Initialisations / terminaisons automatiques de traqueurs Toute détection récur-rente donne lieu à l’instanciation d’un nouveau traqueur. Par ailleurs, tout traqueur n’ayant pas de détection associée sur un intervalle de temps supérieur au seuil de suppression se voit arrêté définitivement.

Modèle d’observation intégrant les détections

En accord avec [Breitenstein et al., 2010], le poids πtr(i) attribué à la ie particule pi du traqueur tr est calculé en intégrant : (i) la distance de la particule à la détection d∗ qui lui a été associée, (ii) la similarité colorimétrique au modèle d’apparence du traqueur wApp(.). πtr(i) = α I (tr) pN (d∗ − pi ) + β wApp (d, tr) (3.18) |{z}|{z} distance à la détectionmodèle d’apparence où α et β sont des coefficients dont la somme est égale à 1, et I (tr) un booléen signifiant l’existence ou non d’une détection associée au traqueur.

Notion d’identité d’une cible

Par essence, un algorithme de suivi multi-cibles fait intervenir une notion d’i-dentité, pour distinguer un traqueur d’un autre. Toutefois, cette identité ne sera valable que pour le temps d’apparition de la cible et prendra fin avec l’arrêt de son traqueur dédié. Si cette même cible est amenée à revenir dans la scène après un certain temps d’absence, elle se verra affecter un nouveau traqueur, et ainsi une nouvelle identité. Nous parlons alors d’identité locale, par opposition aux identités au sens du réseau, que nous visons pour notre suivi et ré-identification.

Les figures 3.3 et 3.4, présentent la limitation d’une simple gestion d’identités locales et l’apport de notre modalité de ré-identification. Sur la figure 3.3, lorsqu’une personne sort et une personne différente entre, les trajectoires sont raboutées. Un simple critère spatial est utilisé dans [Breitenstein et al., 2010]. La figure 3.3 (b) met en exergue cette limitation lorsque la personne sortie n’est pas la même que celle qui entre. Le traqueur serait également pris en défaut si la personne suivie réapparait dans une autre région de l’image, typiquement dans un réseau de couloir.

Pour notre approche (figure 3.4), à chaque instant, chaque traqueur propose une distribution de probabilité d’identité observée. Ceci permet d’accepter des périodes de non observabilité comme une sortie de caméra puis de ré-initialiser le traqueur avec le bon identifiant. Lorsqu’une personne entre, le traqueur qui la suit va con-verger vers des identités de la base.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Notations
1 Introduction et contexte des travaux
1.1 Contexte général et enjeux
1.2 Que dit la législation ?
1.2.1 Droit à l’image (loi du 21 janvier 1995)
1.3 Positionnement de nos travaux
1.3.1 Vue d’ensemble
1.3.2 Suivi multi-cibles
1.3.3 Ré-identification
1.4 Contributions et organisation du manuscrit
I Traitements au niveau des caméras
2 Modèles de ré-identification
2.1 Introduction
2.2 Ré-identification par caractéristiques biométriques
2.3 Au delà de la biométrie : positionnement du problème
2.3.1 Un problème de rang : focalisation sur la ré-identification entre deux caméras
2.3.2 Quelques premiers constats sur la ré-identification
2.4 Ré-identification entre paires de caméras : méthodes supervisées .
2.4.1 Fonction de transfert colorimétrique entre caméras
2.4.2 Apprentissage statistique pour la ré-identification
2.4.2.1 Travaux inspirés de [Gray et Tao, 2008]
2.4.2.2 Étude comparative
2.4.3 Limitations des méthodes supervisées
2.5 Méthodes non-supervisées pour la ré-identification dans un réseau
2.5.1 Principe de l’accumulation de caractéristiques locales dirigée par les symétries
2.5.1.1 Axes de symétrie/asymétrie
2.5.1.2 Extraction des descripteurs
2.5.1.3 Comparaison de signatures
2.5.2 Extensions directes de l’approche
2.6 Choix de notre représentation
2.6.1 Influence des composantes de SDALF
2.6.2 Perspectives pour notre contexte de surveillance de réseaux de caméras
2.7 Conclusion
3 Estimation bayésienne de suivi et ré-identification dans une caméra
3.1 Introduction
3.2 État de l’art
3.3 Filtrage bayésien récursif
3.3.1 Formalisation du problème
3.3.2 Approximation particulaire
3.4 Extension au filtrage particulaire à état mixte
3.4.1 Modèle de prédiction à état mixte
3.4.2 Exploitation de la mesure dans le cas d’un état mixte
3.5 Transition vers le suivi multi-cibles
3.5.1 Gestion des détections
3.5.2 Modèle d’observation intégrant les détections
3.5.3 Notion d’identité d’une cible
3.6 Suivi et ré-identification conjoints
3.6.1 Association traqueurs mixtes/détections
3.6.2 Modèle d’observation mixte intégrant les détections
3.7 Implémentation
3.7.1 Modélisation de l’apparence d’une cible
3.7.2 Descriptions des identités du réseau
3.7.3 Vecteur d’état
3.7.4 Modèle de mouvement
3.7.5 Modèle d’observation
3.7.6 Caractérisation des paramètres libres de notre système
3.8 Évaluations et analyses associées
3.8.1 Jeux de données
3.8.2 Critères et modalités évalués
3.8.3 Performances de la méthode d’échantillonnage mixte
3.8.4 Performances du suivi par ré-identification
3.8.4.1 Performances quantitatives
3.9 Conclusion
II Système décisionnel haut-niveau
4 Supervision des identités : une approche réseau
4.1 Introduction
4.2 État de l’art et positionnement des travaux
4.2.1 Suivi de cibles multiples par logique différée à partir d’observations continues
4.2.1.1 Principes d’association de détections
4.2.1.2 Suivi monoculaire par logique différée
4.2.2 Suivi à partir d’observations discontinues : réseaux à champs disjoints
4.2.3 Notre approche
4.3 Définitions
4.3.1 Modélisation du réseau de caméra
4.3.2 Données propres aux superviseurs
4.4 Approche MAP trajectoriel
4.4.1 Formalisation de la programmation dynamique
4.4.2 MAP trajectoriel : mise en oeuvre
4.4.2.1 Intégration temporelle
4.4.2.2 Exclusivité de l’association
4.4.2.3 Optimisation des tracklets sur une séquence de suivi
4.4.3 Bilan du superviseur MAPT
4.5 Approche MCMC sur les trajectoires
4.5.1 Association de données MCMC
4.5.2 Formulation du problème
4.5.3 Modèle de vraisemblance
4.5.4 MCMC Data Association dirigé par apparence et topologie
4.6 Évaluations et discussions associées
4.6.1 Performances du MAPT
4.6.1.1 Performances quantitatives
4.6.1.2 Limitations du MAPT
4.6.2 Performances du MCMC
4.6.2.1 Tests sur données de synthèse
4.6.2.2 Tests sur données réelles
4.7 Conclusion
5 Vers un système évolutif
5.1 Introduction
5.2 Construction de la base d’identités
5.3 Filtrage des échantillonnages d’identité
5.4 Projection de la base d’identité par fonctions de transfert de luminance
5.5 Apprentissage statistique de modèle
5.6 Reconfiguration du réseau face à un capteur défaillant
5.7 Extensions des travaux
5.7.1 Reconnaissance d’activités / détection d’évènements dans un réseau de caméras
5.7.2 Au-delà du champ disjoint : utilisation de caméras PTZ
5.8 Conclusion
6 Conclusions et perspectives
Bibliographie 115Notations