Télécharger le fichier pdf d’un mémoire de fin d’études
Axe de recherche proposé et contributions
Axe d’études
L’axe d’études proposé dans cette thèse est expliqué ici, en indiquant succincte-ment nos motivations. Les différents points évoqués sont davantage détaillés dans le chapitre II. Les motivations plus spécifiques à chacune de nos contributions seront aussi précisées au début des chapitres associés.
Afin d’exploiter judicieusement l’information visuelle disponible, les méthodes de suivi visuel décrivent les cibles à l’aide de modèles d’apparence. Ces modèles d’apparence jouent un rôle crucial en suivi mono-objet pour localiser la cible dans les images suivantes. De nombreux modèles d’apparence ont ainsi été proposés pour le suivi mono-objet au cours des dernières années [113]. En suivi multi-objets par détection, le problème de la localisation des cibles est en grande partie traité par le détecteur d’objets utilisé. Une étape cruciale de ces approches de suivi consiste alors à déterminer des associations correctes entre les détections et les trajectoires estimées, pour éviter de confondre les cibles. Pour ef-fectuer cette tâche plus efficacement, deux stratégies sont couramment employées. Une première consiste à raisonner sur plusieurs images futures pour traiter l’image courante, afin d’exploiter davantage d’information temporelle, ce qui mène à des ap-proches dites à fenêtre glissante ou à logique différée. Une seconde stratégie consiste à exploiter des modèles d’apparence pour différencier les cibles et estimer leurs posi-tions aux instants où elles ne sont pas détectées par le détecteur d’objets. Plusieurs méthodes de suivi multi-objets s’inspirent ainsi de modèles d’apparence proposés initialement pour le suivi mono-objet, et utilisent parfois même directement des méthodes de suivi mono-objet.
Les représentations parcimonieuses ont été largement utilisées en suivi mono-objet pour modéliser l’apparence de la cible [135]. De manière simplifiée, une re-présentation parcimonieuse vise à représenter un élément par une combinaison d’un faible nombre d’autres éléments connus, regroupés au sein d’un dictionnaire (la sec-tion II.3 donne une formalisation plus précise). Plusieurs méthodes en Vision par Ordinateur ont exploité de telles représentations, comme des problèmes de clas-sification multi-classes, d’indexation de contenu ou encore pour définir des carac-téristiques visuelles par sac de mots. Néanmoins, malgré leur emploi fréquent en suivi mono-objet, peu de méthodes de suivi multi-objets ont cherché à exploiter des représentations parcimonieuses pour modéliser l’apparence des cibles.
Dans cette thèse, nous étudions de quelle manière des représentations parcimo-nieuses peuvent être exploitées dans le cas du suivi multi-objets. Bien que nous nous inspirions initialement de méthodes proposées pour le suivi mono-objet, nous ne cherchons pas à employer directement de telles méthodes dans un système multi-objets. Nous cherchons plutôt à proposer des méthodes plus spécifiques au cas du suivi multi-objets afin de prendre en considération les difficultés particulières de ce type de suivi. Cela nous amène en particulier à étudier l’emploi de représenta-tions parcimonieuses dans une approche de suivi à fenêtre glissante, en raisonnant sur plusieurs images consécutives futures, afin d’utiliser suffisamment d’information temporelle et d’exploiter judicieusement les informations visuelles qui en découlent.
Présentation générale du suivi d’objets
Dans cette section, nous présentons de manière très générale le problème de suivi d’objets et les approches classiques existantes pour traiter ce problème. Nous nous focalisons sur les approches mono-capteur, possiblement non visuel. Les méthodes présentées ici ne sont pas parmi les plus récentes, certaines étant même assez an-ciennes, mais restent à la base de la plupart des méthodes actuelles. Il semble ainsi judicieux d’expliquer leur fonctionnement.
Notions de base sur le suivi d’objets
Le problème du suivi d’objets considère l’estimation de trajectoires, notées T = {T1, …, Tntraj }, d’un ensemble d’objets ou cibles O = {O1, …, Onobj }. Ces cibles évoluent dans un espace connu, le plus souvent multidimensionnel (par exemple 2D pour un suivi dans le repère image, 3D pour un suivi en coordonnées réelles). Ces cibles sont observables à partir d’un capteur (radar, sonar, détecteur optique d’objets visuel…) qui fournit un ensemble d’hypothèses sur la position des cibles M = {m1, …, mnmes }, appelées aussi mesures ou observations. Ces mesures ne sont néanmoins pas parfaites, du fait d’erreurs liées au capteur, et sont notamment brui-tées voire non pertinentes (présence d’une fausse alarme, i.e. une mesure non liée à une cible). Certaines cibles peuvent, de plus, être non détectées par le capteur. Un algorithme de suivi d’objets vise alors à estimer les trajectoires {T1, …, Tntraj } à partir des mesures {m1, …, mnmes } effectuées au cours du temps. Le suivi d’objets peut se traiter généralement en trois étapes principales. La première étape, d’association de données, consiste à associer les mesures obtenues {m1, …, mnmes } aux trajectoires auparavant estimées {T1, …, Tntraj } afin de détermi-ner quelles mesures correspondent à quelles cibles. Une seconde étape va considérer le prolongement de chaque trajectoire à partir des mesures qui lui ont été associées. Enfin, une dernière partie considère la création de nouvelles trajectoires ou l’arrêt de certaines d’entre elles.
Il est alors possible de distinguer plusieurs grandes catégories de suivi d’objets, décrites dans ce qui suit.
Suivi mono-objet/multi-objets : Tout d’abord, une première distinction im-portante peut être faite au niveau du nombre de cibles suivies. Le problème de suivi mono-objet ne considère qu’une cible unique tandis que le problème de suivi multi-objets considère le cas de plusieurs cibles. Ces deux sous-catégories principales sont davantage détaillées, avec leurs propres spécificités, dans les sous-sections suivantes.
Suivi en ligne/global/à fenêtre glissante : Une autre distinction importante entre les méthodes de suivi est liée à la façon dont elles traitent les mesures au cours du temps. Si on suppose que le suivi est effectué sur une période [0, ΔT ], on peut alors différencier trois principaux types d’approches :
(i) Les approches en ligne estiment les trajectoires jusqu’à l’instant t uniquement à partir des mesures présentes et passées (c’est-à-dire reçues jusqu’à l’instant t).
(ii) Les approches globales, qui estiment l’ensemble des trajectoires à partir de toutes les mesures de la période considérée [0, ΔT ].
(iii) Les approches à fenêtre glissante (ou à logique différée, multi-scan ou par batch) qui considèrent les mesures présentes sur la période [0, t + Δt] pour prédire les trajectoires jusqu’à l’instant t. Les mesures passées, présentes et celles dans un futur proche (Δt correspondant à un temps assez court) sont donc utilisées pour estimer les trajectoires jusqu’à l’instant courant.
Ces catégories d’approches sont illustrées en figure II.1, et le choix de l’une ou l’autre catégorie a en pratique un fort impact sur le temps de latence de la méthode de suivi. En effet, dans le cas d’approches en ligne, le temps de latence pour estimer les trajectoires est faible puisque les mesures sont traitées immédiatement. Dans le cas des approches hors ligne, le temps de latence est d’au moins Δt pour les approches à fenêtre glissante et d’au moins ΔT pour les approches globales.
Association de données déterministe/probabiliste : Une dernière distinc-tion importante peut être faite vis-à-vis de la façon dont l’association de données est effectuée. Usuellement, l’association de données est formulée pour déterminer la meilleure configuration d’associations, cette configuration d’associations devant satisfaire certaines contraintes pour être admissible. Ces contraintes sont habituelle-ment d’associer au plus une mesure de chaque instant temporel à chaque trajectoire et respectivement au plus une trajectoire à chaque mesure. Chaque trajectoire est ensuite prolongée à partir de l’unique mesure qui lui a potentiellement été associée à l’instant suivant et ce type d’association est alors dit déterministe. Le critère utilisé pour déterminer la meilleure configuration d’associations est fréquemment formulé de manière à maximiser une probabilité a-posteriori, étant données les mesures ob-servées, et c’est pourquoi ces méthodes sont aussi appelées approches de type MAP (Maximum A Posteriori).
D’autres approches modélisent cette étape d’association de données pour obtenir des probabilités d’association entre chaque mesure et chaque trajectoire, probabilités obtenues en considérant l’ensemble des configurations d’associations possibles. Une trajectoire est alors prolongée en prenant en considération ses probabilités d’asso-ciation avec plusieurs mesures, et cette association est alors dite probabiliste 1. Les approches de suivi employant des méthodes d’association probabilistes sont aussi qualifiées d’approches Bayésiennes.
Spécificités du suivi mono-objet
Dans le cas du suivi mono-objet, une unique cible est considérée. Cela simpli-fie donc nettement le problème d’association de données ainsi que le problème de création des trajectoires. L’élément le plus important est donc d’arriver à prolonger correctement la trajectoire à partir des mesures qui lui sont associées.
Le suivi mono-objet est le plus souvent considéré en ligne, et on suppose dans un premier temps qu’une association de données déterministe est employée et asso-1. Il faut faire attention à ne pas confondre ici une méthode de suivi déterministe/stochastique et une méthode de suivi utilisant une association de données déterministe/probabiliste. Une mé-thode de suivi est dite stochastique si l’algorithme associé est stochastique, par exemple si un échantillonnage par Monte Carlo est utilisé. L’association de données est probabiliste si on obtient en sortie des probabilités d’association. Une méthode de suivi peut ainsi être déterministe en fai-sant intervenir une association de données probabiliste, ou bien être stochastique et se reposer sur une association de données déterministe.
Spécificités du suivi multi-objets
Dans le cas du suivi multi-objets, une difficulté supplémentaire apparaît par rapport au suivi mono-objet. En effet, les mesures d’un même instant temporel peuvent correspondre à plusieurs cibles. L’étape d’association de données est alors cruciale pour répartir les mesures aux cibles correspondantes. Les approches de suivi multi-objets classiques ont ainsi tendance à se concentrer sur l’étape d’association de données, afin d’éviter au maximum des erreurs d’appariement entre les mesures et les cibles, et prolongent ensuite les trajectoires à partir des mesures associées en reprenant des méthodes de suivi mono-objet (filtre de Kalman, filtre à particules…). De plus, contrairement au suivi mono-objet qui est davantage réalisé en ligne, le suivi multi-objets est assez étudié dans un contexte hors ligne par des approches à fenêtre glissante ou globales. L’étape d’association de données étant ici bien plus difficile, les approches hors ligne permettent alors de résoudre cette étape de façon plus fiable en prenant en compte davantage d’information sur un horizon temporel.
Suivi multi-objets en ligne
Nous détaillons tout d’abord plusieurs méthodes usuelles de suivi multi-objets en ligne, qui estiment donc les trajectoires à l’instant courant uniquement à partir des mesures des instants précédents et de l’instant courant.
GNN (Global Nearest Neighbors) : Concernant les approches de suivi multi-objets en ligne, une première façon de procéder consiste à déterminer la configuration d’associations optimale C∗ entre les trajectoires Tt−1 = {T1, …, Tntraj }, estimées à l’instant t − 1, et les mesures Mt = {m1, …, mnmes } à l’instant courant t. Cette configuration optimale C∗ est alors déterminée parmi l’ensemble des configurations admissibles C de façon à minimiser une énergie E. La valeur E(C) est usuellement formulée de manière à prendre en compte l’ensemble des distances ou coûts d’asso-ciation cT,m pour chaque association (T, m) de la configuration C. La configuration C∗ est ainsi déterminée comme une solution de : min cT,m . C T,m C C ( X)∈ (II.1)
Cette méthode d’appariement est ainsi déterministe et est dénommée GNN [26]. Le principal désavantage de cette approche est que déterminer une unique configuration d’associations oblige à effectuer des choix d’appariement immédiatement entre les trajectoires de Tt−1 et les mesures de Mt. D’éventuelles erreurs d’association ne peuvent alors pas être corrigées au cours des instants suivants en prenant avantage de nouvelles mesures.
JPDA (Joint Probabilistic Data Association) : Une autre façon de pro-céder consiste à envisager une association de données probabiliste. Pour chaque tra-jectoire Ti de Tt−1 et chaque mesure mj de Mt, le module d’association de données estime la probabilité βij que la mesure mj corresponde à la cible de la trajectoire Ti. Chaque probabilité βij est définie en énumérant toutes les configurations d’asso-ciations C de C par : C C,(Xi j)∈ P (C|M0, …, Mt) , (II.2)
où P (C|M0, …, Mt) est la probabilité a posteriori associée à la configuration C. Une fois les probabilités βij estimées, celles-ci sont alors utilisées pour prolonger les trajectoires à l’instant courant t en utilisant des approches de suivi mono-objet probabilistes, typiquement des filtres de Kalman à mesures multiples. Cette méthode est alors appelée JPDA [41]. Ce type d’approche évite de faire des appariements stricts entre une cible et une unique mesure en chaque instant, ce qui permet de mieux aborder les cas où l’association d’une cible vis-à-vis de plusieurs mesures est ambiguë. Néanmoins, calculer les probabilités βij de manière exacte est souvent très coûteux en temps de calcul (du fait du grand nombre de configurations C envisageables) et des heuristiques pour estimer ces probabilités sont nécessaires en pratique.
RJMCMC (Reversible Jump Markov Chain Monte Carlo) : Dans les approches de suivi multi-objets en ligne décrites précédemment, de type GNN ou JPDA, l’étape de prolongement des trajectoires est réalisée indépendamment pour chaque cible une fois l’association de données réalisée. Ces approches sont alors dites décentralisées, l’état de chaque cible étant modélisé individuellement. Cela est par exemple fait dans l’article [18] en utilisant une association de données de type GNN avec des filtres à particules spécifiques à chaque cible. Certaines méthodes de suivi, dites centralisées, modélisent au contraire directement l’état de l’ensemble des cibles. Plusieurs travaux ont par exemple considéré l’emploi d’un unique filtre à particules pour estimer la probabilité jointe, a posteriori, de l’état de l’ensemble des cibles p(Xt|M0, …, Mt). Xt est alors ici un vecteur de l’état de l’ensemble des cibles à l’instant t. L’avantage est que le prolongement des trajectoires peut être effectué conjointement lors de l’étape d’échantillonnage. La distribution de proposition, qui génère les nouvelles particules Pt à partir de celles de Pt−1, peut alors prendre en compte des interactions entre cibles. L’emploi de filtres à particules pour modéliser l’état joint des différentes cibles Xt est néanmoins complexe car Xt présente une dimension variable en fonction du nombre de cibles. Ce problème est alors traité dans [60] en ajoutant des mouvements de sauts réversibles du vecteur d’état qui permettent d’augmenter ou réduire le nombre de cibles durant l’échantillonnage et de suivre ainsi un nombre variable de cibles. Ce type d’approches de suivi est alors appelé RJMCMC.
PHD (Probability Hypothesis Density) : Comme expliqué précédemment, la modélisation de la probabilité a posteriori p(Xt|M0, …, Mt) de l’état joint Xt des cibles est complexe du fait de la dimension variable de Xt. Si les approches de type RJMCMC traitent cette difficulté en modifiant l’étape d’échantillonnage de façon à pouvoir considérer l’ajout ou la suppression de cibles, une autre approche est d’aborder ce problème sans chercher à estimer l’identité des cibles mais seulement leur position. Les approches de type PHD [81] cherchent, de manière simplifiée, à estimer une fonction f qui permet de modéliser la présence d’une ou plusieurs cibles dans une zone donnée (en réalité la valeur de l’intégrale de f sur une zone donnée est une estimation du nombre d’objets présents). L’avantage est alors que cette fonction f est plus simple à estimer que l’état joint des cibles Xt, et permet de corriger le bruit des mesures tout en estimant le nombre de cibles observées. Cette estimation peut notamment être approchée avec un filtre à particules [98]. Le principal inconvénient est que les identités des cibles doivent être fixées ultérieurement par une méthode d’association de données.
Suivi multi-objets hors ligne
Nous précisons maintenant certaines approches classiques de suivi multi-objets hors ligne. Ces méthodes, globales ou à fenêtre glissante, considèrent alors plusieurs instants temporels futurs pour estimer de façon plus précise les trajectoires à l’instant courant.
MHT (Multiple Hypothesis Tracking) : Une première approche, appelée MHT, énumère de façon exhaustive l’ensemble des configurations d’associations pos-sibles sur une fenêtre glissante d’une durée Δt [106]. L’association de données est alors déterministe en retenant uniquement la configuration C∗ la plus probable. L’in-convénient majeur d’une telle approche est que l’énumération exhaustive de toutes les configurations sur la fenêtre glissante devient rapidement impraticable lorsque le nombre de cibles est important. Pour y remédier, l’énumération des configura-tions est faite sous la forme d’un arbre, et seules les hypothèses les plus probables sont gardées en élaguant l’arbre de recherche (pruning). L’avantage d’une approche MHT, comparée à une approche plus basique de type GNN, est de pouvoir corriger d’éventuelles erreurs d’association avec des mesures futures. Ses inconvénients sont cependant que les trajectoires sont déterminées avec un délai Δt et que le coût CPU d’une telle méthode est important. Réduire l’arbre de recherche de façon plus stricte peut améliorer le temps de calcul au détriment des performances, et un compromis doit ainsi être fait sur l’étape d’élagage de l’arbre (étape de pruning).
MCMCDA (Markov Chain Monte Carlo Data Association) : Une autre catégorie d’approches est constituée des méthodes de type MCMCDA. Plu-sieurs approches précédentes, en particulier les méthodes JPDA et MHT, nécessitent d’énumérer exhaustivement l’ensemble des configurations possibles que ce soit pour déterminer la configuration la plus probable (MHT) ou déterminer des probabilités d’association (JPDA). Ces deux approches sont limitées par cette énumération qui est rarement faisable exactement du fait de la complexité du problème lorsque le nombre de cibles est important. La méthode MCMCDA proposée dans l’article [99] évite cette énumération exhaustive en utilisant un échantillonnage de Monte Carlo par chaînes de Markov sur l’ensemble des configurations d’associations. La chaîne de Markov obtenue permet alors d’estimer les probabilités d’association βij comme fait par les méthodes JPDA ou de déterminer la configuration la plus probable C∗ sur une fenêtre glissante, ce qui est l’objectif des méthodes MHT. Les méthodes MCMCDA peuvent ainsi traiter une association de données déterministe ou probabiliste, que ce soit en ligne ou hors ligne. Ces méthodes sont néanmoins le plus souvent employées avec une fenêtre glissante pour résoudre une association de données déterministe.
Les filtres à particules de type RJMCMC font aussi appel à un échantillon-nage de Monte Carlo et à des chaînes de Markov, mais ne traitent pas exacte-ment le même problème. Les méthodes de type RJMCMC échantillonnent la loi p(X|M0, …, Mt) où X représente les positions de toutes les cibles. Les méthodes MCMCDA se concentrent sur l’association des données, en échantillonnant la loi p(C|M0, …, Mt), et ne déterminent pas directement les positions des cibles mais seulement les mesures qui leur sont associées. En pratique, les méthodes de type RJMCMC se limitent usuellement à un suivi en ligne alors que les méthodes de type MCMCDA sont plutôt utilisées pour du suivi à fenêtre glissante.
BIP (Binary Integer Programming) : Une autre méthode de suivi multi-objets hors ligne est celle proposée dans l’article [92]. Dans cette approche, le pro-blème d’association de données est formulé comme un problème de programmation linéaire à valeurs booléennes (BIP). L’avantage principal est que le problème de pro-grammation linéaire à valeurs booléennes étant étudié dans de nombreux domaines, des techniques d’optimisation efficaces existent pour le résoudre. Contrairement aux approches précédentes, cette méthode cherche explicitement à modéliser le problème de suivi sous une forme particulière afin de tirer avantage d’algorithmes d’optimisa-tion déjà existants. Cette stratégie est très fréquemment employée dans les approches de suivi visuel multi-objets. Nous détaillons en sous-section II.2.3 plusieurs méthodes qui reformulent aussi le problème de suivi comme un problème d’optimisation ap-partenant à une catégorie spécifique de problèmes d’optimisation usuels (problèmes de flot maximal, problèmes de clique maximale…).
Positionnement de nos travaux
Au cours de cette thèse, nous nous focalisons sur le suivi multi-objets et considé-rons certaines méthodes d’association de données présentées dans cette section. Nous ne proposons pas de nouvelles méthodes d’association de données, notre stratégie principale étant de chercher à exploiter au mieux des représentations parcimonieuses, pour modéliser l’apparence des cibles, au sein de techniques d’association de données existantes.
Dans un premier temps, au chapitre III, nous étudions une approche de suivi multi-objets en ligne employant un système d’association assez basique, à savoir une association de données image après image formulée comme un problème d’appa-riement dans un graphe biparti. Cette première approche est alors de type GNN, présenté en sous-section II.1.3, où une solution C∗ du problème d’appariement est déterminée en maximisant la somme des valeurs d’affinité de chaque couple de tra-jectoire et détection associées.
Afin de gagner en performances, nous exploitons ensuite au chapitre IV et au chapitre V davantage d’information temporelle au sein d’une approche hors ligne à fenêtre glissante. Nous considérons des approches à fenêtre glissante, qui raisonnent sur un faible nombre d’images futures, plutôt que des méthodes globales utilisant l’ensemble de la vidéo afin d’aboutir à un système de suivi fonctionnant avec une latence faible et respecter ainsi les contraintes précisées en sous-section I.1.2. Parmi les différentes techniques d’association de données possibles pour des approches à fenêtre glissante, comme présenté en sous-section II.1.3, nous utilisons une technique d’association de données de type MCMCDA. La raison principale qui motive ce choix est que nous privilégions une approche d’association imposant peu de contraintes sur l’énergie globale minimisée. Cela nous permet ainsi de nous concentrer sur la formulation de cette énergie et de chercher à la formuler pour exploiter au mieux les informations visuelles à notre disposition, au travers de représentations parcimo-nieuses plus complexes.
Méthodes existantes de suivi visuel
Après avoir discuté du suivi d’objets dans un cadre assez général, en présentant les approches classiques pour traiter ce problème, cette section aborde le cas plus spécifique du suivi visuel. Nous présentons les principales approches existantes en nous concentrant plus particulièrement sur les méthodes récentes et sur le suivi visuel multi-objets. Le cas du suivi visuel mono-objet est néanmoins abordé succinctement dans cette section. De plus, du fait des contraintes envisagées dans cette thèse, détaillées en section I.1, nous abordons uniquement les approches de suivi mono-caméra et ne détaillons pas les approches multi-caméras. Pour davantage de détails sur le suivi visuel, le lecteur peut se référer aux articles [79, 113, 129].
Spécificités du suivi visuel
Par rapport au cadre plus général du suivi d’objets discuté à la section pré-cédente, il est possible de faire quelques observations spécifiques au suivi visuel. L’objectif du suivi visuel d’objets est toujours d’estimer un ensemble de trajec-toires T = {T1, …, Tntraj } d’objets d’intérêt à partir d’un ensemble de mesures M = {m1, …, mnmes }. Ici, ces mesures résultent d’une caméra et se présentent sous la forme d’une séquence d’images I = {I1, …, Inimages } de la scène observée au cours du temps. La différence principale par rapport à des techniques de suivi par radar ou sonar, par exemple, est qu’ici les mesures données par le capteur n’indiquent pas directement la présence d’une cible. Les mesures issues de la caméra, les images I = {I1, …, Inimages }, fournissent des informations plus riches sur la scène que la simple présence ou non présence des cibles.
Modèle géométrique des cibles
Une première considération importante concerne le modèle géométrique sous le-quel les cibles sont représentées, c’est-à-dire sous quelle forme les cibles sont localisées en sortie de l’algorithme de suivi. Les modèles géométriques des cibles peuvent être en effet assez variés, et une liste non exhaustive est donnée ici :
(i) Formes géométriques englobantes : Le modèle géométrique de chaque cible est dans ce cas par un polygone régulier, le plus souvent un rectangle appelé boîte, ou un ellipsoïde englobant la cible. Cette forme géométrique est censée englober l’objet.
(ii) Modèles articulés : Le modèle géométrique considéré ici est constitué d’un ensemble de parties locales reliées entre elles, chaque partie locale étant repré-sentée par une forme géométrique englobante. Un exemple classique d’une telle représentation est celle employée par le DPM (Deformable Part Model) [39] où les objets sont constitués d’un ensemble de parties locales représentées par des boîtes.
(iii) Contour ou segmentation : Les cibles sont ici décrites par l’ensemble des pixels qui les représentent dans l’image.
(iv) Squelette : Dans ce cas, le modèle géométrique considéré est un ensemble de segments qui suivent une certaine structure. Ce modèle est particulièrement employé dans la détection de pose et la reconnaissance de gestes et d’actions.
Ces différents modèles géométriques sont illustrés en figure II.2. Les modèles listés précédemment peuvent être considérés dans le repère image, en suivi 2D, ou dans un repère 3D lié à la scène. Dans la suite, nous nous limitons au modèle géométrique le plus classique en suivi visuel en supposant par défaut que chaque cible est représentée dans le plan image par une boîte englobante rectangulaire.
Caractéristiques visuelles
Si disposer d’une séquence d’images de la scène étudiée ne donne pas directement d’hypothèses sur la présence des cibles, ces images permettent néanmoins de décrire plus précisément les cibles qu’avec leur seule localisation. En Vision par Ordinateur, un grand nombre de caractéristiques visuelles ont été proposées. Les caractéristiques visuelles usuellement employées pour le suivi sont les valeurs d’intensité des pixels (en niveaux de gris ou en couleurs), des histogrammes d’intensité, des histogrammes d’orientation de gradients de type HOG (Histograms of Oriented Gradients) [28] ou encore des LBP (Local Binary Pattern) [100]. Des caractéristiques basées sur un flot optique peuvent aussi être employées, éventuellement via des HOF (Histograms of Optical Flows) [29]. Enfin, des caractéristiques issues de techniques d’apprentis-sage profond peuvent être employées, en réutilisant directement des caractéristiques apprises dans un contexte de détection d’objets ou en les apprenant de manière spécifique pour le suivi visuel.
Les cibles peuvent aussi être décrites par un ensemble d’éléments locaux, avec une description dite locale. Ces éléments peuvent être pris sur une grille régulière, déterminés via un détecteur de points d’intérêt (détecteur de Harris [47], SIFT [78], SURF [10]…), être trouvés par des méthodes de superpixels ou encore être donnés directement par un détecteur d’objets (par exemple de type DPM [39]).
Ces caractéristiques permettent de décrire chaque objet, le plus souvent en mo-délisant son apparence, et, dans le cas du suivi multi-objets, de différencier les dif-férentes cibles les unes des autres.
Suivi avec ou sans détection
Une distinction peut être faite sur la façon dont les cibles sont précisées dans les méthodes de suivi visuel. Cette distinction mène à deux catégories de méthodes :
(i) Une première catégorie de méthodes considère le suivi d’une ou plusieurs classes d’objets connus et requiert un détecteur d’objets qui permet de donner des hy-pothèses sur la présence de ces objets. Usuellement, ces hypothèses prennent la forme de détections Det = {d1, …, dndet } et chaque détection d est géné-ralement associée à un score de confiance sd. Les trajectoires des cibles sont alors estimées à partir des images et des détections, et ce genre d’approches est appelé suivi par détection (tracking by detection).
(ii) Une autre catégorie de méthodes suppose l’annotation manuelle des objets à suivre, annotation usuellement faite sur la première image de la vidéo étudiée.
Seuls les objets indiqués manuellement sont suivis, et ce type d’approches est dénommé suivi sans modèle (model free tracking) ou suivi sans détection.
Dans le cas du suivi par détection, le détecteur d’objets peut être en réalité employé de manières assez diverses. Tout d’abord, si la majorité des approches considèrent un ensemble de détections Det restreint aux détections les plus fiables, certaines méthodes utilisent des cartes de scores permettant d’évaluer toutes les positions envisagées. D’autres méthodes se reposent sur des détections de parties locales des cibles, ce qui est parfois considéré en suivi de personnes. Enfin, dans le cas de scènes fixes, certaines approches considèrent l’emploi d’une soustraction de fond (background substraction) pour indiquer les régions en mouvement de la scène. Dans ce cas, on se concentre sur le suivi de tous les objets mobiles.
Dans cette thèse, nous nous focalisons sur les méthodes du type (i), c’est à dire des méthodes de suivi par détection. Nous employons le détecteur d’objets de la façon la plus standard dans la littérature du suivi par détection en supposant que le détecteur d’objets nous fournit des boîtes englobantes des cibles avec éventuellement un score de détection.
Difficultés principales en suivi visuel
Les difficultés principales du suivi visuel, abordées en sous-section I.1.3, sont alors :
— Gérer les occultations des cibles, qui peuvent être partiellement ou totalement occultées par d’autres cibles ou éléments de la scène.
— Maintenir les identités des cibles, c’est-à-dire être capable de différencier les cibles en permanence. Malgré l’information visuelle disponible, les cibles sont généralement des objets d’une même classe (par exemple des personnes ou des voitures) et présentent donc des apparences visuelles qui partagent une structure générale et qui ne se différencient que sur certains aspects plus spécifiques.
— Gérer les variations des différents types de scènes possibles. Cela signifie que les méthodes doivent être robustes à une grande variabilité de types de scènes, notamment en terme d’angles de vue de la caméra, de mouvements de la caméra, d’illuminations de la scène…
En plus de ces difficultés générales, certaines difficultés sont plus spécifiques au type de suivi visuel envisagé. Par exemple, les approches de suivi sans détec-tion apprennent le plus souvent un modèle d’apparence pour chaque cible qui est usuellement mis à jour en tenant compte des nouvelles positions estimées. Ces mé-thodes sont alors confrontées au problème de dérive des modèles mis à jour, ces modèles pouvant progressivement apprendre une position décalée de la cible et finir par apprendre un élément complètement différent de la scène, souvent une zone de l’arrière-plan.
Les méthodes de suivi par détection sont moins sujettes à ce problème de dérive, les modèles d’apparence propres à chaque cible reposant en grande partie sur les détections pour leur mise à jour et permettent une ré-initialisation automatique. Néanmoins, ces méthodes sont soumises aux défauts du détecteur d’objets employé et doivent alors être particulièrement robustes aux fausses détections et aux cibles non détectées. Nous avons privilégié cette approche au cours de cette thèse, en nous reposant fortement sur les détections données par le détecteur d’objets.
Suivi visuel mono-objet
Nous abordons maintenant les méthodes existantes pour le suivi visuel mono-objet. Le suivi visuel mono-objet est usuellement réalisé en ligne en supposant l’objet
à suivre annoté sur la première image, sans a-priori sur la classe de l’objet suivi. Ce choix peut aisément s’expliquer car si un détecteur d’objets est employé, celui-ci peut détecter plusieurs objets pour chaque image et une approche de suivi multi-objets est alors privilégiée. On considère donc ici que la cible à suivre est uniquement localisée au sein de la première image de la vidéo, et on dispose seulement de la
séquence d’images I = {I1, …, Inimages } donnée par la caméra. Puisque l’on ne dispose pas d’hypothèses directement liées à la présence de la cible, les méthodes de suivi
qui reposent sur de telles hypothèses, comme le filtre de Kalman, ne peuvent être directement employées. Les méthodes de suivi visuel mono-objet consistent alors le plus souvent à modéliser l’apparence de la cible afin d’estimer sa position aux instants suivants. Nous décrivons ici de manière très succincte le principe de ces méthodes, plus de détails sur les approches de suivi visuel mono-objet sont donnés au sein des articles [65, 113].
La plupart des approches estiment la nouvelle position xt+1 de la cible comme celle de l’image It+1 la plus proche en apparence de la position xt. Si y et yx sont les caractéristiques visuelles respectivement liées à la cible et à une position candidate x de l’image It+1, on cherche usuellement à minimiser une erreur au sens des moindres carrés. Dans ce cas, xt+1 est déterminé comme solution du problème : x∈It+1 x||2 min || y − y 2 , (II.3)
ou en maximisant une corrélation croisée (i.e. yTyx). En pratique, on peut utiliser pour le choix de y la dernière vue de la cible, c’est-à-dire y = yxt , ou une combinai-son de plusieurs vues récentes. Le principal inconvénient est ici de devoir examiner toutes les positions x ∈ It+1. Des méthodes approchées sont usuellement employées, notamment via l’emploi de l’algorithme MeanShift [17] ou de filtres à particules [53].
Au cours des dernières années, les méthodes de suivi visuel mono-objet à base de représentations parcimonieuses ont été assez populaires [135]. Plutôt que de compa-rer toutes les positions candidates x à une même caractéristique visuelle y, on adapte ici la caractéristique y de l’équation (II.3) à la position candidate. Pour chaque po-sition candidate x, on considère le vecteur y qui minimise l’erreur ||y − yx||22, tout en contraignant y à s’écrire sous la forme d’une combinaison linéaire d’un faible nombre de vues récentes de la cible yxt−k , …, yxt−1 , yxt . Ce vecteur y peut alors être déterminé en tant que représentation parcimonieuse de yx, d’où appellation de ce type d’approches. Ces méthodes sont davantage précisées en sous-section II.3.3.
Des techniques d’apprentissage ont aussi été utilisées, principalement afin de dé-terminer un modèle d’apparence qui différencie la cible de son voisinage proche. De façon très générale, l’idée est ici de déterminer un classifieur qui attribue un score élevé aux caractéristiques visuelles pouvant provenir de la cible et un score faible à celles liées à son voisinage. Selon le modèle, les positions candidates x évaluées sont générées exhaustivement par une technique de fenêtre glissante ou bien le modèle d’apparence est utilisé avec un filtre à particules. Plusieurs techniques d’apprentis-sage ont été proposées, en particulier les techniques de type SVM [3], par ensemble de classifieurs faibles [58], avec instances multiples (MIL) [4], de régression d’arête (ridge regression) [49] ou encore de méthodes d’apprentissage profond [95]. Si la majorité de ces méthodes visent à apprendre un modèle d’apparence discriminatif entre la cible et son voisinage proche, on peut néanmoins citer le cas particulier de la méthode Struck [46] qui cherche à modéliser directement le déplacement de la cible avec un SVM structuré.
Parmi les méthodes les plus courantes, celles qui sont récemment les plus popu-laires et performantes sont majoritairement issues de deux catégories d’approches. La première concerne les méthodes de type KCF (Kernelized Correlation Filters) [49] qui utilisent un apprentissage par régression d’arête (ridge regression). Ces méthodes exploitent des matrices circulantes et des techniques de convolution rapide par trans-formée de Fourier rapide afin de réaliser cet apprentissage avec un très grand nombre d’exemples. L’autre catégorie d’approches qui présentent actuellement de bonnes performances concerne les méthodes utilisant des techniques d’apprentissage pro-fond, notamment pour apprendre des caractéristiques visuelles plus adaptées. On peut noter que la méthode [30], qui obtient les meilleurs résultats sur la dernière version du Visual Object Tracking Challenge [65], combine ces deux catégories en ex-ploitant judicieusement des caractéristiques par apprentissage profond au sein d’un suivi de type KCF.
Méthodes d’évaluation pour le suivi multi-objets
Cette section détaille les protocoles utilisés pour évaluer et comparer les ap-proches de suivi multi-objets, en précisant les choix effectués à ce sujet pour com-parer nos méthodes de suivi.
Bases de données
Les bases de données disponibles pour le suivi multi-objets sont majoritairement spécifiques au cas du suivi de personnes multiples, du fait du grand nombre d’appli-cations qui considèrent les personnes comme objet d’intérêt. De nouvelles bases de données de plus en plus pertinentes ont vu le jour au cours de cette thèse, et cela explique que diverses bases de données aient été utilisées pour tester nos approches de suivi.
Au début de cette thèse, la plupart des méthodes en suivi multi-objets étaient évaluées sur un nombre réduit de vidéos, comme les vidéos de PETS [40], TownCen-ter [13], ParkingLot [112], TUD [1, 2] ou ETH [35]. Pour certaines de ces séquences, des jeux de détections sont disponibles pour permettre de s’évaluer avec le même détecteur d’objets. De plus, certains auteurs donnent les trajectoires estimées par leur méthode ce qui permet de se comparer avec des métriques différentes. Pour nos premiers travaux, nous avons considéré pour ces différentes raisons quatre vidéos fré-quemment employées, à savoir PETS S2L1, PETS S2L2, TownCenter et ParkingLot. Nous utilisons de plus des jeux de détections publiques, donnés par les articles [88] pour les vidéos de PETS, par [13] pour TownCenter et enfin par [112] pour Par-kingLot. Les vérités terrains sont alors celles fournies par [13, 88, 112]. Ces quatre vidéos sont des scènes fixes avec des vues plongeantes de la scène, cas assez fréquent dans les applications de vidéo-surveillance. Ces vidéos se distinguent notamment au niveau de leur fréquence et de la densité des cibles. Des images de ces quatre vidéos sont données en figure II.3.
Les bases de données du MOTChallenge ont été proposées plus récemment, avec une première version en 2015, intitulée 2DMOT15 [67], et une seconde en 2016, intitulée MOT16 [86]. Ces bases de données incluent plusieurs vidéos réparties en un ensemble d’entraînement et un ensemble de test (22 vidéos au total pour la version 2015 et 14 pour la version 2016). Si certaines de ces vidéos sont nouvelles, d’autres proviennent d’anciens travaux [1, 2, 12, 35, 40, 45]. L’avantage de ces deux bases de données est qu’un ensemble de détections publiques est fourni pour chaque version (avec un détecteur de type ACF [33] pour la version 2015 et de type DPM [39] pour la version 2016), et que ces vidéos présentent davantage de diversité comparées aux quatre vidéos précédentes. Ces vidéos sont en effet issues de caméras fixes ou mobiles, avec des orientations de caméra variées (vue plongeante ou rasante…) et des densités variables de personnes. Certaines images des vidéos du MOTChallenge sont présentées en figure II.4.
De plus, une vérité terrain par vidéo est fournie, ce qui s’avère nécessaire pour évaluer les méthodes de suivi sur les vidéos d’entraînement et de test. Ces vérités terrain incluent les trajectoires de toutes les cibles qui doivent être estimées, c’est-à-dire leurs positions et identités en chaque image. Si ces vérités terrain sont issues d’anciennes bases de données pour la version 2015, et ne suivent donc pas exactement les mêmes conventions d’annotation, les vérités terrain pour la version 2016 ont été réalisées en suivant le même protocole comme décrit dans l’article [86].
Métriques employées
L’évaluation quantitative des méthodes de suivi multi-objets nécessite non seule-ment des bases de données mais aussi des métriques adaptées pour permettre de comparer les différentes approches. Cependant, il est délicat de définir une mesure unique de performance pour le problème de suivi multi-objets. La principale dif-ficulté est ici que les résultats d’une méthode de suivi multi-objets peuvent être affectés par des erreurs de types assez divers. Certaines erreurs seront en particu-lier plus liées à la détection des cibles tandis que d’autres résulteront davantage de problèmes d’association des détections.
La performance d’une méthode de suivi est aussi fortement dépendante de l’ap-plication qui exploite ses résultats. Selon l’application, il peut être par exemple plus crucial de maintenir les identités des cibles (en évitant des changements d’identité) ou bien de limiter les fragmentations de trajectoires (c’est-à-dire estimer une seule trajectoire par cible) ou encore d’estimer précisément la localisation des cibles. De ce fait, la plupart des travaux qui ont cherché à évaluer quantitativement les méthodes de suivi multi-objets [14, 74, 97, 114, 115] utilisent un ensemble de métriques afin de prendre en considération les différents types d’erreurs possibles. Une synthèse des différentes métriques existantes est réalisée dans l’article [91].
Au cours des dernières années, la communauté travaillant sur le suivi multi-objets a fini par utiliser presque exclusivement les métriques CLEARMOT de l’article [14]. D’autres métriques mesurant davantage la qualité des trajectoires, proposées dans les articles [75,125], ont aussi été massivement adoptées et ajoutées le plus souvent en supplément des métriques CLEARMOT. Ces deux catégories de métriques reposent sur un appariement entre les hypothèses de trajectoires données par l’approche de suivi, notées H = H1, …, HnH et les cibles de la vérité terrain notées O = O1, …, OnO .
Appariement des hypothèses de trajectoires à la vérité terrain
L’appariement des hypothèses de trajectoires aux cibles de la vérité terrain né-cessite d’associer à chaque image de la vidéo traitée les positions de ces hypothèses et de ces cibles. Si cela peut être évident dans le cas où les cibles sont éloignées les unes des autres, cet appariement devient beaucoup plus ambigu dans le cas de cibles proches. Le protocole suivi pour effectuer cette étape pour les métriques CLEAR-MOT considère les images It de la vidéo étudiée les unes après les autres de la manière suivante :
(i) Pour toute hypothèse H associée à une cible O à l’image précédente It−1, si H et O sont toutes deux présentes pour l’image It et suffisamment proches (i.e. dCLEARMOT (H, O) ≤ thCLEARMOT ) alors considérer H et O toujours associées pour l’image It. dCLEARMOT est une distance considérant les positions des hypothèses de trajectoires et cibles dans l’image It, et thCLEARMOT est un seuil limite d’appariement.
(ii) Pour toutes les hypothèses de H et cibles de O présentes dans l’image It mais non associées à l’étape (i) précédente, effectuer un appariement qui minimise la somme des distances dCLEARMOT des hypothèses et cibles associées. On suppose de plus que seuls des couples (H, O) qui vérifient dCLEARMOT (H, O) ≤ thCLEARMOT peuvent être associés. Ce problème peut alors être formulé comme un appariement de poids minimal qui est résolu de manière optimale par un algorithme hongrois [93].
Ce protocole permet bien d’associer en chaque image les hypothèses de trajec-toires aux cibles de la vérité terrain. Le plus souvent, en suivi dit 2D, la distance dCLEARMOT est usuellement le ratio entre l’aire de l’intersection et l’aire de l’union des deux boîtes considérées (notée IOU, pour Intersection Over Union). Le seuil thCLEARMOT est usuellement fixé à 12 . Il est maintenant possible de définir les mé-triques CLEARMOT, et celles sur la qualité des trajectoires, à partir des apparie-ments déterminés ici.
Approches de suivi multi-objets en ligne
Les méthodes de suivi multi-objets en ligne, dont le principe général a été précisé au chapitre précédent, ont un avantage significatif par rapport aux autres types de méthodes de suivi. En effet, contrairement aux méthodes de suivi hors ligne, seules les méthodes en ligne permettent de traiter immédiatement chaque image de la vi-déo considérée et peuvent ainsi donner une réponse sans attendre d’autres images futures. En pratique, cela signifie notamment que ces méthodes ont potentiellement un temps de latence très faible puisque leur temps de réponse dépend uniquement du temps nécessaire pour traiter l’information de la dernière image. Ce délai de réponse, ou temps de latence, est donc principalement dépendant du coût CPU de l’approche et de la puissance de calcul disponible. Les approches hors ligne, à fenêtre glissante ou globales, présentent un temps de latence qui dépend lui-aussi de ces élé-ments mais aussi du délai futur pris en compte pour traiter l’instant courant. Ainsi, seules les approches en ligne peuvent avoir un temps de réponse réellement négli-geable, sous réserve d’une puissance de calcul suffisante. Cette caractéristique est particulièrement appréciable pour les applications temps réels ou celles nécessitant une réponse suffisamment rapide.
De plus, un grand nombre d’approches de suivi en ligne ont été récemment propo-sées, par exemple [6, 94, 112, 126, 134], et leurs performances sont assez comparables par rapport aux méthodes hors ligne. Cependant, ces bonnes performances sont principalement dues à l’emploi de modèles d’apparence, voire de mouvement, plus complexes des cibles. Ces modèles vont alors permettre d’attribuer des valeurs d’af-finité pertinentes entre les trajectoires et les nouvelles détections, et ainsi robustifier le processus d’association de ces données.
Puisque nous nous intéressons au sein de cette thèse à des méthodes de suivi multi-objets en ayant pour contrainte d’avoir un temps de latence faible, envisager une approche en ligne est un choix assez naturel vis-à-vis de ce critère. Néanmoins, cela signifie que la performance de notre méthode va être largement dépendante de la pertinence des valeurs d’affinité estimées entre les trajectoires et les dernières détections. C’est pour cette raison que nous allons envisager d’employer des repré-sentations parcimonieuses pour définir des valeurs d’affinité performantes.
Représentations parcimonieuses collaboratives
Les représentations parcimonieuses ont été largement employées au cours des dernières années dans de nombreux domaines en Vision par Ordinateur et il est particulièrement intéressant de voir comment elles ont été employées dans deux do-maines plus spécifiques, à savoir le suivi mono-objet et la classification multi-classes. Le lecteur peut se référer au chapitre II qui présente, de façon générale, le principe de ces méthodes. Nous résumons ici les principales observations qui motivent l’étude de représentations parcimonieuses collaboratives pour le suivi multi-objets.
Les représentations parcimonieuses ont été employées dans le domaine de la classification multi-classes, notamment pour des applications de reconnaissance fa-ciale [124]. L’idée principale de ces approches repose sur l’exploitation de représen-tations collaboratives entre individus. Un dictionnaire commun, composé d’éléments correspondants à plusieurs individus, est employé. Chaque nouvelle personne à re-connaître est représentée de manière parcimonieuse avec les éléments de ce diction-naire, c’est-à-dire comme une combinaison linéaire pondérée d’un faible nombre de ces éléments. Le principe de base de ce genre d’approches est que les éléments par-ticipant le plus dans la représentation de la requête sont alors censés correspondre à des vues du même individu. Il a été argumenté dans [124] que l’emploi de représen-tations parcimonieuses collaboratives aide à différencier des classes dont la variance inter-classes est faible, ce qui est effectivement le cas en reconnaissance faciale.
En suivi mono-objet, les représentations parcimonieuses ont initialement été em-ployées de façon à modéliser la cible de manière générative, le dictionnaire étant principalement constitué de différentes vues de la cible [85]. Des représentations col-laboratives ont ensuite été proposées afin d’obtenir un modèle discriminatif entre la cible et son voisinage proche, le dictionnaire utilisé étant cette fois composé des éléments de ces deux différentes classes [140].
En suivi multi-objets, avec le paradigme de suivi par détection, une difficulté importante se situe au niveau de l’association de données entre les détections et les cibles. Ce problème revient à déterminer pour chaque détection quelle est la cible cor-respondante. Il s’apparente à un problème de classification multi-classes où chaque classe modéliserait une cible. Les différentes cibles étant le plus souvent des ins-tances d’une même classe, toutes les cibles sont d’apparence proche. On retrouve les caractéristiques énoncées plus haut en reconnaissance faciale ou en ré-identification de personnes. Cela motive l’usage de représentations parcimonieuses collaboratives entre les cibles pour réaliser l’étape de l’association de données.
Bien que de nombreuses méthodes de suivi mono-objet aient utilisé des repré-sentations parcimonieuses [135], peu de méthodes multi-objets ont exploité ces re-présentations. De plus, les rares approches qui utilisaient ces représentations par-cimonieuses au démarrage de cette thèse, comme par exemple [94], se limitaient à employer des modèles d’apparence directement inspirés de méthodes mono-objet en attribuant un modèle par cible et sans exploiter de représentations collaboratives entre ces cibles. Ce constat a motivé nos travaux sur l’usage de représentations collaboratives entre cibles pour le suivi multi-objets.
Principe de l’approche proposée
Notre approche vise donc à exploiter des représentations parcimonieuses, no-tamment collaboratives entre cibles, dans le cadre d’une méthode de suivi en ligne multi-objets. Plusieurs choix sont possibles pour définir des représentations parcimo-nieuses entre cibles, surtout par rapport au type de dictionnaire commun employé et au type de description des cibles. Nous étudierons plusieurs des variantes qui en découlent pour évaluer lesquelles sont les plus pertinentes pour une approche de suivi multi-objets.
Le fait de choisir une approche de suivi en ligne, dont le principal intérêt est de limiter le temps de réponse de la méthode proposée, nécessite de porter une atten-tion particulière au calcul des représentations parcimonieuses que nous utiliserons. En effet, déterminer une représentation parcimonieuse est en général une tâche assez coûteuse en temps de calcul et nous envisagerons donc plusieurs variantes d’opti-misation pour réduire ce coût de calcul et limiter au maximum la latence de notre approche.
Système de suivi multi-objets en ligne em-ployé
Cette section détaille l’architecture générale du système de suivi multi-objets en ligne employé par notre approche. Les valeurs d’affinité entre les trajectoires et détections, définies à partir de représentations parcimonieuses, sont explicitées dans la section III.3 suivante.
|
Table des matières
I Introduction générale
I.1 Problème étudié
I.1.1 Suivi visuel d’objets
I.1.2 Cadre de cette thèse
I.1.3 Principales difficultés
I.2 Axe de recherche proposé et contributions
I.2.1 Axe d’études
I.2.2 Contributions
I.3 Structure du manuscrit
II Positionnement des travaux et pré-requis
II.1 Présentation générale du suivi d’objets
II.1.1 Notions de base sur le suivi d’objets
II.1.2 Spécificités du suivi mono-objet
II.1.3 Spécificités du suivi multi-objets
II.1.4 Positionnement de nos travaux
II.2 Méthodes existantes de suivi visuel
II.2.1 Spécificités du suivi visuel
II.2.2 Suivi visuel mono-objet
II.2.3 Suivi visuel multi-objets
II.2.4 Positionnement de nos travaux
II.3 Représentations parcimonieuses
II.3.1 Principe général
II.3.2 Utilisation en Vision par Ordinateur
II.3.3 Représentations parcimonieuses et suivi mono-objet
II.3.4 Positionnement de nos travaux
II.4 Méthodes d’évaluation pour le suivi multi-objets
II.4.1 Bases de données
II.4.2 Métriques employées
II.4.3 Considérations générales sur la comparaison des méthodes de suivi multi-objets
Conclusion
III Suivi en ligne avec représentations parcimonieuses collaboratives
III.1 Motivations
III.1.1 Approches de suivi multi-objets en ligne
III.1.2 Représentations parcimonieuses collaboratives
III.1.3 Principe de l’approche proposée
III.2 Système de suivi multi-objets en ligne employé
III.2.1 Description générale du système
III.2.2 Formulation de l’association de données
III.2.3 Gestion des trajectoires
III.3 Affinités à partir de représentations parcimonieuses collaboratives
III.3.1 Principe général et types de représentations envisagés
III.3.2 Optimisation par méthodes de gradient proximal
III.3.3 Évaluations et analyse des résultats
III.4 Extension au cas de descriptions locales
III.4.1 Motivations
III.4.2 Descriptions locales des cibles et affinités associées
III.4.3 Considérations spatiales pour les représentations
III.4.4 Évaluations et analyse des résultats
IV Suivi par fenêtre glissante et représentations structurées en norme l∞,1
IV.1 Motivations
IV.1.1 Limitations du suivi multi-objets en ligne
IV.1.2 Formulations de l’association de données multi-images
IV.1.3 Principe de l’approche proposée
IV.2 Système de suivi par fenêtre glissante employé
IV.2.1 Description générale du système
IV.2.2 Energie globale proposée
IV.2.3 Optimisation avec méthode de Monte-Carlo par chaînes de Markov
IV.3 Représentations structurées en norme l∞,1
IV.3.1 Modèle d’apparence à base de représentations parcimonieuses
IV.3.2 Pénalisation en norme l∞,1 pondérée proposée
IV.3.3 Optimisation par méthode de gradient proximal
IV.4 Évaluations et analyse des résultats
IV.4.1 Protocole d’évaluation et implémentation
IV.4.2 Évaluation de l’apport des représentations en norme l∞,1 et impact de la taille de la fenêtre glissante
IV.4.3 Comparaison aux méthodes récentes de l’état de l’art
Conclusion
V Représentations parcimonieuses avec dictionnaires denses pour le suivi multi-objets
V.1 Motivations
V.1.1 Limitations des dictionnaires à base de détections
V.1.2 Représentations parcimonieuses à convolutions
V.1.3 Principe de l’approche proposée
V.2 Représentations avec dictionnaires denses en norme l∞,1
V.2.1 Dictionnaires denses
V.2.2 Modèle d’apparence proposé
V.2.3 Adaptation des méthodes d’optimisation
V.3 Système de suivi employé
V.3.1 Principe général
V.3.2 Lissage des pistes
V.3.3 Scores normalisés et endormissement des trajectoires
V.4 Évaluations et analyse des résultats
V.4.1 Implémentation et protocole d’évaluation
V.4.2 Comparaison des variantes étudiées
V.4.3 Comparaison aux méthodes récentes de l’état de l’art
VI Conclusion et perspectives
VI.1 Conclusion
VI.2 Perspectives
VI.2.1 Représentations structurées plus élaborées
VI.2.2 Représentations parcimonieuses à noyaux
VI.2.3 Restriction de l’espace des configurations pour l’association de données par MCMCDA
VI.2.4 Dictionnaires denses avec caractéristiques visuelles par apprentissage profond
Annexes
A. Descriptions locales et caractéristiques visuelles
B. Normes duales de normes de groupes généralisées
B.1 Normes de groupes généralisées
B.2 Normes duales
B.3 Application au cas de la norme l∞,1 pondérée
C. Expérimentations avec jeux de détections simulés
Bibliographie
Télécharger le rapport complet