Dans notre société, les systèmes intelligents sont de plus en plus présents pour aider les hommes dans leurs travaux ou leurs loisirs. La surveillance de sites et la vidéosurveillance sont des exemples de systèmes d’assistance à un téléopérateur. Grâce à ces systèmes de surveillance, d’une part le nombre d’opérateurs effectuant cette tâche relativement ingrate peut diminuer et, d’autre part, cette tâche est effectuée dans des conditions plus confortables (à distance et avec l’aide d’un générateur d’alarmes). Typiquement, le but du système est de détecter les intrus (ou encore les événements) et remonter une alarme ou une menace. Seules les menaces pertinentes sont présentées à l’opérateur avec en outre un indicateur de ‘sévérité’ de ces menaces. Ceci permet de diminuer le nombre des fausses alarmes et donc d’éviter de submerger l’opérateur. Ce dernier peut alors se concentrer sur l’identification et la localisation des intrus.
Plus spécifiquement les systèmes de vidéosurveillance exploitent des données images afin d’en extraire des informations (l’image brute en est un exemple mais également les intrus detectés par un algorithme adéquat) qui servent de support à une décision. Afin à la fois d’être plus robustes et d’extraire des caractéristiques plus haut niveau comme la trajectoire, les algorithmes de traitement du flux vidéo se sont très tôt intéressés au suivi (tracking en anglais) des objects d’intérêt (‘intrus’ dans l’application citée). Maintenant, pour l’application qui nous intéresse, le nombre d’objets d’intérêt peut être supérieur à un, et les approches de suivi sont dites multi-objets. Les principaux défis sont alors liés soit au nombre de ces objets et les ambiguïtés qui en découlent (croisement des objets, occultations etc.), soit même à la discrimination de ces objets et leur énumération à partir des détections en relation non univoque (bijective) avec les objets.
La capacité d’un algorithme de suivi multi-objets dépend alors de : (i) la représentation des objets à partir de laquelle des caractéristiques discriminatives (telles que la couleur, texture, flot optique, bord) sont extraites, qui elles-mêmes dépendent de la détection d’objets influant sur leur précision et fiabilité ; (ii) l’association des détections avec les différents objets (data association en anglais). La représentation mentionnée n’est pas restreinte à la description en termes de caractéristiques mais peut inclure l’imprécision et l’incertitude des connaissances. L’association est un problème bien connu dans des applications radar et/ou militaire. Elle a pour but de mettre en correspondance deux ensembles de détections, l’un correspondant à l’instant courant et l’autre issu des détections précédentes qui, associées entre elles, construisent les objets au cours du temps.
Les détections étant naturellement imparfaites (imprécises et incertaines), la robustesse de la surveillance provient d’une hypothèse implicite que les objets d’intérêt sont ceux persistants dans le temps et qu’un filtrage temporel permet de robustifier les alarmes remontées par le système de surveillance. Ainsi, l’information temporelle est utilisée pour distinguer les objets d’intérêt des fausses alarmes et déterminer de façon fiable l’ensemble des objets d’intérêt ou des alarmes. Notons cependant que la notion de fausse alarme elle-même est ambiguë et doit être définie par rapport à une application donnée. Par exemple, un chat entrant dans un site surveillé (e.g. chantier) est-il une alarme ? Du point de vue de la détection de changement, la réponse est probablement oui, mais du point de vue de la dangerosité la réponse est généralement non.
La fusion de données présente l’ensemble des méthodes et techniques permettant la combinaison de données issues de différentes sources afin d’avoir une information plus fiable améliorant la prise de décision. Les sources peuvent être des capteurs physiques ou logiques délivrant des mesures ou des observations imprécises et/ou incertaines. Elles sont souvent partiellement complémentaires et partiellement redondantes de sorte que leur fusion fournit une description plus précise, plus complète et de certitude suffisante pour déclencher une action pertinente. Schématiquement, la redondance permet de confirmer une décision incertaine et la complémentarité permet de raffiner le champ des décisions. La fusion a été motivée notamment par l’accroissement des capteurs/sources et le besoin de synthétiser leurs informations. Son essor est apparu avec l’informatique et l’intelligence artificielle. La fusion est premièrement apparue dans le domaine militaire, plus particulièrement sonar/radar pour la détection et le suivi d’intrus, la surveillance de champs de bataille et la détection de mines. Depuis plusieurs années, des méthodes de fusion ont été adaptées et développées pour des applications civiles telles que la télédétection, l’imagerie médicale et la robotique .
Les cadres théoriques pour la fusion de données sont nombreux à savoir la théorie des probabilités, la théorie des possibilités, la théorie des fonctions de croyance, etc. Le choix d’une théorie parmi d’autres est lié à la nature des données exploitées. En vidéosurveillance en particulier, les données sont des flux vidéo et si l’on veut les combiner il s’agira de sorties d’algorithmes de traitement d’images. Ces dernières (comme les premières) sont naturellement imparfaites. D’une part, les détections sont incertaines dans le sens où il existe des non-détections (objets partiellement détectés, souvent fragmentés, ou totalement non détectés) et des fausses alarmes (sur-détections). D’autre part, la localisation d’un objet est d’autant plus imprécise qu’il est perçu par ses détections fragmentaires, c’est-à-dire ‘n’importe où’ dans l’objet. Parmi les théories permettant de gérer à la fois l’incertitude (à l’instar de la théorie des probabilités par exemple) et l’imprécision (à l’instar de la théorie des possibilités par exemple), la théorie des fonctions de croyance offre un formalisme solide incluant de nombreux opérateurs permettant de manipuler des informations homogènes et hétérogènes.
|
Table des matières
1 Introduction générale
1.1 Contexte applicatif
1.2 Fusion de données par fonctions de croyance
1.3 Plan de la thèse
2 Généralités sur le tracking
2.1 Introduction
2.2 Détection d’objets
2.3 Représentation d’objets
2.4 Techniques de suivi d’objet(s)
2.4.1 Filtre de Kalman
2.4.2 Filtre particulaire SIR
2.4.3 Fenêtrage
2.4.4 Association
2.4.4.1 NN et GNN
2.4.4.2 PDAF et JPDAF
2.4.4.3 MHT
2.5 Présentation des données
2.5.1 Séquence Digiteo ComFuCet
2.5.2 Séquence SafeAround
2.6 Métriques d’évaluation
2.6.1 Définitions des VP, FP et FN pour le sous-problème d’association
2.6.2 Définition des VP, FP et FN pour le sous-problème de filtrage
2.7 Conclusion
3 Conclusion générale
Télécharger le rapport complet