La détection a contrario
La prise de décision dans un algorithme de détection d’objets (au sens large) peut être vue comme un problème de test statistique d’hypothèses : étant donné un candidat ou une observation w dans l’image, il faut décider s’il est le résultat de l’hypothèse H0 où aucun objet n’est présent, ou bien s’il est le résultat de l’hypothèse H1 de présence d’un objet. La méthode optimale qui minimise le risque d’erreur est connue, il s’agit de la classification bayésienne [DHS01].
Cette méthode conclut qu’un objet est présent si la probabilité a posteriori de H1 est supérieure à un certain seuil : P(H1|w) > δ. Le seuil δ détermine le compromis entre le taux de fausses alarmes toléré et le taux de détection. On distingue généralement deux catégories de méthodes pour estimer cette probabilité a posteriori : les méthodes discriminantes et les méthodes génératives.
Les méthodes discriminantes tentent d’estimer directement P(H1|w), on y trouve essentiellement les techniques d’apprentissage statistique telles que les réseaux de neurones, les machines à vecteur support ou les approches à base de boosting (adaboost, etc.) [DHS01]. La principale limitation de ces approches est la difficulté à constituer des ensembles d’apprentissage pertinents : les exemples doivent être indépendants et distribués selon la probabilité a priori P(w). De plus, un grand nombre d’exemples est généralement requis pour obtenir une bonne estimation.
Pour obtenir des algorithmes de détection génériques adaptés à tous les types d’images, Agnès Desolneux, Lionel Moisan et Jean-Michel Morel ont proposé la méthodologie a contrario [DMM00b], qui ne cherche pas à estimer explicitement l’apparence des objets dans l’image. L’objectif initial était de donner une formalisation mathématique à la théorie de la Gestalt [Des00], et les premiers travaux se sont attachés à détecter des groupements géométriques correspondants à des gestalts partielles, comme des alignements ou des contours. Cette méthodologie se base sur un principe énoncé par Helmholtz, selon lequel plus une structure a une probabilité faible d’être le résultat du hasard, plus elle est perceptible par notre système visuel.
Outre ces motivations phénoménologiques, le raisonnement a contrario s’est montré utile par la suite pour des applications dépassant le cadre initial de la théorie de la Gestalt (voir la section 1.3). Appliquée à la détection d’objets au sens large, la méthodologie consiste tout d’abord à identifier une ou plusieurs mesures discriminantes dont on suppose a priori que plus leurs valeurs sont grandes, plus il y a de chances qu’un objet soit présent. L’information perceptuelle portée par les mesures est ensuite quantifiée par le principe de Helmholtz en calculant la probabilité d’obtenir des valeurs aussi grandes par hasard. Plus cette probabilité est faible, et plus l’objet est perceptuellement saillant. Les objets peuvent alors être détectés en recherchant les candidats dont les mesures sont statistiquement trop élevées pour être accidentelles. Ainsi, seul un modèle du hasard également appelé modèle a contrario est nécessaire pour quantifier statistiquement la confiance dans la présence d’un objet.
Nous continuons ce chapitre par une formalisation mathématique plus précise de la méthodologie a contrario, qui reprend les concepts de l’ouvrage de référence [DMM08], mais avec une formulation parfois différente. Nous ferons ensuite un tour d’horizon des travaux a contrario existants, qui sont tous basés sur le cadre purement analytique établit par [DMM00b]. Nous montrerons cependant que les calculs purement analytiques permettent difficilement de combiner plusieurs mesures discriminantes ou d’utiliser des heuristiques de recherche de candidats dirigées par les données .
Formalisation mathématique
Notion de PFA
Plusieurs éléments sont nécessaires pour raisonner a contrario :
– Un ensemble de mesures discriminantes, représentées par des variables aléatoires. Une variable est dite discriminante si plus elle est grande, plus il y a de chance qu’un objet soit présent.
– Éventuellement, un ensemble de mesures non discriminantes, représentées également par des variables aléatoires. Nous les appellerons par la suite variables conditionnantes, car elles vont servir à prendre en compte le contexte pour évaluer le degré de confiance statistique associé aux variables discriminantes.
– Un modèle a contrario permettant d’estimer la distribution des variables sous l’hypothèse H0 où leurs valeurs sont le résultat du hasard.
Exemple , nous illustrons les concepts de cette section par une application dont le but est de détecter des taches noires rectangulaires dans une image. Pour cet exemple, il est naturel de prendre comme variable discriminante le nombre K de pixels noirs dans un rectangle : plus il est grand, plus il y a de chances pour qu’une tache noire soit présente. La significativité perceptuelle du nombre de pixels noirs d’un rectangle donné dépend de la densité globale PN de pixels noirs sur l’image et de la taille L du rectangle, nous prenons donc ces deux mesures comme variables conditionnantes. Nous considérons enfin comme modèle a contrario un modèle où les pixels sont spatialement indépendants et identiquement distribués. Ainsi, les taches noires seront détectées à partir du moment où la concentration de pixels noirs est trop forte pour être le résultat d’un arrangement spatial accidentel de pixels.
Il est supposé a priori que plus les variables discriminantes sont grandes, plus un objet a de chances d’être présent. En s’appuyant sur le principe de Helmholtz, la significativité perceptuelle de l’objet pour une observation candidate w peut alors être estimée en calculant la probabilité que les variables discriminantes soient aussi grandes que celles de w par hasard.
La probabilité de fausse alarme d’une observation w mesure donc à quel point il est probable d’observer des valeurs discriminantes aussi grandes que celles de w par hasard, étant donné ses variables conditionnantes. Cette probabilité est calculée à l’aide du modèle a contrario de hasard choisi a priori.
Plus PFA(w) est faible, moins les variables de l’observation w sont susceptibles d’être aussi grandes par hasard, et donc, a contrario, plus elles sont susceptibles d’être associées à un objet à détecter. La probabilité de fausse alarme permet de classer les observations par degré de confiance : on dira qu’une observation w1 est plus significative, et donc plus probablement associée à un objet qu’une observation w2 si PFA(w1) < PFA(w2). Le rôle du modèle a contrario est donc de servir de référence statistique pour évaluer la confiance dans la présence d’un objet pour chacune des observations, en fonction des mesures discriminantes et du contexte.
Remarque Par souci de simplicité, ce chapitre se focalise sur des variables discriminantes telles que plus leurs valeurs sont grandes, plus un objet a de chances d’être présent. Il est bien entendu possible de raisonner de façon opposée avec des variables telles que plus leurs valeurs sont petites, plus un objet a de chances d’être présent. Les évènements considérés par la probabilité de fausse alarme seraient alors de type Xi ≤ Xi(w) .
Notion d’algorithme ε-fiable
Il faut maintenant déterminer un seuil à partir duquel les observations candidates sont jugées suffisamment significatives et doivent être détectées. Une PFA est difficile à seuiller dans l’absolu, car elle ne correspond pas à une quantité physique intuitive. De plus, dans une image on analyse rarement une seule observation candidate, mais plutôt un ensemble. Par exemple, pour la détection de taches noires, si l’on ne sait pas à l’avance où peuvent se situer les taches, il faudra analyser tous les rectangles de l’image
Il est donc plus naturel de s’intéresser à la probabilité de produire une fausse alarme sur l’ensemble des candidats testés. Mais comme cela a été mis en évidence dans [DMM08], cette probabilité est très difficile à estimer, du moins analytiquement, car les observations ne sont généralement pas indépendantes entre elles. Toujours dans l’exemple des taches noires, les rectangles possibles dans l’image se superposent parfois et ne sont donc pas tous indépendants. Aussi l’approche de [DMM08] se fixe comme objectif de borner l’espérance du nombre de fausses alarmes produit par un algorithme de détection sur une image, beaucoup plus simple à calculer grâce à la linéarité de l’espérance.
Nous traduisons cela par la notion suivante, qui englobe les définitions que l’on peut trouver dans la plupart des travaux précédents, le plus souvent dédiées à une application précise.
Définition (Algorithme ε-fiable). Un algorithme de détection produit une fausse alarme s’il considère qu’une observation candidate est associée à un objet alors qu’elle est le résultat de l’hypothèse de hasard H0, selon le modèle a contrario retenu. Nous dirons qu’un algorithme de détection est ε-fiable si l’espérance du nombre de fausses alarmes produit par cet algorithme sur une image est inférieure à ε.
|
Table des matières
Introduction
1 La détection a contrario
1.1 Introduction
1.2 Formalisation mathématique
1.2.1 Notion de PFA
1.2.2 Notion d’algorithme ε-fiable
1.2.3 Processus a contrario classique
1.2.4 Application à la détection de taches noires
1.3 Applications existantes
1.4 Applicabilité du cadre a contrario purement analytique
1.4.1 Proposition fondatrice
1.4.2 Une seule variable discriminante
1.4.3 Distribution de la variable discriminante estimable analytiquement
1.4.4 Candidats choisis indépendamment de la variable discriminante
1.4.5 Conclusion
2 Apprentissage a contrario bas niveau à partir d’images de bruit blanc
2.1 Introduction
2.2 Détection de segments significatifs
2.2.1 Introduction
2.2.2 Définition de la notion de segment
2.2.3 Extraction des segments candidats
2.2.4 Modèle a contrario pour les segments
2.2.5 Segments significatifs par leur contraste minimal
2.2.6 Segments significatifs par leur contraste moyen
2.2.7 Combinaison du minimum et de la moyenne de contraste
2.2.8 Segments significatifs par leur longueur
2.2.9 Validation expérimentale des seuils de détection
2.2.10 Résultats
2.2.11 Discussion
2.3 Segmentation d’ image en régions
2.3.1 Introduction
2.3.2 Algorithme de segmentation ε-fiable
2.3.3 Probabilité de fausse alarme pour un couple de régions
2.3.4 La fonction de sélection Sδ
2.3.5 Calcul des seuils de significativité
2.3.6 Calcul purement analytique impossible
2.3.7 Calcul des seuils par simulation a contrario
2.3.8 Conditions d’ε-fiabilité sur des images arbitraires
2.3.9 Résultats
2.3.10 Discussion
3 Apprentissage a contrario haut niveau à partir d’images naturelles
3.1 Introduction
3.2 Détection d’objet à partir de caractéristiques locales
3.2.1 Extraction de zones d’intérêts et calcul de signatures locales
3.2.2 Mise en correspondance de points SIFT
3.2.3 Regroupement des associations compatibles
3.2.4 Estimation de la pose finale de l’objet
3.3 Mesure a contrario de la significativité d’une hypothèse
3.3.1 Significativité basée sur le nombre d’associations compatibles
3.3.2 Significativité basée sur la force des associations compatibles
3.3.3 Extraction du sous-groupe de mises en correspondance le plus significatif
3.3.4 Significativité basée sur la similarité d’apparence globale
3.3.5 Combinaison des différentes variables
3.4 Prise de décision finale
3.5 Apprentissage des distributions a contrario
3.6 Évaluation
3.7 Discussion
4 Algorithme “anytime” pour la détection d’objets a contrario
4.1 Introduction
4.2 Algorithmes de vision “anytime”
4.3 Propriétés architecturales motivées par un comportement “anytime”
4.4 Choix d’une architecture adaptée
4.5 Application à la détection d’objets
4.5.1 Déroulement de la détection sur une image
4.5.2 Priorité associée aux messages
4.6 Messages et traitements effectués par chaque agent
4.6.1 Les agents SiftExtractor
4.6.2 Les agents SiftMatcher
12 Table des matières
4.6.3 L’agent SiftClusterer
4.6.4 L’agent Main
4.6.5 L’agent SadComputer
4.7 Parallélisme spatial
4.8 Adéquation avec une architecture multiprocesseurs
4.9 Évaluation du comportement “anytime”
4.10 Discussion
Conclusion
Télécharger le rapport complet