Coordonnées homogènes
Les points des espaces projectifs P2 et P3 sont représentés par des coordonnées homogènes et respectivement notés qe =x y w et Qf =X Y Z W . Par la suite, la présence et l’absence d’un tilde sur une entité signifient respectivement que celle-ci est n’est pas exprimée en coordonnées homogènes. Deux vecteurs ve et ve 0 de coordonnées proportionnelles correspondent au même point de l’espace projectif : on note ve ∼ ve0 , où ∼ représente l’égalité à un facteur près. Les coordonnées homogènes permettent de caractériser le plan à l’infini comme l’ensemble des points ou vecteurs qui ont leur dernière coordonnée nulle (w = 0 ou W = 0). Une transformation de l’espace projectif eA : Pp → P d peut être représentée par une matrice (d + 1) × (p + 1) en coordonnées homogènes. L’opération de projection, quelque soit le modèle de caméra utilisé (perspectif ou affine), est notée Π.
La géométrie épipolaire
La géométrie liée à l’observation d’une même scène rigide à travers deux points de vue différents est appelée géométrie épipolaire. Elle permet de définir la relation entre les projections qe sur la première image et qe0 sur la deuxième, d’un point Qf de la scène observée. La connaissance de la structure de la scène n’est pas requise. Elle peut être calculée comme indiqué ci-dessous. La matrice fondamentale Fo traduit de manière algébrique la géométrie épipolaire. A partir de cette matrice, on peut définir une contrainte très forte : la contrainte épipolaire. Elle existe pour tout couple de points {qe, qe0} résultant de la projection d’un même point 3D : qeTFoqe0 = 0. Cette contrainte exprime le fait que chaque point doit se trouver sur la droite épipolaire donnée par son correspondant dans l’autre image. Les droites épipolaires se rencontrent sur les épipôles qui sont les noyaux de Fo : Foee = FTo ee 0 = 0.La matrice fondamentale est liée à une reconstruction projective (non-calibrée) de la scène. Elle peut être estimée à partir d’un minimum de 7 correspondances de points, pour une estimation linéaire 8 correspondances sont requises (Hartley, 1997). Son équivalent pour une reconstruction Euclidienne, c’est-à-dire pour laquelle les paramètres internes de la caméra sont connus, est la matrice essentielle. Notons que la géométrie épipolaire n’est pas valide lorsque la scène, observée par une seule caméra en mouvement, se déforme.
Augmentation 2D d’une image
L’augmentation 2D (« retexturing » en anglais) consiste à superposer un logo à une image. Des exemples d’augmentation 2D d’images d’une surface déformable sont présentés aux chapitres 3 et 4. Pour que le rendu soit visuellement réaliste, il faut que les transformations géométriques entre les images soient estimées précisément. Cette problématique est étudiée dans les chapitres 2, 3 et 4. La méthodologie utilisée pour l’augmentation 2D d’une image est décrite ci-dessous. La transformation entre l’image de référence et l’image courante, ainsi que son inverse, sont supposées connues. Nous disposons également d’une image L0 de taille semblable à celle de l’image de texture, sur laquelle se trouve le logo qui va servir pour l’augmentation. Elle est transformée par W−1 en l’image L : L(q) ← L0(W(q; u)−1). L’augmentation 2D consiste alors en une addition pondérée de deux images. La pondération se fait par une carte d’occupation Ho dont les éléments sont compris entre 0 (⇔ logo absent) et 1 (⇔ logo présent). Des valeurs non binaires sont affectées aux bords du logo, voir ci-dessous. L’image augmentée est donnée par : I ← I (1 − σtHo) + L σtHo, où σt contrôle la transparence du logo. La figure 1.2 illustre le principe de l’augmentation 2D d’une image.
Levenberg-Marquardt
L’algorithme Levenberg-Marquardt (LM) fut publié dans (Levenberg, 1944) puis redécouvert dans (Marquardt, 1963). Il est devenu un standard parmi les méthodes d’optimisation de moindres carrés non linéaires. Chaque itération combine la méthode de GN et la méthode de descente de gradient (décrites ci-dessus). Lorsque la solution est éloignée d’un minimum local, la descente de gradient est privilégiée, offrant une convergence lente mais assurée. Au contraire, aux abords d’un minimum local, la méthode de GN est utilisée de par sa plus grande efficacité de convergence. L’incrément est donné par ∆u =(JTJ+τ I)−1JT f, avec J la matrice Jacobienne de f. Par rapport à l’incrément de GN, seule la diagonale de la matrice H = J TJ est modifiée. Cette correction est appelée amortissement et le paramètre τ est dit coefficient d’amortissement. Augmenter ou réduire τ revient respectivement à donner plus ou moins d’importance à la descente de gradient. B Si l’incrément ∆u introduit une diminution de l’erreur, alors il est accepté et τ est divisé par 10 avant la prochaine itération. B Au contraire, si ∆u entraîne une augmentation de l’erreur, alors τ est multiplié par 10 et l’incrément est recalculé. Ces opérations sont répétées jusqu’à ce que l’erreur diminue. Si le coefficient τ est grand, alors la matrice (J TJ + τ I) est proche d’une matrice diagonale et ∆u correspond quasiment à l’incrément d’une descente de gradient. Par contre, si τ est petit, il se rapproche de celui de Gauss-Newton. L’algorithme est adaptatif et contrôle automatiquement l’amortissement. De ce fait, il est capable d’alterner entre une lente descente de gradient loin d’un minimum local et une rapide convergence quadratique dans son voisinage.
Approche multi-résolution
Afin de remédier partiellement à l’aspect local des méthodes directes, une procédure multirésolution est fréquemment utilisée. L’idée est d’estimer la transformation géométrique sur des images de faible résolution puis de propager le champ de déplacement estimé aux images de plus haute résolution. Les étapes supplémentaires introduites par l’approche multi-résolution sont la construction d’une pyramide d’images et la propagation des déplacements estimés le long de la pyramide. A chaque niveau de la pyramide, l’image du niveau inférieur voit ses dimensions divisées par 2, le niveau le plus bas étant l’image d’origine. Différentes approches peuvent être utilisées pour la construction d’une image basse résolution à partir d’une image de plus haute résolution. Une méthode classique consiste à calculer chaque pixel de l’image du niveau k comme une moyenne pondérée des pixels du niveau k − 1 appartenant à une fenêtre d’intérêt. Nous utilisons par la suite une pondération Gaussienne avec une fenêtre de taille 5 pixels. Cette opération est appelée réduction. Enfin, la propagation des champs de déplacement le long de la pyramide se fait par un opérateur d’expansion qui est l’opérateur « inverse » de la réduction (Burt and Adelson, 1983). La figure 2.3 illustre le principe de l’approche multi-résolution en recalage d’images. Une procédure multi-résolution est utilisée au chapitre 4 pour permettre l’estimation de déplacement important engendré par l’auto-occultation d’une surface déformable.
Méthodes basées primitives
Elles s’articulent principalement autour de trois grandes étapes : l’extraction de primitives (généralement des points d’intérêt) indépendamment dans chaque image, leur mise en correspondance et l’estimation robuste de la transformation. La figure 2.5(b) résume le principe des méthodes basées primitives.Extraction de points d’intérêt. Un point d’intérêt correspond en général à un point de l’espace détectable de manière robuste au changement de point de vue ou d’éclairage. Il en existe plusieurs types. Les plus courants sont les « coins », où le gradient de l’intensité lumineuse est fort dans deux directions. Ces points sont facilement identifiables dans les images car ils correspondent souvent aux coins des objets de la scène ou aux détails de texture. Un grand nombre de méthodes existent pour extraire des points d’intérêt d’une image. Une comparaison des détecteurs existants est réalisée dans (Mikolajczyk and Schmid, 2005). Plus récemment, le détecteur FAST (Rosten and Drummond, 2005) a été proposé. La mise en correspondance. L’approche « classique » de mise en correspondance consiste à extraire et à comparer les signatures locales, appelées descripteurs, associées à chaque point d’intérêt. Un descripteur local permet de résumer l’information contenue dans le voisinage du point d’intérêt. Une fois les descripteurs extraits, la mise en correspondance se fait par mesure de similarité (notion de distance) entre les descripteurs. La qualité d’un descripteur se juge par son invariance aux transformations géométrique et photométrique. L’un des plus performants est le descripteur SIFT (« Scale Invariant Feature Transform ») introduit dans (Lowe, 2004). Ce descripteur est basé sur une approche multi-résolution et sur la construction d’histogrammes de l’orientation des gradients autour du point d’intérêt. Notons que le descripteur SURF (« Speeded Up Robust Features ») (Bay et al., 2006), plus récent s’avère être également très performant. Dans (Lepetit et al., 2004), le problème de mise en correspondance est traité comme un problème de classification. Une classe étant l’ensemble des vues possibles d’un point d’intérêt. Le classificateur est appris hors ligne sur l’ensemble des vues (générées synthétiquement) associées à chaque point d’intérêt. Des classificateurs de type « randomized trees » (Lepetit et al., 2005) et « ferns » (Ozuysal et al., 2007) ont été testés. Ils présentent un taux de mises en correspondance exactes remarquable. Estimation robuste de la transformation. Cette dernière étape revient à minimiser l’équation (2.4), introduite en §2.2.1.2, par moindres carrés non-linéaire. Les mises en correspondance étant sujettes à erreur, des méthodes robustes doivent être utilisées. Par exemple inclure un M-estimateur, décrit §2.2.1.4, pour robustifier la fonction de coût. Une autre possibilité est l’algorithme RANSAC (« RANdom SAmple Consensus ») (Fischler and Bolles, 1981). Il fonctionne par tirage aléatoire afin d’éliminer les valeurs aberrantes dans les correspondances de points. Néanmoins, pour les modèles déformables, utiliser l’algorithme RANSAC peut s’avèrer être coûteux en temps de calcul en raison du nombre important de paramètres. Dans l’équation (2.4), le poids wc contrôle l’importance donnée à une paire de points mise en correspondance. Il permet notamment de résoudre le problème des mises en correspondance multiples. Ce poids peut être fixé de différentes manières, comme par exemple : wc = 1 pour la correspondance la plus proche et wc = 0 pour les autres comme pour l’algorithme « Itérative Closest Point » (ICP).
|
Table des matières
Introduction
1 Éléments de base
1.1 Matrices, vecteurs et opérations associées
1.2 Modèles de projection, coordonnées homogènes
1.2.1 Coordonnées homogènes
1.2.2 Modèle de projection perspectif
1.2.3 Modèle de projection affine
1.3 Mesures de distance
1.4 Introduction à la reconstruction 3D de scènes rigides
1.4.1 Initialisation à partir de deux vues
1.4.1.1 La géométrie épipolaire
1.4.1.2 Estimation des caméras et de la structure
1.4.1.3 Normalisation des données
1.4.2 Initialisation à partir de plusieurs vues
1.4.3 Ajustement de faisceaux
1.5 Images, transformations et augmentation
1.5.1 Transformation entre images
1.5.2 Augmentation 2D d’une image
1.5.3 Augmentation 3D d’une image
1.6 Optimisation numérique
1.6.1 Moindres carrés linéaires
1.6.2 Moindres carrés non-linéaires
2 Cadre général du recalage d’images par modèles déformables
2.1 Introduction
2.2 Cadre général de l’estimation
2.2.1 Forme de la fonction de coût
2.2.1.1 Critères directs
2.2.1.2 Critères basés primitives
2.2.1.3 Termes de régularisation
2.2.1.4 Robustesse aux données aberrantes
2.2.2 Méthodes directes
2.2.2.1 Gestion des variations d’illumination
2.2.2.2 Approche multi-résolution
2.2.2.3 Méthodes d’optimisation
2.2.3 Méthodes basées primitives
2.3 Modélisation des déformations image
2.3.1 Les fonctions à base radiale
2.3.1.1 Définition
2.3.1.2 Estimation des coefficients
2.3.1.3 Propriétés des fonctions à base radiale
2.3.1.4 Paramétrisation des fonctions à base radiale par primitives
2.3.2 Déformations de forme libre
2.3.2.1 Définition
2.3.2.2 Interpolation par B-spline
2.3.2.3 Illustration
2.3.2.4 Paramétrisation des déformations de forme libre par primitives
2.4 Modélisation des déformations 3D par une combinaison linéaire de modes
2.4.1 Définitions des modèles de faible rang, « morphables » et actifs
2.4.2 Quelques exemples de modèles pré-appris
2.5 Conclusion
3 Algorithmes compositionnels pour modèles déformables
3.1 Introduction
3.2 Recalage compositionel guidé par primitives
3.2.1 Travaux antérieurs
3.2.1.1 Approximation de la composition
3.2.1.2 Approximation de l’inversion
3.2.1.3 Discussion
3.2.2 Le guidage par primitives
3.2.3 Enchaînement des déformations
3.2.3.1 Principe de base
3.2.3.2 Estimation analytique pour les fonctions à base radiale
3.2.4 Renversement d’une déformation
3.2.4.1 Principe de base
3.2.4.2 Estimation analytique pour les fonctions à base radiale
3.2.5 Recalage compositionnel guidé par primitives
3.3 Recalage basé apprentissage
3.3.1 Introduction
3.3.2 Approximation linéaire
3.3.2.1 Apprendre une matrice d’interaction
3.3.2.2 Limitations de l’approximation linéaire
3.3.3 Approximation linéaire par morceaux
3.3.3.1 Présentation
3.3.3.2 Différentes relations linéaires par morceaux
3.4 Résultats expérimentaux
3.4.1 Comparaison des différentes méthodes d’apprentissage
3.4.2 Comparaison entre les différentes approches existantes
3.4.2.1 Données simulées
3.4.2.2 Données réelles
3.5 Conclusion
4 Gestion des auto-occultations en recalage d’images
4.1 Introduction et travaux antérieurs
4.2 Énoncé du problème et solution proposée
4.2.1 Problématique
4.2.2 Approche proposée
4.2.3 Approche alternative
4.3 Outils proposés pour la détection des auto-occultations
4.3.1 Le contracteur
4.3.2 Cartes d’auto-occultation binaires
4.3.2.1 Approche basée sur la position
4.3.2.2 Approche basée sur la dérivée
4.3.2.3 Discussion sur la méthode de détection
4.3.3 Carte d’auto-occultation probabiliste
4.4 Recalage non-rigide avec auto-occultations
4.4.1 Fonction de coût
4.4.2 Occultations externes
4.4.3 Optimisation par l’algorithme Gauss-Newton
4.5 Augmentation 2D d’images d’une surface auto-occultée
4.6 Résultats expérimentaux
4.6.1 Le contracteur
4.6.2 Une vidéo synthétique
4.6.2.1 Description
4.6.2.2 Résultats
4.6.3 La vidéo de la feuille de papier
4.6.3.1 Description de la vidéo
4.6.3.2 La matrice Jacobienne
4.6.3.3 Détection des auto-occultations
4.6.3.4 Résultat du recalage et de l’augmentation 2D
4.6.4 Comparaison avec les méthodes robustes
4.6.5 Auto-occultation sur les bords de la surface
4.6.6 Occultations externes
4.6.7 La vidéo de la bande dessinée
4.6.8 Autres types de surfaces
4.6.9 Echecs
4.7 Conclusion
5 Reconstruction 3D de surfaces déformables
5.1 Introduction
5.2 Approximation des déformations par combinaison linéaire de modes de déformation
5.2.1 Modèles pré-appris
5.2.1.1 Les modèles morphables 3D
5.2.1.2 Exemples de modèles morphables 3D
5.2.2 Modèles non appris
5.2.2.1 Le modèle de faible rang explicite
5.2.2.2 Le modèle de faible rang implicite
5.2.2.3 Les informations a priori
5.3 Estimation de la forme explicite du modèle de faible rang
5.3.1 L’approche stratifiée
5.3.1.1 L’approche de Bregler et al
5.3.1.2 L’approche de Xiao et al
5.3.2 Estimation directe de la forme explicite
5.3.3 Discussion sur les approches existantes
5.4 Le modèle de faible rang hiérarchique
5.4.1 Présentation générale
5.4.2 Description du modèle de faible rang hiérarchique
5.4.3 Estimation de la forme moyenne
5.4.4 Triangulation d’un mode
5.4.4.1 Initialisation des directions
5.4.4.2 Initialisation des coefficients de forme et des amplitudes de déformation
5.4.4.3 Raffinement non-linéaire
5.4.5 Critère d’arrêt d’ajout de modes
5.5 Résultats expérimentaux
5.5.1 Données synthétiques
5.5.2 Données réelles
5.6 Conclusion
Conclusion
Annexes
A Capture de déformations à partir de données issues d’un capteur 3D
A.1 Introduction
A.2 Travaux antérieurs
A.3 Énoncé du problème
A.3.1 Représentation de la surface
A.3.2 Fonction de coût
A.4 Procédure de minimisation
A.5 Résultats expérimentaux
A.5.1 Une feuille de papier observée par un scanner à lumière structurée
A.5.2 Une couverture observée par un système stéréoscopique
A.5.3 Discussion
A.6 Conclusion
Bibliographie
Télécharger le rapport complet