Echantillonnage de l’espace, cas des caméras matricielles
En 1970, W. S. Boyle et G. G. AMELIO du laboratoire BELL inventent un nouveau composant électronique : le C.C.D. pour Coupled Charge Device que l’on peut traduire par ”dispositif à transfert de charge”. Un an plus tard E. Arnold de la société PHILIPS invente le C.I.D.I.S. pour Charge Injection Device Image Sensor ou capteur d’image à injection de charge dont les photosites (plus petit élément homogène qui réagit à la lumière dans un capteur électronique) sont des capacités M.O.S. Les versions ultérieures du C.I.D.I.S. portent le nom générique de rétines C.M.O.S. Les C.C.D. comme les C.M.O.S. sont, comme la plaque photographique, des récepteurs bidimensionnels composés par une mosaïque de minuscules récepteurs à semiconducteur. Les photosites sont disposés comme les cases d’un échiquier en rangs et en colonnes. Chaque photosite accumule un nombre d’électrons proportionnel à la quantité de lumière reçue. La lecture des charges électriques accumulées va permettre de reconstituer l’image. Le signal issu de ce type de composant est, par nature, échantillonné. Cependant, sa transmission est souvent assurée par un câble vidéo. Dans ce cas, le processus de numérisation est identique à celui des caméras à balayage, à la différence près que le signal échantillonné est transformé en un signal analogique au mieux par un interpolateur, mais généralement par un bloqueur (figure 1.10). Dans ce cas, les modèles d’erreur sont très éloignés des bruits gaussiens et uniformes couramment employés. Si la transmission du signal est numérique, alors à chaque pixel peut être associé un photosite. Dans le cas des C.C.D., les photosites sont jointifs (figure 1.11a). Par contre, dans le cas des C.M.O.S., à chaque photosite étant associé un circuit de traitement, la mosaïque des photosites n’est pas jointive (figure 1.11b).
La contrainte d’ordre
En vision stéréoscopique, on considère usuellement que l’ordre des projections dans les différents plans images reste le même. On peut effectivement constater sur la figure 1.21a que l’ordre des projections dans le plan image 1 est [a1, b1, c1] et que l’ordre des projections dans le plan image 2 est [a2, b2, c2]. Dans leur livre [HM95], Horaud et Monga ont démontré que si la scène observée contient des objets ayant des surfaces transparentes fortement inclinées par rapport au plan des images, l’ordre des projections est inversé. Sur la figure 1.21b, on peut constater que l’ordre des projections dans l’image 1 [a1, b1] est l’inverse de l’ordre des projections dans le plan image 2 [b2, a2]. On peut aussi constater que si l’objet 2 avait été opaque alors le point A n’aurait pas été visible dans l’image 1 (occultation), et la contrainte d’ordre n’aurait pas été violée. Il existe un deuxième type de scène observée pour lequel l’ordre des projections est inversé entre les deux plans images : c’est lorsque les distances entre les objets et le capteur stéréoscopique sont très différentes (figure 1.22a). On constate sur cet exemple que la différence de distance entre les points A et B et le capteur stéréoscopique étant très faible, l’ordre des projections n’est pas changé ([a1, b1] et [a2, b2]). Par contre, le point C étant très loin du capteur stéréoscopique (par rapport aux points A et B), l’ordre des projections est inversé ([c1,(a1, b1)] et [(a2, b2), c2]). Partant de ces observations, Faugeras [Fau93] a défini un cône représentant une région interdite définie à partir du point A. Cette région modélise le fait que tout point appartenant au cône aura l’ordre de ses projections inversé dans les deux plans images par rapport aux projections du point A.
Les problèmes de la mise en correspondance
Variation du niveau de gris Marr et Poggio [MP77] ont établi que les projections d’un même point tridimensionnel devaient avoir des intensités semblables. Cette contrainte physique impose l’utilisation d’un modèle d’illumination ainsi que d’un modèle de réflectance des surfaces des objets. Le modèle le plus simple et le plus utilisé est le modèle Lambertien [Hor86]. Ce modèle explicite le fait que la surface des objets reflète la lumière identiquement suivant toutes les directions. Malgré l’utilisation d’un tel modèle, les projections d’un même point tridimensionnel dans chaque image peuvent avoir des intensités différentes. Les sources de variation de niveau de gris sont multiples : aléas lumineux, échantillonnage de l’espace, quantification du niveau de gris, sensibilités différentes entre les caméras utilisées. De plus, certains types de surfaces mettent le modèle de réflectance Lambertien en échec.
Variation du nombre de pixel de la projection d’un même objet dans les deux images En fonction de la différence de point de vue entre chaque caméra, la projection d’un même objet dans les deux images peut être représentée par un nombre de pixels différents. C’est une conséquence directe de l’échantillonnage de l’espace. La figure 1.26a représente ce cas. On constate que, dans l’image 1, la projection de la ligne définie entre les points A et C est représentée par 5 pixels alors que, dans l’image 2, elle n’est représentée que par 3 pixels. Or ces pixels représentent le même objet. La mise en correspondance pixel à pixel est alors impossible.
Le problème de l’occultation Certains points présents dans une image peuvent être absents dans l’autre image. C’est à dire qu’une partie de la scène observée n’est visible que par une seule caméra : il s’agit d’un problème d’occultation. Nous avons représenté un tel cas sur la figure 1.26b. On peut constater que le point B n’est vu que par la caméra 1. Ce phénomène de disparition/apparition de points pose énormément de problèmes lors du calcul des coûts d’appariement. Il existe trois manières de traiter ce problème :
– La première est de détecter les régions occultées avant ou après la mise en correspondance [HA89], [Wil91]. Dans le cas de mise en correspondance dense, on remplace la zone occultée par une interpolation basée sur la disparité du voisinage de la zone. Dans le cas de mise en correspondance éparse, la zone est toute simplement exclue de l’algorithme de calcul des disparités.
– La deuxième façon est de réduire la sensibilité des algorithmes aux occultations. Sara [SB97] et Stewart [Ste97] ont proposé d’utiliser des algorithmes robustes pour réduire la sensibilité de la mise en correspondance aux occultations, aux bruits et aux distorsions géométriques. Zabih et Woodfill [ZW94] et Bahat et Nayar [BN98] ont proposé d’effectuer des transformations non paramétriques appliquées aux intensités des pixels avant d’utiliser des mesures de corrélation. Enfin, Kanade et Okutomi [KO94] et Mansouri et Mitiche [MM98] ont proposé de modifier la taille et la forme de la zone de recherche pour optimiser la mesure de ressemblance au voisinage d’une occultation.
– La troisième façon est de calculer un modèle géométrique d’occultation afin de l’intégrer au processus d’appariement [Bel96], [BT98a].
Programmation dynamique
La programmation dynamique est une méthode mathématique qui réduit la complexité de calcul d’un algorithme d’optimisation en le décomposant en sous systèmes plus simples. Appliquée à la mise en correspondance stéréoscopique, cette méthode cherche un chemin de coût minimum à travers une matrice composée de tous les appariements possibles. Dans la totalité des travaux que nous avons référencé, cette technique est utilisée pour une mise en correspondance restreinte par la contrainte épipolaire. Le problème de la mise en correspondance se réduit à un problème de mise en correspondance des pixels d’une ligne de l’image 1 avec ceux de la ligne de l’image 2 qui est son épipolaire. Pour que les techniques de programmation dynamique soient envisageables, il est nécessaire de supposer que les coûts sont additifs, c’est à dire que le coût du chemin global est la somme des coûts des chemins partiels obtenus récursivement. Le coût local pour chaque point dans l’espace de recherche est défini en utilisant une méthode de mise en correspondance locale (S.A.D., S.S.D., etc.). Les occultations sont modélisées en assignant un groupe de pixels dans une image à un seul pixel dans l’autre image et en pénalisant cette solution par un coût d’occultation appliqué au coût global du chemin. On peut voir sur la figure 1.28 une représentation de la matrice de recherche ainsi qu’une modélisation de l’espace monodimensionnel des disparités. Les axes sont définis par les lignes de recherche des images droite et gauche comme proposé par Ohta et Kanade [OK85] ou Cox et al. [CHR96]. Les problèmes liés à la formulation de la mise en correspondance grâce à la programmation dynamique sont le choix du coût d’une occultation, la difficulté de garder une consistance inter-ligne de recherche [BI99], [OK85] et le respect des contraintes d’ordre et de continuité. Avec N pixels composant une ligne de recherche, la complexité de calcul en utilisant la programmation dynamique est en O(N4) à laquelle il faut ajouter le temps requis pour les fonctions des coûts locaux.
Hypothèse sur la luminance
Nous abordons, dans ce paragraphe, la dégradation de l’hypothèse forte de conservation de la distribution de luminance par l’échantillonnage et son impact sur la mise en correspondance. Pour plus de simplicité dans les explications, nous posons le problème dans l’espace bidimensionnel. Sur la figure 2.1(a) est représenté un point P de l’espace bidimensionnel ainsi que ses projections sur le plan rétinien de chaque caméra composant le capteur stéréoscopique. Soit p1 et p2 les projections perspectives de P sur les images 1 et 2. En supposant que les aléas de l’échantillonnage aient placé p1 au centre du pixel m1, on comprend aisément qu’il y a peu de chance que la projection p2 de P sur le plan de l’image 2 coïncide avec le centre d’un quelconque pixel de l’image 2 (figure 2.1(b)). Appelons m2 le pixel dont le centre est le plus proche de p2. En supposant que le capteur réalise un échantillonnage parfait, on voit que l’information d’illumination en m1 et en m2 sont intrinsèquement différentes : m2 représente l’illumination d’un point au mieux proche de P si localement la surface est lisse (ou si P n’est pas un coin d’un objet) (figure 2.1(c)). Le même paradigme intervient si on considère que les photosites réalisent une intégration de la luminance. La luminance intégrée sur le photosite correspondant au pixel m2 est par nature différente de la luminance intégrée sur le photosite correspondant au pixel m1 (figure 2.1(d)). Dans ces deux cas, m1 et m2 sont les images échantillonnées de P alors que la valeur des mesures de luminance sont différentes par essence (indépendamment de tout bruit). Ce phénomène est illustré sur la figure 2.2 par les deux vues d’une même scène obtenues par une même caméra après un faible déplacement. Dans ce cas, l’hypothèse d’uniformité de la réflexion lumineuse peut être considérée comme valide, cependant la répartition des niveaux de gris correspondant à un même détail (ici le coin d’une fenêtre) est très différente sur les deux images échantillonnées.
|
Table des matières
Table des figures
Liste des tableaux
1 État de l’art
1.1 Principe de la vision par ordinateur
1.1.1 Le modèle sténopé
1.1.2 Changement de repère
1.1.3 Image numérique
1.1.3.1 Echantillonnage de l’espace, cas des caméras à balayage
1.1.3.2 Echantillonnage de l’espace, cas des caméras matricielles
1.1.3.3 Image échantillonnée
1.1.3.4 Modèle d’erreur de l’échantillonnage de l’espace
1.1.3.5 Quantification de l’information du niveau de gris
1.1.3.6 Modèle d’erreur de la quantification des niveaux de gris
1.1.3.7 Modèle d’erreur de la numérisation
1.2 La vision stéréoscopique
1.2.1 Principe de base
1.2.2 Relation entre les projections – Epipolarité
1.2.3 Etalonnage
1.2.4 Reconstruction
1.2.5 Restriction géométrique des mises en correspondance
1.2.5.1 La contrainte épipolaire
1.2.5.2 La contrainte d’ordre
1.2.5.3 La contrainte d’unicité
1.2.6 Cas particulier des images redressées
1.3 Mise en correspondance
1.3.1 Les problèmes de la mise en correspondance
1.3.1.1 Variation du niveau de gris
1.3.1.2 Variation du nombre de pixel de la projection d’un même objet dans les deux images
1.3.1.3 Le problème de l’occultation
1.3.1.4 Violation des contraintes géométriques d’appariements
1.3.1.5 Les zones peu texturées
1.3.2 Que met-on en correspondance ?
1.3.2.1 Mise en correspondance basée sur les indices caractéristiques
1.3.2.2 Mise en correspondance basée sur les pixels
1.3.3 Les méthodes globales
1.3.3.1 Programmation dynamique
1.3.3.2 Théorie des graphes
1.3.3.3 Autres méthodes utilisant les contraintes globales
1.3.4 Les méthodes locales
1.3.4.1 Choix de la zone
1.3.4.2 Mise en correspondance de motif
1.3.4.3 Méthodes basées sur le gradient, approches différentielles
1.3.4.4 Mise en correspondance d’indices
1.3.5 Les méthodes coopératives
1.4 Conclusion
2 Modèle de pixel flou pour la mise en correspondance pixel à pixel
2.1 Introduction
2.1.1 Notre objectif
2.1.1.1 Sur quels critères peut-on se baser pour établir les mises en correspondance ?
2.2 Pixel, aspect géométrique
2.2.1 Hypothèse sur la luminance
2.2.2 Mesure de luminance échantillonnée : rapport entre pixel et photosite
2.3 Modèles classiques de représentation d’une information aléatoire spatialisée : le pixel
2.3.1 Modélisation par noyau sommatif
2.3.1.1 Le noyau gaussien
2.3.1.2 Le noyau uniforme
2.3.2 Modélisation par un intervalle
2.3.3 Modélisation mixte : les intervalles de confiance
2.3.4 Modélisation floue
2.3.4.1 Interprétation d’une distribution de possibilité
2.3.4.2 Modélisation d’une distribution de probabilité par une distribution de possibilité
2.3.5 Modélisation du pixel par une distribution de possibilité pyramidale symétrique
2.4 Pixel, aspect chromatique
2.4.1 Représentation logique de l’intensité lumineuse
2.4.2 Evaluation de l’information chromatique du pixel flou
2.4.2.1 Cas du pixel Mα avec α ∈]0.5, 1]
2.4.2.2 Cas du pixel Mα avec α ∈ [0, 0.5]
2.5 Mise en correspondance stéréoscopique
2.5.1 Concept de base
2.5.2 Processus bipolaire
2.5.3 Mise en correspondance géométrique dans le cas d’un capteur stéréoscopique étalonné avec erreur
2.5.4 Mise en correspondance chromatique
2.5.5 Fusion des contraintes de mise en correspondance
2.5.6 Evaluation des domaines de mise en correspondance
2.6 Conclusion
3 Mise en correspondance dense de pixels dans une paire d’images stéréoscopique
3.1 Principe de base
3.2 Modélisation des contraintes stéréoscopiques
3.2.1 Modélisation de la contrainte d’unicité
3.2.1.1 Violation de la contrainte d’unicité – modification à partir des possibilités de mise en correspondance
3.2.1.2 Violation de la contrainte d’unicité – modification à partir des necessités de mise en correspondance
3.2.1.3 Respect de la contrainte d’unicité
3.2.2 Modélisation de la contrainte d’ordre
3.2.2.1 Principe
3.2.2.2 Relations spatiales
3.2.2.3 Proposition duale de la contrainte d’ordre
3.2.2.4 Violation de la contrainte d’ordre – modification à partir des possibilités de mise en correspondance
3.2.2.5 Violation de la contrainte d’ordre – modification à partir des necessités de mise en correspondance
3.2.3 Cas des images redressées – contrainte du point de visée
3.3 Création d’une carte de disparité spécifique, comparaison avec les méthodes classiques
3.3.1 Cas des images redressées
3.3.2 Comparaison
3.3.2.1 Les méthodes
3.3.2.2 Les images
3.3.2.3 Résultats des méthodes de mise en correspondance de motif
3.3.2.4 Résultats des méthodes par programmation dynamique
3.3.2.5 Résultats des méthodes par coupure de graphe
3.4 Conclusion
Conclusion générale et perspectives
Télécharger le rapport complet