Mise en correspondance multi-vues fisheye pour la 3D

Télécharger le fichier pdf d’un mémoire de fin d’études

Capteur passif par vision

Obtenir un modèle 3D par vision se fait à partir de configurations et d’analyses multi-vues. Lorsque le système est composé de deux caméras, nous parlons de stéréovision. La figure 1.3 illustre la modélisation du principe de stéréovision. Les informations des deux vues sont appariées pour finalement estimer les structures 3D de la scène captée. En eﬀet, si le système est calibré, la mise en correspondance rend possible l’estimation de la contre-projection des points correspondants et celle de leur position 3D par triangulation. La précision est moins bonne qu’avec un lidar mais l’usage de caméras permet d’associer des informations colorimétriques et de texture au nuage de points 3D et donc de fournir un modèle plus riche. La précision dépend de l’entraxe entre les deux caméras et de l’éloignement des structures aux caméras. Dans [Zhang et al., 2011], l’auteur étudie le choix théorique de l’entraxe optimal pour réduire l’erreur d’estimation des points.
Lorsque le système ne compte qu’une seule caméra, le principe décrit précédemment reste applicable mais sur un couple d’images acquises au cours du déplacement de la caméra. Dans ce contexte, la structure de l’environnement est donc retrouvé grâce au mouvement de la caméra. On parle alors de Structure from Motion. Un nuage de points similaire au cas stéréo est produit mais à un coeﬃcient d’échelle près. Pour retrouver ce coeﬃcient, la caméra est généralement associée à un autre capteur proprioceptif tel qu’un odomètre ou une centrale inertielle.
Un système vidéo qui serait composé d’une ou deux caméras munies d’objectifs traditionnels (objectif dit pinhole) ne permet pas d’assurer la surveillance et la reconstruction à 360° autour du système. Pour cela, il est nécessaire
1. de multiplier le nombre de caméras afin de couvrir le champ de vision complet autour du véhicule,
2. d’associer l’objectif à des miroir et des systèmes optiques spécifiques (menant à des cap-teurs dits catadioptriques)
3. ou d’utiliser des objectifs à projection sphérique (objectif fisheye).
Beaucoup de travaux proposent de fusionner les informations télémétriques avec la vision. Ils utilisent généralement le lidar pour la structure 3D et les caméras pour les informations de texture et de couleur [Früh et al., 2004, De Luca, 2006, Fleck et al., 2009, Deschaud, 2010]. Toutefois, même dans ce cas, l’une des solutions présentées précédemment est nécessaire pour assurer un champ de vision le plus large entre les deux capteurs.

Objectifs et contributions de la thèse

Ce manuscrit présente une recherche sur la reconstruction omnidirectionnelle de modèles 3D pour une application à la localisation en milieu urbain. L’objectif est d’améliorer la précision de la localisation GPS d’un véhicule en environnement urbain dans lequel les multitrajets sont très importants et altèrent fortement les signaux satellitaires. Avec des mesures dans ces conditions, la précision de la localisation au sol est de l’ordre de 20 mètres. L’intérêt de la démarche est que nous proposons de générer dynamiquement un modèle 3D de l’environnement à partir duquel il est possible d’extraire les caractéristiques de la propagation des signaux dans le canyon urbain pour finalement en tenir compte lors d’une étape de correction de la position du véhicule. Cet objectif se diﬀérencie d’autres travaux de la littérature qui utilisent des modèles 3D urbains pré-enregistrés pour accéder à ces propriétés et corriger la position GNSS [Bétaille et al., 2014, Adjrad et al., 2015].
Nous avons choisi d’exploiter un système vidéo composé d’une ou deux caméras munies chacune d’un objectif fisheye, orientées vers le ciel afin d’observer tous les bâtiments autour de leur position. Ce choix permet de réduire le nombre de caméras pour assurer la couverture à 180° et à 360° autour du véhicule. L’intégration de ce système est plus aisée et son coût est inférieur à celui d’un lidar. Les caméras utilisées sont des caméras haute résolution donc même si la résolution finale de notre système fisheye est inférieure à celle du système Stereopolis de l’IGN (décrit dans [Cannelle et al., 2012]), nous montrons qu’elle est suﬃsante pour améliorer la position GNSS.
Dans [Marais, 2002], l’auteur exploite un stéréoscope traditionnel orienté vers le ciel pour reconstruire la ligne d’horizon et spécifier l’état de chaque satellite (reçu directement ou occulté par un bâtiment). Son application est la localisation GNSS de trains. Ce que nous proposons est une suite logique de ce précédent travail.
Très peu d’auteurs travaillent en configuration de stéréovision fisheye orientée vers le ciel et aucun dans le domaine du positionnement GNSS urbain.
Dans [Zhao et al., 2000], les auteurs reconstruisent des scènes urbaines simples en images de synthèse avec une caméra placée sur le toit d’un véhicule et orientée en direction du ciel. Dans [Herrera et al., 2009,Herrera et al., 2011] les auteurs travaillent en environnement forestier et souhaitent identifier et compter les arbres autour de la position des prises de vue.
Il existe toutefois une application de localisation basée sur la vision fisheye orientée vers le ciel dans [Ramalingam et al., 2010]. Les auteurs font de la localisation en environnement urbain dans un modèle 3D géoréférencé connu à partir de la détection et la reconnaissance des silhouettes des immeubles en vision omnidirectionnelle en direction du ciel, entre des projections fisheye simulées depuis le modèle et des acquisitions fisheye réelles.

Contribution à la modélisation 3D multi-vues fisheye

En vision omnidirectionnelle, des auteurs comme [Abraham et al., 2005], [Nishimoto et al., 2007], [Li, 2008], [Arican, 2010] ou [Lhuillier, 2011] appliquent les principes de la stéréovision pour modéliser des éléments en 3D avec un large champ de vision.
Retrouver la structure 3D d’un environnement nécessite de produire un nuage de points 3D de la scène. Un tel nuage est estimé en mettant en correspondance le contenu de plusieurs vues. Pour cela, nous proposons une adaptation de la méthode écrite par [Forstmann et al., 2004] au contexte des images fisheye : les appariements sont estimés grâce à l’optimisation d’un graphe 3D construit à partir des pixels de deux courbes épipolaires conjuguées.
Un objectif fisheye déforme fortement la géométrie de la scène lors du processus de projection. Il est important d’en tenir compte lors des tâches de mise en correspondance et de reconstruction précise du nuage de points 3D. Pour y parvenir, nous proposons une technique de calibrage automatique c’est-à-dire une technique qui assure l’estimation de la géométrie épipolaire à partir de deux vues fisheye d’une scène ; ces deux vues pouvant provenir d’un stéréoscope ou d’une unique caméra s’étant déplacée.
Ce calibrage fait l’hypothèse que la projection fisheye répond à un modèle sphérique. Nous l’avons décrit pour des modèles de projection équisolide, équidistant et stéréographique.
La géométrie épipolaire une fois estimée, nous définissons géométriquement tous les couples de courbes épipolaires conjuguées à partir desquelles le graphe 3D est construit et dans lequel nous cherchons le plus court chemin par programmation dynamique. La profondeur du graphe 3D est définie par le nombre de paires de courbes utilisées. Par ailleurs, ce graphe ne dépend que de deux paramètres pour lesquels nous définissons le sous-espace qui mène aux résultats optimaux. Tous nos développements sont évalués objectivement sur une base d’images de synthèse. Par ailleurs, nous en montrons le bon fonctionnement en les appliquant sur une base d’images réelles acquises :
1. à Lille par un stéréoscope fisheye
2. et à Belfort par une seule caméra en mouvement sur un véhicule.
Sur le plan de l’application, nous proposons une chaîne complète de post-traitements des nuages de points 3D locaux obtenus. Cette chaîne assure le débruitage des nuages de points, la densification par fusion de nuages de points, la détection des plans des bâtiments dans la scène et leur exploitation pour l’amélioration du positionnement GNSS.

Amélioration du positionnement GNSS-ranging

À ce jour et à notre connaissance, aucune publication ne fait état de l’usage d’un système de vision 3D (tout particulièrement fisheye) pour estimer une structure urbaine exploitée ensuite pour augmenter la précision de la position GNSS en corrigeant géométriquement les signaux reçus par réflexion. La position GNSS-ranging est calculée à partir des pseudodistances des satellites reçus (distance estimée du satellite au récepteur). Or, cette information est calculée en fonction de l’heure d’émission par le satellite et l’heure de réception, considérant une visibilité directe. En milieu urbain de nombreux obstacles cachent les satellites pour lesquels l’information est souvent non plus reçue de manière directe mais de manière réfléchie, voire plusieurs fois en multitrajets. Dans ce manuscrit on s’intéresse au cas simplifié avec l’hypothèse d’un seul trajet par signal reçu, et particulièrement aux signaux NLOS (Non Line Of Sight, reçus de manière indirecte). Dans ce contexte, la distance parcourue par le rayon est plus grande et donc le satellite est considéré plus loin qu’il ne l’est en réalité. La localisation est estimée par trilatération à partir des pseudodistances et s’en retrouve alors faussée. Il s’agit par conséquent d’une part de détecter les signaux GNSS NLOS, et d’autre part de mesurer et corriger leur retard grâce au modèle généré. Il peut y avoir une ou plusieurs réflexions, en fonction de l’élévation du satellite, de la hauteur des obstacles et de leur distance au récepteur. Pour valider les résultats de localisation, on utilise un récepteur GPS bas-coût de type u-blox comme système à corriger et un récepteur GPS RTK pour la vérité terrain. Des expérimentations, validations, évaluations et mesures de précision sont proposées pour toutes les étapes, avec diﬀérentes méthodes et des scènes simulées et réelles.

Repère image et repère 3D

On fait en sorte d’avoir l’orientation de l’image telle que l’axe X soit dans la direction du véhicule et de la rue. Dans ces travaux, l’orientation des axes X et Y du repère caméra est posée identique à celle des axes des images codées en informatique, usuellement l’axe X vers la droite et Y vers le bas. Le repère image est illustré figure 1.7(c).
Dans le repère 3D, on travaille avec un repère direct. Les axes X et Y correspondent aux directions des mêmes axes vus de l’image comme on le voit en figure 1.7. L’axe X correspond à la direction du véhicule, et l’axe Y est dirigé du côté de la cathédrale dans l’exemple illustré (rue du Général Roussel à Belfort). Le repère 3D étant direct, l’axe Z est orienté en direction du ciel, ce qui a l’avantage d’être naturel dans le sens où les hauteurs des structures s’en trouvent positives. Le repère 3D dans la rue du Général Roussel est aussi illustré figure 1.7(a), avec X en face, Y vers la gauche (côté cathédrale), et Z vers la haut.

Perception 3D omnidirectionnelle par vision

Pour avoir une vision omnidirectionnelle il est possible d’utiliser un réseau ou une ceinture de caméras. [Deschaud, 2010] présente par exemple la plate-forme Stereopolis V2 de l’IGN qui comporte une ceinture de caméras (ainsi que des lidars).
Pour réduire le nombre de caméras, certains auteurs utilisent des systèmes omnidirectionnels dioptriques (à lentille) ou catadioptriques (à lentille et miroir) oﬀrant un champ de vision pouvant atteindre 360°×180°. Les capteurs omnidirectionnels ont l’avantage de voir davan-tage d’informations sur la scène que des capteurs classiques. [Mouaddib, 2005b, Mouaddib, 2005a,Gonzalez-Barbosa, 2004,Ragot, 2009] présentent diﬀérentes façons d’accéder à la vision omnidirectionnelle ou panoramique. [Ragot, 2009] présente en outre des modèles de capteurs centraux (à point de vue ou centre de projection unique) et non-centraux (avec une caustique comme zone centrale de projection).
Projection centrale et non-centrale
Pour un système au point de vue unique [Ramalingam, 2006], la géométrie des rayons de projection est donnée par le point de vue et leur direction. Dans un système non central, la caustique peut être utilisée pour représenter la géométrie des rayons de projection. Une caustique fait référence au lieu dans l’espace 3D où se situent l’ensemble des points de vues d’un système non central. On parle de diacaustique pour les systèmes dioptriques (équipés de simples objectifs), et de catacaustique pour les systèmes catadioptriques (basés sur l’utilisation d’un miroir). La figure 2.1 montre que les rayons conjugués qui traversent une lentille forment une caustique au lieu de passer en un point de projection central unique. De la même manière certains capteurs catadioptriques ne sont pas centraux et le rayon réfléchi sur le miroir est en fait réfléchi selon la tangente à la surface caustique.
Un objectif fisheye n’a pas de centre de projection unique mais une diacaustique. En vision par ordinateur, [Arican, 2010] dit qu’il est souvent admis d’approximer la zone de projection comme un point de vue unique au moins pour des objets lointains. Les configurations centrales sont préférées aux systèmes non centraux parce qu’elles permettent la génération d’images perspective géométriquement correctes à partir des images capturées. Un modèle à centre de projection unique est beaucoup plus simple qu’une caustique, et la plupart des théories et algorithmes développés pour les caméras à projection perspective conventionnelles restent valables pour les caméras omnidirectionnelles à point de vue unique.

Rotation d’un capteur de stéréovision classique

Cette approche pose des problèmes de positionnement, de synchronisation des prises de vues et de temps de prise des images. Avec une caméra classique, il faut plusieurs acquisitions avec un dispositif tournant pour obtenir l’image omnidirectionnelle. Ce procédé n’est pas applicable pour des scènes dynamiques. [Gehrig, 2005] et [Lin et al., 2008] expérimentent une paire de caméras alignées en capteur de stéréovision, en rotation selon un axe centré.

Capteur catadioptrique

Les capteurs catadioptriques sont souvent utilisés en configuration monoculaire pour des systèmes de robotique mobile ou de SLAM. La figure 2.2 en montre un utilisé par [Lhuillier, 2011]. Ils ont une caractéristique spécifique, outre la vision omnidirectionnelle, qui est l’ob-servation simultanée du sol. Cette vue peut être avantageuse car elle aide à des applications telles que le maintient de la gyroscopie comme le fait [Bazin et al., 2011], ou la détection des obstacles au sol pouvant aussi contribuer à l’odométrie visuelle. En revanche un capteur catadioptrique ne verra pas toujours entièrement le hauts des bâtiments.
Ce type de capteur ne convient pas à certaines applications car la partie centrale de l’image est inexploitable, on y voit le reflet de la caméra elle-même. Et, l’astigmatisme est fort. C’est une aberration optique due à une géométrie imparfaite du système optique (pour la symétrie radiale de l’ensemble objectif et miroir). Il en résulte du flou dans l’image obtenue. Les capteur catadioptriques centraux sont diﬃciles à construire et à entretenir.
Les modèles catadioptriques sont listés entre autres par [Ramalingam, 2006]. De nombreux auteurs utilisent des capteurs catadioptriques pour la 3D. On peut citer [Gonzalez-Barbosa, 2004, Ragot, 2009] qui travaillent en configuration à deux caméras, et [Kawanishi et al., 2009, Arican, 2010, Lhuillier, 2011] qui travaillent en configuration mono-capteur avec déplacement pour générer des modèles 3D depuis plusieurs points de vue.
Il existe par ailleurs des capteurs catadioptriques plus particuliers. L’un développé dans [Weissig et al., 2012] qui est un mélange entre réseau de paires de caméras et miroirs plans.
D’autres proposés par [Mouaddib et al., 2005], qui imaginent des conceptions de capteur catadioptrique stéréo unique. Ils utilisent une seule caméra avec plusieurs miroirs, disposés de telle sorte à obtenir diﬀérents points de vue sur la seule image obtenue.

Caméra à objectif fisheye

Un objectif fisheye est un objectif ultra grand angle, de focale très courte, appelé aussi objectif hypergone. Les objectifs fisheye présentent un champ de vision proche de 180°, ce qui peut être comparé à une vision en demie-sphère. Ils introduisent de fortes distorsions dans l’image, en particulier sur la périphérie où la résolution est faible. L’objectif ne nécessite pas l’alignement d’élément supplémentaire. Un exemple est donné figure 2.3.

Méthodes globales basées sur l’apparence

Il existe peu de méthodes globales car elles sont souvent moins précises et plus coûteuses que les méthodes utilisant des éléments spécifiques.
On peut citer [Caron et al., 2012] qui proposent une estimation de pose basée modèle pour des caméras sténopés. Ils travaillent à partir d’un modèle 3D connu qui sert à générer des cartes des profondeurs comparées de manière globale à la carte obtenue avec les images réelles jusqu’à trouver la bonne pose.

Méthodes par suivi de features

[Scaramuzza et al., 2011] résument les différentes approches de la bibliographie et les classifient en fonction des bases dans lesquelles elles travaillent :
— 2D-2D, besoin au moins de 5 paires de points correspondants entre les deux images. Les propriétés de la géométrie épipolaire sont utilisées et la matrice essentielle est estimée.
Elle peut être décomposée pour extraire la rotation et la translation (la décomposition est décrite entre autres dans [Baselgia, 2010, Scaramuzza et al., 2011]).
Ceci aboutit aux algorithmes des 5 points [Nistér, 2004], des 7 points [Hartley et al., 2004] et des 8 points [Hartley, 1997]. Moins on a besoin de points mieux c’est pour une méthode encadrée par un RANSAC (RANdom SAmple Consensus), stratégie quasi-obligatoire par tirages aléatoires. Pour améliorer la probabilité de ne tirer que de bons éléments on peut réduire la quantité de points nécessaires en allégeant le nombre de degrés de liberté du mouvement. Ceci donne une estimation approchée de la pose à affiner ensuite. C’est ce que font [Ortín et al., 2001, Scaramuzza, 2011,Troiani et al., 2014].
— 3D-3D, besoin au moins de 3 paires de points correspondants non-colinéaires dans le monde 3D, ceci est possible en conditions de reconstruction d’un modèle 3D de l’environnement à la même échelle. Il n’est pas possible d’utiliser la méthode 3D-3D en configuration monoculaire car l’échelle entre modèles 3D est toujours différente.
— 3D-2D, pour estimer le déplacement depuis au moins 3 points correspondants entre un modèle 3D et leurs projections 2D dans une image. Ce problème est connu sous le nom de PnP (Perspective from n Points ou estimation de la Pose à partir de n Points).

2.5.1.2/ Mise en correspondance dense

La mise en correspondance dense applique un algorithme d’appariement à l’ensemble des pixels formant l’image. Il en découle plus de détails, ce qui permet plus de précision dans la reconstruction. Calculer une carte de disparité complète nécessite un temps plus long.
Certaines publications font une mise en correspondance quasi-dense, que l’on classera dans cette catégorie de par leur nature dense. On peut citer [Lefebvre, 2008], qui attribue une mesure de confiance par logique floue à chaque appariement et supprime les moins sûrs. Une autre stratégie est de partir d’une mise en correspondance éparse sûre et de propager les estimations par croissance de germes ou propagation de croyance dans l’image. C’est ce que font [Lhuillier et al., 2004,Wu et al., 2010, Caruso et al., 2015]. Notons que [Caruso et al., 2015] propage les estimations temporellement en suivant les éléments en vidéo.

2.5.2/ Méthodes locales et globales

Deux catégories principales de mise en correspondance stéréoscopique des pixels sont recensées, classées selon le type de méthode d’optimisation utilisée.

2.5.2.1/ Mise en correspondance locale

On cherche à établir le degré de corrélation entre le pixel de référence à apparier et un ensemble de candidats de l’image de recherche dans une zone de recherche autour de la position de la référence. Pour chacun des pixels à tester, on prend en considération une zone d’agrégation, que l’on compare via une mesure de corrélation à la zone d’agrégation de référence. Le pixel dont la zone d’agrégation sera mesurée la plus semblable à celle associée au pixel de référence étudié sera considéré comme son homologue.
Il convient de choisir la forme de la fenêtre d’agrégation en fonction des besoins. Pour une petite fenêtre, les erreurs d’appariement sont dues à l’ambiguïté et au bruit, alors que pour une grande fenêtre, les disparités des pixels dans la fenêtre ont plus de chances d’être différentes à cause des occultations et des discontinuités de disparité. [Fakhfakh, 2011] classifie différentes formes de fenêtre d’agrégation :
— Fenêtre fixe ([Okutomi et al., 1993]).
— Fenêtre de taille adaptative ([Belli et al., 2000, Hosni et al., 2010, Gupta et al., 2010]).
— Fenêtres multiples ou déplaçables ([Mordohai et al., 2006, Anil Adhyapak et al., 2007]), ensemble de fenêtres de tailles différentes. Celle avec laquelle la fonction de vraisemblance donne le coût optimal est choisie pour résoudre des problèmes d’occultations géométriques.
— Fenêtre pondérée ([Yoon et al., 2006, Ding et al., 2011]), pondérer les pixels dans une fenêtre. Méthode précise mais longue à exécuter.
On trouve les méthodes d’appariement locales suivantes [Chambon, 2005] :
— Recherche exhaustive appelée aussi WTA (Winner Take All) ([Okutomi et al., 1993]), comparaison naïve de chaque autre possibilité avec la meilleure de la comparaison précédente.
— Croissance de germes ([Lhuillier et al., 2004,Wei et al., 2004,Megyesi et al., 2004]), détecter des points d’intérêt ou segmenter l’image, mettre en correspondance des pixels avec une grande certitude, puis augmenter progressivement le nombre de pixels mis en correspondance à partir des précédents.
— Méthode coopérative locale ([Zitnick et al., 1999,Mayer, 2003]), mises à jour itératives pour affiner les correspondances tenant compte localement de la contrainte de continuité (support local) et de la contrainte d’unicité (zone d’inhibition).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Contexte
1.1.1 Projet CAPLOC et collaborations
1.1.2 Estimer la structure 3D
1.1.2.1 Capteur passif par vision
1.2 Objectifs et contributions de la thèse
1.2.1 Contribution à la modélisation 3D multi-vues fisheye
1.2.2 Amélioration du positionnement GNSS-ranging
1.3 Solutions proposées
1.3.1 Difficultés liées à des capteurs fisheye orientés vers le ciel
1.3.2 Les configurations expérimentales utilisées
1.3.3 Repère image et repère 3D
1.3.4 Plan de la thèse
2 État de l’art : Stéréovision omnidirectionnelle
2.1 Introduction
2.2 Perception 3D omnidirectionnelle par vision
2.2.1 Rotation d’un capteur de stéréovision classique
2.2.2 Capteur catadioptrique
2.2.3 Caméra à objectif fisheye
2.2.3.1 Traitements via une rectification des distorsions fisheye
2.2.3.2 Traitements sans rectification des distorsions fisheye
2.2.4 Stéréoscopes hybrides
2.2.5 Bilan
2.3 Bibliographie sur le calibrage sphérique fisheye
2.3.1 Unification d’un modèle pour catadioptrique et fisheye
2.3.2 Géométrie épipolaire des caméras sphériques
2.3.3 Calibrage manuel
2.3.3.1 Calibrage fort
2.3.3.2 Calibrage faible
2.3.3.3 Stéréovision omnidirectionnelle avec court entraxe
2.3.3.4 Stéréovision omnidirectionnelle avec grand entraxe
2.3.4 Calibrage automatique
2.4 Structure from Motion
2.4.1 Méthodes d’estimation de la pose
2.4.1.1 Méthodes globales basées sur l’apparence
2.4.1.2 Méthodes par suivi de features
2.5 État de l’art de la mise en correspondance stéréo
2.5.1 Méthodes éparses et denses
2.5.1.1 Mise en correspondance éparse
2.5.1.2 Mise en correspondance dense
2.5.2 Méthodes locales et globales
2.5.2.1 Mise en correspondance locale
2.5.2.2 Mise en correspondance à optimisation globale
2.5.2.3 Méthodes globales basées sur les graphes
2.6 Conclusion
3 Calibrage fisheye automatique
3.1 Introduction
3.1.1 Généralités
3.1.2 Comparaison des profils des modèles de projection centrale
3.1.3 Estimation de la relation entre repère capteur et repère image
3.2 Calibrage d’un système multi-vues fisheye
3.2.1 Extraction automatique de paires de points correspondants
3.2.2 Projections étudiées formulées pour la méthode des 9 points
3.2.3 Algorithme des 9 points adapté à de nouveaux modèles fisheye
3.2.4 RANSAC et variantes
3.2.4.1 Paramétrage du RANSAC
3.2.4.2 LO-RANSAC robuste appliqué à l’algorithme des 9 points
3.2.5 Affinement de l’étalonnage par Levenberg-Marquardt
3.3 Extraction de la géométrie épipolaire
3.3.1 Calcul d’une courbe épipolaire
3.3.2 Calcul des épipôles et test de stabilité
3.3.3 Calcul des rotations internes pour un alignement épipolaire
3.4 Évaluation du calibrage automatique
3.4.1 Scènes évaluées
3.4.1.1 Scènes simulées
3.4.1.2 Scènes réelles
3.4.2 Critères évalués
3.4.3 Seuil d’erreur angulaire
3.4.4 Choix du bon modèle de projection fisheye
3.4.5 Efficacité et stabilité entre RANSAC et LO-RANSAC
3.5 Conclusion
4 Mise en correspondance multi-vues fisheye pour la 3D
4.1 Introduction
4.2 Mise en correspondance stéréo fisheye
4.2.1 Indexation des courbes épipolaires
4.2.2 Calcul des positions 3D
4.2.2.1 Projection des rayons issus des deux capteurs
4.2.2.2 Utilisation des distances à l’intérieur des plans épipolaires
4.2.3 L’algorithme de Fortsmann
4.2.3.1 Généralités
4.2.3.2 Évaluation des correspondances et choix des paramètres optimaux
4.2.4 De l’algorithme de Forstmann au graphe 3D
4.2.4.1 Généralités
4.2.4.2 Évaluation de la programmation dynamique avec graphe 3D
4.2.5 Évaluation sur des images réelles
4.2.6 Conclusion
4.3 Correspondance mono-caméra fisheye couleur
4.3.1 Adaptation de notre méthode graphe 3D
4.3.2 Évaluation de séquences d’images réelles
4.4 Analyse des nuages de points 3D
4.4.1 Post-traitement des nuages de points 3D
4.4.2 Fusion des nuages de points 3D
4.4.3 Cas mono-caméra
4.4.4 Cas binoculaire
4.4.5 Évaluation de l’odométrie visuelle
4.5 Conclusion
4.6 Annexe : Estimation de la largeur de la rue
5 Application : Amélioration de la localisation GNSS
5.1 Introduction
5.2 Informations et données satellitaires
5.2.1 Heures
5.2.2 Données élémentaires
5.2.3 Dilution Of Precision
5.3 Mise en application du modèle 3D estimé pour GNSS
5.3.1 Effet multi-trajet en milieu urbain
5.3.2 État de l’art sur l’étude des signaux NLOS en milieu urbain
5.3.2.1 Modèle de propagation des signaux GNSS en milieu urbain
5.3.2.2 Amélioration de la localisation par exclusion NLOS
5.3.2.3 Amélioration de la position sans corriger les pseudodistances
5.3.2.4 Révision des pseudodistances NLOS pour améliorer la position
5.3.3 Modèle d’erreur et correction des pseudodistances
5.3.3.1 Modèle de réflexion simple limité à une réflexion
5.3.3.2 Modèle de réflexion à une, deux ou trois réflexions
5.4 Extraction des plans
5.4.1 État de l’art des méthodes de plane fitting
5.4.2 Plane fitting en 3D basé sur le RANSAC
5.4.3 Plane fitting par transformée de Hough 2D sur cartographie
5.4.3.1 Estimation de l’empreinte au sol
5.4.3.2 Détection des murs par transformée de Hough
5.4.4 Évaluation des informations extraites sur scènes réelles
5.4.4.1 Critères d’évaluation
5.4.4.2 Résultat des évaluations
5.5 Représentation des satellites dans la partie vision
5.5.1 Projection des satellites et rayons GNSS sur la trace au sol
5.5.2 Projection des satellites dans les images fisheye
5.5.3 Création de masques de visibilité d’après les plans détectés
5.6 Évaluation en conditions réelles
5.6.1 Procédure d’évaluation
5.6.2 Scènes et positions évaluées
5.6.3 Position améliorée avec correction des pseudodistances
5.7 Conclusion
6 Conclusion générale et perspectives
6.1 Bilan
6.1.1 Résultats
6.1.2 Contributions
6.2 Perspectives