Avec le développement des technologies numériques, on trouve de plus en plus d’appareils ayant une fonction de prise de vue et de GPS. Ces appareils offrent la possibilité de localiser directement des images dans un système de cartographie comme Picasa, Panoramio ou Flickr. Ces services permettent aux utilisateurs de gérer leurs photographies en fonction de l’endroit visité et de les partager avec d’autres usagers en les rendant publiques .
Cette multiplication d’images photographiques localisées, qui sont autant de vues spatiales ou géographiques, ouvrent de nouvelles applications mettant en relation l’espace vu et la photographie. Il devient par exemple possible d’utiliser la géométrie du contenu de l’image pour essayer de déterminer le point de prise de vue, si celui-ci n’est pas connu. C’est un domaine de recherche récent et en cours de développement. On peut aussi inverser la problématique et tenter de décrire l’espace géographique visible depuis le point de vue où est prise la photographie. Dans la littérature, cette question est celle du calcul de l’isovist ou de l’analyse de la visibilité. C’est une question de recherche importante qui peut trouver des applications dans de nombreux domaines. La question de la délimitation automatique de l’espace visible d’un observateur intéresse par exemple le domaine de la sécurité pour le placement des caméras de surveillance dans une rue, une banque ou un musée. Cela peut être utile dans les télécommunications pour un placement optimisé de bornes wifi afin d’obtenir une bonne couverture avec un nombre minimum de bornes. Dans le domaine de la publicité urbaine un outil d’analyse de visibilité peut aider à localiser les endroits les plus favorables à l’installation de panneaux ou d’enseignes lumineuses. L’analyse de la visibilité est centrale aussi dans le domaine de la gestion des paysages et de l’aménagement urbain, qu’il s’agisse de l’analyse des impacts paysagers ou de la mise en œuvre d’accès piétonniers … On sait enfin que l’accès à une vue est un facteur important de choix des localisations résidentielles, qu’il s’agisse d’une vue sur l’eau, comme observé par Luttik (2000), sur la forêt (Gueymard 2006) ou sur le paysage en général (Jim et Chen 2006). Robert (2011) a ainsi bien mis en évidence l’importance de la vue sur mer dans l’urbanisation du littoral de la Côte d’Azur. L’effet sur les prix immobiliers de la nature des vues a aussi été démontré par plusieurs études Miller (2001), Cavailhès, Brossard, Hilal, Joly, Tourneux, Tritz et Wavresky (2007). Qu’il s’agisse de la question de la géolocalisation automatique d’une prise de vue numérique à partir d’images ou du calcul d’un isovist dans un environnement numérique, de nombreuses questions informatiques ne sont pas résolues. S’il existe par exemple plusieurs méthodes de calcul d’isovist en 2D, son calcul dans un environnement numérique 3D est une question plus complexe.
Problématique d’ensemble
Google établit un lien interactif entre les images (ou la visibilité en sens large) et la carte. Autrement dit, si l’on dispose d’une photographie, il est possible d’utiliser ce système pour trouver la position de la prise de vue. De la même manière, si l’on a la position d’un site que l’on souhaite visiter, le système peut nous décrire l’environnement visible depuis ce lieu grâce à l’imagerie. La continuité des images et du son intégré dans la vidéo donne plus d’informations qu’une série discrète d’images et il existe plusieurs solutions pour géolocaliser des vidéos décrivant un site géographique. Google Maps permet aussi de géolocaliser des vidéos. Un simple clic sur un emplacement de la carte affiche la vidéo qui a été précédemment géolocalisée à cet endroit .
Geo-Movie est une application développée pour le sous-titrage géographique et temporel. Elle est utilisée dans les vidéos capturées par les sous-marins. Cet outil inscrit directement dans le corps de la vidéo des données telles que l’heure, la date, la longitude, la magnitude, la profondeur,… et les affiche en bas de l’écran .
Acadia Video-GPS est un système militaire d’exploration qui utilise un SIG et un système de traitement d’images pour géolocaliser les cibles dans la vidéo, et organiser les missions sur le terrain .
On peut aussi envisager une approche différente, en assurant la géolocalisation non pas au moment de la prise de vue, mais ensuite, à partir du contenu de la photographie ou de la vidéo. On pense bien sûr à une géolocalisation par la reconnaissance de certains objets de la photographie en question dans d’autres photographies ou vidéos déjà localisées. Cela peut fonctionner essentiellement en milieu urbain et plus exceptionnellement en milieu rural pour des bâtiments ou monuments facilement reconnaissables. Cela apparaît difficile à envisager pour des lieux plus banals sans monuments facilement reconnaissables. En revanche, en milieu urbain, les bâtiments possèdent des façades remarquables dont la géométrie particulière peut permettre leur reconnaissance dans les photographies. Mais cela nécessite de gérer le problème complexe des multiples angles de vue d’un même lieu qui perturbe l’appariement de deux photographies prises dans des conditions de prise de vue différentes.
Par ailleurs, plutôt que de partir au hasard à la recherche d’éléments d’images, il semble intéressant de s’appuyer sur les bases de données géographiques existantes et plus spécifiquement sur les modèles 3D qui reconstituent de manière plus ou moins fidèle un environnement urbain ou rural. Il est de plus en plus courant de mettre en correspondance des modèles numériques 3D des lieux avec des objets qui font l’objet d’une captation in situ. Cette association peut servir à superposer visuellement à ce qui est visible sur le terrain des objets numériques localisés. Il s’agit d’une approche de réalité augmentée qui ajoute aux scènes vues à travers un dispositif spécial des éléments tirés de l’environnement numérique en 3D. Il s’agit pour l’instant d’objets numériques simples dans les applications grand public, mais on utilise de plus en plus des environnements complexes, intégrant des bâtiments disparus ou à construire qui s’ajoutent à la vue réelle de l’utilisateur. Une autre approche est de connecter, aux environnements 3D d’un lieu, des objets issus d’une captation in situ. Un des exemples les plus célèbres et les plus aboutis est la combinaison de Google Earth et de Google StreetView. Google StreetView localise des images prises à la volée, grâce à un véhicule spécialement conçu pour ce genre d’acquisition. Les photographies sont ensuite visibles dans Google Maps, sur fonds cartographiques, sous forme d’une série d’images panoramiques. Les photographies géolocalisées prise à 360 degrés sont mises en continuité avec la reconstitution numérique 3D de l’environnement .
Reconnaissance des bâtiments dans une image et géolocalisation de la prise de vue
La reconnaissance des éléments géographiques dans la littérature se limite actuellement aux bâtiments. La reconnaissance des bâtiments est une étape essentielle pour développer les usages de la réalité augmentée dans un environnement urbain. En effet, la réalité augmentée est un moyen efficace pour ajouter des annotations ou des objets virtuels sur les façades des bâtiments. Les informations ajoutées peuvent par exemple être historiques, si l’on se réfère à un bâtiment ancien, ou informationnelles comme la programmation d’un lieu culturel ou les horaires des trains dans une gare. Nous pouvons utiliser aussi cette identification comme un point de repère pour orienter des visiteurs ou des touristes. Des applications pour les portables ont déjà été imaginées par Amlacher, Paletta, Luley, Fritz et Almer (2008). Notre problématique est d’estimer la précision des calculs par rapport à la réalité. Plusieurs critères sont à prendre en compte pour cette estimation:
➤ Notre modèle est-il complet ? Autrement dit, contient-il tous les éléments nécessaires : couvert végétal, infrastructures électriques ou publicitaires, nouveaux bâtiments, etc.
➤ Notre modèle est-il précis ? Les positions et les hauteurs des bâtiments ou des arbres sont-elles correctes ?
➤ Notre modèle est-il à jour ? Un arbre en hiver qui n’a pas de feuille n’aura pas la même influence sur la visibilité que le même arbre en été.
Une des raisons de la différence entre le calcul du champ de visibilité et la réalité est liée à la prise en compte de la portée de la distance de vue. Pour calculer le champ de vision nous définissons une distance ou un rayon de vision R. Cette distance est essentielle pour que le calcul soit faisable technologiquement. Cette limitation dans la distance de vision peut causer une différence avec la réalité. Par exemple si la distance du calcul de champ de visibilité est de 1 km nous ne distinguons évidemment pas un bâtiment ou une montagne situés à 5 km, pourtant parfaitement visibles dans la réalité. Nous explorons deux méthode de reconnaissance, le premier basé sur l’appariement entre l’image de synthèse et l‘image réelle, le second sur la recherche de texture.
Reconnaissance des bâtiments par l’appariement entre l’image de synthèse et l’image réelle
L’image réelle est l’image qu’on peut avoir par une prise de vue dans un espace quelconque. L’image de synthèse est l’image obtenue à partir d’une modélisation en 3D de cet espace. Dans la littérature, nous avons trouvé plusieurs tentatives de couplage entre des images réelles en 2D et les images de synthèses en 2D, pris dans des modèles SIG 3D, par appariement des primitives (coins, lignes) comme dans la Figure 10, cette opération est appelée couplage (2D/3D). Le couplage (2D/3D) est essentiel pour les applications de réalité augmentée, pour l’extraction de texture et pour les applications de navigation virtuelle. Microsoft et Shum (1998), Debevecet al (1996) et Karner et al (2002) demandent à l’utilisateur de faire ce couplage de manière manuelle. Teller et al (2003), Liu et Stamos (2005) proposent l’utilisation d’un modèle 3D LIDAR à haute résolution, encore cher et peu disponible. Reitmayr et Drummond (2006) utilisent un modèle SIG 3D texturé pour améliorer l’extraction des côtés de façades et le processus d’appariement. Sourimant (2009) proposent une méthode supervisée pour réaliser l’appariement. Cette méthode est basée sur l’algorithme de RANSAC écrit par Fischler et Bolles (1981). La méthode de Sourimant (2009) est construite à partir de trois éléments :
1) Estimation initiale de la position et l’orientation de la prise de vue qu’on appelle matrice de transformation .
2) Existence d’un modèle 3D précis.
3) Possibilité d’extraire les bâtiments sans occlusion (voiture, être humain, autre bâtiment). Bioret et al (2009) ont trouvé un moyen de calculer l’angle entre deux façades d’un bâtiment en utilisant les points de fuite présents sur l’image. Ils recherchent ensuite le même angle entre deux façades dans la base de données 2D des bâtiments, établissant ainsi un couplage entre l’imagerie et la base de données géographiques. Dans la thèse qu’il a soutenue l’an dernier dans notre laboratoire, Youssef Attia propose de son côté une approche systématique de ce problème fondée sur l’appariement de lignes extraites de photographies d’ensembles de bâtiments urbains avec celles extraites d’un échantillon systématique d’images de synthèse produites à partir d’un modèle numérique 3D (Attia 2012). Cette approche statistique est utilisable potentiellement pour localiser des photographies sans référencement géographique précis.
|
Table des matières
Introduction générale
Chapitre 1 Problématique, concepts et méthodes du domaine
1.1 Problématique d’ensemble
1.2 Reconnaissance des bâtiments dans une image et géolocalisation de la prise de vue
1.2.1 Reconnaissance des bâtiments par l’appariement entre l’image de synthèse et l’image réelle
1.2.2 Reconnaissance des bâtiments à partir de leurs textures
1.2.3 La géolocalisation à partir des images
1.3 L’isovist
1.3.1 Calcul de l’isovist en 2 dimensions
1.3.2 Les programmes de calcul du champ de la visibilité en dimension 2
1.3.3 Les méthodologies de calcul du champ de la visibilité en dimension 3
1.3.4 La syntaxe spatiale (space syntax)
1.4 Conclusion
Chapitre 2 Reconnaissance de bâtiments et localisation de photographies au moyen d’un descripteur de texture
2.1 L’enrichissement de la base des données
2.2 La reconnaissance des façades des bâtiments dans une photographie quelconque
2.3 La géolocalisation d’une prise de vue
2.4 Conclusion et pistes pour des travaux futur
Chapitre 3 Analyse de la visibilité urbaine par nuages des points 3D
3.1 Environnement 3D vectoriel
3.2 Maillage des points et calcul d’intervisibilité
3.3 Calcul du champ de la visibilité
3.4 L’effet d’un bâtiment sur l’intervisibilité
3.5 Evaluation du résultat
Simplification du MNT
Simplification des polygones de bâtiment
3.6 Conclusion
Chapitre 4 Une nouvelle méthode pour calculer le champ de vision avec des données vectorielles de dimension 2 et 3
4.1 Nouvel algorithme pour calculer le champ de visibilité en dimension 2
4.2 Un nouvel algorithme pour calculer le champ de visibilité en dimension 3
4.3 L’application dans un environnement 3D
4.3.1 La combinaison avec les photographies
4.3.2 La syntaxe spatiale
4.4 Conclusion
Conclusion générale
Télécharger le rapport complet