Télécharger le fichier pdf d’un mémoire de fin d’études
Détection par des capteurs actifs
Un capteur est dit « actif » s’il produit une énergie envoyée sur la scène ; les obstacles sont détectés par l’énergie réfléchie par leur surface. Un capteur actif possède donc à la fois un émetteur et un récepteur. Nous décrivons rapidement les méthodes fondées sur la télémétrie laser et le radar. Ces deux capteurs actifs sont les plus utilisés sur des véhicules ou sur des robots d’extérieur, parce qu’ils sont robustes aux variations des conditions atmosphériques (pluie, neige) ou à des conditions dégradées d’illumination. Les méthodes visuelles connaissent beaucoup de défaillances dans ces situations. Sur les robots de ser-vice évoluant en milieu intérieur, les capteurs ultrasonores ou infrarouges sont également très souvent exploités pour détecter des obstacles proches pendant les mouvements ; ils sont intégrés sous la forme de ceintures de capteurs disposés tout autour du robot. Depuis quelques années, des proximètres ultra-sons sont également intégrés dans les pare-chocs des véhicules grand public, en tant que capteur de recul. Nous ne détaillerons pas ces méthodes, car généralement, les informations qu’ils fournissent peuvent être peu précises et très pauvres.
Cette section décrit rapidement les méthodes de détection d’objets qui utilisent le télémètre laser et le radar. Il décrit d’abord de façon séparée les stratégies utilisées pour chaque capteur et ensuite des approches qui utilisent les deux capteurs simultanément seront présentées. Une brève conclusion sera présentée à la fin de la section.
Détection par télémètre Laser
La télémétrie laser combine un système électronique pour la mesure ponctuelle de distance à partir d’un faisceau laser réfléchi par l’obstacle, et un mécanisme de déviation du faisceau émis et de balayage pour acquérir des coupes ou des images de distance dans une région d’intérêt quelconque. La lumière réfléchie par un obstacle quelconque se trouvant dans l’axe du tir revient vers le capteur et est perçue par un récepteur ; la distance capteur-obstacle est obtenue de manière classique par le temps de vol d’une impulsion laser, ou par le déphasage d’un signal modulé en amplitude ou en fréquence. Tous les impacts laser sont dans un plan si le balayage est seulement en azimut, ou sont dans l’espace 3D si le balayage est en site et azimut.
L’emploi de la télémétrie laser est très courant sur des véhicules haut de gamme, ou sur des robots de service, car la mesure est rapide, la portée peut être importante (plusieurs centaines de mètres selon le type de télémètres utilisé, et les taux d’échecs (faux négatifs ou faux positifs) très faibles : en figure 2.2, nous présentons les télémètres les plus répandus. Citons par exemple [30] où les auteurs utilisent les mesures acquises par un télémètre laser IBEO pour détecter les objets dans la scène. Ce capteur retourne une image de profondeur haute résolution. Dans [54] le module de détection d’obstacles emploie un filtre d’association probabiliste et des réseaux bayésiens pour estimer la probabilité de détection à l’instant suivant. Lors du DARPA Grand Challenge, de nombreux véhicules étaient équipés du capteur laser Velodyne (figure 2.2c) qui permet d’acquérir des images 3D panoramiques de très grande résolution à 30Hz. Signalons toutefois les difficultés pour traiter de telles images, en particulier du fait des problèmes de calibrage.
Cependant, il arrive fréquemment que les systèmes robotiques soient équipés avec des télémètres la-ser de plus basse résolution, comme dans les travaux de Mendes [76]. Pour ces télémètres, l’information est parfois insuffisante et même de légères vibrations peuvent perturber les mesures. Ces capteurs laser sont donc excellents pour la détection des obstacles, mais leur faible résolution rend difficile l’identifi-cation des objets détectés. Pour pallier ce défaut, de nombreux auteurs ont étudié la fusion des données laser avec l’information visuelle. Par exemple, pour des applications dans la sécurité routière, Labayrade et al. [61] utilisent simultanément deux capteurs 3D qui ont des caractéristiques différentes, la télémétrie laser et la stéréovision.
On trouve surtout dans la littérature, de très nombreux travaux, qui pour différents contextes (na-vigation autonome d’un robot en extérieur et en intérieur, détection de piétons depuis un véhicule in-telligent) proposent de fusionner les données d’un télémètre laser 2D avec un système visuel monocu-laire [18], [55] et [35] ; généralement les données laser sont analysées pour la détection et l’estimation de la profondeur, tandis que les images donnent une meilleure résolution et caractérisation de l’objet, ce qui permet son suivi et son identification.
Détection par radar
Le radar (RAdio Detection And Ranging) consiste à mesurer les ondes radio (ondes millimétriques, 24GHz ou 77GHz) réfléchies par les objets métalliques, en exploitant la théorie de Doppler pour détecter leurs déplacements en fréquence. Le radar peut être exploité pour détecter des objets avec de très grandes portées ; il peut être utilisé en statique (par exemple, détection d’intrusion dans un environnement sen-sible) ou mobile (par exemple, détection d’obstacles depuis un véhicule). Cependant, comme pour les signaux lumineux émis par un télémètre laser, la portée de détection maximale d’une cible réfléchissan des signaux hyperfréquences, dépend de la texture de la cible et de la spécularité, ou angle entre rayon incident et normale à la surface. Concernant les applications Robotique, le radar est resté longtemps peu exploité à cause de son coût, et surtout, de la difficulté pour acquérir un capteur, car cette technologie était principalement réservée aux applications de défense ; cette situation a changé depuis l’introduction du radar dans les véhicules intelligents (en particulier radars vendus par TRW). On voit se multiplier les travaux sur le radar dans la communauté robotique (citons le projet IMPALA en France à Clermont-Ferrand, les travaux de M.D. Adams à Singapour, parmi d’autres).
La résolution angulaire d’un capteur radar est d’une vingtaine de degrés, mais le faisceau du radar, lors de sa propagation, peut détecter plusieurs cibles en même temps dans une région d’intérêt, car tous les échos successifs sont détectés. Cette caractéristique est exploitée dans [67] pour la détection de pié-tons dans un milieu urbain. Le système présenté dans ce travail est constitué de deux capteurs radar de courte portée situés à l’avant d’un véhicule expérimental de Daimler, avec une portée de 30m environ. La difficulté du système est d’identifier les échos renvoyés par des piétons ou par d’autres objets. Pour ce faire, les auteurs proposent une fusion de données entre le radar et des capteurs thermiques ; ces der-niers servent à détecter la radiation thermique émise par les humains. La fusion des données utilise une approche probabiliste, pour construire une grille d’occupation centrée sur la position du robot.
Bien que le radar ne soit pas affecté par la pluie ou la neige, il est très perturbé par des sources d’interférence magnétique. De plus, la facilité avec laquelle un radar détecte un objet à une distance donnée, est directement liée à sa surface équivalente radar (SER). Un véhicule a une SER supérieure à celle d’un piéton (2m2) [63]. La plupart des petits obstacles ont une SER encore plus faible ce qui les rend indétectables. Cet inconvénient rend indispensable l’association d’autres capteurs avec le radar. Le ladar (association laser et radar) a été proposé pendant les années 70 et 80 [73] grâce à sa meilleure vitesse d’opération par rapport aux capteurs de vision. Cependant dans les années 90, l’évolution des systèmes informatiques a rendu possible, l’utilisation des algorithmes de vision en temps réel : à partir de ce moment-là, il a été possible d’intégrer système radar ou ladar avec des systèmes visuels mono ou multi-caméras pour détecter les objets pendant la navigation d’un véhicule intelligent [56]. Citons un autre système de fusion multi-capteurs, le système FADE, développé à l’école de Mines de Paris [57] exploité pour la détection de véhicules sur route depuis des capteurs embarqués sur un véhicule expérimental. Les capteurs utilisés sont une caméra (couleur ou N/B), un radar et des capteurs proprioceptifs pour la géolocalisation du véhicule (vitesse, angle volant). La détection des autres véhicules depuis les images en vision monoculaire est faite en fusionnant les résultats de plusieurs algorithmes qui détectent les ombres portées, les phares, les lignes horizontales et verticales et les symétries locales. Les résultats obtenus par ce système montrent que les véhicules présents sont correctement détectés en milieu urbain, avec un minimum de fausses détections. Cependant ce système est encore loin d’être généralisé pour être appliqué dans des environnements plus complexes comme sur terrain naturel avec végétation, où les objets sont non structurés, donc plus difficiles à caractériser.
Conclusion pour les capteurs actifs
Les technologies laser et radar fournissent des données sensorielles 3D en temps réel, à haute fré-quence ; l’exploitation de telles données rend plus robuste la tâche de détection et de localisation d’objets par un système robotique mobile ou un véhicule intelligent, même dans des environnements complexes comme dans des scènes urbaines ou routières. Par contre, s’il y a plusieurs systèmes autonomes qui, en même temps, utilisent ces capteurs actifs, l’interférence entre eux sera inévitable. Soulignons aussi qu’un système radar a un coût élevé, ce qui doit être considéré avant sa mise en œuvre dans un projet.
D’autre part un télémètre laser plan est fortement perturbé dans ses mesures, par la pente du sol, et par les variations d’attitude du véhicule sur lequel il est monté, en particulier l’angle de roulis (l’angle autour de l’axe Y dans le système de référence du véhicule qui porte le capteur, voir section 5.2.3) qui change dans les phases de freinage ou d’accélération : dans ces situations le plan laser n’est plus parallèle à la route. Ces problèmes ont justifié l’introduction de télémètres multi-plans (citons IBEO ALASKA), encore plus onéreux.
L. Matthies et. al. [74] indiquent que le choix entre radar, télémétrie laser ou vision pour détecter des obstacles dans une scène depuis un véhicule, dépend de la fréquence d’apparition des objets dans l’environnement de navigation et de la vitesse du véhicule qui porte les capteurs. Si la fréquence est faible et les vitesses aussi, il est plus avantageux d’exploiter la vision. Par exemple, les auteurs précisent que l’utilisation d’un système ladar pour un robot d’exploration planétaire, n’est pas nécessaire vu la très faible fréquence d’apparition d’obstacles et vu la faible vitesse du véhicule.
Détection d’objets par capteurs passifs basées sur la vision
Un capteur passif ne fait que recevoir l’énergie naturellement réfléchie par les objets présents dans la scène. Plusieurs capteurs passifs sont utilisés pour la robotique ou pour la surveillance : les capteurs inertiels (détection de vibrations, de mouvement), les capteurs haptiques (contact), mais les plus connus sont les capteurs visuels, donc des caméras CCD ou CMOS [87]. En tant que capteur passif, une caméra mesure l’intensité lumineuse émise par l’environnement sous la forme d’une image digitalisée, ou d’un tableau de pixels.
Un capteur visuel devient actif dès lors qu’on lui associe un projecteur ou illuminateur qui envoie sur la scène un motif lumineux (mouchetis aléatoire, matrice de points laser, profil laser). Par exemple l’image d’une nappe laser projetée au sol permet de détecter les trous, les obstacles ou une marche. Nous pouvons ranger dans cette classe, les caméras 3D à temps de vol optique, aussi appelées Photonic Mixer Devices (PMD) (Swiss Ranger, Canesta. . . ). Ces capteurs visuels actifs sont exploités pour la détection d’obstacles proches, mais pour l’instant, à notre connaissance, ils sont peu exploités sur véhicules. C’est la raison pour laquelle, ils restent très chers (plus de 5000 C pour un Swiss Ranger), mais le tout nouveau Kinect de Microsoft (150 C), pour l’instant exploité pour les jeux interactifs, pourrait changer la donne.
Nous ne présentons ci-dessous que la vision passive, avec les deux configurations principales uti-lisées pour acquérir les images : les capteurs stéréo et monoculaire, ainsi que les différentes manières d’analyser ces images. Nous commencerons par rappeler les concepts fondamentaux de la stéréovision avant de décrire les principales méthodes proposées pour détecter des obstacles mobiles à partir de don-nées sensorielles acquises par stéréovision. Ensuite, nous décrirons l’analyse spatio-temporelle réalisée sur les images monoculaires dans le but de décrire son contenu. Finalement, une brève conclusion à propos des capteurs visuels passifs sera présentée à la fin de cette section.
La stéréo-vision
Les systèmes de stéréovision permettent de calculer par triangulation, la profondeur des objets dans l’espace 3D, grâce à leurs projections dans les plans des deux caméras. La différence des positions dans les deux images, de la projection d’un même point de l’espace 3D, s’appelle la disparité ; la recherche des points correspondants entre ces deux images, permet donc de produire une image de disparité. En supposant que les caméras ont des axes optiques parallèles, comme dans le capteur Bumblebee vendu par la compagnie Point Grey (figure 2.3b), alors la disparité est inversement proportionnelle à la profondeur. Ainsi la disparité est nulle pour un point à l’infini, par exemple un point sur la ligne d’horizon.
Détection d’objets par capteurs passifs basées sur la vision
La figure 2.3a illustre un montage typique de deux caméras en configuration stéréo, configuration appelée aussi banc stéréo. Si le banc stéréo est calibré, les coordonnées du point 3D correspondant à un pixel apparié de l’image de disparité, peuvent être calculées. On sait que la précision du capteur stéréo est proportionnelle à la profondeur au carré ; de ce fait, la portée utile d’un tel capteur est limitée, typi-quement quelques mètres sur des focales courtes (5m. par exemple pour la détection d’obstacles proches en site urbain), quelques dizaines de m. sur des focales longues (40 ou 50m. max pour la détection d’obs-tacles lointains sur route).
Les approches pour construire l’image de disparité depuis une paire de caméras sont classifiées en méthodes éparses et denses. Dans les méthodes éparses les images droite et gauche sont d’abord pré-traitées pour extraire des indices visuels discriminants (points d’intérêt ou segments). Ce sont ces indices qui sont appariés et reconstruits. Dans le cas des méthodes denses, les pixels sont tous appariés en ex-ploitant une mesure de ressemblance (corrélation par SAD, SSD, ZNCC, distance de Hamming entre code CENSUS). Ces méthodes denses peuvent être optimisées en adoptant une approche pyramidale : les disparités sont d’abord recherchées à faible résolution (images 80 60) avant d’être raffinées en des-cendant la pyramide jusqu’à l’image initiale (640 480 par exemple).
Le problème classique de la vision, est le temps de traitement des images, notamment pour la détec-tion d’obstacles qui requiert une grande réactivité. Plusieurs solutions ont donc été proposées pour dimi-nuer le temps de calcul de l’image de disparité, en particulier en employant les systèmes re-configurables principalement les FPGA (Field Programming Gate Array). L’avantage de l’implémentation d’un algo-rithme sur FPGA, réside en sa capacité d’exécuter plusieurs opérations en parallèle, ce qui accélère considérablement le calcul même pour un processus dense. Des systèmes stéréo sur FPGA commer-cialisés produisent des images de disparité à 30Hz à la résolution VGA ; ils ont des performances très convenables pour traiter des applications en robotique ou pour les transports [66].
Un algorithme de stéréovision basé sur la transformée CENSUS et la mise en correspondance par dis-tance de Hamming, a été développé dans notre équipe sur une architecture FPGA par Ibarra et al. [52]. L’architecture proposée permet de générer une image de disparité dense à 100Hz pour la résolution 640×480 pixels. La figure 2.4c montre l’image de disparité calculée par l’architecture FPGA depuis les images stéréo 2.4a et 2.4b ; en figure 2.4d, l’image de disparité est lissée par un filtre médian ; les zones bruitées sur les bords de ces images sont des artefacts créés par l’algorithme. Les niveaux de gris dans l’image de disparité représentent le niveau de profondeur dans la scène ; les pixels gris les plus clairs désignent les objets les plus proches des caméras ; les plus éloignés sont en noir. La voiture garée dans la scène est notablement identifiable par la disparité. Grâce à cette carte il est possible de connaitre la profondeur des points, ce qui peut permettre de segmenter les objets par leur profondeur. La navigation d’un robot mobile ou d’un véhicule autonome basée sur la vision stéréo, peut donc être effectuée en temps réel, même si les conditions de l’environnement ne sont pas très favorables [52].
Le problème de l’auto-calibration. Le besoin de calibrer un banc stéréo (comme celui montré en figure 2.3a) périodiquement après son montage sur un robot ou un véhicule, est considéré comme un des principaux problèmes liés à la stéréovision ; en effet, la performance d’un banc stéréo (nombre de pixels appariés, nombre de faux appariements, précision de la reconstruction 3D) dépend totalement du calibrage. L’auto-calibrage, c’est-à-dire l’estimation des paramètres du capteur sans exploiter de mires, est toujours un sujet de recherche très étudié, depuis l’article fondateur de O.Faugeras en 1992 [32]. C’est un problème difficile, surtout quand il faut le résoudre en temps réel, donc sans faire appel à des méthodes d’optimisation trop lourdes.
Vu cette limitation, au LAAS il a été proposé dans les travaux de J.Sola [90], une approche limitée de correction du calibrage en considérant connus les paramètres intrinsèques des caméras. L’auteur propose de ré estimer la rotation entre les deux caméras dans la boucle de localisation, sur la base d’amers visuels appris soit au préalable, soit en simultané (cas du SLAM). Cependant, aujourd’hui il est possible de se passer de cette étape, car sur le marché, il existe des bancs stéréo pré calibrés, comme le BumbleBee2 de Point Grey Research©(voir photo en figure 2.3b). Par ailleurs ce système stéréo produit une image de disparité à la résolution VGA à plus de 48Hz ; même si ces images de disparité sont assez imprécises et contiennent quelques artefacts, les grands problèmes de la stéréovision sont bien résolus par ce système. Le bémol identifié pour ce banc stéréo est qu’il continue à être cher, que sa configuration est rigide (base fixe) et surtout que l’utilisateur dépend directement de techniques préprogrammées pour l’obtention de la carte de disparité.
La détection d’objets par stéréo-vision. Citons les nombreux travaux du JPL en Californie sur la détection d’obstacles mobiles depuis un capteur stéréo embarqué sur un robot. Dans certains cas, ils estiment le mouvement propre du robot pour distinguer le mouvement apparent des composantes sta-tiques de la scène de celui des composantes mobiles. Cette estimation est ainsi exploitée pour corriger le flot optique en « retirant » le mouvement du système, comme cela est proposé dans [93]. Dans ce travail, Talukder et al. utilisent des champs denses de disparité stéréo et ils suppriment les petites régions non connectées dans le champ du flot estimé.
D’autre part, si on considère que le banc stéréo est calibré et que sa position sur le robot est connue, alors la détection d’obstacles peut être réalisée par une rectification homographique [101]. La rectifica-tion homographique transforme une des images de la paire stéréo (par exemple, la droite), de manière à ce que le plan de la route soit identique entre image gauche et image droite rectifiée. Une simple diffé-rence entre ces deux images permet alors de discriminer les pixels correspondants à des points 3D qui ne sont pas portés par ce plan. Après que ces pixels associés à des points 3D qui ne sont pas sur la route ont été mis en évidence, les obstacles sont segmentés, puis caractérisés par une analyse de connexité et de similarité. La rectification homographique est appliquée a priori à l’aide d’une calibration préalable du système stéréo et du plan de la route. Cette méthode suppose que la route est plane, ce qui en pratique, la rend inexploitable en milieu naturel.
Par ailleurs, Lefebvre, Ambellouis et Cabestaing [64] proposent une méthode générique de mise en correspondance qui exploite des caractéristiques extraites d’un ensemble de courbes de similarité cal-culées sur des fenêtres 1D. Cette méthode a été appliquée dans le cadre d’une application de détection d’obstacles à l’avant d’un véhicule routier. Les auteurs proposent un procédé assez simple pour segmen-ter une carte de disparité : ils montrent que la détection des obstacles est plus précise qu’avec des cartes des disparités calculées sur des voisinages 2D.
Signalons aussi les approches comparées par V. Lemonde [66] au LAAS-CNRS pour la détection d’obstacles proches (à moins de 5m. par exemple), à partir de la stéréovision : on peut faire sans risque dans ce cas, une hypothèse de route plane.
D’abord l’auteur a exploité le concept de v-disparité, qui permet de détecter les obstacles direc-tement à partir de l’image de disparité. Depuis les travaux de R. Labayrade [61], il est connu que cette approche est très sensible aux erreurs sur l’attitude du capteur vis-à-vis du plan de la route. Puis V. Lemonde a proposé de détecter les obstacles à partir de l’image de points 3D reconstruites
à partir de l’image de disparité, simplement par seuillage sur l’élévation de ces points au-dessus du plan de la route. Les points étiquetés Obstacle sont ensuite regroupés en fonction d’un critère de connexité. Finalement, la création d’enveloppes permet de modéliser ces ensembles de points par des parallélépi-pèdes rectangles. Ces boites englobantes permettent d’associer les obstacles détectés d’une image à la suivante, et d’estimer grossièrement leurs dynamiques s’il s’agit d’obstacle mobile.
Dans le cas général d’obstacles détectés sur une route, l’auteur propose une approche très inspirée de la v-disparité, sauf que les cumuls se font dans le domaine 3D, donc successivement sur les coordon-nées X,Y et Z des points de l’image 3D, ce qui rend plus facile le regroupement des points Obstacle en objets disjoints, et ce qui permet également de traiter de manière plus robuste, le cas du dévers de la route ou du roulis non nul du véhicule.
Ces méthodes supposent que la route est plane, ce qui en pratique, les rendent inexploitables pour la navigation sur terrain accidenté en milieu naturel ; dans ce cas, la détection d’obstacles se mue en la construction d’une carte de traversabilité du terrain, à partir d’une carte d’élévation (ou Modèle Numé-rique du Terrain) [62].
Capteur de vision Infrarouge (IR)
Malgré leur faible résolution et le mauvais contraste des images qu’elles fournissent, les caméras infrarouges sont exploitées pour la navigation de véhicules dans des conditions de visibilité difficiles, soit la nuit, soit en cas de mauvaises conditions météo par exemple avec du brouillard ou de la neige. On trouve dans la littérature de nombreux travaux sur la détection d’objets depuis des caméras IR de nuit [73] ou avec de la fumée [36].
La bande de fréquence de l’infrarouge est divisée en 3 : bande I (1-1,7 mm), bande II (3-5 mm) et bande III (8-12 mm). Les caméras IR correspondantes ont différentes capacités et propriétés. Par exemple l’eau absorbe plus ou moins les ondes infrarouges selon la fréquence. En plus, les images infrarouges ne sont pas très texturées, ce qui empêche l’utilisation des techniques traditionnelles pour la détection de texture ou d’indices visuels. Deux images acquises par une caméra infrarouge 1 sont montrées dans la figure 2.5.
En ce qui concerne la navigation d’un véhicule intelligent dans un milieu extérieur inconnu, citons les travaux de Talukder et al. [93] réalisés avec un véhicule expérimental équipé avec une paire de caméras IR qui opèrent dans la bande 3-5 mm. Les algorithmes de stéréovision et du flot optique dense exécutés à partir d’images infrarouges, sont utilisés pour la détection d’objets dynamiques dans l’environnement. Plus récemment, Alonzo Kelly et al. [56] et Larry Matthies et al. [74] ont présenté une synthèse des résultats obtenus en matière de navigation soit sur des terrains naturels couverts de végétations, soit pour l’exploration planétaire. Ils concluent que l’exploitation de capteurs infrarouges est essentielle pour l’ex-ploration de terrain inconnu, notamment pour identifier la nature des obstacles, autre véhicule, buisson ou rocher par exemple.
D’autres applications plus spécifiques de l’imagerie infrarouge ont été présentées en 2008 par L. Gond et al. dans [36] pour la surveillance de foules dans un lieu public (gare du métro). Les auteurs utilisent un capteur infrarouge non refroidi dans la bande 8-12 mm, pour reconnaître des situations d’in-cendies ou d’attaques chimiques. Ils ont analysé l’impact des conditions d’illumination sur la qualité des images acquises par ces capteurs infrarouges : ils précisent que la vision dans cette bande infrarouge est sensible à certains facteurs comme la lumière du soleil sur les objets, la pluie ou la neige. Dans ce contexte de vidéo surveillance, la détection de personnes est faite en appliquant la méthode de sous-traction du fond en deux temps. Après une première soustraction de fond, ils calculent l’offset entre la moyenne des modes du modèle SKDA (Sequential Kernel Density Approximation), et la moyenne des pixels classés comme appartenant au fond. Cet offset est utilisé lors d’une seconde soustraction de fond, pour obtenir une image nettement améliorée.
Les caméras infrarouges présentent donc un intérêt certain pour la détection d’obstacles : leurs coûts encore élevés empêchent leur diffusion massive sur les véhicules grand public, mais ils sont exploités, souvent en fusion avec des caméras dans le visible, dans des applications spécifiques comme la sécurité civile, les transports aériens ou la défense.
Vision mono-caméra
Lorsque qu’on ne dispose que d’une unique caméra, les méthodes de détection d’obstacles se fondent sur la reconnaissance de formes ou sur la vision dynamique. Les systèmes les plus avancés combinent ces deux approches :
— Les modèles peuvent aussi contenir les comportements dynamiques caractéristiques d’une classe d’objets (vitesse min et max, type de trajectoires, parmi d’autres).
— Ces modèles peuvent être partiellement acquis ou mis à jour en ligne.
Dans la suite, il est présenté une synthèses des travaux qui concernent l’analyse de séquences d’images monoculaires afin de détecter des objets statiques et dynamiques. Nous ne prétendons pas être exhaustive mais nous présentons les principales méthodes utilisées dans ce contexte car nos contributions concernent aussi la vision monoculaire. Nous trouvons dans la littérature deux grandes approches : l’approche spa-tiale fondée sur l’extraction d’indices visuels dans une seule image, et l’approche temporelle fondée sur la détection de mouvement sur plusieurs images successives. Les approches spatio-temporelles traitent de la détection et du suivi d’indices visuels.
Approche spatiale pour la détection d’objets.
En ce qui concerne l’analyse spatiale, les indices visuels les plus fréquemment identifiés sur les ob-jets dans une image sont les suivants :
— Texture. La texture des objets sur l’image est caractérisée par des variations locales de luminance. La texture est notamment utilisée depuis le traitement d’images médicales à un niveau microscopique pour la recherche de lésions au niveau cellulaire jusqu’à l’analyse d’images satellites pour analyser la nature des sols en télédétection, en passant par les images acquises depuis des camé-ras embarquées ou fixes [39]. Les indices de texture sont extraits couramment par les matrices de co-occurrence, par la technique de sommes et différences d’histogrammes par les réponses à des filtres de Gabor, etc.
— Couleur. La couleur est possiblement l’indice visuel le plus facile à exploiter dans un image. Il est normalement utilisé pour la détection et l’identification d’objets par des classifieurs para-métriques, de type bayésien, SVM ou AdaBoost. Quelques espaces de couleur utilisées dans la communauté de vision sont le RGB, le RGB-normalisé, le HIS pour Teinte/Intensité/Saturation, le CIE-Lab, le CIE- Luv, l’espace de Ohta I1I2I3… Un résumé des caractéristiques de chacun de ces espaces couleur est présenté dans [78].
— Symétrie horizontale. Cet indice peut être utilisé si la géométrie des objets structurés qu’on re-cherche dans l’environnement est symétrique et connue par avance. Par exemple, dans les travaux de Bertozzi et al. [11], les auteurs exploitent le fait que l’image d’un véhicule observée dans une vue frontale, présente une symétrie suivant un axe vertical. Cette symétrie est généralement esti-mée à partir des contours extraits des images.
Nous avons testé dans nos propres travaux, une approche de classification couleur/texture ; cette méthode peut être considérée comme éparse [78], dans la mesure où elle s’appuie sur une segmentation préalable de l’image en régions uniformes en couleur. Dans ce travail l’image couleur est d’abord calculée à partir de l’image brute acquise par une caméra mono-CCD, par un algorithme de démosaïquage qui effectue des interpolations pour obtenir en chaqhe pixel, les trois composantes de la couleur dans l’espace RGB. L’image RGB doit être bien distribuée en couleur car la technique de segmentation dépend directement de l’illumination et de la qualité de la couleur. Par exemple l’image présentée dans la figure 2.6 2, re-quiert une correction chromatique est . L’image à gauche est en format RGB mais il est notable qu’une dominante jaune prédomine partout dans l’image. L’image à droite est obtenue après correction ; bien qu’elle soit moins illuminée, elle a une meilleure distribution de la couleur, ce qui est requis pour obtenir de bonnes performances dans la segmentation.
Ensuite, l’image couleur corrigée est transformée vers l’espace I1I2I3 proposé par Ohta [79] ; ce n’est pas l’espace optimal, mais c’est une transformation linéaire très rapide à appliquer, par rapport en par-ticulier à la transformation vers CIE-Lab. Une méthode de segmentation trouve les régions connexes sur l’image I1I2I3 qui ont les attributs couleur les plus uniformes en fonction de seuils établis a priori. L’image des régions résultant de la segmentation de l’image 2.6b est montrée sur l’image en haut à gauche de la figure 2.7 et à la même position dans la figure 2.8. Notons que le nombre des régions trou-vées dans l’image est très grand (près de 50 régions). Les couleurs utilisées pour distinguer ces régions, n’ont aucune signification ; elles servent uniquement pour distinguer les régions voisines entre elles. À cette étape, il devient nécessaire d’introduire un autre indice visuel afin de caractériser ces régions. Donc, sur chaque région X segmentée dans l’image, des attributs de texture sont calculés en chaque point de X, et les valeurs moyennes de ces attributs sont associées à la région X. Ces attributs de texture sont com-plétés avec les attributs de couleur déjà calculés dans l’étape de segmentation, afin de former un vecteur qui caractérise les propriétés de chaque région X.
Les vecteurs caractéristiques des régions sont utilisés d’abord dans une phase d’apprentissage pour construire une base de données sur les attributs de régions identifiées par un opérateur comme SOL, CIEL, ARBRE, HERBE, etc. Puis ces vecteurs sont exploités dans une phase d’identification par un classifieur fondé sur l’algorithme KNN (K-Nearest Neighbors), pour reconnaître la nature des objets et du terrain perçus dans les images ; puis nous fusionnons les petites régions adjacentes identifiées dans la même classe, par exemple le sol.
Les résultats de la classification sont illustrés dans l’image à droite de la figure 2.7. La même image de régions a été testée sur un classifieur fondé sur la technique des SVM (Support Vectors Machine) ; les résultats correspondants sont présentés en figure 2.8.
Les techniques KNN et SVM sont des classifieurs supervisés qui exploitent une base d’apprentissage pour générer une stratégie de classification ; dans tous les cas, la qualité de cette stratégie dépend des propriétés de la base (complétude, redondance). La méthode SVM trouve un classifieur optimal. Dans les figures 2.7 et 2.8, les régions identifiées de chaque classe sont distinguées par des couleurs différentes. Le codage des couleurs est le suivant : bleu pour le ciel, gris pour le sol et marron pour les arbres ou le bois, et vert pour la végétation ; les régions rouges n’ont pas pu être classifiées. En bas les contours de la région SOL, donc libre d’obstacles, sont présentés.
Il est bien connu que le calcul des attributs de texture requiert de nombreuses opérations, ce qui est peu compatible avec le temps réel. L’approche précédente a été adaptée et implémentée sur FPGA dans notre groupe de travail par Ibarra-Manzano [51]. La classification couleur/texture est traitée pixel à pixel, donc sans passer par la segmentation préalable par la couleur ; l’algorithme AdaBoost, simple à paralléliser, donne le taux de reconnaissance le plus élevé. La figure 2.9 montre les résultats de clas-sification obtenus dans un environnement intérieur en utilisant une approche dense de classification par couleur/texture fondée sur l’espace de couleur CIELaB, des attributs de texture calculés par ASDH (Ade-quacy of Sum and Difference Histograms). Cette approche, même si elle calcule les attributs sur chaque pixel, satisfait des contraintes de temps réel car elle est mise en œuvre sur FPGA.
|
Table des matières
Perception des environnements dynamiques 1
1.1 Introduction
1.2 Description du problème
1.2.1 Objectifs
1.2.2 Motivations
1.3 Approche développée
1.3.1 Contributions de la thèse
1.4 Organisation du manuscrit
Contexte : développement des véhicules autonomes
2.1 Introduction
2.2 Détection par des capteurs actifs
2.2.1 Détection par télémètre Laser
2.2.2 Détection par radar
2.2.3 Conclusion pour les capteurs actifs
2.3 Détection d’objets par capteurs passifs basées sur la vision
2.3.1 La stéréo-vision
2.3.2 Capteur de vision Infrarouge (IR)
2.3.3 Vision mono-caméra
2.3.4 Conclusion sur les capteurs de vision
2.4 Suivi et estimation de l’état des objets
2.4.1 Suivi de régions par un modèle statistique d’apparence
2.4.2 Suivi d’objets basé sur un modèle géométrique
2.4.3 Suivi et estimation par des méthodes probabilistes
2.4.4 Conclusions sur les méthodes de suivi
2.5 Approches de localisation : SLAMMOT
2.6 Approche proposée
2.6.1 Notre approche de détection et suivi d’objets dynamiques
2.6.2 Vers l’intégration avec une méthode SLAM.
2.7 Conclusion
Détection d’obstacles mobiles par une approche spatio-temporelle
3.1 Introduction
3.2 Flot optique
3.2.1 Sélection des points d’intérêt
3.2.2 Suivi des points d’intérêt
3.2.3 Modèle de translation et de transformation affine
3.2.4 Le temps de pistage
3.3 Groupement des points mobiles par la méthode a contrario
3.3.1 Description de l’algorithme
3.3.2 L’espace des régions de test dans R4
3.3.3 Évaluation du modèle du fond
3.3.4 Résultats de la méthode de groupement
3.4 Carte de probabilités
3.4.1 Initialisation de la carte
3.4.2 Modèle d’évolution de la carte de probabilités
3.5 Enrichissement du modèle des objets mobiles dans le temps
3.5.1 Description du problème
3.5.2 Règle d’évaluation pour la fusion des objets mobiles
3.5.3 Résultats de la fusion
3.6 Conclusion
Caractérisation et suivi des objets mobiles
4.1 Introduction
4.2 Modèle basé sur des points d’intérêt
4.2.1 La mise en correspondance des points
4.2.2 Mise à jour du modèle de l’objet
4.2.3 Les contraintes du modèle des points
4.3 Modèle basé sur des régions
4.3.1 Caractérisation de la région par un contour actif
4.3.2 Formulation de l’énergie de «snakes»
4.3.3 Mise à jour du modèle de l’objet
4.3.4 Les contraintes du modèle de régions
4.4 Estimation du mouvement des objets mobiles
4.4.1 Le filtre de Kalman
4.4.2 Le modèle à vitesse constante
4.4.3 Résultats de la performance du filtre
4.5 Résultats expérimentaux du suivi des objets mobiles
4.5.1 Détection d’objets rigides.
4.5.2 Détection d’objets non-rigides.
4.6 Conclusions
Intégration de notre approche dans le système de navigation d’un véhicule autonome
5.1 Introduction
5.2 Compensation du mouvement du robot
5.2.1 Différentes approches pour l’estimation du mouvement
5.2.2 Modèle de projection de la caméra
5.2.3 Mouvement de corps rigides
5.2.4 Transformation Perspective Inverse
5.2.5 Estimation des déplacements du robot
5.3 La stratégie globale pour la navigation extérieure
5.3.1 État de l’art du SLAM mono-caméra
5.3.2 Le module de SLAM
5.3.3 Le partage des données et la synchronisation des modules
5.4 Architecture matérielle et logiciel
5.4.1 Le robot d’expérimentation Dala
5.4.2 Description de la plateforme d’intégration robotique Jafar
5.5 Description de l’architecture complète pour la détection et le suivi d’objets
5.5.1 Module klt
5.5.2 Module cluster
5.5.3 Module snake
5.5.4 Module tracker
5.6 Résultats expérimentaux
5.6.1 Résultats de l’approche de compensation du mouvement.
5.6.2 Séquence d’images acquise avec plus de vitesse
5.7 Conclusions
Conclusion et perspectives
6.1 Conclusion Générale
6.2 Perspectives
Bibliographie
Télécharger le rapport complet