Architecture d’un système d’indexation et de recherche d’image
Le problème d’indexation et recherche d’image se présente en deux aspects indissociables. Le premier consiste le mode de représentation des images et le second concerne l’utilisation de cette représentation dans le but de la recherche.
Les deux techniques possèdent chacun une phase d’indexation et une phase de recherche. L’indexation a pour but de représenter l’information de manière à faciliter son extraction. L’architecture classique d’un système d’indexation et de recherche d’images se décompose en deux phases de traitement : une phase d’indexation dit, hors ligne, extraction d’attribut à partir de l’image, stocké dans un vecteur numérique appelé descripteur visuel. Ensuite, ces caractéristiques sont stockées dans une base de données. L’autre phase de recherche, dit on-line, consiste à comparer le descripteur émis par l’utilisateur et le comparer avec les descripteurs de la base de données.
Méthode Indexation et la recherche d’image
Les systèmes classiques de recherches d’image peuvent être classés en deux grandes classes :
– Les systèmes textuels de recherches d’images
– Les systèmes de recherches d’image par le contenue visuel (CBIR)
Indexation et recherche textuelle d’image
La méthode d’indexation textuelle peut se faire de deux manières distinctes, par une indexation manuelle et de façon automatique.
Indexation textuelle manuelle
Lors de l’indexation textuelle manuelle, les images sont classées et indexées par un documentaliste appelé iconographe. Il a pour rôle d’associer les images à des groupes de mots. Il peut être aussi effectué par les utilisateurs qui souhaitent décrire leurs images personnelles. Plusieurs problèmes peuvent être rencontrés pendant la phase d’indexation manuelle d’image. Le principal problème est le choix des termes. En effet, la personne qui indexe l’image et la personne qui recherche l’image ne choisira pas les mêmes termes. Une même image peuvent avoir plusieurs ses, contenir plusieurs sens, contenir plusieurs thèmes. On dit que l’indexation textuelle est subjective. Il existe deux types d’indexation d’images. La première, le hard indexing, correspond à ce que l’indexeur voit dans l’image, par exemple le portrait d’une femme. La seconde est le soft indexing et porte sur la signification de l’image.
Malgré sa subjectivité, l’indexation manuelle reste une méthode efficace pour associer un sens à des images. Cependant, lorsque l’on a un grand volume d’images à indexer, ce travail devient fastidieux, voire impossible, ce qui n’est pas le cas pour l’indexation automatique.
Indexation textuelle automatique
L’indexation textuelle automatique d’image consiste à associer à une image au moyen d’un système informatique sans aucune intervention humaine. Il existe deux approches : l’indexation textuelle à partir du texte associé à l’image, et l’indexation textuelle automatique à partir du contenu visuel de l’image.
La première approche n’est possible que lorsque les images sont associées à du texte. C’est le cas des images des encyclopédies, des catalogues de vente, des manuels techniques… et aussi du web. L’indexation textuelle des images sur le web peut s’effectuer à partir des mots présents dans le titre de la page ou des mots les plus fréquents ou pertinents de cette page. Cependant, toutes les images présentes sur une même page web ne devraient pas être indexées avec les mêmes mots. Beaucoup de moteurs de recherche utilisent aussi l’Uniform Resource Locator (URL) et le nom de l’image, mais la plupart des images ne sont pas nommées de façon pertinente, mais bien souvent par des noms génériques comme img001.jpg qui ne portent pas de sens. D’autres techniques considèrent les mots associés à l’attribut «ALT » de la balise HyperText Markup Language (HTML) « IMG » d’une image ou bien le texte proche de l’image, ou bien une fusion de toutes ces informations. Mais, dans la pratique, peu d’images sur le web sont indexées de cette façon, car cela nécessite une indexation manuelle que l’on sait être très coûteuse en temps. De plus, le texte proche de l’image n’est pas forcément celui que l’on associerait à l’image. [8]
La deuxième approche est souvent appelée auto-annotation par le contenu. Annoter une image avec des mots seulement à partir du contenu visuel est impossible. C’est pourquoi la plupart du temps les méthodes d’auto-annotation sont en fait des méthodes de classification supervisée multi-classes (une classe par mot). Elles utilisent un ensemble d’apprentissage où les images sont associées aux classes de mots pour apprendre à prédire des mots sur de nouvelles images. C’est cette approche qui est utilisée dans ce mémoire .
Recherche d’image textuelle
Une fois indexées textuellement, les images peuvent être recherchées avec les modèles classiques de recherche dans les documents textuels. Pour cela il existe plusieurs méthodes : modèle booléen, modèle vectoriel, modèle probabiliste et modèle logique. Ces différentes techniques sont expliquées dans les paragraphes qui suivent.
Modèle booléen
Dans le modèle booléen, un document di est représenté par une conjonction de termes indépendants que l’on représente sous la forme d’un ensemble : ?? = {?1, ?2, … . . , ???? } sans pondération. La requête est une expression logique composée de termes connectés par les opérateurs logiques ET, OU et NON. Une image sera jugé pertinente par le système si l’expression logique de la requête est satisfaite par cette image. Ce modèle ne permet pas de retrouver des images qui ne correspondent que partiellement à la requête.
Modèle vectoriel
Dans le modèle vectoriel, un document est représenté sous la forme d’un vecteur à ?? dimensions : ?? = {??,1, ??,2, … . . , ???? } où chaque ??,?est la pondération associée au terme ??dans le document : ?? . Ce modèle suppose que les vecteurs sont des points dans un espace où les termes forment une base orthogonale. Les termes sont supposés indépendants. La requête est exprimée selon le même formalisme : ?? = {??,1, ??,2, … . . , ??,? }. Pour évaluer la pertinence d’un document par rapport à une requête, le système calcule une valeur de similarité entre les deux vecteurs ?? et ?. Les mesures de similarité classiques sont le cosinus, la formule de Dice et la formule de Jaccard. Les pondérations tiennent compte de la fréquence du terme dans le document (term frequency, tf), du nombre de documents dans lesquels apparaît le terme (document frequency, df), de la longueur du document, et de l’apparition des termes d’indexation dans les parties logiques du document, comme le titre, le résumé. Etc.
Modèle probabiliste
Le modèle probabiliste essaye d’estimer la probabilité qu’un utilisateur a de trouver un document pertinent. Ce modèle suppose qu’il y a un sous-ensemble ? de documents que l’utilisateur veut retrouver parmi ceux disponibles, les autres documents ?̅ étant considérés non pertinents. Un document ? et une requête ? sont représentés par un vecteur comme dans le modèle vectoriel, mais les poids sont binaires (le mot apparaît ou non dans le document). Si P(R|d) est la probabilité que le document ? soit pertinent pour la requête ? et si P(R̅|d) est la probabilité que le document ne soit pas pertinent pour la requête .
Avantages et limites
L’annotation textuelle d’images peut être effectuée manuellement, mais cela est très coûteux et subjectif. Elle peut également être effectuée automatiquement à partir du texte associé à l’image ou du contenu visuel, mais ces types de systèmes sont peu performants et les images sont finalement mal annotées. Cependant, l’avantage des systèmes textuels est qu’ils donnent la possibilité à l’utilisateur de poser des requêtes dans un langage de haut niveau lui permettant ainsi d’exprimer son besoin d’information facilement. De plus, les modèles, tels que le modèle vectoriel, permettent de retrouver rapidement et efficacement les documents répondant à une requête. En ce qui concerne le problème de la subjectivité des termes, un thésaurus donnant les liens de synonymie et de hiérarchie entre les termes, tels que la strucutre WordNet, permet de réduire dans une certaine mesure les distances entre deux termes voisins . Cependant, il n’existe pas à notre connaissance de thésaurus hiérarchique conséquent spécialement adapté pour décrire les images. Les modèles «sac de mots» ont l’avantage d’être très rapides, mais ils ne permettent pas de poser des requêtes plus complexes. Par exemple, rechercher des images avec une voiture rouge près d’une personne sur un fond en vert. L’approche conceptuelle permet de faire ce type de requête. Elle nécessite que les images soient décrites par des graphes représentant les relations entre les objets dans les images proposées et d’étendre le modèle vectoriel pour représenter les graphes conceptuels dans le cas de bases d’images.
|
Table des matières
INTRODUCTION
CHAPITRE 1 GENERALITE SUR LA RECHERCHE D’IMAGE
1.1 Introduction
1.2 Architecture d’un système d’indexation et de recherche d’image
1.3 Méthode Indexation et la recherche d’image
1.3.1 Indexation et recherche textuelle d’image
1.3.2 Indexation et recherche d’images par le contenu visuel
1.4 Evaluation des méthodes existante
1.5 Approche proposée
1.6 Conclusion
CHAPITRE 2 LES RESEAUX DE NEURONES
2.1 Introduction
2.2 Historique
2.3 Neurone biologique
2.3.1 Structure
2.3.2 Potentiel au repos
2.3.3 Potentiel d’action
2.4 Du neurone biologique vers le neurone artificiel : le neurone formel
2.4.2 Formulation mathématique
2.4.3 Fonction d’activation
2.5 Réseau de neurone artificiel
2.5.1 Structure d’interconnexion
2.5.2 Formulation mathématique
2.5.3 Modélisation matricielle du réseau en entier
2.5.4 Le perceptron Multicouche
2.5.5 Apprentissage
2.6 Conclusion
CHAPITRE 3 RESEAU DE NEURONE A CONVOLUTION
3.1 Introduction
3.2 Motivation
3.3 Architecture
3.4 Visualisation et fonctionnement
3.5 Apprentissage des réseaux de neurone à convolution
3.6 Les architectures de références
3.6.1 LeNet
3.6.2 AlexNet
3.6.3 GoogLeNet
3.7 Techniques innovante
3.8 Inconvénient des CNN
3.9 Conclusion
CHAPITRE 4 CONCEPTION D’UN SYSTEME D’INDEXATION ET DE RECHERCHE TEXTUELLE D’IMAGES
4.1 Introduction
4.2 Architecture du système
4.3 Conception de l’indexation textuelle
4.3.1 Contrainte du système
4.3.2 Entrée/Sortie
4.3.3 Le réseau de neurone à convolution
4.4 Conception de la recherche
4.4.1 Méthode de comparaison
4.4.2 Requête par phrase
4.4.3 Recherche par l’exemple
4.5 Conclusion
CONCLUSION