Télécharger le fichier pdf d’un mémoire de fin d’études
Image numérique
Contrairement aux images obtenues à l’aide d’un appareil photo analogique, ou dessinées sur du papier, les images manipulées par un ordinateur sont numériques (représentées par une série de bits). Une image numérique est obtenue après numérisation d’une image analogique (Echantillonnage, Quantification, Codage).
Une image numérique est une image dont la surface est divisée en éléments de taille fixe appellée « cellule » ou « pixel » ayant chacun comme caractéristique, un niveau de gris ou couleur prélevée
à l’emplacement correspondant dans l’image réelle ou calculé à partir d’une description interne de la scène à représenter. [1] [2]
La numérisation d’une image est la conversion de celle-ci, de son état analogique en une image numérique représentée par une matrice bidirectionnelle de valeur numérique ( , ), mais dans ce cas là et sont des coordonnées cartésiennes d’un point de l’image. Chaque élément ( , ) représente un pixel de l’image et cette valeur exprime en chaque point la mesure d’intensité lumineuse perçue par le capteur. [1] [2]
Image à niveau de gris
Le niveau de gris est la valeur de l’intensité en un point. La couleur du pixel peut prendre des valeurs allant du noir au blanc en passant par un nombre fini de niveau intermédiaire. Donc, pour représenter les images à niveaux de gris, on peut attribuer à chaque pixel de l’image une valeur correspondant à la quantité de lumière renvoyée. Chaque pixel est codé sur 8 bits et peut prendre une valeur comprise entre 0 et 255 [2]. Pour cela, il faut que le matériel utilisé pour afficher l’image soit capable de produire les différents niveaux de gris correspondant.
Le nombre de niveaux de gris dépend du nombre de bits utilisés pour décrire la « couleur » de chaque pixel de l’image. Plus ce nombre est important, plus les niveaux accessibles sont nombreux.
Image couleur
Il est parfois utile de pouvoir représenter des images en noirs et blancs, cependant les applications multimédias utilisent le plus souvent des images en couleurs.
La représentation des couleurs s’effectue de la même manière que les images monochromes avec cependant quelques particularités. Il faut tout d’abord choisir un modèle de représentation. On peut représenté les couleurs à l’aide de leur composante primaire c’est-à-dire le rouge, le vert et le bleu (modèle RVB).
Représentation en couleur réelle
Elle consiste à utiliser 24 bits pour chaque point de l’image. 8 bits sont employés pour décrire la composante rouge (R), 8 pour le vert (V), et les 8 autres pour le bleu (B). Il est ainsi possible de représenter 2563 = 16,7 millions de couleurs différentes simultanément. Cela est cependant théorique, car aucun écran n’est capable d’afficher 16 millions de points. Dans la plus haute résolution actuelle, l’écran affiche 1 920 000 de points [2]. Par ailleurs, l’œil humain n’est pas capable de distinguer autant de couleurs.
Représentation en couleur indexée
Le modèle RVB représente toutes les couleurs par l’addition des trois composantes fondamentales. Afin de diminuer les charges nécessaires pour des images à 24 bits, on peut utiliser le mode de représentation à couleurs indexées. Le principe consiste à déterminer le nombre de couleurs différentes utilisées dans l’image puis à créer une table de ces couleurss en attribuant à chacune une valeur numérique correspondant à sa position dans la table [2]. La table appelée palette comporte également la description de chacune des couleurs sur 24 bits.
Caractéristiques de l’image
Pixel
Une image est constituée d’un ensemble de points appelés pixel. Le mot pixel provient d’une contraction de l’expression anglaise « PICture ELement ».
Le pixel représente le plus petit élément constitutif d’une image numérique auquel on peut associer individuellement une couleur (ou un niveau de gris) et une intensité. [2]
L’ensemble de ces pixels est contenu dans un tableau à deux dimensions constituant l’image finalement obtenue.
Chaque pixel est défini dans une image par des convolutions et étant donné que l’écran effectue un balayage de gauche à droite et de haut en bas, on désigne généralement par les coordonnées (0,0) le pixel situé en haut à gauche de l’image. [1]
Dimension
C’est la taille de l’image ou le nombre de pixel d’une image [ × ] avec le nombre de ligne de l’image et son nombre de colonne.
Résolution
C’est la clarté ou la finesse de détail atteinte par un moniteur ou une imprimante dans la production d’image. Sur les moniteurs d’ordinateur, la résolution est exprimée en nombre de pixel par unité de mesure. On utilise aussi, le mot résolution pour désigner le nombre total de pixel affichable horizontalement sur un moniteur, plus grand est ce nombre, meilleure est la résolution. [2]
Bruit
Le bruit est tout phénomène imprévisible qui vient perturber le signal [1]. Dans une image, c’est un phénomène de brusques variations d’intensité d’un pixel par rapport à ses voisins.
Le bruit peut être causé par :
Les événements inattendus lors de l’acquisition comme le mouvement ou une modification ponctuelle des conditions d’éclairage ;
La mauvaise qualité des capteurs ou une mauvaise utilisation de ces derniers ;
Lors de l’échantillonnage, le passage de la forme analogique à la forme numérique de l’image ;
Ou bien la nature de la scène elle-même (poussière, rayures, …)
Histogramme
L’histogramme est une fonction qui donne la fréquence d’apparition de chaque niveau de gris ou couleurs dans une image. [1]
Pour diminuer l’erreur de quantification, pour comparer deux images obtenues sous des éclairages différents ou encore pour mesurer certaines propriétés sur une image, on modifie souvent l’histogramme correspondant. [1] [2]
Il permet de donner un grand nombre d’information sur la distribution des niveaux de gris ou des couleurs et de voir entre quelles bornes sont réparties la majorité des pixels, dans le cas d’une image trop claire ou d’une image trop foncée.
Un histogramme peut être utilisé pour améliorer la qualité d’une image (Rehaussement d’images) en introduisant quelques modifications pour pouvoir extraire les informations utiles de celle-ci.
Texture
Les contours représentent la frontière entre les objets de l’image, ou la limite entre deux pixels dont les niveaux de gris représentent une différence significative.
L’extraction de contour consiste dans l’image les points qui séparent deux textures différentes.
Perception des couleurs
C’est par la lumière que la couleur existe. Elle ne réside pas dans les objets mais dans la lumière qui les éclaire et dans leur propriété à absorber certaines radiations tout en réfléchissant d’autres. La couleur n’est donc qu’une impression, un effet physiologique produit par notre cerveau et dont les causes sont captées par nos sens. [1] [2]
Lumière
La lumière couvre une partie du spectre d’énergie électromagnétique. Un rayonnement électromagnétique est en général constitué d’un certain nombre de longueurs d’onde (ou fréquences) que les dispositifs dispersifs permettent de séparer en un spectre [1] [2]. La longueur d’onde du spectre visible s’étend approximativement de 380 à 720 nm [3]. En un mot, la lumière est une distribution d’énergie émise à certaines fréquences ayant une certaine intensité.
Notion de couleurs
La couleur de la lumière est caractérisée par sa fréquence, elle-même conditionnée par la longueur d’onde et la célérité de l’onde. La longueur d’onde d’un phénomène oscillatoire est exprimée par la relation (1.10). = (1.10)
désigne la longeur d’onde
désigne la célérité de la lumière (3 × 108 . −1)
désigne la période de l’onde
L’oeil humain est capable de voir des lumières dont la longueur d’onde est comprise entre 380 et 780 nm. Les études des trois espèces de cônes et les phénomènes complexes qui permettent de percevoir les sensations colorées aboutissent à dire que l’oeil n’est sensible qu’à trois plages de radiation ayant pour maximum [1] [2] :
450 nm pour le bleu
525 nm pour le vert
625 nm pour le rouge
La nature trichrome de l’image permet de recréer n’importe quelles couleurs avec le mélange du rouge, vert et bleu. Le système RGB (de l’Anglais Red, Green et Blue) ou RVB (Rouge, Vert et Bleu en Français) est alors le plus utilisé comme système de base sur l’écran informatique et dans le traitement d’image. Ces trois couleurs sont alors dénommées couleurs primaires. [3] [4]
Synthèse de couleur
Dans la chaîne de création d’image, deux méthodes sont utilisées pour couvrir la quasi-totalité du spectre visible : la synthèse additive et la synthèse soustractive. [4] [5]
Synthèse additive
La synthèse additive est le fruit de l’ajout de composantes de la lumière et prend le RGB comme système de référence. La combinaison des trois composantes Rouge, Vert, Bleu donne du blanc. L’absence de composante donne du noir. Les couleurs secondaires sont le cyan, le magenta et le jaune car : le vert combiné au bleu donne du cyan, le bleu combiné au rouge donne du magenta et le vert combiné au rouge donne du jaune.
Synthèse soustractive
La synthèse soustractive permet de restituer une couleur par soustraction, à partir d’une source de lumière blanche, avec des filtres correspondant aux couleurs complémentaires : jaune, magenta et cyan. L’ajout de ces trois couleurs donne du noir et leur absence produit du blanc. Les composantes de la lumière sont ajoutées après réflexion sur un objet, ou plus exactement sont absorbées par la matière. Bleu, Rouge, Vert sont devenus les couleurs secondaires car : le magenta combiné avec le cyan donne du bleu, le magenta combiné avec le jaune du rouge, le cyan combiné avec le jaune du vert.
Principe
La vision artificielle ou vision par ordinateur vise à couvrir les aspects fondamentaux de la façon d’analyser les images et d’en extraire le contenu (extraction des informations, des connaissances à partir d’une image). [5] [8]
La vision artificielle est un domaine interdisciplinaire qui traite de la façon dont les ordinateurs peuvent être conçus pour acquérir une compréhension de haut niveau des images. Du point de vue de l’ingénierie, il cherche à automatiser les tâches que le système visuel humain peut faire. [10] Le domaine de la vision artificielle étudie donc le développement des méthodes et des systèmes informatiques qui peuvent percevoir le monde par le biais des images et des captures vidéos de manière intelligente, aussi proche que possible de la perception humaine. [10] [14]
Applications
La vision artificielle a un très large éventail d’applications. Les possibiltés sont infinies. Voyons quelques exemples d’applications modernes de la vision artificielle.
Recherche d’image par le contenu visuel
La recherche d’image par le contenu ou Content Based Image Retrieval (CIBR) est l’application des techniques de vision artificielle dans la recherche d’image numérique dans de grandes base de données. [17]
La recherche d’image par le contenu est une technique permettant de rechercher des images à partir de ses caractéristiques visuelles, c’est-à-dire induite de leurs pixels. Il s’oppose à la recherche d’image par mots clés ou tags, qui fut historiquement proposé par les moteurs de recherche grâce à des banques d’images où les images sont retrouvées en utilisant le texte qui les accompagne plutôt que le contenu de l’image elle-même. [13] [17]
|
Table des matières
INTRODUCTION GENERALE
CHAPITRE 1 TRAITEMENT D’IMAGES ET VISION ARTIFICIELLE
1.1 Introduction
1.2 Notions d’image
1.2.1 Définition
1.2.2 Image numérique
1.2.3 Image à niveau de gris
1.2.4 Image couleur
1.2.5 Caractéristiques de l’image
1.3 Système de traitement de l’image
1.3.1 Acquisition des données images
1.3.2 Dispositifs de numérisations des images
1.3.3 Prétraitement et post-traitement
1.4 Méthodes de traitement d’images
1.4.1 Opérateurs statistiques
1.4.2 Filtrage d’image
1.5 Vision artificielle
1.5.1 Système visuel humain
1.5.2 Perception des couleurs
1.5.3 Principe
1.5.4 Applications
1.6 Conclusion
CHAPITRE 2 APPRENTISSAGE AUTOMATIQUE
2.1 Introduction
2.2 Principe
2.3 Applications
2.4 Types d’apprentissage
2.5 Quelques algorithmes utilisés en apprentissage automatique
2.5.1 Support Vector Machine
2.5.2 Boosting
2.5.3 Classification bayésienne
2.5.4 Arbres de décision
2.5.5 K-means
2.5.6 Fuzzy C-Means
2.5.7 Algorithmes génétiques
2.5.8 Réseaux de neurones
2.6 Vision artificielle et apprentissage automatique
2.7 Conclusion
CHAPITRE 3 RESEAUX DE NEURONES
3.1 Historique
3.2 Neurones biologiques
3.3 Neurone formel
3.4 Réseaux de neurones artificiels
3.4.1 Feedforward network
3.4.2 Réseaux récurrents
3.5 Apprentissage des réseaux
3.5.1 Apprentissage supervisé
3.5.2 Apprentissage non supervisé
3.6 Réseaux multicouches à propagation de l’information vers l’avant
3.6.1 Algorithme de rétro-propagation
3.6.2 Optimisation
3.6.3 Overfitting
3.7 Conclusion
CHAPITRE 4 RESEAUX DE NEURONES A CONVOLUTION
4.1 Introduction
4.2 Vue d’ensemble de l’architecture
4.3 Couches d’un CNN
4.3.1 Couche de convolution
4.3.2 Couche Pooling
4.3.3 La couche de classification
4.4 Apprentissage d’un CNN
4.4.1 Rétro-propagation
4.4.2 Calcul de la dimension d’entrée et de sortie
4.5 Transfert learning
4.5.2 Extracteur automatique de caractéristiques
4.5.3 Fine tuning
4.6 Techniques d’optimisation
4.6.1 Dropout
4.6.2 Data augmentation
4.6.3 Batch normalisation
4.7 Conclusion
CHAPITRE 5 IMPLEMENTATION DES RESEAUX DE NEURONES A CONVOLUTION
5.1 Introduction
5.2 Outils utilisés et environnement de développement
5.2.1 Python
5.2.2 Tensorflow
5.2.3 Spyder
5.2.4 Cherrypy et Flask
5.2.5 WebGL
5.3 Reconnaissance de chiffres manuscrits
5.3.1 Objectif
5.3.2 Architecture proposée
5.3.3 Implémentation avec Tensorflow
5.3.4 Mise en œuvre de l’application
5.4 Recherche d’image par le contenu
5.4.1 Objectif
5.4.2 Réseau pré-entrainé
5.4.3 Architecture
5.4.4 Mise en œuvre de l’application
5.4.5 Performance
5.5 Reconnaissance faciale
5.5.1 Objectif
5.5.2 Architecture
5.5.3 Mise en œuvre de l’application
5.5.4 Performance
5.6 Conclusion
CONCLUSION GENERALE
ANNEXES
ANNEXE 1 : EXTRAITS DE CODES SOURCES
ANNEXE 2 : MIXED NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY
ANNEXE 3 : PRECISION ET RAPPEL
ANNEXE 4 : DETECTION DE VISAGES
BIBLIOGRAPHIE
Télécharger le rapport complet