Origines du Data Mining
Le DM peut รชtre vu comme la consรฉquence de lโรฉvolution des systรจmes de traitement de lโinformation et plus particuliรจrement des Systรจmes de Bases de Donnรฉes. L’industrie des Systรจmes de Bases de Donnรฉes a connu une รฉvolution dans le dรฉveloppement des fonctionnalitรฉs suivantes (voir figure 1.01) : la collecte de donnรฉes et la crรฉation de bases de donnรฉes, la gestion des donnรฉes et l’analyse avancรฉe des donnรฉes. Depuis les annรฉes 1960, les bases de donnรฉes et les technologies de l’information se sont systรฉmatiquement transformรฉes en partant des systรจmes de traitement de fichiers primitifs vers des Systรจmes de Bases de Donnรฉes sophistiquรฉs et puissants. Les progrรจs constants et รฉtonnants de la technologie informatique a conduit ร de grandes quantitรฉs d’ordinateurs puissants et abordables, de matรฉriel de collecte de donnรฉes et de supports de stockage. Les donnรฉes peuvent รชtre stockรฉes dans diffรฉrents types de bases de donnรฉes et de dรฉpรดt d’informations. Une architecture de dรฉpรดt de donnรฉes sโest alors manifestรฉe : le Data Warehouse. Cโest un entrepรดt de donnรฉes hรฉtรฉrogรจnes organisรฉes sous un schรฉma unifiรฉ sur un seul site afin de faciliter la prise de dรฉcision. La quantitรฉ croissante et rapide de donnรฉes, collectรฉes et stockรฉes dans de grands et nombreux Data Warehouses, a largement dรฉpassรฉ notre capacitรฉ humaine de comprรฉhension sans outils puissants. L’abondance des donnรฉes, associรฉe ร la nรฉcessitรฉ d’outils puissants d’analyse des donnรฉes, a รฉtรฉ dรฉcrite comme une situation riche en donnรฉes mais pauvre en informations.
En consรฉquence, les donnรฉes recueillies dans les grands dรฉpรดts de donnรฉes deviennent des ยซ tombes de donnรฉes ยป, des archives qui sont rarement visitรฉes. Les dรฉcisions importantes sont souvent prises sur l’intuition d’un dรฉcideur, simplement parce que le dรฉcideur n’a pas les outils pour extraire les connaissances prรฉcieuses intรฉgrรฉes dans les vastes quantitรฉs de donnรฉes. L’รฉcart grandissant entre les donnรฉes et les informations requiert un dรฉveloppement systรฉmatique d’outils de DM qui transformeront les tombeaux de donnรฉes en ยซ pรฉpites dโor ยป du savoir. Le domaine du Data Mining a ainsi รฉmergรฉ dans les annรฉes 1990 ร lโissu du premier workshop KDD (Knowledge Discovery in Databases) en 1989. [1][2]
Dรฉfinitions
Le Data Mining, souvent traduit en franรงais par ยซ fouille de donnรฉes ยป, est une technique permettant lโextraction dโinformation dโintรฉrรชt (non triviale, implicite, inconnue ร priori et potentiellement utile) ร partir de donnรฉes stockรฉes dans de larges entrepรดts de donnรฉes, en utilisant des procรฉdures automatiques ou semi automatiques pour une prise de dรฉcision. Comme ce processus peut รชtre trรจs difficile, il est souvent comparรฉ au minage de lโor dans les riviรจres : le gravier des alluvions reprรฉsente lโรฉnorme quantitรฉ de donnรฉes et les pรฉpites dโor reprรฉsentent les connaissances cachรฉes que lโon veut trouver. Le DM est un domaine qui se situe ร lโintersection des statistiques, de lโapprentissage automatique et des bases de donnรฉes .
Terminologies sur le Data Miningย
Pour une bonne comprรฉhension sur ce qui suit, il est nรฉcessaire de dรฉfinir les termes suivants :
โข Concept
Un concept dรฉsigne un problรจme ร rรฉsoudre, un phรฉnomรจne ร prรฉdire ou un objectif ร atteindre ร partir des donnรฉes et des techniques de DM.
โข Dataset
Un dataset fait rรฉfรฉrence aux donnรฉes utilisรฉes pour le DM reprรฉsentรฉes sous forme de table. Un exemple est mis en รฉvidence dans le tableau 1.01. Chaque ligne du dataset correspond ร un รฉvรฉnement tandis quโune colonne dรฉsigne un attribut. Un รฉvรฉnement est donc un vecteur composรฉ de diffรฉrents attributs. Ainsi, un dataset est une matrice dont les lignes sont les รฉvรฉnements et les colonnes les attributs. Les attributs peuvent รชtre sous forme nominale ou numรฉrique.
โข Classe
La classe dรฉsigne un attribut de la dataset dont la valeur est calculรฉe ou conditionnรฉe par la valeur des autres attributs. Elle reprรฉsente lโattribut ร prรฉdire. Chaque รฉvรฉnement peut avoir une classe qui lui est associรฉe.
Type de donnรฉes ร explorer
La nature des donnรฉes pouvant รชtre utilisรฉes pour le DM est variรฉe. Cette section dresse une liste de ces types de donnรฉes ร explorer avec leur description.
Base de donnรฉes relationnelle
Une base de donnรฉes relationnelle est une base de donnรฉes oรน l’information est organisรฉe dans des tableaux ร deux dimensions appelรฉs relations ou tables. Selon ce modรจle relationnel, une base de donnรฉes consiste en une ou plusieurs relations. Les lignes de ces relations sont appelรฉes des enregistrements tandis que lesย ย sont appelรฉes attributs. Chaque enregistrement dans une table reprรฉsente un objet identifiรฉ par une clรฉ unique et dรฉcrit par un ensemble de valeurs d’attribut. Un modรจle de donnรฉes sรฉmantiques, tel qu’un modรจle de donnรฉes entitรฉ-relation (ER), est souvent construit pour des bases de donnรฉes relationnelles. Un modรจle de donnรฉes ER reprรฉsente la base de donnรฉes comme un ensemble d’entitรฉs et leurs relations. Les logiciels qui permettent de crรฉer, utiliser et maintenir des bases de donnรฉes relationnelles sont des Systรจmes de Gestion de Base de Donnรฉes Relationnelles ou SGBDR. [1]
Data Warehouse
Un Data Warehouse est un entrepรดt de donnรฉes collectรฉes ร partir de sources multiples, stockรฉes sous un schรฉma unifiรฉ et qui rรฉsident habituellement sur un site unique. Les entrepรดts de donnรฉes sont construits par un processus de nettoyage des donnรฉes, d’intรฉgration des donnรฉes, de transformation des donnรฉes, de chargement des donnรฉes et de rafraรฎchissement pรฉriodique des donnรฉes. Un exemple illustre ce concept sur la figure 1.03. La structure physique rรฉelle d’un Data Warehouse peut รชtre une mรฉmoire de donnรฉes relationnelle ou un cube de donnรฉes multidimensionnel. Un cube de donnรฉes fournit une vue multidimensionnelle des donnรฉes et permet l’accรจs rapide aux donnรฉes dรฉjร rรฉsumรฉes. [1]
Base de donnรฉes objet-relationnelles
Les bases de donnรฉes objet-relationnelles sont construites sur la base d’un modรจle objet-relationnel. Ce modรจle รฉtend le modรจle relationnel en fournissant un type de donnรฉes riche pour gรฉrer des objets complexes et l’orientรฉ objet. Conceptuellement, le modรจle objet-relationnel hรฉrite des concepts essentiels des bases de donnรฉes orientรฉes objet, oรน, en termes gรฉnรฉraux, chaque entitรฉ est considรฉrรฉe comme un objet. Les donnรฉes et le code relatifs ร un objet sont encapsulรฉs dans une seule unitรฉ. Chaque objet est associรฉ ร ce qui suit :
โข un ensemble de variables qui dรฉcrivent les objets. ceux-ci correspondent aux attributs dans les modรจles relationnels y compris le modรจle ER ;
โข un ensemble de messages que l’objet peut utiliser pour communiquer avec d’autres objets ou avec le reste du systรจme de base de donnรฉes ;
โข un ensemble de mรฉthodes, oรน chaque mรฉthode dรฉtient le code pour implรฉmenter un message. Lors de la rรฉception d’un message, la mรฉthode renvoie une valeur en rรฉponse. Pour le DM dans des systรจmes objet-relationnels, des techniques doivent รชtre dรฉveloppรฉes pour gรฉrer des structures d’objets complexes, des types de donnรฉes complexes, des hiรฉrarchies de classes et de sous-classes, l’hรฉritage de propriรฉtรฉs, de mรฉthodes et de procรฉdures. [1]
Bases de donnรฉes spatiales et spatio-temporelles
Base de donnรฉes spatialeย
Une base de donnรฉes spatiale est une base de donnรฉes optimisรฉe pour stocker et requรชter des donnรฉes reliรฉes ร des objets rรฉfรฉrencรฉs gรฉographiquement y compris des points, des lignes et des polygones. Il existe une multitude dโexemples comprenant : des bases de donnรฉes gรฉographiques (carte), des bases de donnรฉes dont la conception est assistรฉe par ordinateur, ainsi que des bases de donnรฉes dโimagerie mรฉdicales et d’images satellitaires. Les donnรฉes spatiales peuvent รชtre reprรฉsentรฉes en format raster, consistant en des cartes binaires (bit maps) ou des cartes de pixels (pixel maps) ร n dimensions. Par exemple, une image satellite 2D peut รชtre reprรฉsentรฉe sous forme de donnรฉes raster, chaque pixel enregistrant les prรฉcipitations dans une zone donnรฉe. Les relations entre un ensemble d’objets spatiaux peuvent รชtre examinรฉes par le DM afin de dรฉcouvrir quels sous-ensembles d’objets sont spatialement auto-corrรฉlรฉs ou associรฉs. De plus, la classification spatiale peut รชtre effectuรฉe pour construire des modรจles de prรฉdiction basรฉs sur l’ensemble pertinent de caractรฉristiques des objets spatiaux. [1]
Base de donnรฉes spatio-temporelle
Une base de donnรฉes spatiale stockant des objets spatiaux qui changent avec le temps est appelรฉe une base de donnรฉes spatiotemporelle, ร partir de laquelle des informations intรฉressantes peuvent รชtre extraites. Par exemple, nous pourrions รชtre en mesure de distinguer une attaque bioterroriste basรฉe sur la propagation gรฉographique d’une maladie avec le temps. [1]
Bases de donnรฉes temporelle, sรฉquentielle et sรฉrie-chronologique
โข Une base de donnรฉes temporelle stocke gรฉnรฉralement des donnรฉes relationnelles qui incluent des attributs temporels. Ces attributs peuvent impliquer plusieurs horodatages (associations dโune heure et dโune date ร un รฉvรฉnement), chacun ayant une sรฉmantique diffรฉrente.
โข Une base de donnรฉes sรฉquentielle stocke des sรฉquences d’รฉvรฉnements ordonnรฉs, avec ou sans notion concrรจte de temps. Voici quelques exemples : les sรฉquences d’achats des clients, les flux de clics Web et les sรฉquences biologiques.
โข Une base de donnรฉes de sรฉrie-chronologique stocke des sรฉquences de valeurs ou d’รฉvรฉnements obtenus sur des mesures rรฉpรฉtรฉes de temps (horaire, quotidien, hebdomadaire). Lโexemple concret que lโon peut citer est l’observation de phรฉnomรจnes naturels comme la tempรฉrature et le vent. Les techniques de DM peuvent รชtre utilisรฉes pour trouver les caractรฉristiques de l’รฉvolution des objets, ou la tendance ร changer des objets dans la base de donnรฉes. Ces informations peuvent รชtre utiles dans la prise de dรฉcision et la planification de stratรฉgie. [1]
|
Table des matiรจres
INTRODUCTION GENERALE
CHAPITRE 1: ETAT DE LโART DU DATA MINING
1.1 Introduction
1.2 Origines du Data Mining
1.3 Dรฉfinitions
1.4 Terminologies sur le Data Mining
1.5 Type de donnรฉes ร explorer
1.5.1 Base de donnรฉes relationnelle
1.5.2 Data Warehouse
1.5.3 Base de donnรฉes objet-relationnelles
1.5.4 Bases de donnรฉes spatiales et spatio-temporelles
1.5.4.1 Base de donnรฉes spatiale
1.5.4.2 Base de donnรฉes spatio-temporelle
1.5.5 Bases de donnรฉes temporelle, sรฉquentielle et sรฉrie-chronologique
1.5.6 Bases de donnรฉes textuelles et multimรฉdias
1.5.6.1 Base de donnรฉes textuelles
1.5.6.2 Base de donnรฉes multimรฉdias
1.5.7 Le World Wide Web
1.6 Applications du Data Mining
1.7 Techniques de Data Mining
1.7.1 Analyse prรฉdictive
1.7.2 Analyse descriptive
1.8 Elaboration dโun projet de Data Mining
1.8.1 Comprรฉhension du concept
1.8.1.1 Evaluer la situation
1.8.1.2 Dรฉterminer les objectifs ร atteindre
1.8.2 Comprรฉhension des donnรฉes de dรฉpart
1.8.3 Prรฉparation des donnรฉes
1.8.4 Construction du modรจle ou modรฉlisation
1.8.5 Evaluation du modรจle
1.8.6 Dรฉploiement
1.9 Conclusion
CHAPITRE 2: APPRENTISSAGE AUTOMATIQUE
2.1 Introduction
2.2 Dรฉfinitions
2.3 Apprentissage supervisรฉ
2.3.1 Principe
2.3.2 Classification
2.3.2.1 Formulation du problรจme de classification
2.3.2.2 Minimisation du Risque Empirique
2.3.2.3 Sur-apprentissage et risque total
2.3.2.4 Thรฉorie de Vapnik
2.3.3 Rรฉgression
2.3.4 Quelques algorithmes dโapprentissage supervisรฉ
2.3.5 Sรฉparateur ร Vaste Marge (SVM)
2.3.5.1 SVM ร classe binaire
2.3.5.2 SVM multiclasse
2.4 Apprentissage non supervisรฉ
2.4.1 Notions sur le clustering
2.4.1.1 Partitions, pseudo-partitions et partitions floues
2.4.1.2 Hiรฉrarchies et pseudo-hiรฉrarchies
2.4.1.3 Centroรฏdes et mรฉdoรฏdes
2.4.1.4 Concavitรฉ et convexitรฉ
2.4.2 Etapes du clustering
2.4.2.1 Prรฉparation des donnรฉes
2.4.2.2 Le choix de lโalgorithme
2.4.2.3 Lโexploitation des clusters
2.4.3 Diffรฉrentes mรฉthodes de clustering
2.4.3.1 Le clustering hiรฉrarchique
2.4.3.2 Le clustering par partitionnement
2.4.4 Lโalgorithme des K-means
2.5 Conclusion
CHAPITRE 3: MODELISATION DโUN SYSTEME DE CLASSIFICATION DโIMAGES
3.1 Introduction
3.2 Gรฉnรฉralitรฉs sur la classification dโimages
3.3 Etapes de crรฉation dโun systรจme de classification dโimage
3.4 Acquisition dโimage
3.5 Prรฉtraitement
3.6 Segmentation
3.6.1 Approches contours
3.6.2 Approche rรฉgion
3.6.2.1 Le seuillage
3.6.2.2 Le region-growing
3.6.2.3 Le split and merge
3.6.3 Segmentation par clustering
3.7 Extraction des caractรฉristiques
3.7.1 Extracteurs de bas niveau
3.7.1.1 Les statistiques dโhistogramme
3.7.1.2 Les statistiques des matrices de cooccurrence
3.7.2 Extracteurs de plus haut-niveau
CONCLUSION
Tรฉlรฉcharger le rapport complet