Origines du Data Mining

Origines du Data Mining

Le DM peut รชtre vu comme la consรฉquence de lโ€™รฉvolution des systรจmes de traitement de lโ€™information et plus particuliรจrement des Systรจmes de Bases de Donnรฉes. L’industrie des Systรจmes de Bases de Donnรฉes a connu une รฉvolution dans le dรฉveloppement des fonctionnalitรฉs suivantes (voir figure 1.01) : la collecte de donnรฉes et la crรฉation de bases de donnรฉes, la gestion des donnรฉes et l’analyse avancรฉe des donnรฉes. Depuis les annรฉes 1960, les bases de donnรฉes et les technologies de l’information se sont systรฉmatiquement transformรฉes en partant des systรจmes de traitement de fichiers primitifs vers des Systรจmes de Bases de Donnรฉes sophistiquรฉs et puissants. Les progrรจs constants et รฉtonnants de la technologie informatique a conduit ร  de grandes quantitรฉs d’ordinateurs puissants et abordables, de matรฉriel de collecte de donnรฉes et de supports de stockage. Les donnรฉes peuvent รชtre stockรฉes dans diffรฉrents types de bases de donnรฉes et de dรฉpรดt d’informations. Une architecture de dรฉpรดt de donnรฉes sโ€™est alors manifestรฉe : le Data Warehouse. Cโ€™est un entrepรดt de donnรฉes hรฉtรฉrogรจnes organisรฉes sous un schรฉma unifiรฉ sur un seul site afin de faciliter la prise de dรฉcision. La quantitรฉ croissante et rapide de donnรฉes, collectรฉes et stockรฉes dans de grands et nombreux Data Warehouses, a largement dรฉpassรฉ notre capacitรฉ humaine de comprรฉhension sans outils puissants. L’abondance des donnรฉes, associรฉe ร  la nรฉcessitรฉ d’outils puissants d’analyse des donnรฉes, a รฉtรฉ dรฉcrite comme une situation riche en donnรฉes mais pauvre en informations.

En consรฉquence, les donnรฉes recueillies dans les grands dรฉpรดts de donnรฉes deviennent des ยซ tombes de donnรฉes ยป, des archives qui sont rarement visitรฉes. Les dรฉcisions importantes sont souvent prises sur l’intuition d’un dรฉcideur, simplement parce que le dรฉcideur n’a pas les outils pour extraire les connaissances prรฉcieuses intรฉgrรฉes dans les vastes quantitรฉs de donnรฉes. L’รฉcart grandissant entre les donnรฉes et les informations requiert un dรฉveloppement systรฉmatique d’outils de DM qui transformeront les tombeaux de donnรฉes en ยซ pรฉpites dโ€™or ยป du savoir. Le domaine du Data Mining a ainsi รฉmergรฉ dans les annรฉes 1990 ร  lโ€™issu du premier workshop KDD (Knowledge Discovery in Databases) en 1989. [1][2]

Dรฉfinitions

Le Data Mining, souvent traduit en franรงais par ยซ fouille de donnรฉes ยป, est une technique permettant lโ€™extraction dโ€™information dโ€™intรฉrรชt (non triviale, implicite, inconnue ร  priori et potentiellement utile) ร  partir de donnรฉes stockรฉes dans de larges entrepรดts de donnรฉes, en utilisant des procรฉdures automatiques ou semi automatiques pour une prise de dรฉcision. Comme ce processus peut รชtre trรจs difficile, il est souvent comparรฉ au minage de lโ€™or dans les riviรจres : le gravier des alluvions reprรฉsente lโ€™รฉnorme quantitรฉ de donnรฉes et les pรฉpites dโ€™or reprรฉsentent les connaissances cachรฉes que lโ€™on veut trouver. Le DM est un domaine qui se situe ร  lโ€™intersection des statistiques, de lโ€™apprentissage automatique et des bases de donnรฉes .

Terminologies sur le Data Miningย 

Pour une bonne comprรฉhension sur ce qui suit, il est nรฉcessaire de dรฉfinir les termes suivants :
โ€ข Concept
Un concept dรฉsigne un problรจme ร  rรฉsoudre, un phรฉnomรจne ร  prรฉdire ou un objectif ร  atteindre ร  partir des donnรฉes et des techniques de DM.
โ€ข Dataset
Un dataset fait rรฉfรฉrence aux donnรฉes utilisรฉes pour le DM reprรฉsentรฉes sous forme de table. Un exemple est mis en รฉvidence dans le tableau 1.01. Chaque ligne du dataset correspond ร  un รฉvรฉnement tandis quโ€™une colonne dรฉsigne un attribut. Un รฉvรฉnement est donc un vecteur composรฉ de diffรฉrents attributs. Ainsi, un dataset est une matrice dont les lignes sont les รฉvรฉnements et les colonnes les attributs. Les attributs peuvent รชtre sous forme nominale ou numรฉrique.
โ€ข Classe
La classe dรฉsigne un attribut de la dataset dont la valeur est calculรฉe ou conditionnรฉe par la valeur des autres attributs. Elle reprรฉsente lโ€™attribut ร  prรฉdire. Chaque รฉvรฉnement peut avoir une classe qui lui est associรฉe.

Type de donnรฉes ร  explorer

La nature des donnรฉes pouvant รชtre utilisรฉes pour le DM est variรฉe. Cette section dresse une liste de ces types de donnรฉes ร  explorer avec leur description.

Base de donnรฉes relationnelle
Une base de donnรฉes relationnelle est une base de donnรฉes oรน l’information est organisรฉe dans des tableaux ร  deux dimensions appelรฉs relations ou tables. Selon ce modรจle relationnel, une base de donnรฉes consiste en une ou plusieurs relations. Les lignes de ces relations sont appelรฉes des enregistrements tandis que lesย  ย sont appelรฉes attributs. Chaque enregistrement dans une table reprรฉsente un objet identifiรฉ par une clรฉ unique et dรฉcrit par un ensemble de valeurs d’attribut. Un modรจle de donnรฉes sรฉmantiques, tel qu’un modรจle de donnรฉes entitรฉ-relation (ER), est souvent construit pour des bases de donnรฉes relationnelles. Un modรจle de donnรฉes ER reprรฉsente la base de donnรฉes comme un ensemble d’entitรฉs et leurs relations. Les logiciels qui permettent de crรฉer, utiliser et maintenir des bases de donnรฉes relationnelles sont des Systรจmes de Gestion de Base de Donnรฉes Relationnelles ou SGBDR. [1]

Data Warehouse
Un Data Warehouse est un entrepรดt de donnรฉes collectรฉes ร  partir de sources multiples, stockรฉes sous un schรฉma unifiรฉ et qui rรฉsident habituellement sur un site unique. Les entrepรดts de donnรฉes sont construits par un processus de nettoyage des donnรฉes, d’intรฉgration des donnรฉes, de transformation des donnรฉes, de chargement des donnรฉes et de rafraรฎchissement pรฉriodique des donnรฉes. Un exemple illustre ce concept sur la figure 1.03. La structure physique rรฉelle d’un Data Warehouse peut รชtre une mรฉmoire de donnรฉes relationnelle ou un cube de donnรฉes multidimensionnel. Un cube de donnรฉes fournit une vue multidimensionnelle des donnรฉes et permet l’accรจs rapide aux donnรฉes dรฉjร  rรฉsumรฉes. [1]

Base de donnรฉes objet-relationnelles
Les bases de donnรฉes objet-relationnelles sont construites sur la base d’un modรจle objet-relationnel. Ce modรจle รฉtend le modรจle relationnel en fournissant un type de donnรฉes riche pour gรฉrer des objets complexes et l’orientรฉ objet. Conceptuellement, le modรจle objet-relationnel hรฉrite des concepts essentiels des bases de donnรฉes orientรฉes objet, oรน, en termes gรฉnรฉraux, chaque entitรฉ est considรฉrรฉe comme un objet. Les donnรฉes et le code relatifs ร  un objet sont encapsulรฉs dans une seule unitรฉ. Chaque objet est associรฉ ร  ce qui suit :

โ€ข un ensemble de variables qui dรฉcrivent les objets. ceux-ci correspondent aux attributs dans les modรจles relationnels y compris le modรจle ER ;
โ€ข un ensemble de messages que l’objet peut utiliser pour communiquer avec d’autres objets ou avec le reste du systรจme de base de donnรฉes ;
โ€ข un ensemble de mรฉthodes, oรน chaque mรฉthode dรฉtient le code pour implรฉmenter un message. Lors de la rรฉception d’un message, la mรฉthode renvoie une valeur en rรฉponse. Pour le DM dans des systรจmes objet-relationnels, des techniques doivent รชtre dรฉveloppรฉes pour gรฉrer des structures d’objets complexes, des types de donnรฉes complexes, des hiรฉrarchies de classes et de sous-classes, l’hรฉritage de propriรฉtรฉs, de mรฉthodes et de procรฉdures. [1]

Bases de donnรฉes spatiales et spatio-temporelles

Base de donnรฉes spatialeย 

Une base de donnรฉes spatiale est une base de donnรฉes optimisรฉe pour stocker et requรชter des donnรฉes reliรฉes ร  des objets rรฉfรฉrencรฉs gรฉographiquement y compris des points, des lignes et des polygones. Il existe une multitude dโ€™exemples comprenant : des bases de donnรฉes gรฉographiques (carte), des bases de donnรฉes dont la conception est assistรฉe par ordinateur, ainsi que des bases de donnรฉes dโ€™imagerie mรฉdicales et d’images satellitaires. Les donnรฉes spatiales peuvent รชtre reprรฉsentรฉes en format raster, consistant en des cartes binaires (bit maps) ou des cartes de pixels (pixel maps) ร  n dimensions. Par exemple, une image satellite 2D peut รชtre reprรฉsentรฉe sous forme de donnรฉes raster, chaque pixel enregistrant les prรฉcipitations dans une zone donnรฉe. Les relations entre un ensemble d’objets spatiaux peuvent รชtre examinรฉes par le DM afin de dรฉcouvrir quels sous-ensembles d’objets sont spatialement auto-corrรฉlรฉs ou associรฉs. De plus, la classification spatiale peut รชtre effectuรฉe pour construire des modรจles de prรฉdiction basรฉs sur l’ensemble pertinent de caractรฉristiques des objets spatiaux. [1]

Base de donnรฉes spatio-temporelle
Une base de donnรฉes spatiale stockant des objets spatiaux qui changent avec le temps est appelรฉe une base de donnรฉes spatiotemporelle, ร  partir de laquelle des informations intรฉressantes peuvent รชtre extraites. Par exemple, nous pourrions รชtre en mesure de distinguer une attaque bioterroriste basรฉe sur la propagation gรฉographique d’une maladie avec le temps. [1]

Bases de donnรฉes temporelle, sรฉquentielle et sรฉrie-chronologique

โ€ข Une base de donnรฉes temporelle stocke gรฉnรฉralement des donnรฉes relationnelles qui incluent des attributs temporels. Ces attributs peuvent impliquer plusieurs horodatages (associations dโ€™une heure et dโ€™une date ร  un รฉvรฉnement), chacun ayant une sรฉmantique diffรฉrente.
โ€ข Une base de donnรฉes sรฉquentielle stocke des sรฉquences d’รฉvรฉnements ordonnรฉs, avec ou sans notion concrรจte de temps. Voici quelques exemples : les sรฉquences d’achats des clients, les flux de clics Web et les sรฉquences biologiques.
โ€ข Une base de donnรฉes de sรฉrie-chronologique stocke des sรฉquences de valeurs ou d’รฉvรฉnements obtenus sur des mesures rรฉpรฉtรฉes de temps (horaire, quotidien, hebdomadaire). Lโ€™exemple concret que lโ€™on peut citer est l’observation de phรฉnomรจnes naturels comme la tempรฉrature et le vent. Les techniques de DM peuvent รชtre utilisรฉes pour trouver les caractรฉristiques de l’รฉvolution des objets, ou la tendance ร  changer des objets dans la base de donnรฉes. Ces informations peuvent รชtre utiles dans la prise de dรฉcision et la planification de stratรฉgie. [1]

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

INTRODUCTION GENERALE
CHAPITRE 1: ETAT DE Lโ€™ART DU DATA MINING
1.1 Introduction
1.2 Origines du Data Mining
1.3 Dรฉfinitions
1.4 Terminologies sur le Data Mining
1.5 Type de donnรฉes ร  explorer
1.5.1 Base de donnรฉes relationnelle
1.5.2 Data Warehouse
1.5.3 Base de donnรฉes objet-relationnelles
1.5.4 Bases de donnรฉes spatiales et spatio-temporelles
1.5.4.1 Base de donnรฉes spatiale
1.5.4.2 Base de donnรฉes spatio-temporelle
1.5.5 Bases de donnรฉes temporelle, sรฉquentielle et sรฉrie-chronologique
1.5.6 Bases de donnรฉes textuelles et multimรฉdias
1.5.6.1 Base de donnรฉes textuelles
1.5.6.2 Base de donnรฉes multimรฉdias
1.5.7 Le World Wide Web
1.6 Applications du Data Mining
1.7 Techniques de Data Mining
1.7.1 Analyse prรฉdictive
1.7.2 Analyse descriptive
1.8 Elaboration dโ€™un projet de Data Mining
1.8.1 Comprรฉhension du concept
1.8.1.1 Evaluer la situation
1.8.1.2 Dรฉterminer les objectifs ร  atteindre
1.8.2 Comprรฉhension des donnรฉes de dรฉpart
1.8.3 Prรฉparation des donnรฉes
1.8.4 Construction du modรจle ou modรฉlisation
1.8.5 Evaluation du modรจle
1.8.6 Dรฉploiement
1.9 Conclusion
CHAPITRE 2: APPRENTISSAGE AUTOMATIQUE
2.1 Introduction
2.2 Dรฉfinitions
2.3 Apprentissage supervisรฉ
2.3.1 Principe
2.3.2 Classification
2.3.2.1 Formulation du problรจme de classification
2.3.2.2 Minimisation du Risque Empirique
2.3.2.3 Sur-apprentissage et risque total
2.3.2.4 Thรฉorie de Vapnik
2.3.3 Rรฉgression
2.3.4 Quelques algorithmes dโ€™apprentissage supervisรฉ
2.3.5 Sรฉparateur ร  Vaste Marge (SVM)
2.3.5.1 SVM ร  classe binaire
2.3.5.2 SVM multiclasse
2.4 Apprentissage non supervisรฉ
2.4.1 Notions sur le clustering
2.4.1.1 Partitions, pseudo-partitions et partitions floues
2.4.1.2 Hiรฉrarchies et pseudo-hiรฉrarchies
2.4.1.3 Centroรฏdes et mรฉdoรฏdes
2.4.1.4 Concavitรฉ et convexitรฉ
2.4.2 Etapes du clustering
2.4.2.1 Prรฉparation des donnรฉes
2.4.2.2 Le choix de lโ€™algorithme
2.4.2.3 Lโ€™exploitation des clusters
2.4.3 Diffรฉrentes mรฉthodes de clustering
2.4.3.1 Le clustering hiรฉrarchique
2.4.3.2 Le clustering par partitionnement
2.4.4 Lโ€™algorithme des K-means
2.5 Conclusion
CHAPITRE 3: MODELISATION Dโ€™UN SYSTEME DE CLASSIFICATION Dโ€™IMAGES
3.1 Introduction
3.2 Gรฉnรฉralitรฉs sur la classification dโ€™images
3.3 Etapes de crรฉation dโ€™un systรจme de classification dโ€™image
3.4 Acquisition dโ€™image
3.5 Prรฉtraitement
3.6 Segmentation
3.6.1 Approches contours
3.6.2 Approche rรฉgion
3.6.2.1 Le seuillage
3.6.2.2 Le region-growing
3.6.2.3 Le split and merge
3.6.3 Segmentation par clustering
3.7 Extraction des caractรฉristiques
3.7.1 Extracteurs de bas niveau
3.7.1.1 Les statistiques dโ€™histogramme
3.7.1.2 Les statistiques des matrices de cooccurrence
3.7.2 Extracteurs de plus haut-niveau
CONCLUSION

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *