Systèmes OLTP versus systèmes OLAP
Les différents types de données
Les données manipulées par les algorithmes de Data Mining ne sont que les valeurs des champs des enregistrements des tables de la base de données, ou de l’entrepôt de données.
Ces données possèdent un type qu’il est important de préciser. En effet, la plupart des méthodes sont sensibles à la nature des données manipulées. Par exemple, certaines méthodes exigent la présence des données quantitatives alors que d’autres peuvent être sensibles à la présence des données qualitatives.
Données quantitatives
Une donnée quantitative prend ces valeurs dans l’ensemble des entiers ou réelles, elle dite alors discrète (par exemple, l’âge, le nombre d’enfants, etc.) ou continue (par exemple, le salaire, le prix unitaire, etc.).
Données qualitatives
Par définition, une donnée qualitative n’est pas numérique, mais prend ces valeurs dans un ensemble fini dont les éléments correspondent à des caractéristiques des objets, appelées modalités. Ces valeurs sont le plus souvent alphanumériques ; elles peuvent être numérisées par des codes distincts, mais non comme des quantités arithmétiques de plein statut. On distingue généralement deux classes de données qualitatives, selon que les modalités sont ordonnées (données qualitatives ordinale) ou pas ordonnées (données qualitatives nominale).
Le Processus de L’ECD
L’Extraction de Connaissances à partir de Données est un processus constitué de plusieurs étapes [Bra 1996] [Fay 1996c] [Fay 1996d] [Fay 1996e] elles sont répétées dans des itérations multiples (des feedbacks et des boucles récursives peuvent être observés durant le processus) et à chaque itération ou étape du ce processus une intégration des connaissances des expertes de domaine est nécessaire (le processus est en perpétuelle interaction avec les utilisateurs) pour découvrir de nouvelles connaissances cachées interprétables et utilisables. De ce fait, le processus de l’ECD est souvent qualifié d’itératif et d’interactif [Bra 1996]. Les étapes de ce processus consistent principalement en collection des données contenant dans les différentes sources opérationnelles de l’entreprise, la préparation des données nécessaires pour accomplir la ou les tâches de Data Mining souhaitées, l’application des méthodes de Data Mining nécessaires pour résoudre ces tâches et enfin l’évaluation et la validation des résultats obtenus.
Systèmes OLTP versus systèmes OLAP
La tâche principale des systèmes de bases de données opérationnelles, appelés aussi les systèmes OLTP (On-Line Transaction Processing), est d’exécuter les transactions en ligne et de traiter les requêtes. Ces systèmes couvrent la plupart des opérations quotidiennes d’une organisation, telles que l’achat, la fabrication, les opérations bancaires, etc. Les systèmes d’entrepôts de données, d’autre part, aident les décideurs dans leurs rôles de l’analyse de données et de la prise de décision. Tels systèmes peuvent organiser et présenter les données dans divers formats afin de satisfaire les besoins divers des différents utilisateurs. Ces systèmes sont connus en tant que les systèmes OLAP (On-Line Analytical Processing). Les applications OLTP automatisent les tâches de traitement de données telles que la saisie des commandes et les transactions. Ces tâches sont structurées et répétitives, et consistent des transactions courtes, atomiques et isolées. Les transactions exigent des données détaillées et mises à jour, et lisent ou mettent à jour quelques enregistrements (des dizaines) accédés sur leurs clés primaires. Les bases de données opérationnelles adoptent un modèle de données Entité/Relation et une conception de la base orientée application, ainsi que leurs capacité de stockage varie entre des centaines de méga-octets aux giga-octets. La consistance et la récupération de la base données sont critiques, et maximiser le débit des transactions est la métrique clé de performance.
Les approches d’intégration de données
Un entrepôt de données constitue avant tout une alternative pour l’intégration de diverses sources de données. Un système d’intégration a pour objectif d’assurer à un utilisateur un accès à des sources multiples, réparties et hétérogènes, à travers une interface unique. En effet, l’avantage d’un tel système est que l’utilisateur se préoccupe davantage de ce qu’il veut obtenir plutôt que comment l’obtenir, l’objectif étant l’obtention d’informations. Ainsi, cela le dispense des tâches telles que chercher et trouver les sources de données adéquates, interroger chacune des sources de données en utilisant sa propre interface et combiner les différents résultats obtenus pour finalement disposer des informations recherchées. Différentes solutions ont été proposées face au problème de l’hétérogénéité des sources réparties de données. En effet, pour faire des recherches sur l’ensemble de ces sources, une intégration de celles-ci est nécessaire. Deux approches sont alors envisageables : migrer les requêtes vers les sources de données ou migrer les données pour les centraliser dans une source cible. Ceci consiste à suivre respectivement une approche « non matérialisée », appelée aussi approche de médiation ou une approche « matérialisée », appelée aussi approche d’entreposage.
Les stratégies de conception et de construction des entrepôts de données
La construction et la mise en œuvre d’un entrepôt de données représentent une tâche complexe qui se compose de plusieurs étapes. La première consiste à l’analyse des sources de données et à l’identification des besoins des utilisateurs (l’étude préalable [Kim 2000]). La deuxième correspond à l’organisation des données à l’intérieur de l’entrepôt de données (l’étude de modèle de données de l’entrepôt). La troisième consiste à déterminer quelles données seront chargées, quelles transformations et vérifications seront nécessaires, la périodicité et le moment auxquels les transferts auront lieu (l’étude de l’alimentation).
Finalement, la quatrième consiste à établir divers outils d’interrogation de l’entrepôt, tels que les outils de Data Mining, les outils d’analyse OLAP, etc. (l’utilisation et l’exploitation de
l’entrepôt).
D’après [Han 2000], la conception des entrepôts de données doit être considérée selon ces quatre vues suivantes :
Vue Top-Down : Elle permet de sélectionner les informations pertinentes pour les stockées dans l’entrepôt de données. Ces informations s’accordent aux besoins actuels et futurs de l’entreprise.
Vue source de données : Elle expose les informations capturées, stockées et gérées par les systèmes opérationnels. Ces informations peuvent être documentées aux différents niveaux de détail et d’exactitude, à partir des tables des sources de données aux tables des sources de données intégrées. En effet, les sources de données sont souvent modélisées par un modèle relationnel classique (Entité/Relation).
Vue entrepôt de données : Elle inclut les tables de faits et les tables de dimensions. Elle représente les informations stockées dans l’entrepôt de données. Cette vue inclut également les pré-calculs des totaux et des comptes, ainsi que les informations concernant les sources, les dates et les temps d’origine ajoutées pour fournir le contexte historique pour l’entrepôt de données.
Vue orientée requêtes : C’est la perspective des données de l’entrepôt à partir d’un point de vue de l’utilisateur final. En effet, dans cette vue l’entrepôt est conçus à partir des besoins et des vues des utilisateurs finaux.
|
Table des matières
Introduction Générale
Contexte et problématiques
Contributions
Organisation du mémoire
1 Introduction à l’Extraction de Connaissances à partir de Données
1. 1 Introduction
1. 2 Définitions
1. 3 Les facteurs d’émergence de l’ECD
1. 4 Les différents types de données
1. 5 Le Processus de L’ECD
1. 5. 1 La collection de données
1. 5. 1. 1 Nettoyage de données
1. 5. 1. 2 Intégration de données
1. 5. 2 La préparation de données
1. 5. 2. 1 Sélection de données
1. 5. 2. 2 Transformation de données
1. 5. 3 Le Data Mining
1. 5. 4 L’évaluation et validation
1. 6 La topologie des tâches de Data Mining
1. 6. 1 Selon l’objectif
1. 6. 1. 1 Classification
1. 6. 1. 2 Estimation
1. 6. 1. 3 Prédiction
1. 6. 1. 4 Segmentation
1. 6. 1. 5 Règles d’association
1. 6. 2 Selon le type d’apprentissage
1. 6. 2. 1 Apprentissage supervisé
1. 6. 2. 2 Apprentissage non supervisé
1. 6. 3 Le type de techniques de Data Mining
1. 6. 3. 1 Techniques descriptives
1. 6. 3. 2 Techniques prédictives
1. 7 Supports de stockage pour le Data Mining
1. 7. 1 Fichiers plats
1. 7. 2 Bases de données transactionnelles
1. 7. 3 Bases de données relationnelles
1. 7. 4 Entrepôts de données
1. 8 Conclusion
2 État de l’art sur les Entrepôts de Données
2. 1 Introduction
2. 2 Systèmes OLTP versus systèmes OLAP
2. 3 Les approches d’intégration de données
2. 3. 1 Approche de médiation
2. 3. 2 Approche d’entreposage
2. 4 Définition
2. 5 L’architecture d’un entrepôt de données
2. 5. 1 Les sources de données
2. 5. 2 La zone de préparation de données
2. 5. 3 L’entrepôt de données
2. 5. 4 Les serveurs de présentation de données
2. 5. 5 Les outils d’exploration et d’analyse de données
2. 6 Les stratégies de conception et de construction des entrepôts de données
2. 7 La modélisation des entrepôts de données
2. 7. 1 Concepts de base de la modélisation multidimensionnelle
2. 7. 2 Cube de données
2. 7. 3 Implémentation de modèle multidimensionnel
2. 7. 3. 1 Schéma relationnel
2. 7. 3. 2 Schéma multidimensionnel
2. 8 La manipulation des données de l’entrepôt de données
2. 8. 1 Opérations agissant sur la structure
2. 8. 2 Opérations agissant sur la granularité
2. 9 Le processus d’alimentation de l’entrepôt de données
2. 9. 1 Extraction
2. 9. 2 Fusion
2. 9. 3 Nettoyage et transformation
2. 9. 4 Filtrage et chargement
2. 9. 5 Post-traitement
2. 10 Conclusion
3 Techniques d’Extraction de Connaissances à partir de Données
3. 1 Introduction
3. 2 Classification
3. 2. 1 Définition formelle
3. 2. 2 Quelques méthodes de classification
3. 2. 2. 1 k-Plus Proches Voisins
3. 2. 2. 2 Arbres de décision
3. 2. 2. 3 Réseaux bayésiens
3. 2. 2. 4 Réseaux de neurones artificiels
3. 3 Clustering
3. 3. 1 Définition formelle
3. 3. 2 Classification des algorithmes de Clustering
3. 3. 2. 1 Méthodes par partitionnement
3. 3. 2. 2 Méthodes hiérarchiques
3. 3. 2. 3 Méthodes par densité
3. 3. 3 Similarité, Dissimilarité et Distance
3. 3. 4 Exemples d’algorithmes de Clustering
3. 3. 4. 1 k-means
3. 3. 4. 2 Classification Hiérarchique Ascendante
3. 3. 4. 3 Cartes topologiques de Kohonen
3. 4 Règles d’association
3. 4. 1 Définition formelle
3. 4. 2 Algorithme Apriori
3. 5 Conclusion
4 Problèmes d’Extraction Parallèle et Distribuée de Connaissances
4. 1 Introduction
4. 2 Définitions
4. 3 Les facteurs d’émergence de Data Mining Parallèle et Distribué
4. 4 Problèmes d’extraction parallèle et distribuée de connaissances
4. 4. 1 Problème de l’hétérogénéité de données
4. 4. 1. 1 Données homogènes
4. 4. 1. 2 Données hétérogènes
4. 4. 2 Problème de fragmentation de données
4. 4. 2. 1 Fragmentation horizontale
4. 4. 2. 2 Fragmentation verticale
4. 4. 3 Problème de réplication de données
4. 4. 4 Coût de communication
4. 4. 5 Problème d’intégration des résultats
4. 5 Parallélisation et distribution de Data Mining
4. 5. 1 Les architectures parallèles
4. 5. 1. 1 Architectures à mémoire partagée
4. 5. 1. 2 Architectures à mémoire distribuée
4. 5. 1. 3 Architectures hybrides
4. 5. 2 Le type de parallélisme
4. 5. 2. 1 Parallélisme de données
4. 5. 2. 2 Parallélisme de tâches
4. 5. 3 Les stratégies de distribution de données
4. 5. 3. 1 Stratégie de distribution Round Robin
4. 5. 3. 2 Stratégie de distribution en blocs
4. 5. 3. 3 Stratégie de distribution aléatoire
4. 5. 4 Les stratégies d’équilibrage de charge
4. 5. 4. 1 Équilibrage de charge statique
4. 5. 4. 2 Équilibrage de charge dynamique
4. 6 Conclusion
5 Techniques Parallèles et Distribuées d’Extraction de Connaissances
5. 1 Introduction
5. 2 Classification parallèle et distribuée
5. 2. 1 Parallélisation et distribution de la méthode k-Plus Proches Voisins
5. 2. 2 Parallélisation et distribution des arbres de décision
5. 2. 2. 1 Approche synchrone de construction de l’arbre
5. 2. 2. 2 Approche partitionnée de construction de l’arbre
5. 2. 2. 3 Approche hybride
5. 2. 3 Parallélisation et distribution des réseaux bayésiens
5. 2. 4 Parallélisation et distribution des réseaux de neurones artificiels
5. 2. 4. 1 Parallélisme entre exemples d’apprentissage
5. 2. 4. 2 Parallélisme de blocs
5. 2. 4. 3 Parallélisme de neurones
5. 3 Clustering parallèles et distribués
5. 3. 1 Parallélisation et distribution de la méthode k-means
5. 3. 2 Parallélisation et distribution de Classification Hiérarchique Ascendante
5. 4 Règles d’association parallèle et distribuées
5. 4. 1 Parallélisation et distribution des règles d’association
5. 4. 1. 1 Approche réplication des itemsets candidats
5. 4. 1. 2 Approche partitionnement des itemsets candidats
5. 4. 1. 3 Approche hybride
5. 4. 2 Exemples d’algorithmes parallèles et distribués de recherche de règles d’association
5. 4. 2. 1 Count distribution
5. 4. 2. 2 Data Distribution
5. 4. 2. 3 Intelligent Data Distribution
5. 4. 2. 4 Candidate Distribution
5. 4. 2. 5 Hybrid Distribution
5. 5 Conclusion
6 Nouvelle Approche Parallèle et Distribuée d’Extraction de Connaissances
6. 1 Introduction
6. 2 Notations et formulation du problème
6. 3 Architecture et configuration du réseau
6. 4 Distribution de données
6. 5 Approche partitionnement et incrémentale d’extraction de règles d’association
6. 5. 1 Approche partitionnement
6. 5. 2 Approche incrémentale
6. 6 Algorithme proposé pour la génération d’itemsets fréquents
6. 7 Algorithme proposé pour la mise à jour des itemsets fréquents
6. 8 Approche parallèle et distribué d’extraction de règles d’association
6. 8. 1 Génération des itemsets localement fréquents
6. 8. 2 Génération des itemsets globalement fréquents
6. 8. 3 Génération des règles d’association
6. 8. 4 En cas de mise à jour de l’entrepôt de données
6. 8. 4. 1 Mise à jour des itemsets localement fréquents
6. 8. 4. 2 Mise à jour des itemsets globalement fréquents
6. 9 Conclusion
Conclusion et perspectives
Télécharger le rapport complet