Le Datawarehouse
Introduction Toutes les entreprises dans le monde d’aujourd’hui vivent dans la concurrence; de ce fait, elles sont à la recherche d’un moyen efficace et rapide pour pouvoir analyser leur situation afin de prendre une décision pour satisfaire ses clients dans leur besoin et de faire le maximum de profit. Elles sont confrontées à divers problèmes, à savoir la diminution des ventes, la fluctuation des produits. De ce fait, il est devenu pour l’entreprise un problème majeur de trouver des solutions efficaces afin de rester dans le monde du marché et de la concurrence. Grâce à l’évolution technologique, les données d’une entreprise sont devenues décentralisées. Devant une telle situation, il devient difficile de se procurer des informations pertinentes aptes à fournir des décisions. De plus, la collecte des informations sera difficile eu égard aux volumes des données. De ce fait, une grande partie de temps sera consacrée à la transformation des données en une information alors que la prise de décision d’une entreprise doit être rapide et efficace pour rester en compétition dans le monde du marché. D’où la naissance du Datawarehouse. Ce terme définit comme étant un rassemblement de toutes les données d’une entreprise dans toutes ses activités, que ce soit dans le domaine de la vente, l’achat ou autres. Au sein d’une entreprise, une fois que l’activité financière est effectuée, les données seront stockées directement dans le Datawarehouse pour analyse afin de prédire l’évolution de ses activités. Centrale de données d’une entreprise, Datawarehouse apportera alors beaucoup de solutions, bénéfique sur le côté financier car nous savons très bien que la finalité d’une entreprise est de faire le maximum de profit.
Définitions Le Datawarehouse ou entrepôt de données est un regroupement de plusieurs données d’une entreprise. Ainsi, il centralise plusieurs données en vue de les transformer et obtenir des informations pertinentes permettant une prise de décision dans le cadre du pilotage de l’entreprise [3]. En 1994, Bill Inmon [3] définit qu’ «Un Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historiées, organisées pour le support d’un processus d’aide à la décision.»
• Orientées sujet : Les données sont regroupées par thème selon l’organisation de l’entreprise étant donné que l’objectif du Datawarehouse est la prise de décision de l’entreprise sur un sujet donné. Par exemple la vente, les achats et les clients.
• Intégrées : Au sein d’un Datawarehouse, les données rassemblées sont hétérogènes. D’où la nécessité de faire un filtrage ou triage de la source de données pour les rendre homogènes et compréhensibles par tous les utilisateurs.
• Non volatiles : Une fois que les données sont introduites dans le Datawarehouse, elles ne peuvent pas être supprimées, ni modifiées. (Read Only).
• Historiées : Comme les données sont non volatiles et datées, elles sont archivées. De ce fait, on peut analyser l’évolution des données de l’entreprise suivant l’axe temps.
• Organisées : Les données sont prêtes à être exploitées par l’utilisateur.
Objectifs et mise en place Le Datawarehouse est un système conçu pour l’aide à la prise de décision. En effet, les informations venant de plusieurs sources de données sont regroupées, organisées, transformées, stockées pour donner à l’utilisateur une vue orientée au métier et une analyse facile et rapide. Le mode de travail du Datawarehouse est l’OLAP (On-Line Analytical Processing), contrairement aux bases de données relationnelles qui utilisent le mode de travail OLTP (On-Line Transaction Processing). Il semble donc primordial de placer les besoins des utilisateurs au centre de la problématique. La mise en place du Datawarehouse se divise en quatre étapes :
• Identifier les besoins auprès des utilisateurs : connaissance des besoins métier.
• Modéliser les données : établir une modélisation en étoile ou en flocon de neige des données.
• Choisir l’architecture technique : il s’agit de choisir entre les différents modèles d’architecture en fonction du nombre d’utilisateurs et du volume des données.
• Implanter et déployer : élaborer des schémas d’accès aux données.
Architecture du Datawarehouse
Sources de données Les bases de production représentent l’ensemble de plusieurs sources de données différentes d’une entreprise. Ce sont les sources de données qui peuvent être soit des bases de données relationnelles soit d’autres sources comme les fichiers plats.
Alimentation des données L’alimentation des données sont assurés par l’ETL (Extract Transform and Load). Il s’agit d’une technologie permettant d’effectuer des synchronisations massives d’information d’une banque de données à une autre [4].
• Extraction : Accéder à la majorité des systèmes de stockage de données (SGBD, ERP, fichiers plats, …) afin de récupérer les données identifiées et sélectionnées. Puisque les données sont de sources hétérogènes, elles doivent être nettoyées puis consolidées donnant ainsi des données homogènes et facilement exploitables. Pour cela, il est nécessaire d’en faire un triage avant le chargement dans l’entrepôt de données.
• Transformation : Toutes les données ne sont pas utilisables telles qu’elles. Elles méritent d’être vérifiées, reformatées, nettoyées afin d’éliminer les valeurs aberrantes et les doublons, et consolidées. L’étape de transformation du système ETL demande une grande précision et de concentration car plusieurs tâches y sont attendues, à savoir :
− La suppression des données inutiles
− L’unification des données
− L’analyse des données
• Chargement : C’est la dernière étape du système ETL. Il consiste à charger les données soit dans le Datawarehouse soit directement dans le Datamart.
Stockages de données : Datawarehouse et Datamart Un Datawarehouse contient des données concernant l’ensemble des données de l’entreprise provenant de plusieurs base de données opérationnelles et sources extérieures afin d’offrir une vision transversale de l’organisation. Les informations y sont assemblées par thèmes. En revanche, le Datamart est, en quelque sorte, un sous ensemble du Datawarehouse, et les données qu’il contient concernent un métier ou un sujet spécifique de l’entreprise (finance, achat, marketing, etc.). Le Datamart est d’ailleurs très souvent alimenté par le Datawarehouse (plutôt que directement par les outils d’ETL).
Traitement des données
1 Les analyses multidimensionnelles et les outils OLAP : Le Datawarehouse ou le Datamart peuvent permettre des analyses très approfondies des activités de l’entreprise via les outils OLAP. OLAP signifie On Line Analytical Processus et décrit un ensemble de technologies connues pour l’accès et l’analyse des données stockées dans les bases de données (relationnelles ou multidimensionnelles) [4]. Ces technologies OLAP permettent un accès de manière interactive à une information présentée sous divers angles selon les besoins spécifiques des décideurs, selon les critères qu’ils définissent afin de simuler des situations. Pour offrir une interaction globale, ces outils préagrègent et précalculent les informations à tous les croisements de la structure multidimensionnelle. Cela produit une masse considérable de données qui s’accroît de manière exponentielle avec le nombre d’usagers impliqués, car les points de vue sur les informations sont multipliés. Les utilisateurs peuvent créer des représentations multidimensionnelles. OLAP devient synonyme de vues multidimensionnelles. Bref, ces outils donnent la possibilité de réaliser des analyses multidimensionnelles sur des bases de données volumineuses. En effet, les décideurs veulent analyser les données mises à leur disposition et visualiser les informations par rapport à différents axes d’étude. Par exemple, une agence de vente de télécartes peut vouloir mesurer 2 indicateurs : son chiffre d’affaire et son nombre de ventes. Elle voudra le faire selon deux axes d’analyse : 1er axe → le temps : par trimestre, par mois et par jour. 2ème axe → les produits : par familles et par produits. On obtiendra un tableau à deux entrées, avec en ligne les produits et en colonne le temps. Le croisement des lignes et colonnes, indiquera le chiffre d’affaire et le nombre de ventes. Maintenant, cette même organisation souhaite ajouter un troisième axe d’analyse : un axe géographique (ventes par ville, par magasin). En ajoutant un axe d’analyse, on ajoute une dimension; on passe d’un tableau « classique » à un tableau à 3 dimensions, c’est-à-dire un cube. Avec les outils OLAP il est possible d’avoir de nombreux axes d’analyse, de nombreuses dimensions : on parle d’ailleurs d’hypercube (il s’agirait, si l’on veut, de tableaux à n dimensions). Les outils OLAP permettent de modéliser ces cubes (ou hypercubes).
2 La diffusion et la présentation des résultats : Les outils de restitution, de présentation des résultats constituent la partie la plus visible de l’architecture du système d’information décisionnel. De telle sorte qu’ils peuvent être utilisés par des personnes qui ne connaissent pas nécessairement l’informatique décisionnelle. Ces outils définissent les prés requis de mise à disposition de l’information : contrôle d’accès, prise en charge des requêtes, personnalisation, ergonomie, vitesse de restitution, visualisation des résultats, etc. En effet, la diffusion met les données à la disposition des usagers, selon des profils propres à chacun ou au métier de chacun, car pouvoir accéder au Datawarehouse ne correspondra sûrement pas aux besoins d’un décideur. Un entrepôt de données contient des milliers de variables, tandis que le paramétrage de diffusion permettra de mettre en valeur quelques dizaines d’indicateurs au maximum. Souvent, un contexte de diffusion est multidimensionnel, et donc modélisable sous la forme d’un hypercube; il peut alors être mis à disposition à l’aide d’un outil d’analyse multidimensionnelle OLAP. Concrètement, ces outils peuvent couvrir aussi bien la production de rapports prédéfinis, de tableurs, statistiques, diagrammes et tableaux de bords grâce à des progiciels, des outils de type EIS Executive Information System que la mise à disposition d’outils OLAP, ou d’outils de modélisation prédictive à base de techniques statistiques et d’intelligence artificielle comme le datamining. Les outils de diffusion et de présentation des résultats peuvent aussi s’appuyer directement sur les Datamarts, des bases de données thématiques dérivées du Datawarehouse mais plus simples d’utilisation pour l’usager. Très souvent, toutes les parties de l’alimentation et celles de la restitution des données sont gérées par une équipe informatique, spécialisée en gestion de base de données et en décisionnel, interne ou externe à l’entreprise.
Table de fait
Définition Une table de fait est une table qui contient les données observables (les faits) que l’on possède sur un sujet et que l’on veut étudier, selon divers axes d’analyse (les dimensions). Les « faits », dans un entrepôt de données, sont normalement numériques, puisque d’ordre quantitatif. Il peut s’agir du montant en argent des ventes, du nombre d’unités vendues d’un produit, etc.
Structure d’une table de fait Une table de fait devrait avoir la structure suivante :
• Clé étrangère ou Foreign Key [FK] qui constitue la liaison vers les tables de dimension ;
• Dimensions dégénérées
• Fait ou mesure
Caractéristiques d’une table de fait
• Une table de fait contient les valeurs numériques de ce qu’on désire mesurer ;
• Une table de fait contient les clés associées aux dimensions. Il s’agit des clés étrangères dans la table de fait.
• Une table de fait contient plus d’enregistrements qu’une table de dimension
• Les informations dans une table de fait sont :
− Numériques et utilisées pour calculer des valeurs (des nombres, des sommes, des moyennes, …) ;
− Les données doivent être additives ou semi additives.
• Toutes les colonnes représentent les faits (mesures1, mesure2, …) dans la table de fait doivent référer et avoir un lien direct aux clés de dimensions.
Installation de SQL Server 2005
L’installation de SQL Server necessite l’installation au préalable des composants suivants :
• Framework.NET 2.0 pour l’integration des fonctionnalités à l’interieur du serveur
• Windows Installer 3.0 pour l’installation des applications Windows
• IIS pour l’installation et l’usage de Reporting Services.
L’installation de SQL Server entraine l’installation :
• Des outils de configuration de SQL Server Business Intelligence Development Studio
• Du Services d’Analyses
• Des documentations et des tutoriaux
Utilisation du BIRT
La création d’un état passe par plusieurs étapes [7] :
• La définition des sources de données : elle consiste d’abord à se connecter à la base de données source. Cette connexion nécessite : le Driver Class, le Database URL, le nom de l’utilisateur et son mot de passe.
• La définition des jeux de données : un jeu de données est un ensemble d’informations destinées à être mises en forme par un tableau ou un graphique.
C’est en fait le résultat d’une requête SQL plus ou moins complexe sur une source de données. L’utilisateur dispose d’un assistant pour faciliter la création de cette requête.
• Le placement des éléments : les éléments de base (tableaux, listes, graphiques, images, …) sont insérés dans l’état par « glisser-déposer ».
• La configuration : un jeu de données est associé à chaque élément et les paramètres de rendu sont modifiés.
• La prévisualisation : une option de prévisualisation permet de lancer la génération de l’état.
Le rapport sera construit à l’aide de BIRT Designer contenant l’explorateur de données. Ce dernier permet de définir les Sources de Données (Data Sources) venant des bases de données relationnelles par exemple et les jeux de données (Data Sets) extraites de la base sources par le biais des requêtes SQL. L’édition du rapport utilise les divers composants de BIRT à savoir :
• Les composants d’affichage statiques : labels, champs texte, images, liens, …
• Les composants d’affichage des jeux de données : tables et listes.
• Les composants dynamiques : expressions JavaScript.
Les données à afficher peuvent être soit statiques, soit extraites des « Jeux de données », soit calculées en utilisant des formules prédéfinies et des codes écrits en JavaScript. L’exécution du rapport se fait rapidement à partir des menus BIRT.
Les tableaux (Tables) Les données sont plus simples à grouper et organiser en tableau. Il est également possible de faire des calculs comme la somme, la moyenne et d’autres résumés pour les données numériques
Le tableau croisé (Cross tab) C’est un tableau à double entrée permettant d’afficher les données en deux dimensions.
Les charts Ce sont des représentations graphiques des données numériques pour rendre le rapport beaucoup plus facile à comprendre. Les charts peuvent être représentés en deux dimensions ou trois dimensions. On distingue de nombreux types de charts tels que :
• Le pie chart : utilisé pour les contributions ou parts
• Les lines chart, area chart, tube chart, bar chart, cone chart, pyramid chart : utilisés pour les évolutions
Les lettres et documents Ce sont les composants d’affichage statiques utilisés pour la mise en page du rapport. Ce sont des textes, des labels, des graphiques. Afin d’augmenter la performance d’une entreprise, le besoin en rapport ne cesse de croître puisque ce sont les outils les plus importants pour le pilotage. Ainsi, il devient indispensable de présenter les données sous de nombreuses faces entraînant ainsi la création de maximum de rapports. Pour faciliter cette création, BIRT présente deux caractéristiques permettant de gagner du temps :
• Les bibliothèques (Librairies) : C’est un composant dynamique d’un rapport. Ce type de fichier emmagasine tous les composants nécessaires à la création d’un rapport tels que les sources de données, les jeux de données et la mise en page. L’extension d’une bibliothèque est .rptlibrary. Dans l’explorateur de données, créer les sources de données et les jeux de données :
− Pour ajouter un Style, dans Outline, clique droite sur Thème et choisir le nouveau Style
− Pour ajouter un Thème, dans Outline, clique droite sur Thème et choisir le nouveau Thème.
− Pour ajouter un nouvel Element d’un rapport, choisir un Elément dans Palette et glisser dans « Report Items ».
• Les modèles (Template) : C’est un composant statique sur lequel on crée un nouveau rapport. Ce type de fichier est muni de nombreux éléments établis au préalable pour l’uniformisation des rapports créés.
Un modèle peut contenir tous les outils nécessaires à la création du rapport comme les sources de données, les jeux de données, les mises en page, les types de représentation du rapport (tableau croisé, texte, chart, …). L’extension d’une bibliothèque est .rpttemplate. La création du modèle se fait comme suit : File New Template mais à la différence grâce au «Template Publishing Wizard », il est possible de déployer les modèles à utiliser, c’est-à-dire que la publication de ces modèles permette d’obtenir des rapports uniformisés.
|
Table des matières
GLOSSAIRE
INTRODUCTION
1 REGLE DE L’ART
1.1 LE BUSINESS INTELLIGENCE
1.1.1 Définition
1.1.2 Objectifs
1.1.3 Architecture de l’informatique décisionnelle
1.2 LE DATAWAREHOUSE
1.2.1 Introduction
1.2.2 Définitions
1.2.3 Objectifs et mise en place
1.2.4 Architecture du Datawarehouse
1.2.4.1 Sources de données
1.2.4.2 Alimentation des données
1.2.4.3 Stockages de données : Datawarehouse et Datamart
1.2.4.4 Traitement des données
1.2.4.4.1 Les analyses multidimensionnelles et les outils OLAP
1.2.4.4.2 La diffusion et la présentation des résultats
1.3 LES COMPARAISONS UTILES
1.3.1 Différence entre base de données et entrepôt de données
1.3.2 Différence entre OLTP et OLAP
2 CADRE DU PROJET
2.1 OBJECTIF DU DATAWAREHOUSE
2.2 ANALYSE DE LA SITUATION ACTUELLE
2.2.1 Les points forts
2.2.2 Les points faibles
2.3 PRESENTATION DU PROJET
2.4 ARCHITECTURE GENERALE DU SYSTEME
2.5 SOURCES DE DONNEES
2.5.1 Système de Facturation (DWH_Billing)
2.5.2 Ventes (DWH_Sales)
2.6 THEMES DU PROJET
3 MODELISATION
3.1 MODELISATION MULTIDIMENSIONNELLE
3.1.1 Choix du modèle multidimensionnel
3.1.2 Définition
3.1.3 Etapes de modélisation
3.1.3.1 Choix du processus à modéliser
3.1.3.2 Définition de la granularité du processus
3.1.3.3 Choisir les dimensions
3.1.3.4 Identifier les faits
3.1.4 Les éléments de base de la modélisation dimensionnelle
3.1.4.1 Dimension
3.1.4.1.1 Définition
3.1.4.1.2 Structure d’une base de dimension
3.1.4.1.3 Caractéristiques d’une dimension
3.1.4.2 Table de fait
3.1.4.2.1 Définition
3.1.4.2.2 Structure d’une table de faitt
3.1.5 Les types de modélisation
3.1.5.1 Schéma en étoile
3.1.5.2 Schéma en flocons de neige
3.1.5.3 Schéma en constellation de faits
3.2 MODELISATION AVEC UML
3.2.1 Choix de la modélisation avec UML
3.2.2 Présentation de l’UML
3.2.3 Types de diagrammes UML
3.2.3.1 Diagrammes comportementaux
3.2.3.1.1 Diagramme de cas d’utilisation (Use case diagram)
3.2.3.1.2 Diagramme d’états-transitions (State Machine Diagram)
3.2.3.1.3 Diagramme de séquence (Sequence Diagram)
3.2.3.2 Diagrammes structurels ou diagrammes statiques (UML Structure)
3.2.3.2.1 Diagramme de classes (Class Diagram)
3.2.3.2.2 Diagramme de composants (Component Diagram)
3.2.3.2.3 Diagramme de déploiement (Deployment Diagram)
4 REALISATION
4.1 MISE EN PLACE DE MICROSOFT SQL SERVER 2005
4.1.1 Pourquoi SQL Server 2005
4.1.2 Définition
4.1.3 Fonctionnement de SQL Server 2005
4.1.4 Utilisation de SQL Server 2005
4.1.5 Installation de SQL Server 2005
4.2 B.I.R.T (BUSINESS INTELLIGENCE AND REPORTING TOOLS)
4.2.1 Pourquoi B.I.R.T
4.2.2 Définition
4.2.3 Fonctionnement du BIRT
4.2.4 Utilisation du BIRT
4.2.4.1 Les tableaux (Tables)
4.2.4.2 Le tableau croisé (Cross tab)
4.2.4.3 Les charts
4.2.4.4 Les lettres et documents
4.2.5 Connexion de BIRT à SQL Server 2005
4.3 EXOPORTAL
4.3.1 Définition
4.3.2 Utilisation
4.3.2.1 Installation et configuration
4.3.2.2 Sécurisation du portail
CONCLUSION
5 ANNEXES
5.1 EXTRAITS D’ETL
5.1.1 ETL de chargement pour l’Appel Entrant (INCOMING Mobile)
5.2 DESSINS D’ECRAN
5.2.1 Les cubes
5.2.2 Les rapports BIRT
5.3 EXTRAITS DE CODE
BIBLIOGRAPHIE
Télécharger le rapport complet