Le phénomène du BigData est généralement défini selon quatre dimensions (Vs) : Volume, Vélocité, Variété et Véracité. Le volume désigne la gestion de gros volumes de données. La vélocité (vitesse) est le temps nécessaire pour collecter et traiter les données. La variété traite des données structurées, semi-structurées et non structurées. Enfin, la véracité qui permet de garantir la qualité et la fiabilité des données. Dans cette thèse, nous nous intéressons à cette dernière V.
De nos jours, les données représentent une richesse pour les entreprises et les administrations et contribuent à leur développement. La qualité de ces données représente un enjeu important. Le coût de la non-qualité peut en effet s’avérer très élevé : prendre une décision à partir de mauvaises informations peut nuire à l’organisation, à ses clients ou ses partenaires. La gouvernance des données est un sujet qui prend de l’importance dans les entreprises et les administrations. Elle permet l’amélioration des interactions entre les différents collaborateurs d’une ou plusieurs organisations concernées. De plus en plus d’entreprises tentent de capitaliser sur leurs données métier les plus importantes en construisant des référentiels de type MDM (Master Data Management) offrant une vue centrale et unique de ces dernières. La qualité des données est un prérequis essentiel pour ce type de projets, plus encore que pour les projets BI (Business Intelligence).
De nombreuses méthodes pour identifier, mesurer et résoudre certains problèmes de qualité des données existent. Les outils proposés ne répondent pas encore à tous les problèmes soulevés. Ils se focalisent le plus souvent uniquement sur la donnée brute et non sur la signification de celle-ci. Or la donnée, pour être utile, doit être interprétée dans son contexte d’utilisation. Actuellement, peu d’entreprises ont mis en place un programme de gestion de la qualité des données tant au niveau des bases de données (BD) gérées qu’au niveau des entrepôts (ED) construits à partir de ces dernières. Les projets d’intégration n’appuient probablement pas assez sur l’importance de la qualité des données.
Alors que les ETL (Extract , Transform , Load ) ont atteint, de nos jours, un grand degré de maturité et offrent de très nombreux composants, les résultats d’intégration des données contiennent beaucoup trop d’anomalies et n’inspirent pas confiance afin d’aider à la prise de décision.
Cette thèse se déroule entre le laboratoire d’Informatique de Paris Nord (LIPN) de l’université Paris 13, et l’entreprise Talend, un des leaders dans le marché des ETL Open Source.
Entreprise Talend Talend est une jeune société, fondée en 2006. Elle contient 400 employés dans sept pays et deux sièges Los Altos, en Californie et Paris, en France. Talend permet aux entreprises de déverrouiller toutes leurs données, qu’elles soient historiques, temps réel ou émergentes. Via le support natif des plateformes modernes Big Data, la solution sans empreinte de Talend simplifie l’intégration et fournit aux équipes informatiques les outils pour répondre plus rapidement aux demandes du marché, à un coût prévisible. Elle propose des solutions (open source et entreprise) d’intégration évolutives pour le Big Data, l’intégration de données et d’applications, la qualité des données, le MDM et BPM (Business Process Management) . Elle est classée Leader Visionnaire par Gartner et Forrester sur le marché de l’intégration.
Talend permet aux équipes informatiques de fournir des données selon les besoins métiers. Elle fournit une solution open source supportée par une large communauté et des services de niveau entreprise .
Talend offre une solution complète de qualité des données (Talend Data Quality), incluant des fonctionnalités de profilage, de nettoyage, de mise en correspondance et de “monitoring“ pour répondre à tous besoins de qualité et de gouvernance de données. Les fonctionnalités de qualité des données peuvent évoluer afin de gérer toutes les données, du fichier plat aux données d’entreprise dans Hadoop. Talend permet de tirer parti des meilleures fonctionnalités de la plateforme pour fournir une qualité des données continue à travers différents types de données et quel que soit le volume de données.
Les produits d’intégration de données de Talend (Talend Data Integration) permettent d’accéder, de transformer et d’intégrer des données de tout système en temps réel ou par lots afin de répondre aux besoins d’intégration de données opérationnelles et analytiques. Avec plus de 800 composants, Talend intègre presque toutes les sources possibles de données.
Les divers scénarios d’utilisation gérés comprennent l’intégration de masse (BigData/NoSQL), l’ETL pour le décisionnel, le MDM le data warehousing, la synchronisation, la migration, le partage, la qualité et les services de données. Cependant, ces différents outils manquent de sémantique. Notre travail sera d’enrichir ces outils avec les aspects sémantiques afin d’aider les utilisateurs dans leurs démarches telle que l’intégration des données et la gestion de la qualité des données.
La qualité des données est un terme générique décrivant à la fois les caractéristiques de données : complètes, fiables, pertinentes et à jour, cohérentes mais aussi l’ensemble du processus qui permet de garantir ses caractéristiques. Le but est d’obtenir des données sans doublons, sans fautes d’orthographes, sans omission, sans variation superflue et conforme à la structure définie. Les données sont dites de qualité si elles satisfont aux exigences de leurs utilisateurs. En d’autres termes, la qualité des données dépend autant de leur utilisation que de leur état. Pour satisfaire à l’utilisation prévue, les données doivent être exactes, opportunes et pertinentes, complètes, compréhensibles et dignes de confiance (Toulemonde, 2008).
L’impact et donc le coût d’une donnée de mauvaise qualité n’est pas le même selon le type de population (dans un CRM (Customer Relationship Management), grand compte ou PME (petites et moyennes entreprises)) mais aussi selon l’utilisation qui en y faite (données bancaires, données médicales, données militaires sensibles ou données CRM). L’estimation des “coûts de la non-qualité” n’est pas aisée. Ajoutons que s’il est relativement aisé d’évaluer combien coûte la mise en oeuvre d’une procédure d’amélioration, les bénéfices escomptés sont plus difficiles à chiffrer en raison des aspects non mesurables, mais néanmoins cruciaux, qui accompagnent l’amélioration de la qualité d’un système informatique, tels que la crédibilité ou la fiabilité de l’information.
A titre indicatif, plusieurs études menées aux États-Unis dans des secteurs divers tels que banques, assurances ou agences de voyage font état d’un taux d’erreur de 5 % à 30 % dans les BDs (ce taux étant, par exemple, évalué sur la base du rapport entre le nombre d’enregistrements contenant au moins une erreur logique et le nombre total d’enregistrements d’une BD). En termes financiers, les coûts de la “non-qualité” sont évalués à une perte d’environ 5 à 10 % du revenu des entreprises examinées. Citons par exemple les coûts en contrôles, correction et maintenance de données de qualité douteuse, les coûts liés au traitement des plaintes des clients non satisfaits ou encore à la réparation des préjudices (Boydens, 1998).
Une étude aux États-Unis, a estimé le coût de la mauvaise qualité des données à plus de 600 milliards de dollars pour les entreprises chaque année (Toulemonde, 2008).
|
Table des matières
1 Introduction générale
1.1 Introduction
1.2 Contexte
1.3 Qualité des données
1.3.1 Définition
1.3.2 Coût de la non qualité
1.3.3 Dimensions de la qualité des données
1.3.4 Indicateurs et mesures de la qualité des données
1.4 Problématique
1.5 Objectifs
1.6 Plan du document
2 Etat de l’art
2.1 Introduction
2.2 Les différentes types des anomalies
2.2.1 Anomalies dans les métadonnées
2.2.2 Anomalies dans les données
2.3 Traitement des anomalies
2.3.1 Rapprochement de schémas
2.3.2 Détection des anomalies
2.3.3 Correction des anomalies
2.3.3.1 Choix des attributs de dédoublonnage
2.3.3.2 Choix d’un algorithme de similarité
2.3.3.3 Choix d’une approche de correspondance (Fonction Match)
2.3.3.4 Choix de la stratégie de fusion des tuples similaires (Fonction Merge)
2.3.3.5 Évaluation du taux d’élimination des similaires et des doublons
2.3.3.6 Les méthodes de comparaison des tuples
2.4 Conclusion
3 Conclusion générale
Télécharger le rapport complet