Un aperçu de l’environnement scientifique
Les avancées technologiques
Pour apporter une vision épistémologique de la problématique d’harmonisation des données, on peut rappeler que parfois les besoins théoriques sont amorcés par ces expériences, des choses « qui marchent », qui produisent de la valeur sans avoir été réfléchies ou structurées au départ. D’autres fois, la théorie mathématique, économique, géologique, sociologique etc., sera formulée avant les applications pratiques.
L’amélioration des performances : hardware et high performance computing (HPC)
La gestion de l’information est un exemple parlant de cette course fluctuante entre théorie et pratique car, comme le disent les ingénieurs en HPC, lorsque les limites physiques des ordinateurs sont atteintes, c’est l’algorithmique qui progresse pour résoudre les blocages. Et lorsque l’algorithmique stagne, on cherche des solutions architecturales voire physiques pour agglomérer des machines, augmenter les performances des processeurs, ou inventer des réseaux de stockage de l’information. C’est ce qui est arrivé depuis les années soixante. En particulier depuis les années 2000, des clusters de machines ont commencé à être utilisés, au début il s’agissait de clusters IBM à 8 nœuds, donc quatre de 2Go, et deux de 1Go de mémoire, et 36Go sur disques. Deux nœuds seulement étaient multi-cœurs : l’un de 8 cœurs, et l’autre de 4 cœurs.
En 2012, on a fini par grandement multiplier les capacités de calcul en passant à 594 nœuds de calcul chez Airain Bull, avec 64Go par nœud, et 1204 processeurs, et un stockage sur disque par fichiers global de 2Po. Cela illustre l’immense avancée dans les technologies de stockage et de traitement de l’information.
L’utilisation de processeurs multi-cœurs, ainsi que l’utilisation des clusters a également permis le développement des techniques de calcul vectoriel et de parallélisation des algorithmes, permettant de faire plus de calculs, plus vite, mais aussi d’aboutir à des résultats plus précis. C’est dans cette atmosphère technologique que les groupes comme Google ont décidé de changer le modèle architectural logiciel en distribuant les programmes aux données au lieu d’envoyer les données aux programmes. Pour cela, ces derniers doivent être adaptés à une démarche en deux temps itérable : une phase de classification/mapping des informations à traiter puis une phase de factorisation/reducing de celles-ci. Notons que l’on retrouve des principes de segmentation des programmes et des données dans ces techniques HPC.
Des modifications dans les techniques d’acquisition des données sismiques
L’informatique n’est pas la seule à avoir évolué vers de plus gros volumes de données : les équipements d’acquisition sismique comme les géophones ainsi que les différentes manières de les déployer sur le terrain évoluent également, et permettent aux différentes compagnies de passer des commandes pour des campagnes de prospection gigantesques mettant au défi aussi bien les modules de traitement que la logistique. On peut passer aujourd’hui d’une acquisition de 0.4 M traces /km2 à 18 M traces /km2 , soit obtenir une densité 45 fois plus grande en traces sismiques.
L’accès et la gestion de l’information
Les travaux sur l’accès à l’information viennent en réponse à des besoins provenant de réglementations, de la gestion des territoires et du développement des systèmes d’information géographiques (SIG).
L’accès à la donnée
En effet, en mettant à dispositions des outils comme le GeoPortail ou Google Maps, la cartographie numérique est devenue un moyen de diffuser l’information, en plus de la stocker et d’y faire des traitements. Dans le monde industriel, les SIG se sont aussi multipliés, alliant bases de données propriétaires et visualisation sur mesure pour des problématiques spécifiques au métier, comme pour l’acquisition de données sismiques. On verra par la suite qu’une partie de l’harmonisation des lignes de navigation sismiques était réalisée sous le SIG ArcGIS Cependant l’intérêt du SIG a évolué au-delà du caractère géographique de la donnée. On cherche aujourd’hui à en faire un point d’entrée sécurisé de bases très volumineuses et dont les coordonnées géographiques ne sont pas l’attribut prépondérant, mais plutôt une sorte d’index de stockage. On envisage donc une organisation des bases de données métier fondées sur une segmentation géographique. Or, en les rangeant selon des catégories spatiales, d’une part, on peut avoir des difficultés à comparer ou associer des données de zones géographiques différentes. D’autre part, comme nous le verrons dans le dernier chapitre, ce filtre géographique, tout en étant aujourd’hui indispensable, ne permet pas un stockage harmonisé de l’information d’une donnée complète d’un point de vue métier.
La structuration et les systèmes experts
La question d’accès à la donnée est l’un des sujets moteurs du Data Management : elle évoque aussi bien la rapidité d’accès que les droits de la lire ou de la modifier, relatifs à des notions de degrés de confidentialité. Il s’agit aussi de gérer au mieux le rapport entre la liberté d’accéder ou traiter les données et la garantie de la qualité de celles-ci. Pour ces raisons, des architectures du type Master Data Management ont été conçues. Dans ces architectures, il s’agit de centraliser les données les moins variables du système d’information dans une base qui sert de noyau, ensuite, il est nécessaire d’identifier les meilleures versions de chaque donnée pour garantir la qualité de celles-ci. Généralement on appelle ces éléments des Golden Records, générés par des règles assez simples de sélection de l’un ou de l’autre des champs attributaires candidats à être le meilleur représentant. Cependant la définition de ces représentants n’est pas encore bien éprouvée et reste relativement empirique, même si on commence à utiliser d’efficaces métriques de similarité comme celles présentées dans le chapitre 3. Dans les chapitres 4 et 5 de ce mémoire, on proposera une nouvelle manière d’obtenir des représentants abstraits ou réels du groupe. Notons que la qualité des données est d’autant plus importante que des normes réglementées contrôlent certains organismes où la donnée a de fortes implications légales ou économiques par exemple.
Dans les architectures de Master Data Management, différentes stratégies sont proposées en fonction des modes d’utilisation des données. Pour choisir la bonne approche, il est indispensable de réaliser un modèle complet des données et des flux d’utilisation, d’où l’importance de modéliser les données, notamment avec des structures d’hyper classes comme en HBDS, reflétant la factorisation des attributs prépondérants sur un ensemble d’autres classes et pouvant être centralisés. La structuration des données pour des Master Data Management, outre l’aspect d’accès et de qualité de la donnée, a pour objectif d’améliorer et accélérer la prise de décision. C’est en cela que l’on s’approche de la notion de système expert. En effet, Matthieu Beard et d’autres experts des systèmes d’information définissent un système expert comme un logiciel utilisant des connaissances, des faits et des techniques d’inférence pour résoudre des problèmes ou prendre des décisions. « An expert system is a computer program that uses knowledge, facts, and reasoning techniques to solve problems or aid in making decisions. » M. Beard, Experts Systems, An Introduction, 2016. Entre la structuration des bases de données et le besoin d’optimiser les prises de décisions, il semble bien qu’il soit aujourd’hui envisageable de passer de la notion de base de données à la notion de base de connaissances dans un cadre applicatif.
|
Table des matières
Introduction
1) Un aperçu de l’environnement scientifique
1.1) Les avancées technologiques
1.2) L’accès et la gestion de l’information
1.3) Les différentes bases de données chez TOTAL et les problématiques que leur diversité engendre
2) Méthodologie applicative
2.1) Le données : des profils de navigation sismique
2.2) Modélisation, typologie d’attributs – Phase 1 de l’AMR
2.3) Classification d’attributs – Phase 2 de l’AMR
2.4) Calcul d’attributs de synthèse – Phase 3 de l’AMR
2.5) Traitement segmenté de fichiers
3) Mesures de Ressemblance
3.1) Le workflow existant d’harmonisation des données
3.1.1) Le workflow d’harmonisation existant avant la mise en application de l’AMR
3.1.2) Les attributs calculés et les méthodes de calcul utilisées avant l’AMR
3.1.3) Les méthodes de croisement via InnerLogix (ILX : Logiciel Schlumberger de contrôle qualité des bases de données)
3.1.4) Optimisation du workflow d’harmonisation des bases de données chez TOTAL par l’AMR
3.2) Les métriques attributaires de similarité – spécialisation en fonction des critères de comparaison
3.2.1) Différentes approches pour mesurer la similarité
3.2.2) Précision et exhaustivité
3.2.3) Les (????????)??17
3.3) Etalonnage pour les mesures de similarité textuelle dans l’implémentation de l’AMR pour l’harmonisation des bases de données de TOTAL
3.4) Similarité contextuelle
3.5) Arbre de filtrage à tamis
3.6) Résolution et zone d’interfaçage
4) Regroupements
4.1) Différents types de classification automatique de l’AMR
4.1.1) Trois stratégies de classification – principe de résolution
4.1.2) Couples et réconciliation de sources
4.1.3) Groupes asymétriques et rattachements
4.1.4) Clustering, propagation, harmonisation
4.1.5) Les différences entre les trois algorithmes de classification et leur combinaison
4.2) Tests : Exemple de résultats obtenus sur le Brésil
4.2.1) Etape 1 : Egalité exacte entre les noms de lignes
4.2.2) Etape 2 : Egalité exacte entre centroides
4.2.3) Etape 3 : Egalité exacte entre les longueurs linéaires
4.2.4) Etape 4 : Egalité exacte entre les longueurs linéaires et les centroïdes tolérance 100
4.2.5) Performances temporelles pour les données Brésil (4411 lignes, et 1381137 SP)
5) Dimension système expert – automatisation
5.1) Graphe d’appel de LAC et enchaînement des mécanismes de l’AMR
5.2) L’apport des mécanismes d’intelligence artificielle au fonctionnement de LAC
6) Eléments de visualisations
6.1) Visualisation géographique
6.2) Visualisation par analyse en composantes principales (ACP)
6.2.1) Analyse pour l’ensemble des attributs numériques
6.2.2) Analyse pour l’ensemble des attributs numériques, en retirant les coordonnées cartésiennes
6.3) Visualisation « gravitationnelle » par mesures de similarité
6.3.1) Algorithme de visualisation en graphe éclaté – Etape 1
6.3.2) Algorithme de visualisation en image colorée – Etape 2
Conclusion
Télécharger le rapport complet