Un aperçu de l’environnement scientifique

Un aperçu de l’environnement scientifique

Les avancées technologiques

Pour apporter une vision épistémologique de la problématique d’harmonisation des données, on peut rappeler que parfois les besoins théoriques sont amorcés par ces expériences, des choses « qui marchent », qui produisent de la valeur sans avoir été réfléchies ou structurées au départ. D’autres fois, la théorie mathématique, économique, géologique, sociologique etc., sera formulée avant les applications pratiques.

L’amélioration des performances : hardware et high performance computing (HPC)

La gestion de l’information est un exemple parlant de cette course fluctuante entre théorie et pratique car, comme le disent les ingénieurs en HPC, lorsque les limites physiques des ordinateurs sont atteintes, c’est l’algorithmique qui progresse pour résoudre les blocages. Et lorsque l’algorithmique stagne, on cherche des solutions architecturales voire physiques pour agglomérer des machines, augmenter les performances des processeurs, ou inventer des réseaux de stockage de l’information. C’est ce qui est arrivé depuis les années soixante. En particulier depuis les années 2000, des clusters de machines ont commencé à être utilisés, au début il s’agissait de clusters IBM à 8 nœuds, donc quatre de 2Go, et deux de 1Go de mémoire, et 36Go sur disques. Deux nœuds seulement étaient multi-cœurs : l’un de 8 cœurs, et l’autre de 4 cœurs. En 2012, on a fini par grandement multiplier les capacités de calcul en passant à 594 nœuds de calcul chez Airain Bull, avec 64Go par nœud, et 1204 processeurs, et un stockage sur disque par fichiers global de 2Po. Cela illustre l’immense avancée dans les technologies de stockage et de traitement de l’information.

L’utilisation de processeurs multi-cœurs, ainsi que l’utilisation des clusters a également permis le développement des techniques de calcul vectoriel et de parallélisation des algorithmes, permettant de faire plus de calculs, plus vite, mais aussi d’aboutir à des résultats plus précis. C’est dans cette atmosphère technologique que les groupes comme Google ont décidé de changer le modèle architectural logiciel en distribuant les programmes aux données au lieu d’envoyer les données aux programmes. Pour cela, ces derniers doivent être adaptés à une démarche en deux temps itérable : une phase de classification/mapping des informations à traiter puis une phase de factorisation/reducing de celles-ci. Notons que l’on retrouve des principes de segmentation des programmes et des données dans ces techniques HPC.

Des modifications dans les techniques d’acquisition des données sismiques

L’informatique n’est pas la seule à avoir évolué vers de plus gros volumes de données : les équipements d’acquisition sismique comme les géophones ainsi que les différentes manières de les déployer sur le terrain évoluent également, et permettent aux différentes compagnies de passer des commandes pour des campagnes de prospection gigantesques mettant au défi aussi bien les modules de traitement que la logistique. On peut passer aujourd’hui d’une acquisition de 0.4 M traces /km2 à 18 M traces /km2 , soit obtenir une densité 45 fois plus grande en traces sismiques.

L’accès et la gestion de l’information

Les travaux sur l’accès à l’information viennent en réponse à des besoins provenant de réglementations, de la gestion des territoires et du développement des systèmes d’information géographiques (SIG).

L’accès à la donnée

En effet, en mettant à dispositions des outils comme le GeoPortail ou Google Maps, la cartographie numérique est devenue un moyen de diffuser l’information, en plus de la stocker et d’y faire des traitements. Dans le monde industriel, les SIG se sont aussi multipliés, alliant bases de données propriétaires et visualisation sur mesure pour des problématiques spécifiques au métier, comme pour l’acquisition de données sismiques. On verra par la suite qu’une partie de l’harmonisation des lignes de navigation sismiques était réalisée sous le SIG ArcGIS Cependant l’intérêt du SIG a évolué au-delà du caractère géographique de la donnée. On cherche aujourd’hui à en faire un point d’entrée sécurisé de bases très volumineuses et dont les coordonnées géographiques ne sont pas l’attribut prépondérant, mais plutôt une sorte d’index de stockage. On envisage donc une organisation des bases de données métier fondées sur une segmentation géographique. Or, en les rangeant selon des catégories spatiales, d’une part, on peut avoir des difficultés à comparer ou associer des données de zones géographiques différentes. D’autre part, comme nous le verrons dans le dernier chapitre, ce filtre géographique, tout en étant aujourd’hui indispensable, ne permet pas un stockage harmonisé de l’information d’une donnée complète d’un point de vue métier.

La structuration et les systèmes experts

La question d’accès à la donnée est l’un des sujets moteurs du Data Management : elle évoque aussi bien la rapidité d’accès que les droits de la lire ou de la modifier, relatifs à des notions de degrés de confidentialité. Il s’agit aussi de gérer au mieux le rapport entre la liberté d’accéder ou traiter les données et la garantie de la qualité de celles-ci. Pour ces raisons, des architectures du type Master Data Management ont été conçues. Dans ces architectures, il s’agit de centraliser les données les moins variables du système d’information dans une base qui sert de noyau, ensuite, il est nécessaire d’identifier les meilleures versions de chaque donnée pour garantir la qualité de celles-ci. Généralement on appelle ces éléments des Golden Records, générés par des règles assez simples de sélection de l’un ou de l’autre des champs attributaires candidats à être le meilleur représentant. Cependant la définition de ces représentants n’est pas encore bien éprouvée et reste relativement empirique, même si on commence à utiliser d’efficaces métriques de similarité comme celles présentées dans le chapitre 3. Dans les chapitres 4 et 5 de ce mémoire, on proposera une nouvelle manière d’obtenir des représentants abstraits ou réels du groupe. Notons que la qualité des données est d’autant plus importante que des normes réglementées contrôlent certains organismes où la donnée a de fortes implications légales ou économiques par exemple.

Les différentes bases de données chez TOTAL et les problématiques que leur diversité engendre

Les données sont stockées sous différents formats et sous différents systèmes de gestion de bases de données, souvent mis en concurrence, mais intégrés dans une organisation s’orientant tout de même vers un Master Data Management, notamment avec la maintenance d’une base centrale de données de référence. Toutefois, l’intégration des flux entrants à cette base de référence Master DB n’est pas évidente.

Une partie des données est stockée sous Sismage, le logiciel d’interprétation géologie/géophysique interne développé par TOTAL, et n’acceptant pas de connecteurs à sa bases de données pour des raisons de sécurité. On y trouve la majorité des projets de navigation sismique. Cependant, d’autres nombreux projets sont stockés sous d’autre bases comme celles de GeoFrame et d’OpenWorks. Les données de la base Patrimoniale du Groupe TOTAL, ou données de référence sont stockées sous une base Oracle nommée FINDER pour ce qui est de la partie de navigation sismique (partie « en surface » de la donnée, contenant l’information de positionnement en surface), et les données qui leurs sont liées du point de vue du signal sismique et des traces sismiques (partie « en profondeur » de la donnée) sont stockées dans une base PétroVision. La migration imminente de Finder dans PetroVision soulève le besoin de réconciliation entre ces deux bases. Il s’agit d’une problématique très proche de celle d’harmonisation. En somme, le but est de trouver quelle ligne de navigation sismique de Finder correspond à quelles traces de PetroVision. Le fait de stocker la même donnée dans différentes bases (par exemple projets d’origine et base de référence), ou bien deux parties de la même information dans deux bases distinctes pose de nombreuses problématiques. Cette diversité des bases de données est historique, mais aussi reflète l’étendue du Groupe TOTAL et de ses filiales. Les mécanismes que nécessite l’harmonisation peuvent donc aussi faciliter le suivi et la reconnaissance d’une même donnée dans les différentes bases, sachant que jusqu’à aujourd’hui il n’existe pas de système d’identifiant unique pour une donnée sismique. Quant aux identifiants des données puits, ils ne sont pas encore mis en place pour l’ensemble des données. Les techniques de comparaison et de mesure de similarité conçues dans la méthodologie, d’Automatisation de la Mesure de Ressemblance développée dans le prochain chapitre, appliquée aux bases de TOTAL pourront également être utilisées dans un but d’identification de données complexes. On entend par donnée complexe une donnée difficile à identifier parce qu’elle porte un nombre de caractéristiques élevé, mais avec incertitudes sur leur renseignement.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1) Un aperçu de l’environnement scientifique
1.1) Les avancées technologiques
1.2) L’accès et la gestion de l’information
1.3) Les différentes bases de données chez TOTAL et les problématiques que leur diversité engendre
2) Méthodologie applicative
2.1) Le données : des profils de navigation sismique
2.2) Modélisation, typologie d’attributs – Phase 1 de l’AMR
2.3) Classification d’attributs – Phase 2 de l’AMR
2.4) Calcul d’attributs de synthèse – Phase 3 de l’AMR
2.5) Traitement segmenté de fichiers
3) Mesures de Ressemblance
3.1) Le workflow existant d’harmonisation des données
3.1.1) Le workflow d’harmonisation existant avant la mise en application de l’AMR
3.1.2) Les attributs calculés et les méthodes de calcul utilisées avant l’AMR
3.1.3) Les méthodes de croisement via InnerLogix (ILX : Logiciel Schlumberger de contrôle qualité des bases de données)
3.1.4) Optimisation du workflow d’harmonisation des bases de données chez TOTAL par l’AMR
3.2) Les métriques attributaires de similarité – spécialisation en fonction des critères de comparaison
3.2.1) Différentes approches pour mesurer la similarité
3.2.2) Précision et exhaustivité
3.2.3) Les (????????)??17
3.3) Etalonnage pour les mesures de similarité textuelle dans l’implémentation de l’AMR pour l’harmonisation des bases de données de TOTAL
3.4) Similarité contextuelle
3.5) Arbre de filtrage à tamis
3.6) Résolution et zone d’interfaçage
4) Regroupements
4.1) Différents types de classification automatique de l’AMR
4.1.1) Trois stratégies de classification – principe de résolution
4.1.2) Couples et réconciliation de sources
4.1.3) Groupes asymétriques et rattachements
4.1.4) Clustering, propagation, harmonisation
4.1.5) Les différences entre les trois algorithmes de classification et leur combinaison
4.2) Tests : Exemple de résultats obtenus sur le Brésil
4.2.1) Etape 1 : Egalité exacte entre les noms de lignes
4.2.2) Etape 2 : Egalité exacte entre centroides
4.2.3) Etape 3 : Egalité exacte entre les longueurs linéaires
4.2.4) Etape 4 : Egalité exacte entre les longueurs linéaires et les centroïdes tolérance 100
4.2.5) Performances temporelles pour les données Brésil (4411 lignes, et 1381137 SP)
5) Dimension système expert – automatisation
5.1) Graphe d’appel de LAC et enchaînement des mécanismes de l’AMR
5.2) L’apport des mécanismes d’intelligence artificielle au fonctionnement de LAC
6) Eléments de visualisations
6.1) Visualisation géographique
6.2) Visualisation par analyse en composantes principales (ACP)
6.2.1) Analyse pour l’ensemble des attributs numériques
6.2.2) Analyse pour l’ensemble des attributs numériques, en retirant les coordonnées cartésiennes
6.3) Visualisation « gravitationnelle » par mesures de similarité
6.3.1) Algorithme de visualisation en graphe éclaté – Etape 1
6.3.2) Algorithme de visualisation en image colorée – Etape 2
Conclusion
Bibliographie