Ces dernières années ont vu se démocratiser tout un ensemble de solutions d’acquisition, de gestion et d’analyse des données. À l’échelle des infrastructures, l’arrivée de technologies permettant une gestion dynamique des ressources, et même une servicialisation de celles-ci, a contribué à un contrôle très largement accru des coûts liées à ces installations, et même à une réduction globale de ceux ci. Dans le domaine logiciel, l’émergence de technologies (langages, frameworks et bibliothèques) sous licence libre favorise leur large adoption, et rend ainsi disponible à tous des outils modernes et efficaces.
Cet accès facilité aux infrastructures et aux traitements, conjugués à une urbanisation croissante des systèmes d’information, rend désormais possible une réelle mutualisation de l’information. Au travers d’un pipe-line de données, celle-ci est ainsi produite, transférée, agrégée et mise à disposition automatiquement, pouvant par la suite alimenter des traitements. Ces traitements sont de forme et de finalités très diverses, et vont de leur simple représentation à l’élaboration de modèles explicatifs ou prédictifs. Il est à noter que lorsque la volumétrie le permet, ces modèles n’utilisent plus seulement des méthodes statistiques pour leur optimisation, mais de plus en plus des algorithmes dits d’apprentissage automatique (Machine Learning) tels que les réseaux de neurones ou les forêts aléatoires auxquels il était auparavant plus difficile de faire appel dans les cas d’usage courants. De part leur souplesse d’utilisation et la diversité de cas d’usage adressés par ces méthodes, ces méthodes viennent considérablement enrichir le domaine de l’analyse de données.
Dans le secteur industriel, cet essor technologique ouvre de nouvelles possibilités quant à la façon dont sont optimisés les procédés. Individuellement, les données liées aux processus industriels sont bien souvent considérées comme des productions à part entière, et permettent souvent de fournir des métriques qualitatives, une historisation de l’activité, voire même dans les meilleurs cas de constituer une base pour des études statistiques. Mais lorsque ces données sont croisées, que ce soit avec des données issues du domaine public, ou avec d’autres données issues de processus liés à des métiers différents, celles-ci peuvent alors se révéler porteuses d’une information « enrichie » à haute valeur ajoutée. Leur collecte et leur traitement devient alors un aspect stratégique dans l’optimisation de ces procédés.
La chimie organique
Parmi ces domaines industriels, la chimie organique est une discipline bien singulière du point de vue du traitement automatique de l’information. En effet, si elle a beaucoup évolué par le biais des disciplines conjuguées de l’informatique et des statistiques, elle reste très spécifique à traiter compte tenu de la nature même des données, I.e. les entités chimiques avec lesquelles il faut composer, plus particulièrement les molécules. La chimie organique étant le domaine applicatif cible des travaux effectués au cours de cette thèse, nous introduisons très succinctement dans cette section quelques éléments nécessaires à la compréhension des enjeux abordés.
Notions élémentaires
Il convient tout d’abord d’insister sur le caractère synthétique et général de la présentation proposée ci-après. Si la chimie est bien le domaine applicatif principal visé par les travaux de cette thèse, elle constitue pour nous un « domaine métier » que nous abordons avec le regard et les connaissances d’un non-expert.Les apports scientifiques des travaux décrits dans ce manuscrit relèvent essentiellement du domaine informatique.
Entités chimiques
Atomes et ions Nous raisonnons en chimie sur des entités élémentaires de la matière. L’unité de base est l’atome, défini comme appartenant à un élément chimique lui conférant ses propriétés. Cet élément est directement lié à la configuration électronique de l’atome, elle-même fonction du nombre de protons que comporte son noyau, que l’on désigne par le terme nombre atomique. Le noyau d’un atome est chargé positivement, tandis qu’un ensemble d’électrons chargés négativement orbitant autour de ce noyau rendent l’ensemble électriquement neutre. Il est à noter que si les atomes sont neutres, il existe des entités chargées positivement ou négativement dérivées de ces atomes, que l’on appelle les ions. Ces déséquilibres électroniques provenant d’une modification du nombre d’électrons et non de protons, le nombre atomique d’un ion reste inchangé par rapport à son atome de référence, ils appartiennent donc toujours au même élément chimique. On dénombre à ce jour 118 éléments chimiques, communément classifiés selon la table périodique des éléments (Fig. 1), faisant état de la périodicité de leurs propriétés physico-chimiques. On retrouve ainsi dans une même colonne des éléments ayant des configurations électroniques similaires, à l’instar de leurs comportements chimiques.
Molécules Ces atomes/ions peuvent être assemblés entre eux par la formation de liaisons covalentes, mettant en commun un ou plusieurs électrons. Ces assemblages chimiques forment des molécules, les entités chimiques constituant les substances. N’ayant pas de taille limite, les combinaisons d’atomes formant des substances sont virtuellement infinies, et plusieurs dizaines de millions de molécules sont à ce jour répertoriées dans des encyclopédies et bases de données telles que PubChem ou ChemSpider. Nous illustrons en Fig. 2 la molécule caractéristique de la substance connue sous le nom de « caféine », bien connue à travers le monde pour ses propriétés stimulantes.
Composés Enfin, ces molécules forment des larges populations, et peuvent cohabiter avec d’autres substances sans interagir chimiquement avec elles. On appelle mélange les populations de molécules hétérogènes, tandis qu’une substance « pure », bien que non atteignable en pratique est désignée par le terme de composé chimique. Les état de la matière (gazeux, solide, liquide, plasma) tels que nous percevons macroscopiquement sont une manifestation de la densité et de l’agitation qui existe au sein de ces populations. Bien qu’il existe des cas particuliers comme les cristaux ou les polymères, ou qu’il soit possible de considérer différentes échelles d’agencement (étude des protéines), l’échelle moléculaire est ainsi celle avec laquelle nous raisonnons en chimie pour étudier un mélange, car les propriétés physico-chimiques que nous mesurons sur un composé (point d’ébullition, solubilité, acidité, etc.), et que nous associons par conséquent à une substance, sont directement liées à cette échelle. Il faut également noter que c’est à cette échelle que se produisent les réactions chimiques, que nous ne détaillerons pas ici car c’est un sujet extrêmement vaste et non-essentiel pour les travaux de cette thèse.
Liaisons covalentes
Les liaisons covalentes impliquées dans les assemblages menant aux molécules sont de natures électriques, et ont pour origine une recherche de stabilité. Les électrons sont organisés en couches nommées orbitales atomiques, correspondant à des fonctions d’onde, qui décrivent de manière probabiliste leur position par rapport au noyau de l’atome [4, 5]. Ces orbitales sont connues et décrites, et peuvent être regroupées en couches et sous-couches électroniques. Ces couches admettent un nombre maximum d’électrons, correspondant au nombre d’orbitales qu’elles contiennent, et atteint sa stabilité maximale lorsque ce nombre maximal est atteint. Les atomes ayant naturellement des couches électroniques saturées sont donc les plus stables, et sont considérés chimiquement inertes : il s’agit des gaz nobles, dernière colonne du tableau périodique. Les atomes des autres éléments en revanche, vont chercher à atteindre cette stabilité en cédant ou en acquérant des électrons sur leur couche la plus éloignée du noyau, désignée sous le terme de couche de valence. C’est sur cette couche que se trouvent les électrons de valence, qui vont pouvoir être partagés avec d’autres atomes afin d’accroître leurs stabilités respectives. Cette mise en commun d’électrons se réalise par une superposition spatiale des orbitales atomiques.
La chimie dans l’industrie
Ces quelques rappels de chimie étant posés, intéressons nous à présent à la place de cette discipline dans l’industrie. Étant historiquement très liée aux processus de production, elle est présente dans de nombreux domaines tiers, mais l’industrie chimique en elle-même comporte également de nombreuses branches, selon la destination et l’origine des composés manipulés. Citons par exemple la chimie pharmaceutique (composés biologiquement actifs), la phytochimie (végétaux), l’agrochimie (biocides) ou encore l’oléochimie (huiles et acides gras). Toutes ces branches ont en commun la recherche et la synthèse de composés chimiques les plus performants possibles pour une tâche donnée. En cosmétique par exemple, on peut attendre d’un composé incorporé à une crème de jour qu’il ait une odeur « agréable », ou d’un savon qu’il démontre d’une action nettoyante efficace. Une part importante de l’activité de Recherche et Développement menée dans ces domaines consiste à la fois en l’élaboration de nouveaux composés ayant des performances accrues sur les propriétés attendues, mais également de capitaliser sur ces recherches en cherchant à identifier quels éléments structurels sont les plus pertinents dans l’obtention de ces performances applicatives. En effet, malgré une connaissance métier forte, il arrive bien souvent que ces liens ne soient pas parfaitement résolus du point de vue théorique, et il reste donc des connaissances à acquérir. Ceci est d’autant plus vrai lorsque les propriétés cibles sont de plus en plus « abstraites » ou qualitatives et non reliées spécifiquement à une grandeur physique, comme par exemple l’odeur, le toucher, ou autres propriétés sensorielles. Faute de savoir exactement quels sont les moyens d’action les plus efficaces dans l’obtention d’une propriété cible, la recherche d’un composé chimique cible est réalisé souvent par criblage (screening), occasionnant un grand nombre d’essais expérimentaux avec ajustement paramètre par paramètre. Cette manière de procéder engendre des coûts très importants liés à ces expériences, car ils nécessitent des moyens humains et matériels conséquents. Ce secteur bénéficie donc beaucoup des modèles physiques ou statistiques pouvant fournir une estimation d’activité pour une substance donnée, afin de réduire l’ampleur de ce criblage. Il faut par ailleurs insister sur le degré de précision exigé dans les mesures, les réglementations de pureté des composés étant très strictes, car liés à des risques de première importance, notamment sanitaires.
|
Table des matières
Introduction
La chimie organique
Caractérisation d’une substance chimique
Modèles Structure-Activité ([Q]SAR)
Contexte et Problématique
Contributions
1 Caractérisation de sous-graphe à un isomorphisme près
1.1 Problème
1.1.1 Isomorphisme de graphes
1.1.2 Forme canonique de graphe
1.1.3 Algorithmes
1.1.4 Proposition
1.2 Écriture canonique d’un arbre
1.2.1 Définitions
1.2.2 Fonction de trace σ
1.3 Écriture d’un graphe quelconque en arbre : Scott
1.3.1 Étapes principales
1.3.2 Ordonnancement selon une racine (étape 1)
1.3.3 Transformation en arbre (étape 2)
1.3.4 Désignation d’une racine et encodage (étape 3)
1.3.5 Grammaire
1.4 Analyse de complexité temporelle
1.4.1 Identification de la racine ρ, ϕρ
1.4.2 Encodage d’un arbre, ϕt
1.4.3 Morphisme de G vers T par f, ϕf
1.4.4 Complexité globale
1.4.5 Parallélisation
1.5 Application
1.5.1 Shrunken multipedes graphs
1.5.2 Graphes moléculaires
1.6 Conclusion
1.6.1 Performances
1.6.2 Cas d’usage type
1.6.3 Perspectives
Glossaire
2 Plongements sémantiques de fragments de graphe
2.1 Fragments de graphes
2.1.1 Définition
2.1.2 Fragmentation d’un graphe
2.1.3 Vocabulaire généré
2.1.4 Dimensionnalité d’un espace de fragments
2.2 Analogie avec les langages naturels
2.2.1 Distributions de fragments
2.2.2 Rapprochement empirique avec le TALN
2.2.3 Formulation de l’analogie
2.3 Construction de plongements lexicaux
2.3.1 Les plongements lexicaux en TALN
2.3.2 Les plongements adaptés aux graphes
2.4 Adaptation aux fragments moléculaires
2.4.1 Plongements de fragments moléculaires
2.4.2 Protocole d’apprentissage
2.4.3 Requêtes par rapport à un fragment de référence
2.4.4 Densification et projection des plongements
2.5 Conclusion
3 Exploitation des plongements de fragments dans les Qsar
3.1 Caractérisation de graphe
3.1.1 Graphes et mesures de similarité définies sur l’ensemble des graphes
3.1.2 Graphe comme ensemble de fragments
3.1.3 Graphe comme un réseau de noeuds
3.1.4 Récapitulatif
3.2 Construction d’un modèle prédictif
3.2.1 Graph Attention Network (GAT)
3.2.2 Protocole d’évaluation
3.3 Expérimentations et résultats
3.3.1 Tâche de régression
3.3.2 Tâches de classification
3.3.3 Conclusion
Conclusion
Problématique
Contexte
Objectifs et enjeux
Réponse apportée
Mise en perspective
État de l’art
Apports au sujet
Limites des travaux
Avenir du sujet
Perspectives
Bibliographie
Annexes
Télécharger le rapport complet