QSAR en toxicologie environnementale
QSAR est un outil pour la prédiction de l’activité biologique, et se prête ainsi aisément à la prévision de la toxicité environnementale. Au cours des 20 dernières années QSAR environnemental a augmenté régulièrement dans l’importance, et Nendza [6] a admirablement récapitulé ses accomplissements. Il a maintenant atteint l’étape où quelques agences de régulation, telle que l’Agence de Protection Environnementale des Etats-Unis, emploie par habitude quelques toxicités prédites par QSAR pour des buts de normalisation ; on prévoit qu’une telle utilisation augmentera considérablement à l’avenir, comme plus d’assurances sont cherchées sur la sûreté des produits chimiques, et une pression plus publique est appliquée contre l’utilisation des animaux dans l’essai de toxicité. Il devrait être noté, cependant, que des données expérimentales de toxicité sont nécessaires en premier lieu afin de développer une QSAR, et il y a encore un manque de données de bonne qualité dans beaucoup de domaines.
La dose létale 50 (DL50)
La dose létale (DL) est une indication de la létalité d’une substance ou d’un type donné de radiation ou la radiorésistance. Puisque la résistance est variable d’un individu à l’autre, la dose létale représente la dose à laquelle un pourcentage donné d’une population donnée décède. Cette dose est habituellement exprimée en unités de masse de substance par masse corporelle, c’est-à-dire en g/kg. La dose létale est souvent utilisée pour décrire la puissance des venins chez les animaux comme pour les serpents. Les mesures de dose létale sur des animaux ont beaucoup été utilisées dans la recherche sur les drogues, même si désormais la plupart des chercheurs préfèrent ne pas y avoir recours. La dose létale dépend non seulement de l’espèce de l’animal, mais aussi du mode d’administration (oral, inhalation, contact, etc.). Ainsi, une substance donnée nécessite une dose plus petite en cas d’injection ou d’inhalation qu’en cas d’ingestion. L’indicateur de létalité le plus utilisé est la dose létale 50 ou (DL50). La dose létale 50 ou DL50 (LD50 en anglais pour Lethal Dose 50) ou CL50 (concentration létale 50) est un indicateur quantitatif de la toxicité d’une substance. Cette notion s’applique également aux irradiations. Cet indicateur mesure la dose de substance causant la mort de 50 % d’une population animale donnée (souvent des souris ou des rats) dans des conditions d’expérimentation précises. C’est la masse de substance nécessaire pour tuer 50 % des animaux dans un lot. Elle s’exprime en milligrammes de matière active par kilogramme d’animal. Plus ce chiffre est petit, plus la substance est toxique. Cette dose n’est valable que pour une espèce précise (le plus souvent le rat) et un mode d’introduction précis dans l’organisme (ingestion, inhalation, application cutanée). Notons toutefois que la DL50 peut varier, parfois fortement, en fonction du solvant utilisé ainsi qu’en fonction du sexe de l’animal. Ces chiffres ne sont pas directement extrapolables à l’homme. La DL50 est le plus souvent exprimée pour une ingestion orale chez le rat. La DL50 mesurée par application dermale chez le lapin donne une information complémentaire sur le danger d’une substance. La valeur par ingestion est le plus souvent plus faible que la valeur dermale. Ces mesures ne donnent toutefois qu’une idée partielle de la toxicité d’une substance, à laquelle il faut rattacher l’existence ou non d’un antidote. Ainsi, le parathion éthyl, malgré une DL50 orale aiguë de 3,6 mg/kg, est relativement moins dangereux que le paraquat (DL50 de 236 mg/kg) car il existe un antidote efficace contre le premier mais aucun contre le second. Il est commun d’affirmer que les pesticides ayant une DL50 orale inférieure à 50 mg/kg constituent des substances chimiques extrêmement toxiques pour l’homme. Dans la pratique, il est également important de connaître la DL50 du produit commercial utilisé. Celle-ci est calculée à partir de la concentration de la matière active dans la formulation au moyen de la formule suivante : Toxicité de la formulation (en mg ma/kg) = (DL50 matière active x 100) / % matière active de la formulation
Le neurone artificiel
Le neurone artificiel (ou cellule) est un processeur élémentaire. Il reçoit un nombre variable d’entrées en provenance de neurones appartenant à un niveau situé en amont (on parlera de neurones « amonts »). A chacune des entrées est associée un poids w représentatif de la force de la connexion. Chaque processeur élémentaire est doté d’une sortie unique, qui se ramifie ensuite pour alimenter un nombre variable de neurones appartenant à un niveau situé en aval (on parlera de neurones « avals »). A chaque connexion est associée un poids.
Propriétés des réseaux de neurones
Un réseau de neurones se compose de neurones qui sont interconnectés de façon à ce que la sortie d’un neurone puisse être l’entrée d’un ou plusieurs autres neurones. Ensuite il y a des entrées de l’extérieur et des sorties vers l’extérieur [39]. Rumelbart et al. [39] donnent huit composants principaux d’un réseau de neurones :
• Un ensemble de neurones.
• Un état d’activation pour chaque neurone (actif, inactif,…).
• Une fonction de sortie pour chaque neurone (f(S)).
• Un modèle de connectivité entre les neurones (chaque neurone est connecté à tous les autres, par exemple).
• Une règle de propagation pour propager les valeurs d’entrée à travers le réseau vers les sorties.
• Une règle d’activation pour combiner les entrées d’un neurone (très souvent une somme pondérée).
• Une règle d’apprentissage.
• Un environnement d’opération (le système d’exploitation, par exemple).
Le comportement d’un réseau et les possibilités d’application dépendent complètement de ces huit facteurs et le changement d’un seul d’entre eux peut changer le comportement de réseau complètement. Les réseaux de neurones sont souvent appelés des « boites noires » car la fonction mathématique qui est représentée devient vite trop complexe pour l’analyser et la comprendre directement. Cela est notamment le cas si le réseau développe des représentations distribuées [39], c’est-à-dire que plusieurs neurones sont plus ou moins actifs et contribuent à une décision. Une autre possibilité est d’avoir des représentations localisées, ce qui permet d’identifier le rôle de chaque neurone plus facilement. Les réseaux de neurones ont quand même une tendance à produire des présentations distribuées.
CONCLUSION GENERALE
Nous avons appliqué la méthodologie QSAR pour relier la toxicité (CL50) vis-à-vis du vairon (Pimephales promelas), d’une série de composés organiques polluants potentiels de l’environnement aquatique. Les modèles QSAR ont été établis en utilisant l’analyse de régression multilinéaire et /ou les réseaux de neurones standards à 3 couches (les entrées, une couche cachée et une couche de sortie), avec algorithme d’apprentissage par rétro- propagation du gradient (Levenberg- Marquard). Les 92 données de base ont été éclatées aléatoirement en deux ensembles disjoints, invariants pour tous les modèles :
– un ensemble principal de 74 composés utilisés pour le calcul et, éventuellement, les essais du modèle ;
– un ensemble de 18 composés pour la prédiction externe.
La taille du modèle (4 descripteurs moléculaires) à été fixée en maximisant la fonction FIT de KUBINYI. La sélection des variables explicatives a été réalisée par algorithme génétique, dans la version MOBYDIGS de TODESCHINI, en maximisant Q2L00. Les statistiques : R2; σN et F calculées établissent la pertinence du modèle développé. La qualité de l’ajustement a été vérifiée en procédant à une validation croisée par « leaveone-out » ; la valeur Q2 = 76.04, fait ressortir, clairement, la qualité de l’ajustement. Le test de randomisation montre, que seul le vecteur réel des observations conduit à des valeurs élevées des statistiques R2 et Q2 , ce qui prouve que le modèle obtenu n’est pas aléatoire. Les valeurs RMSE (SDEC = 0.292 ; SDEP = 0.315 ; SDEPext = 0.376 ; Q2 ext = 65.81) permettent de s’assurer, tout à la fois, de la bonne capacité prédictive du modèle et de sa possibilité suffisante d’extension. Le choix aléatoire de l’ensemble d’essais pouvant influencer négativement la capacité prédictive du modèle, la méthode d’extraction de cet ensemble à partir des données de base doit être repensée. De même, les limitations du modèle doivent être définies plus clairement, et l’existence éventuelle des points aberrants analysée avec soins. Enfin, d’autres méthodes qui peuvent s’avérer plus avantageuses en ce qui concerne la précision et l’interprétation des modèles, et du point de vue de la capacité de généralisation, doivent être testées.
|
Table des matières
INTRODUCTION GENERALE
CHAPITRE (I): Etude bibliographique
I-1 QSAR (Relation Structure-Activité Quantitative)
I-1-1 QSAR en toxicologie environnementale
I-1-2 QSAR pour la toxicité de prévision
I-2 Le benzène et ses dérivés
I-2-1 Introduction et aperçu historique
I-2-2 Utilisations du benzène et de ses dérivés
I-2-3 Effets sur la santé
I-3 La dose létale 50 (DL50)
I-3-1 Pourquoi 50%
I-3-2 Historique
I-3-3 Interprétation
I-3-4 DL50 et radio-exposition
I-3-5 Méthode
I-4 Les formes de toxicité
I-4-1 Toxicité aiguë
I-4-2 Toxicité subaiguë
I-4-3 Toxicité à long terme (autrefois dénommée toxicité chronique)
I-4-4 Identification de la toxicité
I-4-5 Identification du pouvoir pathogène
I-4-5 Notions voisines
CHAPITRE (II): Présentation des données
CHAPITRE (III): Développement et évaluation de la qualité d’un modèle
III-1 Sélection d’un sous-ensemble de descripteurs
III-1-1 Principe
III-1-2 Initialisation aléatoire du modèle
III-1-3 Etape de croisement
III-1-4 Etape de mutation
III-1-5 Conditions d’arrêt
III-2 Développement des modèles
III-2-1 Paramètres d’évaluation de la qualité de l’ajustement
III-2-2 Robustesse du modèle
III-2-3 Test de randomisation
III-2-4 Validation externe
CHAPITRE (IV): Les réseaux de neurones artificiels
IV-1 Définition
IV-2 Le neurone artificiel
IV-3 Propriétés des réseaux de neurones
IV-4 Différents types de réseaux de neurones
IV-5 Le perceptron multicouches
IV-6 Apprentissage
IV-7 Variables descriptives
IV-8 Structure d’interconnexion
IV-9 Relation avec la statistique
IV-10 Présentation de l’environnement utilisé
IV-11 Algorithme du réseau de neurones utilisé
CHAPITRE (V) Résultats et discussion
V-1 Calcul et choix des descripteurs
V-1-1 Calcul du modèle
V-1-2 Descripteurs topologiques
V-1-3 Indices de connectivité
V-1-4 Descripteurs GETAWAY
V-2 Optimisation par les réseaux de neurones artificiels
V-2-1 Modèle mathématique du perceptron multicouches
V-2-2 Etape 1 : fixer le nombre de couches cachées
V-2-3 Etape 2 : déterminer le nombre de neurones par couche cachée
V-2-4 Etape 3 : choisir la fonction d’activation
V-2-5 Etape 4 : choisir l’apprentissage
V-2-6 Analyse de régression
V-3 Validation externe
CONCLUSION GENERALE
REFERENCES BIBLIOGRAPHIQUES
ANNEXE
Télécharger le rapport complet