Validation croisée par omission d’une observation

Télécharger le fichier pdf d’un mémoire de fin d’études

Chromatographie en phase gazeuse

La chromatographie en phase gazeuse (CPG), comme toutes les techniques de chromatographie, permet de séparer les molécules d’un mélange éventuellement très complexe, de natures et de volatilités très diverses. Elle s’applique principalement aux composés gazeux ou susceptibles d’être vaporisés par chauffage sans décomposition.
Le mélange à analyser est vaporisé à l’entrée d’une colonne, qui renferme une substance active solide ou liquide appelée phase stationnaire, puis il est transporté à travers celle-ci à l’aide d’un gaz porteur. Les différentes molécules du mélange vont se séparer et sortir de la colonne les uns après les autres après un certain laps de temps qui est fonction de l’affinité de la phase stationnaire pour ces molécules [24].

Appareillage

Les appareils de chromatographie gazeuse sont appelés chromatographes. Ils sont principalement composés [24] :
• d’un four (type chaleur tournante) qui permet une programmation de température ajustable de 20°C (-100°C pour certains systèmes) à 450°C et qui est également équipé d’un système de refroidissement rapide;
• d’un système d’injection, qui va permettre d’introduire et de rendre volatil l’échantillon à analyser. L’injection peut se faire d’une manière manuelle ou automatique à l’aide d’un échantillonneur;
• d’une colonne (capillaire ou à garnissage), sur laquelle les différentes molécules de l’échantillon injecté vont se séparer suivant leurs affinités avec la phase stationnaire;
• d’un système de détection, qui va permettre de mesurer le signal émis par les différentes molécules et de pouvoir les identifier. Pour l’enregistrement du signal émis par le détecteur, des logiciels sur PC remplacent avantageusement les enregistreurs analogiques sur papier;
• d’un système de détendeur-régulateur pour les gaz utilisés (hélium, hydrogène, azote et air comprimé).
Sur les chromatographes modernes on trouve des systèmes électroniques pour la régulation des gaz qui sont également purifiés par des cartouches filtrantes.

Polyéthers de glycols :

Les Carbowax sont des dérivés de glycols (polyéthers de glycols) de formule : OH-CH2-CH2-(O-CH2-CH2-O) n-CH2-CH2-OH
Le degré de polarité lié au nombre d’hydroxyles est indiqué par un chiffre qui représente la masse moléculaire. Les masses de Carbowax qui peuvent aller de 300 à 20.000 sont dénommées par ces valeurs extrêmes Carbowax 300 et Carbowax 20M. Le Carbowax 20M (20.000) de masse moléculaire la plus élevée, est donc le moins polaire de la série. Ces phases stationnaires possédant de nombreux oxygènes sont classées parmi les phases stationnaires les plus polaires, et elles sont utilisées pour séparer les molécules de fortes polarités comme celles possédant des fonctions alcool, aldéhyde, ou cétone [24].

Section de détection des éléments séparés

A la sortie de cette colonne, un détecteur très sensible est placé, par exemple :
• Un TCD : détecteur électrique, basé sur le principe du pont de Wheatstone : le passage des composants va faire varier la tension, cette variation est due à la différence de conductibilité de chaque composant ;
• Un FID : détecteur à ionisation de flamme : une tension de l’ordre de la centaine de volts est maintenue entre la buse de la flamme et une électrode entourant cette dernière. Lorsque les molécules traversent la flamme, elles sont ionisées ce qui provoque entre les électrodes un courant électrique qui est ensuite amplifié.
• Un ECD : détecteur à absorption électronique : des électrons sont émis, en général par une source radioactive (rayonnement bêta), et traversent le gaz ; lorsqu’un électron rencontre une molécule de gaz, il peut être capturé, ce qui fait varier l’intensité du courant d’électrons, cette intensité étant mesurée en continu.
• Un MS : spectromètre de masse, utilisant principalement l’impact électronique ou l’ionisation chimique comme modes d’ionisation.

Section d’enregistrement

Le signal produit par le détecteur est amplifié et transmis de manière continue à l’enregistreur où il s’inscrit sur une bande de papier.

Formules pour le calcul de quelques descripteurs moléculaires [17 ; 27] :

Réfractivité :

Nom donné à deux expressions contenant l’indice de réfraction n et la densité d. REF = (n – 1) / d (5)
Elle est approximativement indépendante de la température et possède une valeur caractéristique pour la substance considérée : REF = [(n2 – 1) / (n2 +2)] * 1 / d (6)
Réfractivité moléculaire : produit des deux expressions précédentes (5) et (6) par le poids moléculaire.
Cette expression est additive et peut servir à contrôler une structure; on dit aussi réfraction moléculaire.

Distance entre premiers voisins DV1T :

Est la valeur propre de la matrice de distance multipliée par sa transposée, dont la matrice de distance est une matrice carrée d’ordre de nombre des sommets où chaque élément de cette matrice est la longueur de la liaison entre les deux atomes concernés.

Représentations graphiques :
La représentation graphique d’un modèle est une partie importante du problème de régression multiple .Nous présentons dans cette partie plusieurs diagrammes de l’adéquation d’un modèle.
Diagrammes de dispersion des résidus en fonction de yˆi  :
La représentation graphique des résidus en fonction de la variable dépendante estimée fournit une série d’informations concernant l’adéquation du modèle.
On peut également prendre en considération les résidus normés, obtenus en divisant chaque résidu par l’écart type résiduel. Ces résidus (standardisés) normés doivent se distribuer selon la loi normale réduite. En particulier, environ deux valeurs sur trois doivent être comprises entre –1 et +1, et seulement cinq valeurs sur cent environ peuvent se situer en dehors de l’intervalle (-2 ; +2).
On notera à ce propos que la procédure décrite ci-dessus n’est pas tout à fait rigoureuse. On peut en effet démontrer que les résidus observés n’ont pas tous, en réalité, la même variance, même si la variance théorique est constante.
Diagrammes de probabilité :
Rappelons d’abord qu’on appelle quantile d’ordre α (0 ≤ α ≤ 1) d’une variable aléatoire x de fonction de répartition F toute valeur xα telle que : F(xα ) = α (⇔ P (x ≤ xα ) = α ) (10)
Notons que si F est continue et strictement croissante, le quantile xα, pour α donné,  existe et est unique; sinon, il ne peut pas exister ou il peut y avoir plusieurs solutions possibles.
Les diagrammes de probabilité sont des diagrammes de fonctions de répartition, ou de fréquences cumulées, dans lesquels les ordonnées sont déterminées de telle sorte que les fonctions de répartition F(x) apparaissent sous la forme de droite.
Si, au contraire, on souhaite utiliser en ordonnées une échelle de quantiles de la variable normale réduite, les quantiles doivent être calculés, à partir des fréquences relatives, par la fonction inverse de la fonction de répartition Φ(n) de la distribution normale réduite : μ i = Φ-1’Φ-1(i – 1 2) [N′(xi )]  oun(11)
Les valeurs μ i ainsi définies sont généralement appelées quantiles normaux ou scores normaux. La représentation graphique d’un ensemble de fréquences cumulées sous une telle forme permet de juger, de façon visuelle, de la normalité ou de la non normalité des données considérées. La linéarité ou la quasi-linéarité du diagramme ainsi obtenu est en effet un indice de normalité.
Partie expérimentale  :
Nous avons réalisé la plupart des calculs à l’aide des logiciels de modélisation moléculaires Hyperchem Pro. [32] et Dragon [33].
Des pyrazines du commerce ont été utilisées .Les séparation ont été réalisées sur des colonnes capillaires ouvertes en silice (longueur : 50m ; diamètre intérieur : 0,22 mm), dont les parois internes ont été imprégnées soit de Carbowax -20M (CW-20M) soit de silicone OV101 .Elles ont été montées sur un chromatographe Hewlett –Packard modèle 5710, équipé d’un détecteur à ionisation de flamme (DIF). Le débit de l’azote vecteur a été fixé à 0, 67ml /min, et pour éviter la saturation (des colonnes) une division à l’entrée des colonnes (rapport 1 :100) a été adoptée.
Au cours des analyses les températures des colonnes ont été élevées de 80 à 200°C à raison de 2°C/min ,alors que celles du détecteur et de l’injecteur ont été fixées à 250°C[12].
Nous avons réuni dans le tableau (2), les valeurs des descripteurs moléculaires pour les 27 Pyrazines étudiées.
Evaluation préliminaire des données :
Pour chaque composé nous avons calculé 43 descripteurs moléculaires. Nous avons à chaque fois vérifié la normalité des données en comparant le coefficient de corrélation de normalité à un coefficient de corrélation critique donné par les tables statistiques (calculé pour n = 27, α = 0,05) (Figure 8) ce qui nous a permis d’éliminer 11 descripteurs.
Les coefficients de corrélation de normalité des variables (IR1, IR2) et des régresseurs qui entrent dans le modèle des 27 pyrazines sont supérieurs au R critique (RC ) donné par les tables statistiques pour un niveau de signification α = 0.05.
Le tableau (3) décrit l’écart type ainsi que les valeurs maximales et minimales de chaque descripteur.
On peut y voir que l’indice (ENUC) possède les plus grandes valeurs, alors que l’indice (E elec) possède les plus petites.
La valeur de l’écart type est maximale pour l’énergie électronique (E elec), elle est minimale pour le (DV1T) ; quant à l’écart-type relatif, sa valeur maximale est caractéristique de (MODIP) et sa valeur minimale l’est pour (DV1T).
Le calcul de la matrice de corrélation nous a permis d’éliminer 19 autres descripteurs qui rapportent autant d’information que les 13 restants(r ≥ 0,39 pour un p=0,045< α = 0.05).
La matrice de corrélation tableau (4), obtenue à l’aide de la commande Corrélation du logiciel MINITAB, montre que les descripteurs sont plus ou moins corrélés entre eux.
Les descripteurs (NSA2) et (SQ-) sont respectivement les plus corrélés avec l’indice de rétention de la phase polaire (IR1), et l’indice de rétention de la phase apolaire (IR2).Le descripteur (EHF) est le moins corrélé avec les deux indices de rétention (IR1, IR2).
II–2-Cas de la colonne polaire (CARBOWAX- 20M) :
Nous avons choisi d’exprimer les observations IR1 obtenues sur la colonne polaire en fonction de celles IR2 obtenues sur la colonne OV-101, en y associant d’autres descripteurs .
Le modèle obtenu est le suivant : IR1 = – 75,8 (± 62,88) + 2,55 (±0,1083) IR2 + 176 (±49,76) DV1T – 37,4 (±2,602) REF n=27 ; σ N=19.9650 ; R2=98.10°/°; Q2=0.9750 ; F=399.63 (32)
On peut voir que 98.1°/° (=R2) de la variabilité de IR1 peut être expliquée par les trois descripteurs IR2, DV1T, et REF, alors que l’erreur quadratique moyenne de prédiction est de l’ordre de 20(σ N=19.9650) ; en outre ce modèle est hautement significatif (grande valeur du paramètre de Fisher : F=399.63 pour un p=0.000).
La colonne ei du tableau (9) montre des résidus ordinaires strictement inférieurs à 2 fois l’erreur standard (ei< 2S), soit 2×21.63=43.26 à l’exception de e11 qui est particulièrement important (de l’ordre de 3S).
Tous les résidus standardisés, di sont compris entre les limites ±2, sauf d9 et d11 qui sont, en valeur absolue, supérieurs à 2. Les résidus studentisés internes, ri, sont du même ordre de grandeur que les di correspondants, à l’exception encore une fois de ceux des points 9 et 11. On a dans le cas de la Carbowax-20M, p (nombre de paramètres du modèle)=4 et n=27, et l’on constate que tous les ri sont inférieurs en valeur absolue à t (0.025 ; n-p) [= 2.069]qui est le 0.975 quantile d’une loi de Student avec (n-p) degrees de liberté.
-CONCLUSION GENERALE
Les indices de rétention de 27 pyrazines (prélevés dans la lettérateure) réparées en programmation de température sur deux colonnes de polarités très différentes ont été corrélés à des descripteurs moléculaires de différents types.
Pour la colonne OV-101, le meilleur modèle intègre 4 régreseurs, soit un régresseur pour 7 observations.
Les statistiques calculées établissent clairement la pertinence du modèle: R² (%)= 98.80; σN= 14; F= 460.08.
L’analyse des résidus ne permet pas toujours vérifier les hypothèses d’un modèle linéaire statistique à effets fixes; les diagnostics d’influence ne permettent pas de mettre en évidence de point influent ou aberrant, seul un point à levier important a été décelé.
La qualité de l’ajustement a été vérifiée en procédant à une validation croisée par « leave-one-out », qui conduit à un R² de validation croisée (R²cv ou Q²) de 96.19, ce qui est un excellent résultat.
Le test de randomisation montre que seul le vecteur réel des observations conduit à des valeurs élevées des statiques R² et Q², ce qui prouve que la corrélation établie n’est ni aléatoire, ni due à une sur-spécification.
Dans le cas de la colonne polaire trois descripteurs ont été sélectionnés dont l’indice de rétention observé. Les deux descripteurs autres que l’indice de rétention obtenu sur l’OV-101, devraient refléter les différences d’interactions à la base de la rétention sur les deux colonnes, ce qui apparemment n’est le cas.
Les différentes statistiques: R² (%)= 98.10; σN= 19.96; Q² (%)= 97.50; F= 399.63
Montrent la qualité du modèle obtenu, confirmée par une erreur standard S= 21.63 acceptable pour une colonne polaire.
Nous avons noté que la pyrazine et la 2-éthyl-3-méthylthiopyrazine présentent un levier important sans etre influentes, a lors que la 2-vinylpyrazine est une observation à la fois influente et aberrante.
Si, sans conteste, les modèles présentés sont meilleurs que ceux relevés dans la littérature, il n’est reste pas moins vari, au vu des erreurs standards obtenues, qu’un effort doit être encore fait pour aboutir à des modèles prédictifs, c’est-à-dire présentant des erreurs standards largement inférieures à 5 unités d’indice.
Plusieurs pistes peuvent être explorée entre autres l’utilisation d’autres familles de descripteurs ou encore la recherche de modèles robustes non basés sur la méthode des moindres carrés.
L’élimination de l’observation 11 n’a aucune indice sur βˆ1 et βˆ3 , mais entraîne une modification appréciable (22%) sur βˆ2 ainsi qu’une variation de 72% de βˆ0 . Ce ci indique que le point 11 exerce une influence appréciablement forte sur l’ordonnée à l’origine et le coefficient du régresseur DV1T. En outre, l’exclusion de l’observation 11 entraîne une diminution de 62% de CME.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

CHAPITRE -II-1/ Etude bibliographique
I-2 Paramètres d’évaluation de la qualité de l’ajustement
I-2-1/ Coefficient de détermination multiple R2
I-2-2- Racine de l’erreur quadratique moyenne de prédictionσ N
I-3/ Robustesse du modèle
I-3-1 /Validation croisée par omission d’une observation
I-3-2 /Le cœfficient de prédiction q2
I-4/ Influence sur les résultats de la régression : détection des observations aberrantes
I-5/Chimie des arômes des pyrazines
I-5-1/La pyrazine
I-5-2/ Quelques propriétés physiques de la pyrazine ; numérotation des atomes
I-5-3/Mécanismes de formation de la pyrazine
II/Chromatographie en phase gazeuse
II-1/Appareillage
II-2/ Section de séparation des éléments
II-2-1/ Colonnes garnies
II-2-2/ Colonnes capillaries
II-3/ Phase stationnaire liquide
II-3-1/ Polyéthers de glycols
II-3-2/ Silicones
II-4/ Section de détection des éléments séparés
II-5/ Section d’enregistrement
III – Formules pour le calcul de quelques descripteurs moléculaires
III-1 / Réfractivité
III -2 /Distance entre premiers voisins DV1T
III- 3 /Somme des charges négatives (SQ-)
III- 4 / Aire de la surface partielle positive PPSA1
CHAPITRE -III/ ETUDE DES RESIDUS
I-1/Définition
I -2/ Représentations graphiques
I -2 – 1 / Diagrammes de dispersion des résidus en fonction de yˆ i
I – 2 – 2 / Diagrammes de probabilité
I – 3 /Test paramétrique : la statistique de DURBIN et WATSON
II- Evaluation de l’adéquation des modèles
II – 1 / Coefficient de corrélation multiple
II – 2 / Résidus caractéristiques et adéquation des modèles
II – 2 – 1 / Bras de levier hii
II- 2 – 2 / Résidu studentisé.
II – 2 – 3 / Distance de COOK
II – 2 – 4 / Autre mesure de l’influence : DFFITS
II– 2- 5 / Influence d’un individu sur la variance des coefficients de régression COVRATIO
CHAITRE -III- : Partie expérimentale
I – Evaluation préliminaire des données
II – Calcul des modèles
II – 1 – Cas de la colonne non polaire (OV-101)
II–2-Cas de la colonne polaire (CARBOWAX- 20M).

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *