Le développement d’outils de dépistage
Il va sans dire qu’il existe de nombreuses méthodes et approches pour développer des outils de dépistage en nutrition. Pour les besoins du présent projet de maîtrise, deux méthodes avaient été ciblées a priori, soit les arbres de décision et les modèles de régression logistique. De plus amples informations sur l’utilisation de chaque approche et le processus décisionnel quant au choix de la méthode retenue se trouve à même l’article scientifique présenté au chapitre 2 de ce mémoire.
Les arbres de décision
Les arbres de décision (régression et classification) sont une méthode utilisée pour construire des modèles prédictifs à partir de données d’intérêt [14]. Ces derniers sont extrêmement efficients lorsqu’il est question d’exploration de données2 [15]. Ils sont d’ailleurs appliqués dans plusieurs domaines, surtout pour leur facilité d’utilisation et d’interprétation; ils sont aisément compréhensibles par des non-statisticiens [15, 16]. Cette méthode peut être utilisée autant pour prédire une variable dépendante catégorique (arbre de classification) que continue (arbre de régression) [17]. Elle permet, entre autres, de discerner les variables à inclure dans un modèle prédictif, déterminer l’importance d’une variable d’intérêt, gérer les données manquantes, prédire un dénouement précis ou encore tout simplement manipuler des données, même si elles sont biaisées ou incomplètes [15].
Figure 1 : Structure typique d’un arbre de classification, tirée et adaptée de Loh, 2011 [14]
La construction de l’arbre se fait par analyse discriminante, c’est-à-dire que l’algorithme teste plusieurs combinaisons de variables afin d’obtenir celle ayant le meilleur pouvoir prédictif [14]. La décision de classification de l’arbre est représentée visuellement par chaque chemin tracé du nœud racine (son premier nœud) à un des nœuds terminaux. Ceux-ci, représentés en cercles de différentes couleurs sur la figure 1, catégorisent le sujet dans un dénouement précis (souvent de type oui/non) .Les arbres de décision sont souvent utilisés pour la recherche en médecine, servant majoritairement à prédire le développement d’une maladie grâce à plusieurs facteurs de risque. Par exemple, Miller et coll. (2014) ont développé un modèle grâce aux arbres de classification afin de détecter de manière prématurée le syndrome métabolique chez une population de jeunes adultes [16]. L’objectif derrière cette étude était de créer un outil de dépistage permettant l’identification de personnes à risque de développer une maladie cardio-métabolique chronique à l’âge adulte. Batterham et coll. (2009), quant à eux, ont utilisé les arbres afin d’identifier les facteurs de risques les plus associés au développement de troubles dépressifs majeurs chez les Australiens [18]. Parmi les facteurs de risque étudiés se trouvaient les symptômes dépressifs, l’usage d’alcool, de drogues et de tabac, l’indice de masse corporelle (IMC), la présence d’hypertension et la pratique d’activité physique .Brièvement, les arbres de décision présentent des avantages non-négligeables pour la création de modèles prédictifs, principalement leur facilité d’interprétation. Néanmoins, il s’agit d’une méthode présentement très peu explorée dans le domaine de la nutrition, il est donc difficile de savoir si son utilisation est appropriée pour la prédiction du risque d’apport suffisant d’un nutriment chez un individu.
Les modèles de régression logistique
La régression logistique permet de créer des modèles évaluant la relation entre :
– Une variable dépendante et dichotomique (régression logistique binomiale) ou encore une variable ayant plus de deux valeurs possibles (régression logistique multinomiale) et
– Une ou plusieurs variables explicatives indépendantes, qu’elles soient qualitatives ou quantitatives, continues ou dichotomiques. [19]
L’utilisation de cette méthode peut être motivée par deux objectifs, soit l’aspect prédictif d’un modèle de régression logistique ou encore son côté explicatif [19].
Concrètement, une régression logistique modélisera les chances qu’un certain dénouement se produise en se basant sur plusieurs caractéristiques individuelles [20, 21].
Pour développer un tel modèle, il est important de déterminer quelles variables y seront incluses [19, 20]. Pour ce faire, il est recommandé d’étudier a priori la relation entre les différentes variables indépendantes à considérer et la variable réponse [19]. Ces analyses peuvent être réalisées, entre autres, à partir de régressions logistiques univariées, qui étudieront le lien entre une seule variable explicative et sa variable réponse. Le modèle initial devrait inclure les variables statistiquement significatives issues de ces régressions univariées, en plus des paramètres cliniquement pertinent au dénouement étudié [19].
Cette approche a plusieurs avantages, le principal étant sa versatilité. En fait, les régressions logistiques ne nécessitent pas une distribution normale ou encore une égalité au niveau des variances, elles peuvent donc être appliquées à une multitude de situations [21]. En nutrition, la régression logistique est souvent choisie pour observer les liens entre une maladie et les habitudes alimentaires d’une population ciblée. Par exemple, Wang et coll. (2012) ont développé un outil de prédiction qui permet d’identifier les individus à risque élevé de dyslipidémie dans un contexte rural en utilisant cette méthode [22]. Plus précisément, ils ont utilisé la dyslipidémie (oui/non) comme variable réponse et les facteurs de risque de celle-ci comme variables explicatives. Je, Kim et Park (2017), quant à eux, se sont servi du modèle de régression logistique pour développer un outil auto-administrable cherchant à mesurer le risque de syndrome métabolique chez des adultes Coréens non-obèses [23]. Concrètement, cette équipe a utilisé comme variable réponse la présence ou non d’un syndrome métabolique et comme variables explicatives toutes celles pouvant potentiellement être associées au développement d’un syndrome métabolique. Afin de garder leur outil le plus efficient possible, Je, Kim et Park ont décidé de considérer uniquement les paramètres facilement disponibles, c’est-à-dire qui ne nécessitaient aucune mesure en laboratoire. Parmi ces paramètres se trouvaient, entre autres, l’âge, l’IMC, l’activité physique, le statut fumeur et les habitudes alimentaires par rapport au sodium.
En somme, la régression logistique multiple est une approche de choix lorsqu’il est question d’observer la relation entre une variable réponse et plusieurs variables explicatives. Comme l’apport en GLU d’un individu est affecté par la consommation de plusieurs aliments, nous trouvions intéressant de considérer la régression logistique dans le cadre des analyses liées à ce projet de maîtrise. La littérature actuelle présente peu d’études utilisant la régression logistique multiple pour prédire l’apport en nutriments d’un individu. De surcroît, il ne semble pas y avoir d’études présentement disponibles sur l’utilisation de cette approche pour prédire l’apport en GLU d’un individu.
Évaluation de la performance des outils de dépistage
Plusieurs méthodes peuvent être utilisées pour déterminer la qualité d’un outil, qu’il soit développé par arbre de décision ou par régression logistique. La qualité de l’outil développé durant mon projet de maîtrise a été évaluée à partir des valeurs de sensibilité et spécificité, des valeurs prédictives positive et négative ainsi que l’analyse de courbes ROC (Receiver Operating Characteristic), ce sont donc ces mesures qui seront expliquées dans la présente section. De plus, celles-ci sont souvent utilisées lorsqu’il est question d’un modèle basé sur une variable réponse/dépendante de type oui/non [24].
Sensibilité, spécificité et valeurs prédictives positive et négative
D’abord, la sensibilité et la spécificité sont des valeurs complémentaires. Prenons l’exemple d’un outil qui tenterait de prédire si un individu est atteint d’une maladie; il pourrait classer un sujet comme «malade» (test positif) ou «non-malade» (test négatif). Dans cette optique, la sensibilité de l’outil reflète sa capacité à classer correctement les sujets malades, alors que sa spécificité reflète sa capacité à classer comme non-malades les sujets étant réellement des non-malades [25]. La valeur prédictive positive (PPV, pour positive predictive value) représente, quant à elle, la probabilité qu’un sujet classé comme malade soit réellement malade. Sa valeur complémentaire, la valeur prédictive négative (NPV, pour negative predictive value), représente la probabilité qu’un sujet classé comme non-malade soit réellement non-malade [26]. Tout dépendant de l’outil développé, différentes caractéristiques peuvent être recherchées. Par exemple, un outil qui cherche à identifier les sujets potentiellement atteints d’une maladie grave aura avantage à être plus sensible et à avoir une PPV élevée.
Les courbes ROC
L’analyse d’une courbe ROC permet d’évaluer spécifiquement la précision d’un outil de prédiction [25]. Concrètement, la courbe ROC correspond à 1 – la spécificité en axe des x, contre la sensibilité, en axe des y [25]. C’est en fait l’aire sous la courbe (AUC, pour area under the curve) de la courbe ROC, ou la statistique C, qui représente la précision de l’outil. Celle-ci est facile à interpréter et est propice à la comparaison; plus la statistique C est élevée, plus l’outil est précis
[27]. À titre d’exemple, dans la figure 2, la ligne de couleur bleue représente une AUC de 0.5, ce qui correspond en fait au hasard. La courbe de couleur rouge pointillée correspond à une courbe ROC standard, avec une précision d’environ 85% (AUC ~ 0.85), tandis que la courbe de couleur verte, avec son AUC de 1.0, représente un outil parfait ou le gold standard. Typiquement, une courbe ROC se retrouvera entre celle du hasard et le gold standard, c’est-à-dire qu’il aura une précision pouvant varier entre 50 et 100% .Dans le cadre de ce projet visant à prédire les apports en GLU chez une population d’athlètes, nous cherchions à obtenir un outil ayant une sensibilité et une PPV élevées. En fait, comme l’objectif ultime du projet était d’identifier les athlètes ayant un apport suffisant en GLU, il était essentiel pour nous de s’assurer que l’outil final soit en mesure de correctement classer les sujets avec des apports suffisants. Pour ce qui est de la statistique C, il est évident que la plus haute valeur possible était recherchée, dans le but d’avoir l’outil le plus précis possible. Dans cet ordre d’idée, la décision quant au choix de l’outil final était basée sur une série de caractéristiques recherchées et non un seul trait désirable; nous cherchions à avoir l’outil le plus sensible et précis, sans toutefois être au détriment de la spécificité.
|
Table des matières
Introduction générale
Chapitre 1. Contexte de l’étude
1 Les outils d’évaluation alimentaire et de dépistage
1.1 Le rappel de 24h
1.2 Le questionnaire de fréquence alimentaire
4 1.3 Les outils de dépistage
2 Le développement d’outils de dépistage
2.1 Les arbres de décision
2.2 Les modèles de régression logistique
2.3 Évaluation de la performance des outils de dépistage .
3 Conclusion partielle
4 Objectifs et hypothèses
Chapitre 2. Étude portant sur le développement et la validation d’un outil de dépistage d’une consommation adéquate en glucides chez des athlètes d’endurance
Résumé
Abstract
Conclusion générale
Bibliographie
Télécharger le rapport complet