DAS3H : un modèle prédictif et interprétable de l’apprentissage et de l’oubli de CC
Nous avons tout d’abord développé un nouveau modèle prédictif de l’apprenant, que nous avons baptisé DAS3H. DAS3H a la particularité de modéliser l’apprentissage et l’oubli d’un apprenant sur un ensemble de CC, à partir de ses réponses passées à un ensemble d’items. DAS3H s’inscrit à la fois dans la lignée des modèles de l’apprenant à facteurs additifs et dans celle des modèles cognitifs de la mémoire humaine. DAS3H étend le modèle DASH (Lindsey et al., 2014) en tenant compte de la structure des relations entre items et CC afin d’améliorer sa prédiction et de tenir compte du transfert de connaissances d’un item à un autre. Plus précisément, DAS3H :
— estime un biais de difficulté par item et par CC ;
— estime une courbe d’apprentissage et d’oubli par CC et non une seule courbe d’apprentissage et d’oubli pour tous les items ;
— est formulé dans le cadre des Knowledge Tracing Machines, ou KTM (Vie et al., 2019), pour enrichir le modèle.
Pour évaluer DAS3H, nous avons comparé ses performances prédictives, mesurées par validation croisée, à quatre autres modèles prédictifs de l’apprenant (IRT/MIRTb, AFM, PFA et DASH) sur cinq jeux de données éducatives. Pour assurer une comparaison juste entre les modèles, nous les avons tous implémentés dans le cadre des KTM et nous avons comparé trois dimensions de plongement vectoriel différentes pour chacun d’entre eux. Nous avons mené en outre des analyses complémentaires pour mieux comprendre ce qui rendait DAS3H plus performant que ses concurrents. Le code Python pour ces expériences a été mis à disposition sur GitHub . Nous avons présenté ce modèle à la conférence EDM 2019 (Choffin, Popineau et al., 2019). Cet article a reçu à cette occasion le prix du meilleur article long de la conférence.
Apprentissage par renforcement profond pour l’espacement adaptatif de CC
Les stratégies que nous avons proposées et implémentées sont des heuristiques construites à priori. Nous avons également voulu explorer une approche différente pour l’espacement adaptatif de l’apprentissage de CC : au lieu de développer en avance la politique de choix de CC, il est aussi possible de créer un algorithme qui apprendrait la politique de sélection optimale en interagissant avec des apprenants (ici, simulés). L’apprentissage par renforcement (profond) fournit des méthodes de choix pour résoudre un tel problème. Nous avons donc d’abord formulé le problème de l’espacement adaptatif et personnalisé de l’apprentissage de CC comme un POMDP (Partially Observable Markov Decision Process ou processus de décision markovien partiellement observable), et proposé AC4S, un algorithme de type Actor-Critic pour le résoudre. Cet algorithme a la particularité d’utiliser comme observations des représentations abstraites de l’état courant des connaissances de l’apprenant, extraites d’un réseau de neurones récurrent. Ceci nous permet d’étudier l’impact du décalage de modèle (en anglais, model mismatch) entre modèle générateur des trajectoires d’apprentissage et d’oubli et modèle utilisé pour l’espacement adaptatif. Nous réutilisons pour ces expériences l’environnement de simulation que nous avions développé auparavant, ainsi que les différentes heuristiques comparées. Nous avons également publié le code Python pour reproduire ces expériences sur GitHub .
Séquence et temporalité dans la modélisation de l’apprenant
L’approche Knowledge Tracing modélise l’évolution de l’état des connaissances d’un apprenant dans le temps afin de prédire sa future séquence de résultats. Le modèle original (A. T. Corbett et al., 1994) et toujours le plus répandu de Knowledge Tracing est celui de Bayesian Knowledge Tracing (BKT). Il est fondé sur un modèle à chaîne de Markov cachée où l’état des connaissances de l’apprenant sur une CC est la variable latente et la maîtrise d’une CC est supposée binaire. Dans ce modèle, un apprenant maîtrise totalement ou pas du tout une CC. À partir des réponses de l’apprenant sur une CC, le modèle BKT permet de déterminer la probabilité que celui-ci la maîtrise. Depuis sa création, BKT a été étendu pour pallier ses limitations et tenir compte, par exemple, des différences inter-individuelles entre les apprenants (Yudelson et al., 2013). Dans (González-Brenes, Huang et al., 2014), les auteurs proposent quant à eux d’étendre le modèle BKT en utilisant des caractéristiques générales pour estimer les paramètres du modèle. Plus récemment, Piech et al. (2015) ont remplacé le cadre original du modèle à chaîne de Markov cachée par un réseau de neurones récurrent (RNN) et ont proposé un nouveau modèle de Knowledge Tracing appelé Deep Knowledge Tracing (DKT). Malgré une légère controverse concernant ses performances réelles (Wilson, Xiong et al., 2016 ; M. Khajah et al., 2016), des travaux récents continuent à développer cet axe de recherche (Zhang et al., 2017 ; Minn et al., 2018; Ghosh et al., 2020).
Limites des modèles exposés
Comme nous l’avons exposé dans cette section, plusieurs modèles intègrent l’oubli de manière explicite ou motivée sur le plan cognitif tandis que d’autres tiennent compte des relations entre items et CC. Cependant, aucun ne prend en compte ces deux dimensions à la fois. Ekanadham et al. (2015) introduisent la temporalité dans le modèle IRT mais ne modélisent pas explicitement le phénomène d’oubli et ne permettent pas à un item de mettre en jeu plusieurs CC en même temps. Le modèle de Bayesian Knowledge Tracing original ne prend en compte que la séquence des interactions et ne considère pas le temps écoulé, par exemple. Ceci peut convenir pour la modélisation de séquences d’activités sur une période courte, mais peut s’avérer problématique quand ces séquences s’étendent sur des périodes plus longues. Pour pallier ce problème, M. Khajah et al. (2016) ont par exemple utilisé un modèle de Bayesian Knowledge Tracing qui permet à la probabilité d’oublier une CC d’être strictement positive. Cependant, dans ce cas, l’oubli ne dépend pas du temps écoulé entre deux interactions avec une CC mais du nombre total d’interactions (incluant potentiellement des interactions avec d’autres CC) entre deux interactions avec une même CC. Dans (González-Brenes et Mostow, 2013), les auteurs introduisent un modèle de Knowledge Tracing qui permet aux items de dépendre de plusieurs CC en même temps; l’oubli pourrait en théorie se produire mais ici aussi, le temps est considéré discret. Dans (Qiu et al., 2011), les auteurs étendent le modèle de Bayesian Knowledge Tracing en permettant à la probabilité d’oubli de changer d’un jour à l’autre. Cependant, ils ne tiennent pas compte de multiples CC. Dans (Nagatani et al., 2019), les auteurs étendent le modèle de Deep Knowledge Tracing pour tenir compte de l’oubli humain en y incorporant le temps écoulé entre deux interactions et le nombre de tentatives passées. Néanmoins, leur modèle n’est pas directement adapté à des items mettant en jeu plus d’une CC à la fois. Leur prise en compte de l’oubli est en outre assez rudimentaire et ne tient pas compte des apports fournis par la psychologie cognitive en la matière. Lindsey et al. rassemblent des items similaires 6 en groupes homogènes, qu’ils appellent « composantes de connaissance ». Ceci revient à supposer un transfert total de connaissance entre deux items appartenant à la même CC. Toutefois, ils ne laissent pas la possibilité à un item de mettre en jeu plusieurs CC en même temps.
Algorithmes sans modèle
La plupart des travaux utilisant des méthodes d’apprentissage par renforcement pour la planification de révisions de flashcards ne s’appuient pas sur un modèle de l’apprenant sous-jacent. Reddy, Levine et al. (2017) utilisent une architecture par renforcement profond pour aborder le problème de l’espacement adaptatif de l’apprentissage. Ce dernier est alors formulé comme un processus de décision markovien partiellement observable (POMDP). Leur algorithme est sans modèle et a seulement accès à l’identifiant de l’item présenté juste avant, si l’apprenant a réussi ou non à se le remémorer, et le temps écoulé entre cette dernière révision et l’instant courant. Ils testent leur algorithme sur des apprenants simulés, avec trois modèles de la mémoire humaine : le modèle d’oubli exponentiel (Reddy, Labutov et al., 2016), la régression demi-vie (Settles et Meeder, 2016) et un modèle de loi de puissance généralisée (Mozer et al., 2016). Ils le comparent à plusieurs références, dont une variante de l’algorithme SuperMemo (Wozniak et al., 1994) et l’heuristique ?-threshold de Lindsey et al. Leurs résultats suggèrent que l’apprentissage par renforcement profond pour la planification de révisions de flashcards est une méthode suffisamment flexible et performante pour concurrencer des heuristiques répandues comme SuperMemo. Cependant, l’algorithme proposé reçoit à chaque itération une récompense dont le calcul requiert la connaissance des probabilités de rappel immédiates sur chacun des items ; il serait donc difficilement utilisable en l’état avec de vrais apprenants. S’inspirant de Tabibian et al., Upadhyay et al. (2018) formalisent un nouveau problème d’apprentissage par renforcement profond dans lequel les actions de l’agent et ce que renvoie l’environnement sont des événements stochastiques et asynchrones en temps continu. Ces événements sont alors modélisés par les auteurs par des processus ponctuels temporels marqués. Upadhyay et al. appliquent la méthode qu’ils ont développée pour résoudre ce type de problème à la planification optimale de révisions de flashcards, sur des données simulées. L’un des avantages de leur algorithme est qu’il est indépendant du modèle spécifique de l’apprenant ; il suppose cependant que l’apprenant peut pratiquer les items à n’importe quel moment. Nous avons décrit plus haut différents algorithmes d’espacement adaptatif de l’apprentissage humain fondés sur des modèles et qui utilisent un score de priorité pour planifier les révisions successives des items. Des algorithmes similaires, ceux-ci sans modèle prédictif de l’apprenant, existent également dans la littérature. Ainsi, Mettler et al. (2016) comparent un planificateur d’espacement adaptatif (Mettler et al., 2011) (appelé ARTS pour Adaptive Response-Time-based Sequencing) à deux conditions d’espacement fixe de l’apprentissage. ARTS utilise les temps de réponse, les performances et le nombre d’essais des apprenants pour calculer dynamiquement un score de priorité pour la planification adaptative de la pratique des items : à chaque révision, l’algorithme compare les scores de priorité de tous les items et choisit celui qui est le plus élevé pour le présenter à l’apprenant. Ce score est calculé de telle sorte que :
— les items que l’apprenant n’arrive pas à se remémorer soient représentés après un court délai, pour éviter qu’ils soient toujours présents dans sa mémoire de travail;
— les items correctement remémorés soient présentés de nouveau après un délai qui est fonction du temps de réponse sur l’item.
Le temps de réponse est en effet ici utilisé comme un indicateur de la difficulté de récupération en mémoire et donc de l’ancrage en mémoire. Leurs résultats montrent que leur algorithme ARTS produit non seulement une meilleure rétention lors d’un test avec délai mais qu’en plus il améliore les temps de réponse lors de ce test.
|
Table des matières
1 Introduction
1.1 Problématiques
1.2 Cadre de recherche
1.3 Notations
1.4 Contributions
1.5 Publications
1.6 Plan
2 État de l’art
2.1 Modélisation de l’apprenant
2.2 Systèmes d’espacement adaptatif et personnalisé de l’apprentissage
2.3 Optimisation de séquences d’apprentissage dans les systèmes tutoriels intelligents
3 DAS3H : un modèle prédictif et interprétable de l’apprentissage et l’oubli de CC
3.1 Introduction
3.2 Limites du modèle DASH
3.3 Description du modèle DAS3H
3.4 Méthodologie expérimentale de validation
3.5 Résultats
3.6 Discussion
3.7 Conclusion
4 Heuristiques d’espacement adaptatif et personnalisé pour la maîtrise à long terme de CC
4.1 Introduction
4.2 Protocole expérimental de comparaison des stratégies
4.3 Stratégies de sélection
4.4 Résultats
4.5 Discussion et analyses complémentaires
4.6 Conclusion
5 Espacement adaptatif de la révision de CC par apprentissage par renforcement profond
5.1 Apprentissage par renforcement et espacement adaptatif de l’apprentissage de CC
5.2 Notre algorithme AC4S
5.3 Expériences
5.4 Discussion
5.5 Conclusion
6 Conclusion
6.1 Résumé des contributions de la thèse
6.2 Cas d’usage des algorithmes développés dans cette thèse
6.3 Perspectives
Bibliographie
Télécharger le rapport complet