GenMA, un modèle hybride adaptatif de diagnostic de connaissances

Télécharger le fichier pdf d’un mémoire de fin d’études

Analytique de l’apprentissage pour l’évaluation

En technologies de l’éducation, il existe deux domaines très proches qui sont celui de la fouille de données éducatives 3 et l’analytique de l’apprentissage. La première consiste à se demander comment extraire de l’information à partir de données éducatives, en utilisant les modèles mathématiques adéquats. La deuxième se veut plus holistique et s’intéresse aux effets que les systèmes éducatifs ont sur l’apprentissage, et comment représenter les informations récoltées sur les apprenants de façon à ce qu’elles puissent être utilisées par des apprenants, des professeurs ou des administrateurs et législateurs.
Plus généralement, l’analytique de l’apprentissage consiste à se demander comment utiliser les données récoltées sur les apprenants pour améliorer l’apprentissage, au sens large.
En ce qui concerne l’évaluation, Chatti et al. (2012) décrivent différents objectifs de l’analytique de l’apprentissage : le besoin d’un retour intelligent dans les évaluations et le problème de déterminer l’activité suivante à présenter à l’apprenant.
Les méthodes utilisées sont regroupées en plusieurs classes : statistiques, visualisation d’information, fouille de données (dont les méthodes d’apprentissage automatique), et analyse de réseaux sociaux.
Comme le disent Desmarais et R. S. J. D. Baker (2012), « Le ratio entre la quantité de faits observés et la largeur de l’évaluation est particulièrement critique pour des systèmes qui couvrent un large nombre de compétences, dans la mesure où il serait inacceptable de poser des questions pendant plusieurs heures avant de faire une évaluation utilisable. » Ils décrivent donc l’importance de réduire la longueur des tests lorsqu’on cherche à évaluer beaucoup de compétences.
Dans les systèmes éducatifs, il y a une différence entre l’adaptativité, la capacité à modifier les contenus des cours en fonction de différents paramètres et d’un ensemble de règles préétablies, et l’adaptabilité, qui consiste à permettre aux apprenants de personnaliser les contenus de cours par eux-mêmes. Chatti et al. (2012) précisent que « des travaux récents en apprentissage adaptatif personnalisé ont critiqué le fait que les approches traditionnelles soient dans une hiérarchie descendante et ignorent le rôle crucial des apprenants dans le processus d’apprentissage. » Il devrait y avoir un meilleur équilibre entre donner à l’apprenant ce qu’il a besoin d’apprendre (adaptativité) et lui donner ce qu’il souhaite apprendre (adaptabilité), de la façon qu’il souhaite l’apprendre (s’il préfère plus d’exemples, ou plus d’exercices). Dans tous les cas, construire un profil des connaissances de l’apprenant est une tâche cruciale.
Comme cas d’utilisation, considérons un nouvel arrivant sur un MOOC. Celuici ayant acquis des connaissances de différents domaines, certains prérequis du cours peuvent ne pas être maîtrisés tandis que d’autres leçons pourraient être sautées. Ainsi, il serait utile de pouvoir évaluer ses besoins et préférences de façon adaptative, pour filtrer le contenu du cours en conséquence et minimiser la surcharge d’information. Lynch et Howlin (2014) décrivent un tel algorithme qui identifie l’état des connaissances d’un apprenant en posant quelques questions au début d’un cours.
En analytique de l’apprentissage, parmi les méthodes employées pour construire des modèles prédictifs, on trouve l’apprentissage automatique 4. Une application populaire consiste à prédire si un apprenant sur un MOOC va obtenir son certificat à partir de différentes variables liées aux traces de l’apprenant : le nombre d’heures passées à consulter les cours, à regarder les vidéos, le nombre de messages postés sur le forum, entre autres. Cela permet de détecter les apprenants en difficulté à un instant donné du cours, pour les inviter à se rendre sur le forum, ou leur indiquer des ressources utiles pour les motiver à continuer. La majorité de ces modèles prédictifs s’attaquent à prédire une certaine variable objectif à partir d’un nombre fixé de variables, mais à notre connaissance, peu de modèles interrogent l’apprenant sur ses besoins et préférences. Nous estimons qu’il reste encore beaucoup de recherche à faire vers des modèles d’analytique de l’apprentissage plus interactifs, et les travaux de cette thèse vont dans ce sens.
Deux éléments issus des systèmes de recommandation peuvent être transposés au cadre éducatif de l’analytique de l’apprentissage. Le premier est la technique du filtrage collaboratif (cf. section 2.3.3 page 39), qui permet de concevoir un système de recommandation de ressources pédagogiques (Chatti et al., 2012 ; Manouselis et al., 2011 ; Verbert et al., 2011). Le second est le problème du démarrage à froid de l’utilisateur, dans la mesure où lorsqu’un nouvel utilisateur utilise un système de recommandation, le système n’a que peu d’information sur lui et doit donc lui poser des questions de façon à éliciter ses préférences.
Le temps de réponse lors d’une évaluation a été étudié en psychologie cognitive, car le temps qu’un apprenant met pour répondre à une question peut indiquer quelques aspects sur le processus cognitif (H.-H. Chang, 2014) et joue un rôle dans la performance (Papamitsiou, Terzis, et Economides, 2014). Cela requiert des modèles statistiques spécifiques que nous ne considérons pas ici.

Modèles de tests adaptatifs

Dans notre cas, nous cherchons à filtrer et à ordonner les questions à poser à un apprenant. Plutôt que de poser les mêmes questions à tout le monde, les tests adaptatifs (Linden et Glas, 2010) choisissent la question suivante à poser à un certain apprenant en fonction des réponses qu’il a données depuis le début du test. Cela permet une adaptation à chaque étape de la séquence de questions. Leur conception repose sur deux critères : un critère de terminaison et un critère de choix de la question suivante. Tant que le critère de terminaison n’est pas satisfait (par exemple, poser un nombre de questions fixé à l’avance), les questions sont posées selon le critère de choix de la question suivante (par exemple, poser la question la plus informative pour déterminer les connaissances de l’apprenant). Lan, Waters, et al. (2014) ont prouvé que de tels tests adaptatifs pouvaient permettre, sur certains jeux de données de tests en mathématiques, d’obtenir une mesure aussi précise que des tests non adaptatifs, tout en requérant moins de questions. Raccourcir la taille des tests est utile à la fois pour le système, qui doit équilibrer la charge du serveur, et pour les apprenants, qui risqueraient de se lasser de devoir fournir trop de réponses (Lynch et Howlin, 2014 ; Chen, Choi, et Darwiche, 2015).
Ainsi, les tests adaptatifs deviennent de plus en plus utiles dans l’ère actuelle des MOOC, où la motivation des apprenants joue un rôle important sur leur apprentissage (Lynch et Howlin, 2014). Lorsqu’on implémente ces tests pour une utilisation réelle, des contraintes supplémentaires s’appliquent : pour qu’un apprenant n’ait pas à patienter longuement entre deux questions du test, le calcul du critère du choix de la question suivante doit se faire dans un temps raisonnable, ainsi la complexité en temps de ce calcul est importante. De même, lorsqu’on évalue des connaissances, un certain degré d’incertitude est à prendre en compte : un apprenant risque de faire des fautes d’inattention ou de deviner une bonne réponse alors qu’il n’a pas compris la question. C’est pourquoi une simple dichotomie sur le niveau de l’apprenant, c’est-à-dire poser des questions plus difficiles lorsqu’un apprenant réussit une question ou poser des questions plus faciles lorsqu’il échoue, n’est pas suffisant. Il faut considérer des méthodes plus robustes, tels que des modèles probabilistes pour l’évaluation des compétences.
Les tests adaptatifs ont été étudiés au cours des dernières années et ont été développés en pratique. Par exemple, 238 536 tests de ce type ont été administrés via le Graduate Management Admission Test (GMAT), développé par le Graduate Management Admission Council (GMAC) entre 2012 et 2013. Étant donné un modèle de l’apprenant (Peña-Ayala, 2014), l’objectif est de fournir une mesure précise des caractéristiques d’un nouvel apprenant tout en minimisant le nombre de questions posées. Ce problème s’appelle la réduction de longueur d’un test (Lan, Waters, et al., 2014) et est également lié à la prédiction de performance future (Bergner, Droschler, et al., 2012 ; Thai-Nghe et al., 2011). En apprentissage automatique, ce problème est connu sous le nom d’apprentissage actif : choisir les éléments à étiqueter de façon adaptative afin de maximiser l’information récoltée à chaque pas.
Dans ce qui suit, nous ne permettons pas à l’apprenant de revenir en arrière pour corriger ses réponses, mais certaines variantes de modèles de tests adaptatifs le permettent (Han, 2013 ; Wang, Fellouris, et H.-H. Chang, 2015).
En fonction du but de l’évaluation, plusieurs modèles peuvent être utilisés, selon si l’on souhaite estimer un niveau général de connaissances, faire un diagnostic détaillé, ou identifier les connaissances maîtrisées par l’apprenant (Mislevy et al., 2012). Dans ce qui suit, nous proposons une répartition de ces modèles dans les trois catégories suivantes : théorie de la réponse à l’item pour des tests sommatifs, modèles de diagnostic cognitif pour des tests formatifs basés sur des composantes de connaissances, et enfin apprentissage automatique.
Dans ce qui suit, on suppose que D désigne la matrice binaire m × n des succès (1) ou échecs (0) des m apprenants sur les n questions d’un test. Ainsi « Dij = 1 » désigne l’événement « L’apprenant i a répondu correctement à la question j ».

Théorie de la réponse à l’item

La théorie de la réponse à l’item consiste à supposer que les réponses d’un apprenant que l’on observe lors d’un test peuvent être expliquées par un certain nombre de valeurs cachées, qu’il convient d’identifier.

Modèle de Rasch

Le modèle le plus simple de tests adaptatifs est le modèle de Rasch, aussi connu sous le nom de modèle logistique à un paramètre. Il modélise un apprenant par une valeur unique de niveau, et les questions ou tâches à résoudre par une valeur de difficulté. La propension d’un apprenant à résoudre une tâche ne dépend que de la différence entre la difficulté de la tâche et le niveau de l’apprenant. Ainsi, si un apprenant i a un niveau θi et souhaite résoudre une question j de difficulté dj : Pr(Dij = 1) = Φ(θi − dj) (2.1) où Φ ∶ x ↦ 1/(1 + e−x) est la fonction logistique. Ainsi, plus l’apprenant a un haut niveau, plus grande est sa chance de répondre correctement à chacune des questions et plus une question a une difficulté basse, plus grande est la chance de n’importe quel apprenant d’y répondre correctement.
Spécifier toutes les valeurs de difficulté à la main serait coûteux pour un expert, et fournirait des valeurs subjectives qui risquent de ne pas correspondre aux données observées. Ce modèle est suffisamment simple pour qu’il soit possible de calibrer automatiquement et de façon efficace les paramètres de niveau et difficulté, à partir d’un historique de réponses. En particulier, aucune connaissance du domaine n’est prise en compte.
Ainsi, lorsqu’un apprenant passe un test, les variables observées sont ses résultats (vrai ou faux) sur les questions qui lui sont posées, et la variable que l’on souhaite estimer est son niveau, en fonction des valeurs de difficulté des questions qui lui ont été posées ainsi que de ses résultats. L’estimation est habituellement faite en déterminant le maximum de vraisemblance, facile à calculer en utilisant la méthode de Newton pour trouver les zéros de la dérivée de la fonction de vraisemblance.
Ainsi, le processus adaptatif devient : étant donné une estimation du niveau de l’apprenant, quelle question poser afin d’obtenir un résultat informatif pour affiner cette estimation ? Il est en effet possible de quantifier l’information que chaque question j donne sur le paramètre de niveau. Il s’agit de l’information de Fisher, définie par la variance du gradient de la log-vraisemblance en fonction du paramètre de niveau :
— dj est la difficulté de la question j ;
— Xj est la variable correspondant au succès/échec de l’apprenant sur la question j : elle vaut 1 si i a répondu correctement à j et 0 sinon ;
— et f (Xj, θ, dj) est la fonction de probabilité que Xj vaille 1, qui dépend de θ comme indiqué plus haut : f (Xj, θ, dj) = Φ(θ − dj).
Ainsi, un test adaptatif peut être conçu de la façon suivante : étant donné l’estimation actuelle du niveau de l’apprenant, choisir la question qui va apporter le plus d’information sur son niveau, mettre à jour l’estimation en fonction du résultat (succès ou échec), et ainsi de suite. À la fin du test, on peut visualiser le processus comme dans les figures 2.1 et 2.2 : l’intervalle de confiance sur le niveau de l’apprenant est réduit après chaque résultat, et les questions sont choisies de façon adaptative.
Le modèle de Rasch est unidimensionnel, donc il ne permet pas d’effectuer un diagnostic cognitif. Il reste pourtant populaire pour sa simplicité, sa généricité (Desmarais et R. S. J. D. Baker, 2012 ; Bergner, Droschler, et al., 2012) et sa robustesse (Bartholomew et al., 2008). Verhelst (2012) a montré qu’avec la simple donnée supplémentaire d’une répartition des questions en catégories, il est possible de renvoyer à l’examiné un profil utile à la fin du test, spécifiant quels sous-scores de catégorie sont plus bas ou plus haut que la moyenne.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Évaluation adaptative à grande échelle
1.2 Diagnostic de connaissances
1.3 Problèmes
1.4 Contributions
1.4.1 Hypothèses
1.4.2 Système de comparaison de tests adaptatifs
1.4.3 GenMA, un modèle hybride adaptatif de diagnostic de connaissances
1.4.4 InitialD, tirer les k premières questions pour démarrer
1.5 Publications
1.6 Plan
2 État de l’art
2.1 Introduction
2.2 Analytique de l’apprentissage pour l’évaluation
2.3 Modèles de tests adaptatifs
2.3.1 Théorie de la réponse à l’item
2.3.2 Modèles de diagnostic cognitif basés sur les composantes de connaissances
2.3.3 Lien avec l’apprentissage automatique
2.4 Comparaison de modèles de tests adaptatifs
2.5 Conclusion
3 Système de comparaison de modèles de tests adaptatifs
3.1 Introduction
3.2 Composants modulables d’un test adaptatif
3.2.1 Modèle de réponse de l’apprenant
3.2.2 Calibrage des caractéristiques
3.2.3 Initialisation des paramètres d’un nouvel apprenant
3.2.4 Choix de la question suivante
12 Table des matières
3.2.5 Retour fait à la fin du test
3.3 Évaluation qualitative
3.4 Méthodologie de comparaison quantitative de modèles
3.4.1 Apprentissage automatique à partir d’exemples
3.4.2 Extraction automatique de q-matrice
3.4.3 Validation bicroisée
3.4.4 Évaluation quantitative
3.4.5 Jeux de données
3.4.6 Spécification des modèles
3.5 Résultats
3.5.1 Évaluation qualitative
3.5.2 Évaluation quantitative
3.5.3 Discussion
3.6 Applications aux MOOC
3.6.1 Méthodologie de choix de modèles
3.6.2 Simulation d’un test adaptatif
3.7 Conclusion
4 GenMA : un modèle hybride de diagnostic de connaissances
4.1 Introduction
4.2 Extraction de caractéristiques cachées
4.2.1 Factorisation de matrice pour la réduction de dimension
4.2.2 Analyse en composantes principales
4.2.3 Analyse de facteurs
4.2.4 Théorie de la réponse à l’item multidimensionnelle
4.3 Description du modèle GenMA
4.3.1 Modèle de réponse de l’apprenant sur une question
4.3.2 Calibrage des caractéristiques
4.3.3 Initialisation des paramètres d’un nouvel apprenant
4.3.4 Choix de la question suivante
4.3.5 Estimation des caractéristiques d’un nouvel apprenant
4.3.6 Retour à la fin du test
4.4 Validation
4.4.1 Qualitative
4.4.2 Modèles comparés
4.4.3 Jeux de données
4.4.4 Implémentation
4.4.5 Résultats et discussion
4.5 Conclusion
5 InitialD : une heuristique pour le démarrage à froid
5.1 Introduction
5.1.1 Caractérisation de la qualité d’un ensemble de questions
5.1.2 Visualisation géométrique d’un test adaptatif
5.1.3 Stratégies de choix de k questions
5.2 Processus à point déterminantal
5.3 Description de la stratégie InitialD
5.4 Validation
5.4.1 Stratégies comparées
5.4.2 Jeux de données réelles
5.4.3 Protocole expérimental
5.4.4 Résultats
5.4.5 Discussion et applications
5.5 Conclusion
6 Conclusion et perspectives
6.1 Conclusion
6.1.1 Travaux effectués
6.1.2 Limitations
6.2 Perspectives
6.2.1 Extraction de q-matrice automatique
6.2.2 Tester différentes initialisations des modèles de tests adaptatifs
6.2.3 Différents noyaux pour InitialD
6.2.4 Largeur optimale du prétest non adaptatif
6.2.5 Généralisation de la théorie de la réponse à l’item multidimensionnelle
6.2.6 Prendre en compte la progression de l’apprenant pendant le test
6.2.7 Incorporer des informations supplémentaires sur les questions et les apprenants
6.2.8 Considérer une représentation plus riche du domaine
6.2.9 Incorporer des générateurs automatiques d’exercices
6.2.10 Incorporer des systèmes de recommandation de ressources
6.2.11 Considérer des interfaces plus riches pour l’évaluation
6.2.12 Évaluation furtive dans les jeux sérieux
6.3 Le futur de l’évaluation
A Implémentation des modèles
A.1 Modèles de tests adaptatifs
A.2 Comparaison quantitative