Conception des évaluations externes standardisées-questions de validité

La DEPP et l’évaluation du système éducatif français : quelles évaluations ? Pour quels usages ?

Évaluations nationales et internationales : des enjeux différents et une exploitation parfois « ambigüe »

Il ne s’agit pas ici d’entrer dans l’histoire des évaluations externes en France (nous renvoyons pour cela à Bottani & Vrignaud (2005) et Troseille & Rocher (2015)), mais de comprendre comment s’est créée une certaine ambigüité sur les outils d’évaluation, entre des évaluations sensées être « bilan » et les autres supposées être « diagnostiques », et de voir les objectifs qui leur sont assignés.

Depuis une quarantaine d’années des évaluations standardisées sont menées en France avec des objectifs qui diffèrent selon la période : des évaluations « bilans » pour mesurer les acquis des élèves entre les années 1975 et 1989, des évaluations diagnostiques de masse devant outiller les enseignants pour l’évaluation de leurs élèves dans les années 1990 – 2000, et dernièrement des évaluations bilans à visées comparatives nationales et internationales (Troseille & Rocher 2015). Si nous pouvons repérer a priori deux orientations distinctes données à ces évaluations, les évaluations bilans axées sur les populations servant au pilotage du système éducatif et les évaluations diagnostiques, axées sur les élèves, destinées aux enseignants pour évaluer leurs élèves, l’exploitation dans la réalité en a été tout autre : les évaluations diagnostiques ont été détournées de leur objectif premier à partir de 2008. Non seulement, il leur a été attribué à la fois une fonction diagnostique et bilan (les évaluations ne sont plus menées à l’entrée du CE2 ou de la 6ème, mais au cours de l’année de CE1 et de CM2), mais elles sont aussi utilisées à des fins de pilotage. (Troseille & Rocher 2015).

Cette confusion a non seulement créé une certaine « ambigüité », mais n’a pas favorisé l’exploitation par les enseignants des outils diagnostiques mis à leur disposition. Par ailleurs si la DEPP qui coordonne les évaluations standardisées s’attache à une standardisation des passations pour pouvoir mener des comparaisons temporelles ou longitudinales, les conditions dans lesquelles les évaluations diagnostiques étaient passées ne permettaient guère de telles comparaisons (Bardi & Mégard 2009, Troseille & Rocher 2015).

La mise en place, par le Ministère de l’éducation nationale, à partir de 2007, d’évaluations bilans (en particulier avec le cycle d’évaluation CEDRE) ayant pour seul enjeu d’évaluer les acquis des élèves est une des réponses à l’ambigüité soulevée précédemment ; les différentes évaluations externes sur échantillon qui se sont alors développées visent ainsi : à évaluer la mise en application de la LOLF (Loi organique relative aux lois de finances ), à mettre en perspective des résultats des élèves aux évaluations internationales avec ceux obtenus aux évaluations nationales et enfin, à favoriser la mise en œuvre des programmes de 2008.

Quelles évaluations externes en mathématiques en fin d’école ?

Nous avons établi la liste des évaluations externes existant en fin d’école (Annexe 1) pour évaluer les élèves en mathématiques. Si nous constatons, actuellement, la disparition d’évaluations diagnostiques (voire celle d’outils diagnostiques, tels que ceux qui existaient dans la Banqoutils), nous retrouvons les trois visées définies précédemment, avec des rythmes de passation différents selon que sont évalués :
– les acquis au regard des programmes scolaires : bilan CEDRE tous les 6 ans (2008 et 2014 en mathématiques)
– des compétences « de base » dans le cadre de la LOLF (tous les ans)
– les connaissances en calcul pour des comparaisons temporelles (1987-2007 2014)
– les connaissances au regard des programmes scolaires de plusieurs pays (TIMSS) à partir de 2015.

Ces différentes évaluations, conçues et analysées d’un point de vue institutionnel, donnent lieu à la diffusion de notes d’information publiées par la DEPP ou de différentes publications institutionnelles (par exemple, Lescure & Pastor 2012). Le cas de l’évaluation TIMSS est légèrement différent et fait l’objet de publications plus larges puisque cette évaluation est menée à l’échelle internationale (Mullis & al. 2013). Pour la thèse, nous centrons notre travail sur le bilan CEDRE, mais nous serons amenée au cours de notre travail à évoquer aussi ponctuellement les autres évaluations.

Quels usages de ces évaluations externes ?

Après avoir présenté les différentes évaluations externes existantes en fin d’école en France, nous revenons sur l’exploitation de leurs résultats en lien avec leurs objectifs ; nous avons déjà évoqué l’usage des évaluations nationales (à l’entrée en 6ème ou au CM2) par les enseignants et l’ambigüité qui les accompagnait, nous abordons désormais la question de l’usage de ces évaluations par les décideurs d’abord mais aussi par les chercheurs, notamment en didactique.

Les évaluations que nous avons listées précédemment et auxquelles nous nous intéressons sont plutôt vouées à rendre compte des résultats de population d’élèves nationalement et internationalement ; elles peuvent conduire à des comparaisons :
– temporelles pour chacune d’entre elles puisqu’elles sont reconduites régulièrement ; pour permettre la comparabilité des résultats entre les différentes années, des items identiques (d’ancrage) sont proposés lors des différentes passations. La plupart des items ne sont pas rendus publics, en particulier ceux d’ancrage, pour que les évaluations puissent être reconduites et que leurs résultats puissent être comparés ;
– au niveau des systèmes éducatifs dans le cadre de TIMSS ; nous détaillerons le cadre de cette évaluation dans le paragraphe III.

Leurs conclusions ne portent pas uniquement sur l’évolution ou la comparaison des résultats des élèves : les résultats de PISA 2012 (Kaspaik & Salles 2013) ont ainsi montré que la performance des élèves français était corrélée avec le niveau socio-économique et culturel des familles et plus récemment, les résultats du bilan CEDRE école 2014 (Dalibard & Pastor 2015) ont conduit à un constat similaire. Par ailleurs, les évaluations nationales et internationales se révèlent être complémentaires entre elles, par exemple, dans la mise en perspective de résultats obtenus à une évaluation internationale avec ceux obtenus à des évaluations nationales . De façon plus générale, c’est un double rôle qui est attribué à ces évaluations externes standardisées, à la fois, outils de régulation et outils de mesure :

« il apparait, à travers la définition de ces cadres théoriques politiques, que l’évaluation standardisée y joue un double rôle essentiel : instrument de régulation, elle permet l’articulation entre différentes politiques éducatives emblématiques des réformes d’envergure entamées dans la très grande majorité des pays de l’OCDE ; outil de mesure, elle sert à l’évaluation de ces mêmes réformes ». Mons (2009, p.10) .

Si « la mise en œuvre de politiques éducatives se réfère aujourd’hui systématiquement à ces évaluations, en particulier aux évaluations internationales» (Troseille & Rocher 2015), ce sont aussi des « instruments d’information », dont les résultats sont de plus en plus relayés par les médias d’informations générales (et pas seulement les médias spécialisés), et qui peuvent faire l’objet d’une certaine « instrumentalisation politique » (Ibid se référant à Mons 2008).

D’un point de vue médiatique, si c’est principalement la hausse ou la baisse des résultats qui est soulignée et mise en avant, certains documents institutionnels exploitent de façon plus ciblée les résultats de ces évaluations, comme en témoigne les premiers chapitres des actes de la conférence nationale sur l’enseignement des mathématiques en 2011, dont les titres sont assez éclairants : « Ce que nous apportent les évaluations standardisées sur les acquis des élèves à la fin de l’école primaire en mathématiques » (Chesné 2012), « Les résultats des élèves aux évaluations CEDRE 2008 et les besoins qu’ils révèlent » (Huguet 2012). Comme nous l’avons évoqué précédemment avec les travaux de Mons (2009), mais aussi avec ceux de Pons (2010), si les résultats de ces évaluations sont exploités par les décideurs, nous constatons qu’ils sont aussi le point de départ d’interrogation sur l’enseignement et les programmes du côté des chercheurs, comme en témoigne le bulletin de veille de l’IFE n°102 (Feyfant 2015) qui s’appuie sur les résultats des évaluations nationales et internationales pour interroger l’apprentissage des nombres et des opérations à l’école.

Si l’évaluation PISA fait l’objet de nombreuses recherches et si ses résultats sont largement commentés dans les médias généralistes et spécialisés, notons que les évaluations externes menées à l’école jusqu’à présent étaient principalement nationales (mis à part TIMSS en 1995, qui est reconduite désormais à partir de 2015), et leurs résultats étaient peu diffusés, hors d’une sphère de spécialistes. Nous soulignons tout de même la volonté de la DEPP de diffuser plus largement les résultats de ces enquêtes, avec la publication d’ouvrages destinés aux enseignants et aux formateurs (Lescure & Pastor 2012), mais aussi de rendre publics certains items afin qu’ils puissent être exploités en formation. Ce n’est pas tant aux usages et aux éventuels effets de ces évaluations sur les pratiques qu’au contenu ou aux résultats de ces évaluations que les didacticiens des mathématiques se sont intéressés, mise à part récemment la thèse de Ruminot Vergara (2014) que nous avons déjà évoquée ; les résultats globaux sont plutôt le point de départ d’une question de recherche (comme par exemple Tempier 2013, p.10 et p.73) visant à interroger les savoirs appris aux regards de ceux enseignés et/ou à enseigner.

Premières considérations sur la validité d’une évaluation

Pour toute évaluation, qu’elle soit externe ou non, le concepteur veille prioritairement à ce qu’elle soit valide, c’est-à-dire qu’elle permette d’évaluer ce pour quoi elle a été conçue, et uniquement cela ; c’est à la question de validité d’une évaluation et de preuves de cette dernière que nous consacrons ce paragraphe. Si la qualité de la méthodologie statistique employée dans les études internationales est soulignée comme excellente (Bottani & Vrignaud 2005, Baudelot & Establet 2009), le contenu de ces mêmes évaluations n’est pas toujours mis en perspective avec les résultats produits, pour une raison qui semble assez simple : les exercices des évaluations externes sont rarement rendus publics et par conséquent, il est difficile de faire une analyse précise du contenu global de l’évaluation. Par contre, il est fréquent, notamment en didactique des mathématiques, qu’un exercice issu des évaluations externes soit utilisé dans le cadre d’une analyse locale de sa validité (Bodin 2006a, 2006b, Ruminot-Vergara 2014, Artigue & Winslow 2010). Pour mieux comprendre comment les évaluations externes sont conçues et les critères de qualité qui leur sont attribués, mais aussi pour introduire certaines questions didactiques liées au contenu de l’évaluation, nous revenons d’abord dans un premier paragraphe sur les critères de qualité d’une évaluation, et en particulier nous définissons celui de la validité ; par la suite, nous explicitons les différentes preuves de validité qui peuvent être apportées, ce sur quoi elles s’appuient et en quoi elles se révèlent être complémentaires.

Quels sont les critères de qualité d’une évaluation ?

Comme nous l’avons souligné lors de la définition de l’évaluation (paragraphe I.1), trois critères peuvent garantir la qualité d’une évaluation : la pertinence, la validité et la fiabilité (De Ketele 1989). Que signifient ces trois termes ? En quoi diffèrent-ils les uns des autres ? Si l’appréciation de la qualité des résultats d’une évaluation se fait en psychométrie grâce à des instruments de mesure basés sur des modèles issus de la théorie des tests, ils permettent, comme tout modèle, une certaine simplification de la réalité, mais aucun d’eux n’est parfait (Laveault & Grégoire 2005, p. 97) : quelles sont alors les limites de ces modèles ? Sur quels postulats reposent-ils ? Comment le contenu du test (c’est-à-dire l’ensemble des items accompagné des modalités de passation et de codage des réponses) est-il lui-même « évalué » ?

De Ketele & Gerard (2005) listent trois conditions nécessaires pour avoir une évaluation de qualité, à savoir, la pertinence, la validité et la fidélité :

« La pertinence est le caractère plus ou moins approprié de l’épreuve, selon qu’elle s’inscrit dans la ligne des objectifs visés […] C’est son degré de « compatibilité » avec les autres éléments du système auquel elle appartient […]. La validité est le degré d’adéquation entre ce que l’on déclare faire (évaluer telle ou telle dimension) et ce que l’on fait réellement, entre ce que l’outil mesure et ce qu’il prétend mesurer […]. La fiabilité est le degré de confiance que l’on peut accorder aux résultats observés : seront ils les mêmes si on recueille l’information à un autre moment, avec un autre outil, par une autre personne, etc. ? Elle nous renseigne sur le degré de relation qui existe entre la note obtenue et la note vraie […].Il ne faut cependant pas perdre de vue que la note vraie est une abstraction, un point de convergence souhaité indépendant des évaluateurs et des circonstances. » De Ketele & Gerard (2005).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
I Évaluation et didactique : considérations générales
I.1 Qu’évalue-t-on ? Comment ? Dans quels buts ?
I.1.1 Des définitions de l’évaluation
I.1.2 Quelle évaluation pour quels enjeux ?
I.2 Évaluer des compétences
I.2.1 Aperçu de la notion de compétence
I.2.2 La notion de compétence en didactique des mathématiques
II Conception des évaluations externes standardisées-questions de validité
II.1 La DEPP et l’évaluation du système éducatif français : quelles évaluations ? Pour quels usages ?
II.1.1 Évaluations nationales et internationales : des enjeux différents et une exploitation parfois « ambigüe »
II.1.2 Quelles évaluations externes en mathématiques en fin d’école ?
II.1.3 Quels usages de ces évaluations externes ?
II.2 Premières considérations sur la validité d’une évaluation
II.2.1 Quels sont les critères de qualité d’une évaluation ?
II.2.2 Preuves de validité liées au contenu du test
II.2.3 Preuves de validité liées aux processus de réponse
II.2.4 Preuves de validité liées à la structure interne du test
II.3 Éléments de méthodologie en psychométrie
II.3.1 La théorie classique des tests
II.3.2 Les modèles de réponse à l’item (MRI)
II.3.3 Les limites de la psychométrie
III Étapes de conception d’une évaluation : illustration des questionnements didactiques à partir d’évaluations externes existantes
III.1.1 Étapes 1 et 2 : Déterminer les utilisations et définir ce que l’on souhaite mesurer
III.1.2 Étape 3 : la conception des items
III.1.3 Étape 4 : l’évaluation des items
III.1.4 Étape 5 : la détermination des propriétés métriques du test définitif
III.1.5 Exploitation secondaire des données récoltées
IV Synthèse – évaluation & didactique : les questions retenues
IV.1 Définir un référent
IV.2 Apporter des preuves de validité
IV.3 Interroger les résultats produits
IV.4 Construire un outil diagnostique
V Problématique
V.1 Choix théoriques
V.1.1 L’approche anthropologique
V.1.2 La prise en compte du cognitif
V.2 Éléments théoriques empruntés à la TAD
V.2.1 La structure du domaine d’étude
V.2.2 Le modèle de Bosch et Gascon comme point de départ
V.3 Formulation de la problématique
CONCLUSION