Le processus d’établissement des scores et du score de passage

Télécharger le fichier pdf d’un mémoire de fin d’études

Les principes du TCS :

Le but du TCS est l’analyse d’une étape au sein d’un processus de raisonnement et non le résultat de ce processus. Il permet de mesurer le degré d’organisation des connaissances, vérifie si les connaissances sont élaborées (c’est-à-dire organisées pour agir efficacement dans le contexte clinique), plutôt que la simple présence de ces connaissances.
Par ailleurs, le TCS est un outil d’évaluation dont l’optique est centrée sur la pratique clinique. Or, comme le rapporte Schön (7), les professionnels de santé sont confrontés dans leur pratique à deux types de problèmes:
• Les problèmes simples, bien structurés : l’ensemble des données nécessaires est accessible d’emblée et la solution résulte d’une simple application des connaissances, les professionnels s’accordent en général sur la solution à apporter.
• Les problèmes complexes, mal structurés : les données du problème ne sont pas toutes disponibles d’emblée, la solution n’est pas univoque et nécessite une réflexion mobilisant des connaissances diverses. Les professionnels sont souvent en désaccord sur la solution à apporter, même s’ils parviennent généralement aux mêmes diagnostics et à des décisions similaires en matière de prise en charge des patients.
Les problèmes auxquels les professionnels de santé sont le plus souvent confrontés dans leur pratique quotidienne sont complexes. Le TCS explore le processus de raisonnement clinique mis en œuvre en contexte d’incertitude dans des situations cliniques complexes, ambiguës et donc au plus proche de la pratique quotidienne.

Format du TCS :

Les questions d’un TCS se présentent sous forme de vignettes qui correspondent à des situations courantes rencontrées en pratique clinique. Chaque vignette est volontairement courte car ceci participe à créer de l’incertitude; les données sont volontairement ambiguës ou des informations sont manquantes. Chaque cas de TCS doit être un problème même pour un médecin expérimenté.
On présente au candidat une hypothèse initiale de diagnostic, d’investigation, de traitement ou de pronostic. Le candidat est invité à évaluer l’impact d’une nouvelle information sur cette hypothèse initiale par le choix d’un des cinq échelons de l’échelle de Likert (l’hypothèse initiale est-elle éliminée, moins probable, inchangée, plus probable ou certaine?).

Le processus d’établissement des scores et du score de passage:

Le TCS est un format de test original puisqu’il n’y a pas qu’une seule bonne réponse à un item.
On fait une évaluation du degré de concordance entre les réponses de l’étudiant et celles d’un panel de référence constitué de médecins expérimentés (anonymes et experts de la spécialité). Les réponses des experts sont utilisées pour bâtir la grille de correction, qui constitue la référence pour déterminer le score du candidat, par une méthode de pondération des choix de réponse (les points sont attribués proportionnellement à la répartition de la réponse des experts à la question). La réponse de chaque membre du panel de référence est ainsi prise en compte, la méthode permet de prendre en compte la variabilité trouvée habituellement entre médecins expérimentés lorsqu’ils répondent à des questions complexes.
On établit enfin un score de passage en deçà duquel un étudiant est recalé à l’examen (habituellement 2 écarts-type en dessous de la moyenne du panel de référence) (8).

Forces et faiblesses du TCS :

Le TCS est maintenant un outil assez répandu et son utilisation a fait l’objet de recommandations et de guides de bonne pratique à l’usage des enseignants en professions de santé (9–11). Il peut être utilisé sous forme papier ou en ligne (12). Il peut être utilisé aussi bien en évaluation formative (13) qu’en évaluation sommative (9), même si comme nous allons le voir sa validité pour son utilisation lors d’examens à enjeu élevé est débattue (14).
Le TCS a démontré sa validité de construit (c’est-à-dire que les cliniciens expérimentés réussissent mieux le TCS que les étudiants) ainsi que sa fidélité (cohérence interne mesurée par le coefficient alpha de Cronbach) au travers de son application dans de nombreuses spécialités médicales ou paramédicales (15,16). Sa validité prédictive a également été démontrée (les étudiants qui réussissent le TCS à un instant donné réussiront de nouveau si le TCS est réadministré plus tard dans leur cursus) (17). Les TCS sont relativement faciles à créer, à administrer et à corriger (correction automatisée possible) (11). L’acceptabilité du format de ce test par les étudiants est bonne (18).
En revanche, de nombreux points sont le sujet de débats dans la littérature:
• Depuis ses débuts la détermination d’un score de passage est le problème du TCS (9). Cependant la détermination d’un score de réussite est toujours arbitraire pour n’importe quelle méthode d’évaluation. Une étude a comparé différentes méthodes de détermination du score de passage (19) mais n’a pas retrouvé de différences entre elles.
• En 2013, Lineberry et al.(14) pointent du doigt le fait que la plupart des études évaluant la fidélité du TCS n’utilisent comme critère d’appréciation que le coefficient alpha de Cronbach et qu’elles mettent de côté les autres critères de fidélité comme notamment la fidélité inter-juge (stabilité des réponses des experts selon les jurys).
• Lineberry et al. suggèrent également que la validité de contenu du test peut être remise en question par le fait que la méthode d’établissement des scores prend en compte la variabilité de réponse de tous les experts, y compris ceux qui pourraient être considérés comme déviants.
• Enfin, Lineberry et al. mettent en avant le processus par lequel un étudiant qui éviterait les réponses situées aux deux extrêmes de l’échelle de Likert (réponses A ou E) ou qui choisirait tout le temps la réponse située au milieu de l’échelle (réponse C) augmenterait son score de façon non négligeable.

BUTS DE L’ÉTUDE :

Le TCS est utilisé en fin d’internat de médecine générale à Rouen à but sommatif depuis de nombreuses années. Sa réussite fait partie des conditions de validation du diplôme d’étude spécialisé (DES) de médecine générale. Or il n’existe que très peu d’études dans la littérature concernant les TCS en évaluation sommative (20). Nous avons décidé d’utiliser les résultats aux TCS à Rouen sur plusieurs années afin d’étudier les points suivants :
• La fidélité inter-juge concernant 21 items communs aux TCS ayant été administrés de 2011 à 2013.
• L’utilité de l’analyse d’items et de l’amélioration a posteriori du coefficient alpha (en éliminant du test les items ayant une faible corrélation par rapport au score total du test, ce que nous nommerons par la suite la corrélation item/examen) : cette manœuvre provoque-t-elle une modification des scores des étudiants et par conséquent de leur classement ?
• L’intérêt d’exclure les experts déviants : est-ce que cela modifie le classement des étudiants ?
• Le problème des réponses faites au hasard et du style de réponse des candidats : un candidat qui répondrait au hasard ou qui éviterait volontairement les réponses modales extrêmes sur l’échelle de Likert améliorerait-il de façon significative sa note et donc son classement?

MÉTHODES :

Les résultats des internes de médecine générale et des experts aux TCS à Rouen en DES de médecine générale entre 2011 et 2016 ont été analysés de façon rétrospective.
L’examen était composé chaque année de 90 questions et durait 90 minutes. Les experts ont systématiquement répondu à l’examen en même temps que les internes dans le même amphithéâtre afin d’être exactement dans les mêmes conditions. Les experts choisissaient pour chaque question la réponse qui leur semblait être la meilleure ainsi que la réponse qui leur semblait être la plus mauvaise; un point négatif était alors accordé à cet échelon dans la clef de notation, si bien que la note finale de l’étudiant à un item (et même à l’examen) pouvait être négative.

Fidélité inter-juge :

La corrélation intra-classe (ICC) a été calculée entre les points accordés par les experts à chaque échelon de l’échelle de Likert concernant les 21 questions communes servies aux TCS de 2011 à 2013 (il n’y avait pas de questions en commun les autres années). L’ICC est utilisée pour mesurer le degré de consensus entre 2 (ou plus) évaluateurs ou méthodes d’évaluation. Un ICC>0.7 traduit un accord fort et un ICC>0.8 traduit un accord presque parfait.
Afin de mieux apprécier l’aspect des réponses du panel d’experts selon les années, un graphique à colonnes a été construit pour chaque question avec en abscisse les échelons de l’échelle de Likert et en ordonnée la note accordée à cet échelon.
Puis une simulation a été effectuée ainsi qu’une comparaison des notes et du classement qu’auraient eu les étudiants de la session 2013 sur ces 21 questions en fonction des jurys entre 2011 et 2013.
L’ICC a été calculée entre les pourcentages d’étudiants ayant choisi chacun des échelons de l’échelle de Likert chaque année sur ces mêmes questions communes entre 2011 et 2013, afin d’observer si cette corrélation était globalement comparable à celle des experts.

Analyse d’items :

Le coefficient alpha de Cronbach a été calculé pour les épreuves de 2011 à 2016 (sauf 2014, année pour laquelle nous n’avons pas pu obtenir toutes les données nécessaires au calcul). Un coefficient alpha est considéré acceptable s’il est supérieur à 0.7 et plus il se rapproche de 1, plus le construit mesuré est homogène.
Pour les 21 questions communes de 2011 à 2013 la corrélation item/examen (sur le nombre total de questions à l’examen) concernant chaque item chaque année a été calculée afin d’observer s’il existait une stabilité globale des corrélations en fonction des années.
Pour les sessions 2013, 2015 et 2016 la corrélation item/examen concernant chaque item a été calculée (les données nécessaires au calcul n’étaient pas disponibles pour les autres années). Une simulation des notes des étudiants a été effectuée ainsi qu’une comparaison de leur classement virtuel en fonction de l’élimination ou non des items à moins bonne corrélation (corrélation négative ou <0.1). Ceci nous a permis d’apprécier si l’amélioration a posteriori du coefficient alpha avait un quelconque effet sur le classement des étudiants et sur leur élimination ou non à l’examen.

Experts déviants :

Pour l’année 2013 il a été effectué un calcul des notes qu’auraient eu les étudiants en ayant au préalable éliminé les réponses des experts déviants de la clef de notation (experts dont la note était inférieure à -1DS par rapport à la moyenne des notes obtenues par les experts). Ceci nous a permis d’apprécier si l’exclusion des experts déviants avait un effet sur le classement des étudiants et sur leur élimination ou non à l’examen. Les données nécessaires au calcul n’étaient pas disponibles pour les autres années.

Réponses faites au hasard et stratégies de réponse :

Pour les sessions 2013, 2015 et 2016 il été effectué un calcul de la note et du nouveau classement qu’aurait eu l’étudiant classé en dernière position s’il avait systématiquement pour chaque question évité de répondre en choisissant les deux échelons extrêmes de l’échelle de Likert (A et E).
Pour ces mêmes sessions 2013, 2015 et 2016 il a ensuite été effectué un calcul de la note et du classement qu’aurait obtenu un étudiant virtuel qui aurait répondu systématiquement B. Le même calcul a été effectué concernant les échelons C et D.
Les données nécessaires à ces calculs n’étaient pas disponibles pour les autres années.

RÉSULTATS :

Les étudiants étaient respectivement au nombre de 82, 74, 73, 78, 70 et 106 aux sessions des TCS de 2011 à 2016. Les experts étaient respectivement au nombre de 32, 32, 34, 26, 30 et 29 aux mêmes sessions.

Fidélité inter-juge :

La corrélation intra-classe entre les notes des experts aux 21 questions communes de 2011 à 2013 était de 0.984. Au vu de cette forte corrélation, il en découle un aspect graphique des réponses du panel visuellement comparable d’une année sur l’autre comme on peut le voir dans la figure 1 (sauf pour 2 questions pour lesquelles l’homogénéité peut être discutable, cf figure 2).
La simulation effectuée en prenant les réponses des étudiants de la session 2013 sur les 21 questions communes et en calculant leur note et classement en fonction des notes attribuées par les différents jurys de 2011, 2012 et 2013 donnaient un classement similaire d’une année sur l’autre : les 5 derniers étudiants étaient systématiquement les mêmes.
La corrélation intra-classe entre les pourcentages des effectifs d’étudiants ayant répondu A, B, C, D ou E en fonction des 3 années était de 0.97. Un seul item avait une corrélation un peu plus faible de 0.74 (cf. figure 3), alors que pour tous les autres items la corrélation était supérieure à 0.9 ; Cet item fait partie des 2 items dont l’aspect graphique des réponses du panel d’expert paraissait moins homogène sur 3 années.

Analyse des items :

Le coefficient alpha de Cronbach était respectivement égal à 0.71, 0.73 et 0.84 de 2011 à 2013. En 2015, le Cronbach était égal à 0.66 et en 2016, à 0.77.
Concernant la comparaison des corrélations item/examen des 21 questions (en prenant le score total aux 90 questions chaque année) : les corrélations n’étaient pas tout à fait stables d’une année sur l’autre. 4 items obtenaient une fois sur les 3 ans une corrélation négative et 1 item obtenait une fois une corrélation inférieure à 0.1, alors que les autres années les corrélations de ces items étaient bonnes (>0.1) voire très bonnes (>0.4).
Après avoir éliminé les items à corrélation inférieure à 0.1 pour les examens de 2013, 2015 et 2016, il a été conservé respectivement 82, 62 et 67 items pour 2013, 2015 et 2016. Les coefficients alpha de Cronbach en résultant étaient respectivement égaux à 0.86 (amélioration +0.02), 0.77 (+0.11) et 0.83 (+0.06) pour 2013, 2015 et 2016. Les classements virtuels en résultant ne montraient pas de différence pour la session 2013. Les étudiants éliminés (dont la note était inférieure à 2 écarts -type par rapport à la moyenne des étudiants) auraient été les mêmes. Pour la session 2015, 1 étudiant supplémentaire aurait été éliminé. Pour la session 2016, à l’inverse, 1 étudiant n’aurait pas été éliminé alors qu’il l’avait été lors de l’examen comprenant 90 questions.

Experts déviants :

Après élimination des réponses des experts déviants (dont la note était inférieure à -1 DS par rapport à la moyenne du panel) de la clé de notation pour la session 2013, il restait 23 experts sur 29 et les étudiants éliminés auraient été les mêmes.

Réponses faites au hasard et stratégies de réponses :

Après avoir éliminé les réponses modales extrêmes de l’étudiant arrivé en dernière position du classement pour les sessions 2013, 2015 et 2016 (nous avons transformé leurs réponses A en réponses B et leurs réponses E en réponse D), nous avons obtenu les résultats suivants :
• En 2013, l’examen comportait 8 items à réponse modale extrême (soit 9% des items). L’étudiant arrivé dernier avait répondu de façon extrême à 39 items (soit 43%). Adopter la stratégie consistant à éviter les réponses A et E lui aurait permis de passer de la 73ème à la 61ème place du classement et ainsi il n’aurait pas été éliminé.
• En 2015, l’examen comportait 18 items à réponse modale extrême (soit 20% des items). L’étudiant arrivé dernier avait répondu de façon extrême à 29 items (soit 32%). Adopter la stratégie consistant à éviter les réponses A et E ne lui aurait pas permis de modifier son classement et il aurait été éliminé de toute façon.
• En 2016, l’examen comportait 7 items à réponse modale extrême (soit 8% des items). L’étudiant arrivé dernier avait répondu de façon extrême à 43 items (soit 48%). Adopter la stratégie consistant à éviter les réponses A et E lui aurait permis de passer de la 106ème à la 40ème place et ainsi il n’aurait pas été éliminé.
Concernant les réponses faites au hasard en 2013, 2015 et 2016:
• Un étudiant qui aurait répondu systématiquement B à toutes les questions du TCS n’aurait été éliminé à aucune session sur les 3.
• Un étudiant ayant répondu C à toutes les questions n’aurait pas été éliminé en 2013 mais il l’aurait été en 2015 et 2016.
• Un étudiant ayant répondu D aurait été éliminé à chaque fois.

DISCUSSION :

Cette étude a pour originalité d’étudier la fidélité inter-juge en évaluation sommative entre des panels recrutés à l’intérieur de la même spécialité et dont l’origine géographique est similaire, ce qui n’avait pas encore été rapporté à notre connaissance dans la littérature. Nous allons désormais discuter point par point nos résultats :
Fidélité inter-juge :
La corrélation intra-classe des experts entre 2011 et 2013 s’est révélée excellente. Changer de jury n’a pas modifié le classement des étudiants de la session 2013 concernant les 21 questions étudiées. Les étudiants ont répondu également de façon homogène à 20 questions sur les 21 questions étudiées en 2011, 2012 et 2013.
Cependant, il faut rappeler que nous n’avons pu calculer la fidélité inter-juge que pour 21 questions. Il aurait été plus probant de pouvoir réaliser cette étude sur l’ensemble de l’examen qui comprend 90 questions. Par ailleurs, les 21 questions étudiées avaient été sélectionnées de nouveau en 2012 et 2013 en raison d’une bonne corrélation item/examen retrouvée en 2011 ; ceci pourrait créer un biais de sélection des questions étudiées.
De plus, parmi les 58 experts ayant assuré la composition des panels entre 2011 et 2013, 13 experts étaient communs aux 3 années.12 experts ont participé 2 années et 33 experts n’ont participé qu’une seule année. Ceci amène indiscutablement un biais ; puisque certains experts sont communs alors ils vont probablement répondre de la même façon aux questions posées.
Il faut également noter que la comparaison des jurys a été effectuée sur 3 années consécutives, ce qui aurait pu nous amener à observer davantage de réponses différentes d’une année sur l’autre en raison de l’évolution de la médecine et de ses recommandations. C’est justement l’explication que nous avançons concernant la question 5 pour laquelle les réponses du panel d’experts sont quasiment les mêmes en 2011 et 2012 (plutôt A et B) mais qui changent en 2013 (plutôt B et C) (cf. figure 2) ; cette question concernait le diabète du sujet âgé et de nouvelles recommandations ont été émises par la Haute Autorité de Santé (HAS) en 2013 concernant cette thématique. Par contre, les réponses des étudiants étaient les mêmes pour cette question d’une année sur l’autre.
Pour la question 4, les réponses différaient à la fois pour les étudiants mais également pour les experts. Il faut noter que cette question n’était pas exactement posée de la même façon les 3 années. En 2011, elle intervenait dans l’examen à la suite de 2 autres questions concernant le même cas, et en 2012 et 2013, elle était posée seule. Ceci suggère la difficulté d’assurer l’indépendance des questions posées à travers un cas comprenant plusieurs questions. Mais on a pu constater que les réponses des étudiants différaient tout de même entre 2012 et 2013, ce qui pourrait suggérer que cette question est finalement trop ambiguë et qu’elle devrait peut-être être éliminée.
Analyse d’items :
Les corrélations item/examen calculées pour les 21 questions communes ne sont pas toujours stables d’un examen à l’autre pour la même question. Ceci sous- entend que la corrélation item/examen ne devrait pas forcément être un critère de choix afin de déterminer si un item doit être conservé ou non. Par ailleurs, comme le soulignent Lubarsky et al.(11), « une corrélation faible peut refléter l’hétérogénéité des pratiques des membres du panel ou du domaine testé et pas forcément une défaillance de l’item lui-même ».De plus, ceci soulève une question plus profonde, déjà soulevée par Wilson et al. en 2014 (21) : quelle dimension du raisonnement clinique le TCS mesure-t-il vraiment ? Et concernant notre étude est-ce que les TCS administrés en évaluation sommative à Rouen mesurent la même dimension du raisonnement clinique d’une année sur l’autre ?
Après avoir amélioré a posteriori le coefficient alpha en éliminant les items dont la corrélation item/examen était inférieure à 0.1, les épreuves de 2015 et 2016 ne disposent plus que de 62 et 67 items respectivement. Chaque année un étudiant a vu son sort changer quant à son élimination ou non à l’examen. En 2015, 4 étudiants auraient été éliminés au lieu de 3. Par contre, les 4 derniers étudiants sont toujours les mêmes avant ou après avoir retiré les items à corrélation<0.1. En 2016, 4 étudiants auraient été éliminés au lieu de 5, mais de la même façon, les 5 derniers étudiants sont toujours les mêmes. L’épreuve de 2013 dont le coefficient alpha était déjà très bon conserve quant à elle 82 items sur 90 et les étudiants éliminés restent les mêmes. Ces résultats suggèrent que l’élimination des items à mauvaise corrélation pourrait modifier les résultats des étudiants. Ceci va à l’encontre des résultats de l’étude de P.Duggan et B.Charlin (20), mais il est important de noter que la méthode utilisée pour le calcul de la note de passage diffère dans notre étude : effectivement à Rouen la note de passage est fixée à -2DS par rapport à la moyenne des étudiants et non pas par rapport à la moyenne du panel d’experts comme il est plus coutumier de le voir dans la littérature. Cependant une étude réalisée en 2013 (19) n’a pas trouvé de différence significative entre les différentes méthodes d’établissement des scores de passage. Ceci serait à vérifier dans notre contexte d’étude. Notre résultat pourrait également s’expliquer par le plus petit nombre de questions par rapport à l’étude de P.Duggan et B.Charlin ; en 2015 et 2016 nos épreuves se sont vues amputer d’un bon nombre de questions. Il faudrait donc probablement prévoir un examen plus long (avec plus de questions) afin de pouvoir conserver un nombre de questions plus important après élimination a posteriori des items à mauvaise corrélation (comme le suggère l’étude de Dory et al.(22) :100 items recommandés, avec élimination a posteriori en moyenne de 25% des questions pour obtenir 75 questions au total). Nos résultats suggèrent par ailleurs que les résultats des étudiants peuvent être modifiés quant à leur passage ou non à l’examen, cependant lors d’un examen classant sans score de passage comme ceci est fait à l’examen national classant (ENC) en France, il n’y aurait peut-être pas eu de réelle différence avant ou après élimination des items à corrélation<0.1, puisque dans notre étude les derniers étudiants étaient de toute façon systématiquement les mêmes.
Ainsi, en conclusion sur ce point, la sélection des questions a posteriori via la corrélation item/examen n’apparaît pas être une méthode dépourvue de défaut. L’instabilité des corrélations item/examen pour une même question en fonction des sessions suggère que les TCS à Rouen ne mesurent pas forcément la même dimension du raisonnement clinique d’une année sur l’autre. De plus, il faudrait accroître le nombre de questions à l’examen pour pouvoir si besoin améliorer a posteriori la cohérence interne du test, ce qui semble modifier sensiblement le sort des étudiants. Enfin, l’attention devrait peut-être être plutôt portée sur la stratégie consistant à éliminer les items dont l’aspect des réponses du panel d’experts sur l’échelle de Likert est trop étalé (question trop ambiguë) ou au contraire trop concentré sur un seul échelon (question de cours).
Experts déviants :
Nos résultats semblent être en accord avec les données de la littérature (23). Il faut noter que nous n’avons pu tester l’élimination des experts déviants que sur une année (2013). Le nombre d’experts composant le panel utilisé à Rouen est assez élevé tous les ans par rapport à ce qui est retrouvé de façon courante dans la littérature. Par conséquent, la taille du panel restant après avoir éliminé les experts déviants était encore très correcte (il est recommandé habituellement d’en recruter au moins 20 pour les examens à fort enjeu (24)) ce qui explique probablement que les résultats des étudiants étaient inchangés.
Réponses faites au hasard et stratégies de réponse :
Après avoir éliminé les réponses modales extrêmes du dernier candidat pour les sessions 2013, 2015 et 2016, nous avons étudié si ceci impactait son élimination ou non à l’examen. Il a été constaté que pour une session sur les 3 (2015), ceci n’avait pas d’impact. Ce résultat peut s’expliquer par le fait qu’en 2015, l’examen comportait plus de questions à réponse modale extrême que les autres années (20% contre respectivement 9 et 8% en 2013 et 2016). Ceci suggère qu’il faudrait un pourcentage minimum de questions à réponse modale extrême parmi l’ensemble des questions d’un TCS afin que la stratégie consistant à éviter les réponses modales extrêmes ne fonctionne pas. Cette idée a déjà émergé dans la littérature (25), en évoquant la nécessité d’un pourcentage de 50% de questions à réponses modales extrêmes sur l’ensemble d’un examen. Nos résultats amènent à penser que ce pourcentage est peut-être surévalué. Cependant dans notre étude l’interne en dernière position en 2015 avait répondu moins souvent de façon extrême (32% de réponses A et E) que les internes des 2 autres sessions étudiées (43% de réponses A et E pour le dernier étudiant en 2013 et 48% pour celui de 2016) . Un pourcentage de questions à réponse modale extrême se situant entre 20 et 50% est donc probablement nécessaire afin d’éviter de réussir en optant pour la stratégie « sans réponse A et E ».
En optant pour un examen avec un minimum de questions à réponse modale extrême, il faudra cependant se méfier de l’impact sur la qualité des questions ; un item à réponse modale extrême a probablement une plus forte tendance à ressembler à une question de cours.Pour remédier à cela et comme le suggèrent Lubarsky et al. via leur guide de construction d’un TCS (11), il est préférable d’utiliser pour les échelons extrêmes une phrase qui n’est pas trop « catégorique ou sans équivoque » ; ceci permettrait d’encourager le choix des réponses extrêmes sans pour autant que la question soit trop théorique.
Par la suite, une simulation des réponses au hasard a été effectuée pour les 3 sessions 2013,2015 et 2016. Répondre systématiquement B est une stratégie gagnante à chaque session, répondre D ne l’est jamais et répondre C est gagnant une fois sur 3 seulement. Ceci n’est pas en accord avec les résultats de l’étude de Lineberry et al (14) qui montraient que la réponse C récoltait le plus souvent la réponse modale et ainsi obtenait le plus de points. Nos résultats suggèrent néanmoins qu’il faudrait apporter une plus grande attention aux réponses modales attendues lors de la construction du TCS à Rouen afinque celles-ci soient équitablement réparties sur l’échelle de Likert et qu’aucune stratégie de réponse au hasard ne fonctionne.

CONCLUSION :

Le TCS utilisé à Rouen en évaluation sommative en DES de médecine générale a su démontrer des qualités : le recrutement du panel d’experts est productif puisque les experts sont nombreux à participer chaque année, et la fidélité inter-juge est excellente montrant une constance des réponses selon les jurys. Le fait d’éliminer les experts déviants ne change pas les résultats des étudiants et continuer à les inclure participe probablement à refléter la diversité des attitudes possibles face à un problème clinique complexe.
Concernant la construction du test, il faudrait probablement augmenter légèrement le nombre de questions afin de pouvoir en conserver suffisamment après élimination des items à mauvaise corrélation item/examen, puisque cette manœuvre a potentiellement un effet sur le score des étudiants et ainsi sur leur élimination ou non au test. L’aspect des réponses du panel pourrait être utilisé afin d’éliminer les questions de cours et les questions trop ambiguës. Il faudrait également veiller à ce que les pourcentages de réponses modales attendues aux items soient équilibrés sur les 5 échelons de l’échelle de Likert afin d’éviter que les stratégies de réponses au hasard ou d’éviction des réponses modales extrêmes soient payantes.
Enfin, après les observations faites dans cette étude concernant la variabilité de la corrélation item/examen pour une même question sur plusieurs sessions de tests, il faut se poser la question de ce que le TCS évalue vraiment et notamment quelles dimensions du raisonnement clinique il mesure.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

RÉSUMÉ
ABSTRACT
INTRODUCTION
Le raisonnement clinique et la théorie des scripts
Les principes du TCS
Format du TCS
Le processus d’établissement des scores et du score de passage
Forces et faiblesses du TCS
BUTS DE L’ÉTUDE
MÉTHODES
Fidélité inter-juge
Analyse d’items
Experts déviants
Réponses faites au hasard et stratégies de réponse
RÉSULTATS
Fidélité inter-juge
Analyse des items
Experts déviants
Réponses faites au hasard et stratégies de réponses
DISCUSSION
Fidélité inter-juge
Analyse d’items
Experts déviants
Réponses faites au hasard et stratégies de réponse
CONCLUSION
BIBLIOGRAPHIE