Correction automatique des textes par l’intelligence artificielle : où en sommes-nous ?

Parmi les domaines d’application de l’intelligence artificielle en éducation, celui de la correction automatisée est sans doute celui dont les promesses font le plus rêver. Et pour cause, le temps passé à corriger des travaux d’élèves ou d’étudiants occupe une grande partie de la tâche du personnel enseignant. Rappelons sommairement que l’évaluation peut avoir deux fonctions principales : celle de reconnaissance des apprentissages, voire de sanction et de diplomation, mais aussi (trop souvent oubliée) une fonction d’apprentissage en raison des rétroactions personnalisées qu’elle permet.

L’évaluation idéale dans une approche par compétences

En ce qui concerne l’évaluation, les approches par compétences s’appuient souvent sur un idéal voulant que chaque production soit une occasion de rétroaction personnalisée, avec de généreux commentaires qualitatifs. Dans une approche par compétences, à peu près tout ce qu’une personne accomplit contribue à nous indiquer quel est son niveau de développement. Les productions peuvent être accumulées et organisées dans des portfolios qui doivent agir comme des témoins du cheminement, des difficultés, de la progression et de l’adaptation de l’élève. Une rétroaction personnalisée, rapide et précise, faite par une personne experte (cf l’enseignant), doit accompagner ces productions. Exit les simples « Bravo! » ou « Pourrait faire mieux », il faut formuler des commentaires précis et utiles pour que l’apprenant sache quoi faire pour atteindre les niveaux de développement escomptés. Ça, c’est le scénario idéal.

Dans la pratique, les ratios enseignants-élèves ne permettent pas d’atteindre cet idéal. C’est le cas à tous les niveaux scolaires, du primaire à l’université. La conséquence est que la fonction d’apprentissage que devrait remplir l’évaluation est souvent abandonnée. C’est un potentiel inexploité, qui ralentit le développement des élèves, ceux-ci devant comprendre à tâton certains ajustements à faire dans leur démarche alors qu’une rétroaction précise aurait pu les amener à se dépasser rapidement. Rares sont donc les enseignants qui trouvent le temps de réaliser cet idéal d’évaluation. Au final, on évalue comme avant, on met des notes chiffrées, on écrit quelques commentaires génériques, on donne quelques rétroactions verbales de façon non systématique, et on restreint les occasions d’évaluation à celles qui sont essentielles à la notation. Bref, on est loin du scénario idéal.

L’intelligence artificielle, une solution intéressante ?

Beaucoup de recherches vantent le potentiel de l’intelligence artificielle pour accomplir l’évaluation automatique. La plupart s’inscrivent en continuité avec les premiers systèmes informatiques destinés à l’apprentissage dans les années 19601, c’est-à-dire qu’ils se concentrent sur la correction de productions simples (questions à choix de réponses). Le adaptive testing vise à exploiter ce type de production pour générer un portrait plus précis des apprenants qu’un questionnaire unique, car il choisit et module les questions en temps réel au fur et à mesure que l’élève répond. Dans les 10 dernières années, toutefois, de plus en plus de recherches se sont intéressées à la correction automatisée des essais (AES – automated essay scoring).

Corriger un essai, un texte, implique plusieurs éléments de complexité. En voici quelques-uns :

  • La compréhension du langage naturel (natural language processing) est encore très limitée. L’identification automatique des concepts dans une phrase est difficile, et l’identification des relations entre eux l’est encore plus. De plus, malgré des avancées importantes dans le traitement de l’anglais, le traitement des autres langues demeure beaucoup moins avancé (moins de librairies accessibles, dictionnaires moins riches, syntaxes plus ou moins bien modélisées).
  • La correction d’un texte n’est pas absolue et dépend de l’intention et, ensuite, de critères de correction. Ces critères ne sont pas universels, ils varient d’une évaluation à l’autre. Il est difficile de traduire ces critères en des modèles pouvant guider l’interprétation des textes par des outils basés sur l’intelligence artificielle.
  • L’évaluation d’une production complexe comme un essai, malgré tous les efforts d’objectivation, revêt une importante part de subjectivité. Dans une approche par compétences, cette subjectivité est généralement assumée en s’appuyant sur le principe qu’une personne experte est capable d’exercer un jugement professionnel. Les outils basés sur l’intelligence artificielle ne sont pas en mesure d’exercer ce jugement et les tentatives pour le simuler peuvent conduire, malgré quelques succès, à des aberrations.
  • Certains critères de correction peuvent impliquer de se prononcer sur la progression ou l’effort d’un élève ou d’un étudiant. Or, à moins d’alimenter un outil d’intelligence artificielle avec des données supplémentaires sur le profil des élèves, il est impossible qu’il remplisse cette fonction. Et on sait combien l’utilisation de renseignements sur les élèves est sensible.

Ceci étant dit, l’IA pourrait quand même en venir à occuper une place dans le processus d’évaluation. Par sa rapidité, elle pourrait par exemple analyser les rétroactions fournies par un enseignant, puis les réaffecter à d’autres étudiants dont la production affiche certaines similarités. Elle pourrait servir à fournir une pré-correction pour cibler les étudiants qui peuvent avoir besoin d’une attention spécifique de l’enseignant. Elle peut valider l’uniformité de la correction de l’enseignant après coup pour assurer une équité entre les élèves. Elle peut aussi servir à générer rapidement une représentation schématique d’un texte de façon à aider l’élève à raffiner les liens de causalité. Dans tous les cas, les enseignants qui souhaitent bénéficier de tels avantages devraient apprendre à évaluer avec l’IA et non chercher à ce qu’elle assume une partie de leurs fonctions.

En terminant, quelques références si le sujet vous intéresse davantage :

Altoe, F., & Joyner, D. (2019). Annotation-free Automatic Examination Essay Feedback Generation. 2019 IEEE Learning With MOOCS (LWMOOCS), 110‑115. https://doi.org/10.1109/LWMOOCS47620.2019.8939630

Conseil supérieur de l’éducation. (2018). Évaluer pour que ça compte vraiment : Rapport sur l’état et les besoins de l’éducation, 2016-2018. https://www.cse.gouv.qc.ca/wp-content/uploads/2019/09/50-0508.pdf

Wiley, J. (2017). Different Approaches to Assessing the Quality of Explanations Following a Multiple-Document Inquiry Activity in Science. 33.

1 Voir Skinner, H. F. (1961). Teaching Machines. Scientific American, 18.