Puntuación automatizada de ensayos

La puntuación automatizada de ensayos (PAE) es el uso de programas informáticos especializados para asignar notas a los ensayos escritos en un ámbito educativo. Es una forma de valoración educativa y una aplicación de procesamiento de lenguaje natural. Su objetivo es clasificar un gran conjunto de textos en una pequeña cantidad de categorías, correspondiendo a las posibles calificaciones, por ejemplo, de los números 1 a 6. En este caso, el disminuir el tamaño puede ser considerado un problema de clasificación estadística.

Varios factores han despertado un interés creciente para el uso de las PAE. Entre ellos están: el coste, la responsabilidad, los estándares, y la tecnología. El aumento de costes en la educación ha hecho presión sobre el sistema educativo para que establezca estándares a la hora de evaluar. Los avances tecnológicos de la información miden resultados educativos a un coste reducido.

El uso de PAE para pruebas con grandes consecuencias en la educación ha generado una reacción violenta significativa, ya que los oponentes señalan que los ordenadores no pueden todavía puntuar con precisión y argumentando que su uso para tales propósitos promueve enseñar escritura de manera reducida (i.e. enseñando para la prueba).

Historia

La mayoría de resúmenes históricos de PAE se encuentran en el trabajo de Ellis Batten Page. En 1966, discutió[1]​ por la posibilidad de puntuar ensayos por ordenador, y en 1968 publicó[2]​ su exitoso proyecto llamado Project Essay Grade (PEG). Utilizando la tecnología de aquel tiempo, la puntuación informatizada del ensayo no habría sido rentable,[3]​ así que Page redujo sus esfuerzos durante dos décadas. Finalmente, Page vendió PEG a Measurement Incoporated.

En 1990, los ordenadores de sobremesa habían llegado a ser tan potentes y tan extendidos que PAE era una posibilidad práctica. A principios de 1982, un programa de UNIX llamado Writer´s Workbench era capaz de ofrecer puntuación, ortografía y consejos gramaticales.[4]​ En colaboración con varias empresas (sobre todo Educational Testing Service), Page actualizó PEG y realizó algunas pruebas exitosas a principios de los 1990.[5]

Peter Foltz y Thomas Landauer desarrollaron un sistema utilizando un motor de puntuación llamado Intelligent Essay Assessor (IEA). IEA fue primero utilizado para puntuar ensayos en 1997 para sus cursos de pregrado. Es ahora un producto de Pearson Educational Technologies y se utiliza para obtener calificaciones en el mercado de productos y en exámenes nacionales.

IntelliMetric es un motor PAE de Vantage Learning. Su desarrollo empezó en 1996.[6]​ Se utilizó al principio comercialmente para puntuar ensayos en 1998.[7]

Educational Testing Service ofrece "e-rater", un programa de puntuación automatizada de ensayos. Primero se utilizó comercialmente en febrero de 1999.[8]​ Jill Burstein era el dirigente de equipo en su desarrollo. El servicio de evaluación online Criterion de Educational Testing Service utiliza el motor e-rater para proporcionar ambas puntuaciones y retroalimentación específica.

Lawrence Rudner ha hecho algún trabajo con puntuación bayesiana, y desarrolló un sistema llamado BETSY (Bayesian Essay Test Scoring sYstem). Algunos de sus resultados han sido publicados a papel u online, pero ningún sistema comercial incorpora BETSY aún.

Bajo el liderazgo de Howard Mitzel y Sue Lottridge, Pacific Metrics desarrolló un motor de puntuación automatizado de respuesta, CRASE. Actualmente utilizado por varios Departamentos de Estado de Educación y en un Departamento de EE. UU.  Y en la subvención de Evaluación Mejorada del Departamento, la tecnología de Pacific Metrics ha sido utilizada a gran escala en entornos formativos y de valoración desde 2007.

Measurement Inc. adquirió los derechos de PEG en 2002 y ha continuado con su desarrollo.

En 2012, Hewlett Foundation patrocina una competición en Kaggle llamada Automated Student Assessment Prize (ASAP). El intento era demostrar que PAE puede ser tan fiable como un evaluador humano, o incluso más. La competición también organizó una demostración aparte entre nueve proveedores PAE en un subconjunto de datos ASAP. Sin embargo los investigadores informaron que la puntuación automatizada de ensayos era tan fiable como la de un humano,[9]​ esta afirmación no estaba probada por ninguna evidencia estadística, porque algunos proveedores solicitaron que tales pruebas no se realicen como condición previa para participar en la demostración.[10]​ Además, la afirmación de Hewlett Study, demostró que PAE puede ser tan fiable como los evaluadores humanos, fue entonces cuando ha sido fuertemente cuestionado,[11][12]​ incluyendo alguna como la de Randy E. Bennett, Norman O. Frederiksen Chair in Assessment Innovation en el Educational Testing Service.[13]​ Algunas de las críticas más importantes del estudio fueron que cinco de los ocho datasets fueron párrafos más que ensayos, cuatro de los ocho datasets eran evaluados por lectores humanos que se centraban más en el contenido que en la habilidad de escritura, y eso en vez de medir a los lectores humanos y máquinas PAE frente a la "verdadera puntuación", la media de las puntuaciones de los dos lectores, el estudio empleó una construcción artificial, llamada  "puntuación resuelta", el cual en cuatro datasets consistió en la más alta de las dos puntuaciones humanas si había un desacuerdo. Esta última práctica, en particular, dio a las máquinas una ventaja injusta por dejarles redondear hacia arriba para estos datasets.[11]

En 1966, Page hipotetizó que, en el futuro, el juez computacional será mejor que se correlacione con cada juez humano, en vez de con todos los jueces que haya.[1]​ A pesar de criticar la aplicabilidad de este enfoque a la calificación de ensayos en general, esta hipótesis fue apoyada para calificar respuestas libres a preguntas cortas, tales como aquellos típicos del sistema británico  GCSE.[14]​ Los resultados del  aprendizaje supervisado demuestran que los sistemas automáticos actúan bien cuando las calificaciones de los diferentes profesores humanos son concordantes. El clustering no supervisado de las respuestas mostraron que los papeles excelentes y los papeles flojos formaron clusters bien definidos, y la regla de calificación automatizada para estos clusters funcionó bien, mientras que las calificaciones dadas por profesores humanos para el tercer cluster (‘mixed’), la fiabilidad de cualquier valoración de trabajos del cluster ‘mixed’  a menudo son cuestionados (ambos humano y computacional).[14]

Diferentes parámetros en la calidad del ensayo

Según una encuesta reciente,[15]​ los sistemas PAE intentan puntuar variables diferentes de la calidad de un ensayo para proporcionar retroalimentación a los usuarios. Algunas de estas variables son las siguientes:

  • Gramaticalidad: Reglas de la gramática.
  • Uso: Uso de las preposiciones, uso de las palabras.
  • Mecánica: Reglas de ortografía, puntuación, capitalización.
  • Estilo: Elección de palabras, variedad en las estructuras de las oraciones.
  • Relevancia: Como de relevante es el contenido.
  • Organización: Como de bien esté organizado el ensayo.
  • Desarrollo: Desarrollo de las ideas con ejemplos.
  • Cohesión: Uso adecuado de conectores lingüísticos.
  • Coherencia: Transiciones entre ideas de forma apropiada.
  • Claridad: Claridad de la tesis.
  • Persuasión: Convencimiento del argumento importante.

Procedimiento

Desde el principio, el procedimiento básico para el uso de las PAE ha sido empezar con un entrenamiento con ensayos cuidadosamente seleccionados.[16]​ El programa evalúa detalles superficiales de cada ensayo, como por ejemplo el número total de palabras, el número de cláusulas dependientes, o el porcentaje de letras en mayúscula y en minúscula, las cuales son cantidades que se pueden medir sin intuición humana. Posteriormente se construye un modelo matemático que relacione las cantidades evaluadas con la puntuación obtenida en cada ensayo. Con este modelo luego se calculará la puntuación de nuevos ensayos.

Recientemente, Isaac Persing y Vincent Ng.[17]​ Crearon uno de estos modelos matemáticos, el cual no solo evalúa ensayos por los detalles anteriores, sino también en su fuerza argumental. Evalúa varias características del ensayo, como el nivel de acuerdo del autor y razones para el mismo, la conexión con el tema del trabajo, la ubicación de los componentes del argumento (reclamación importante, reclamación, premisa), errores en los argumentos, cohesión en los argumentos entre varias otras características. En contraste a los otros modelos mencionados antes, este modelo está más cerca de duplicar la comprensión humana al calificar ensayos.

La diferencia entre los PAE reside en qué detalles están midiendo, cuántos ensayos se han necesitado para entrenar, y principalmente en qué modelo matemático se basan. En un inicio se usó regresión lineal. Los sistemas modernos pueden usar regresión lineal u otras técnicas de aprendizaje automático en combinación con técnicas estadísticas, como por ejemplo análisis semántico latente[18]​ e inferencia bayesiana.

Criterios para el éxito

Cualquier método de valoración debe ser evaluado para determinar su validez, precisión y fiabilidad.[19]​ Un instrumento es válido si realmente mide la característica que pretende medir. Es justo si este no penaliza ni otorga ningún privilegio a ninguna persona. Es fiable si su resultado se repite, incluso cuando los factores externos irrelevantes se ven alterados.

Antes de que los ordenadores se metieran en la sociedad, la calificación de trabajos de grandes consecuencias, solía ser dada por dos humanos expertos en el tema. Si las puntuaciones difieren por más de un punto, un tercer experto más experimentado resolvería la diferencia. En este sistema, hay una manera fácil de medir la fiabilidad: por acuerdo entre evaluadores. Si los evaluadores no se ponen de acuerdo en ningún momento, puede haber un error en su entrenamiento. Si un evaluador discrepa consistentemente con cómo otros calificadores califican a los mismos ensayos, probablemente necesita más entrenamiento.

Varias estadísticas han sido propuestas para medir el acuerdo entre evaluadores. Entre ellos son, Scott (π), Cohen (κ), Krippendorf (α), coeficiente de correlación de Pearson (r), coeficiente de correlación de Spearman (ρ), coeficiente de correlación de concordancia de Lin.

El porcentaje de coincidencias es una estadística simple aplicable a la puntuación de calificaciones que van de 1 hasta n, siendo habitual que sea 4 ≤ n ≤ 6 . Se dan hasta tres tipos de resultados, cada uno calificando un porcentaje de ensayos: acuerdo exacto (ambos evaluadores dan el mismo puntaje), acuerdo adyacente (hay una diferencia máxima de un punto entre los evaluadores, esto incluye el acuerdo exacto), total desacuerdo (cuando la diferencia en los resultados de los evaluadores es de más de 2 puntos). Los evaluadores humanos expertos alcanzaron un acuerdo exacto entre el 53% y el 81% de todos los ensayos y un acuerdo adyacente entre el 97% y el 100%.[20]

El acuerdo entre evaluadores ahora puede ser aplicado para medir el rendimiento del ordenador. Se da un conjunto de ensayos a dos humanos evaluadores y a un PAE. Si las puntuaciones asignadas por el ordenador coinciden con uno de los evaluadores humanos así como los evaluadores están de acuerdo entre sí, el PAE se considera fiable. Alternativamente, a cada ensayo se le da una  "verdadera puntuación " al tomar la media de  las dos puntuaciones de los evaluadores humanos, por lo que la comparación entre los dos humanos y el ordenador se da mediante la verdadera puntuación.

Algunos investigadores han informado que sus sistemas PAE pueden, de hecho, hacerlo mejor que un humano. Page hizo esta reclamación para PEG en 1994.[5]​ Scott Elliot dijo en 2003 que IntelliMetric normalmente vencía a los anotadores humanos.[6]​ Las máquinas PAE, aun así, parecían ser menos fiables que lectores humanos para cualquier clase de test de escritura compleja.[21]

Actualmente, al menos un ser humano da una puntuación en ámbitos como GMAT. PAE se utiliza como segundo evaluador. Un evaluador humano resuelve cualquier desacuerdo de más de un punto.

Crítica

PAE ha sido criticado por varios motivos. Yang et al. menciona "La dependencia excesiva en los detalles superficiales de los textos, la insensibilidad por el contenido de las respuestas y la falta de creatividad de las mismas, y la vulnerabilidad de las nuevas formas de hacer trampa." Según varios críticos, la motivación de los estudiantes disminuirá cuando se den cuenta que nadie leerá sus escritos. Entre las críticas más importantes, son aquellos informes donde los autores dicen haber recibido una calificación alta por ensayos escritos mal intencionadamente.[22]

Petición de HumanReaders.Org

El 12 de marzo de 2013, HumanReaders.Org lanzó una petición on-line, "Profesionales En contra de la máquina que Puntúa los Ensayos Estudiantiles con Grandes Consecuencias". En pocas semanas, la petición obtuvo miles de firmas, incluyendo Noam Chomsky,[23]​ y estuvo citado en un numerosos diarios, incluyendo The New York Times,[24]​ y en un número grande de blogs de educación y de tecnología.[25]

La petición describe el uso de las PAE para pruebas de grandes consecuencias como "triviales", "reductivas", "poco precisas", "no diagnosticas", "injustas" y "secretas".[26]

En un resumen detallado del estudio en PAE, la petición del sitio nota, "RESULTADOS MUESTRAN QUE nadie—alumnado, padres, profesores, empresarios, administradores, los legisladores—puede confiar en la máquina que puntúa ensayos … Y QUE la máquina que puntúa no mide, y por tanto no promueve, actos auténticos de escritura."[27]

La petición indica el uso de las PAE para pruebas de grandes consecuencias, pero no dice nada sobre otros posibles usos.

Software

La mayoría de recursos para la puntuación automatizada de ensayos son propiedad.

  • eRater – Publicado por Educational Testing Service
  • Intellimetric – Por Vantage Learning
  • Project Essay Grade[28]​ – Measurement, Inc.

Referencias

  1. a b Page, E. B. (1966). «The imminence of... grading essays by computer». The Phi Delta Kappan 47 (5): 238-243. 
  2. Page, E.B. (1968). "The Use of the Computer in Analyzing Student Essays", International Review of Education, 14(3), 253-263.
  3. Page, E.B. (2003), pp. 44-45.
  4. MacDonald, N.H., L.T. Frase, P.S. Gingrich, and S.A. Keenan (1982). "The Writers Workbench: Computer Aids for Text Analysis", IEEE Transactions on Communications, 3(1), 105-110.
  5. a b Page, E.B. (1994). "New Computer Grading of Student Prose, Using Modern Concepts and Software", Journal of Experimental Education, 62(2), 127-142.
  6. a b Elliot, Scott (2003). "Intellimetric TM: From Here to Validity", p. 75. In Shermis, Mark D., and Jill Burstein, eds., Automated Essay Scoring: A Cross-Disciplinary Perspective. Lawrence Erlbaum Associates, Mahwah, New Jersey, ISBN 0805839739
  7. "IntelliMetric®: How it Works", Vantage Learning. Retrieved 28 February 2012.
  8. Burstein, Jill (2003). "The E-rater(R) Scoring Engine: Automated Essay Scoring with Natural Language Processing", p. 113. In Shermis, Mark D., and Jill Burstein, eds., Automated Essay Scoring: A Cross-Disciplinary Perspective. Lawrence Erlbaum Associates, Mahwah, New Jersey, ISBN 0805839739
  9. «Man and machine: Better writers, better grades». University of Akron. 12 de abril de 2012. Consultado el 4 de julio de 2015. 

    - Shermis, Mark D., and Jill Burstein, eds. Handbook of Automated Essay Evaluation: Current Applications and New Directions. Routledge, 2013.
  10. Rivard, Ry (15 de marzo de 2013). «Humans Fight Over Robo-Readers». Consultado el 14 de junio de 2015. 
  11. a b Perelman, Les (August 2013). «Critique of Mark D. Shermis & Ben Hamner, "Contrasting State-of-the-Art Automated Scoring of Essays: Analysis"». Journal of Writing Assessment 6 (1). Consultado el 13 de junio de 2015. 
  12. Perelman, L. (2014). "When 'the state of the art is counting words'", Assessing Writing, 21, 104-111.
  13. Bennett, Randy E. (March 2015). «The Changing Nature of Educational Assessment». Review of Research in Education 39 (1): 370-407. doi:10.3102/0091732X14554179. 
  14. a b Süzen, N.; Mirkes, E. M.; Levesley, J; Gorban, A. N. (2020). «Automatic short answer grading and feedback using text mining methods». Procedia Computer Science 169: 726-743. arXiv:1807.10543. doi:10.1016/j.procs.2020.02.171. 
  15. Ke, Zixuan (9 de agosto de 2019). «Automated Essay Scoring: A Survey of the State of the Art». Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence: 6300–6308. ISBN 978-0-9992411-4-1. doi:10.24963/ijcai.2019/879. Consultado el 11 de abril de 2020. 
  16. Keith, Timothy Z. (2003), p. 149.
  17. Persing, Isaac, and Vincent Ng (2015). "Modeling Argument Strength in Student Essays", pp. 543-552. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Retrieved 2015-10-22.
  18. Bennett, Randy Elliot, and Anat Ben-Simon (2005), p. 7.
  19. Chung, Gregory K.W.K., and Eva L. Baker (2003). "Issues in the Reliability and Validity of Automated Scoring of Constructed Responses", p. 23. In: Automated Essay Scoring: A Cross-Disciplinary Perspective. Shermis, Mark D., and Jill Burstein, eds. Lawrence Erlbaum Associates, Mahwah, New Jersey, ISBN 0805839739
  20. Elliot, Scott (2003), p. 77.
    - Burstein, Jill (2003), p. 114.
  21. Bennett, Randy E. (May 2006). «Technology and Writing Assessment: Lessons Learned from the US National Assessment of Educational Progress». International Association for Educational Assessment. Archivado desde el original el 24 de septiembre de 2015. Consultado el 5 de julio de 2015. 

    - McCurry, D. (2010). «Can machine scoring deal with broad and open writing tests as well as human readers?». Assessing Writing 15 (2): 118-129. doi:10.1016/j.asw.2010.04.002. 

    - R. Bridgeman (2013). Shermis, Mark D.; Burstein, Jill, eds. Handbook of Automated Essay Evaluation. New York: Routledge. pp. 221-232. 
  22. Winerip, Michael (22 de abril de 2012). «Facing a Robo-Grader? Just Keep Obfuscating Mellifluously». The New York Times. Consultado el 5 de abril de 2013. 
  23. «Signatures >> Professionals Against Machine Scoring Of Student Essays In High-Stakes Assessment». HumanReaders.Org. Archivado desde el original el 18 de noviembre de 2019. Consultado el 5 de abril de 2013. 
  24. Markoff, John (4 de abril de 2013). «Essay-Grading Software Offers Professors a Break». The New York Times. Consultado el 5 de abril de 2013. 

    - Garner, Richard (5 de abril de 2013). «Professors angry over essays marked by computer». The Independent. Consultado el 5 de abril de 2013. 
  25. Corrigan, Paul T. (25 de marzo de 2013). «Petition Against Machine Scoring Essays, HumanReaders.Org». Teaching & Learning in Higher Ed. Consultado el 5 de abril de 2013. 

    - Jaffee, Robert David (5 de abril de 2013). «Computers Cannot Read, Write or Grade Papers». Huffington Post. Consultado el 5 de abril de 2013. 
  26. «Professionals Against Machine Scoring Of Student Essays In High-Stakes Assessment». HumanReaders.Org. Consultado el 5 de abril de 2013. 
  27. «Research Findings >> Professionals Against Machine Scoring Of Student Essays In High-Stakes Assessment». HumanReaders.Org. Consultado el 5 de abril de 2013. 

    - «Works Cited >> Professionals Against Machine Scoring Of Student Essays In High-Stakes Assessment». HumanReaders.Org. Consultado el 5 de abril de 2013. 
  28. "Assessment Technologies" Archivado el 24 de febrero de 2019 en Wayback Machine., Measurement, Inc..