Generación automática de ítems

La Generación Automática de Ítems (en inglés Automatic Item Generation, AIG), o Generación Automatizada de Ítems, es un proceso ideado originalmente por Bormuth[1]​ y que comenzó un amplio desarrollo hacia fines de los '90. Es una disciplina joven en psicología, que reúne conocimientos de psicometría con elementos de programación. Consiste en la creación de ítems (que son las unidades que componen los tests psicológicos) controlada por algoritmos computacionales. Dicha creación utiliza como base un ítem modelo (IM), que es una representación prototípica de los reactivos a generar.[2]​ En lugar de redactar cada ítem en forma individual, los mencionados algoritmos se utilizan para generar familias de ítems partiendo de un grupo más pequeño de IM-padres.[3][4]​ Se espera que la AIG reduzca costos monetarios, ya que la generación tradicional de ítems resulta costosa para muchas organizaciones reconocidas a nivel mundial.[5]​ La AIG incrementa enormemente la cantidad de ítems generados en el mismo lapso de tiempo invertido para la creación tradicional de ítems. Los ítems pueden incluso crearse al instante en el transcurso de un Test Adaptativo Informatizado. Las formas paralelas de un test pueden generarse de manera sencilla a través de la AIG para reducir la sobreexposición del individuo a un grupo de ítems, lo cual promueve la seguridad de testeo. También se espera que la AIG produzca ítems con una gama amplia de niveles de dificultad, evite errores de construcción y permita una comparabilidad mayor entre los ítems gracias a una definición más sistemática del IM prototípico.[6][7]

Desarrollos existentes

Varios programas han sido creados con el fin de automatizar la generación de reactivos de todo tipo. Entre ellos se destacan los siguientes en orden cronológico inverso. Embretson y Kingston[8]​ examinaron las propiedades cualitativas y psicométricas de ítems de ejecución matemática que fueron creados automáticamente con el programa MathGen.[9]​ Dichos ítems sobrevivieron exitosamente a revisiones cualitativas extensas así como a ensayos empíricos. Aquellos ítems generados bajo una misma estructura mostraron propiedades psicométricas predecibles. Harrison, Collins y Müllensiefen[10]​ desarrollaron ítems para evaluar la discriminación de melodías musicales y para ello emplearon un generador de ítems basado en el modelo computacional Racchman-Jun2015.[11]​ Los resultados de calidad psicométrica son óptimos. Ferreyra y Backhoff-Escudero[12]​ desarrollaron el programa GenerEx para crear dos versiones paralelas del Examen de Competencias Básicas y luego estudiaron la estructura interna así como equivalencia psicométrica de estos tests. Los estudios empíricos de calidad psicométrica revelan resultados favorables a rasgos generales y además, los tests guardan múltiples similitudes con respecto a los índices psicométricos estudiados. Gierl y sus colegas[13][14][15][16]​ presentaron nuevos métodos de AIG aplicados a la evaluación de la educación médica y utilizaron el Generador de Ítems (Item Generator, IGOR[17]​) para la creación de reactivos de respuesta múltiple sobre conocimiento médico. Los resultados generales revelan buenas propiedades psicométricas de los ítems proporcionados por IGOR, incluso al compararlas con aquellas pertenecientes a ítems manualmente creados. Arendasy, Sommer y Mayr[18]​ describieron la alta calidad psicométrica de ítems verbales generados en forma automática luego de administrarlos a dos muestras, las cuales consistían respectivamente en participantes de habla alemana e inglesa. Los grupos de ítems administrados a estas muestras se basaron en un conjunto común de ítems de anclaje interlingüísticos, lo cual facilitó la comparación del desempeño de los individuos a través de ambos idiomas. Holling, Bertling y Zeuch[19]​ utilizaron teoría de la probabilidad para generar automáticamente problemas de palabras de matemática con dificultades anticipadas. Los autores consiguieron ajustar el modelo de Rasch[20]​ y las dificultades de los ítems pudieron anticiparse con ayuda del Modelo Logístico Lineal de Rasgo Latente (Linear Logistic Test Model, LLTM[21]​), así como del LLTM por Efectos Aleatorios. Holling, Blank, Kuchenbäcker y Kuhn[22]​ realizaron un estudio similar con problemas de palabras de estadística, pero sin el uso de la AIG. Arendasy y cols.[23][24]​ presentaron estudios con problemas de palabras de álgebra generados en forma automática y examinaron la manera en que un marco de control de calidad de la AIG puede afectar la calidad de medida de dichos ítems.

Generación automática de ítems de figuras

El Creador de Ítems (Item Maker, IMak) es un paquete escrito en lenguaje R que grafica analogías de figuras y cuya descarga es gratuita. Al respect, Blum y Holling[25]​ destacaron que las propiedades psicométricas de 23 ítems generados por medio de IMak resultaron satisfactorias y que las dificultades de los reactivos basadas en la generación de reglas pudieron anticiparse por medio del LLTM. Loe y Rust[26]​ exploraron las propiedades psicométricas de 18 laberintos desarrollados automáticamente con el Generador de Laberintos (MazeGen), paquete escrito en lenguaje R. Las propiedades de los laberintos son óptimas, incluyendo el ajuste al modelo de Rasch y la predicción de la dificultad de los laberintos por medio del LLTM. Arendasy y Sommer[27]​ identificaron causas del sesgo de medición relacionadas con estrategias de eliminación de respuestas a ítems de matrices figurales, los cuales fueron creadas con el Generador de Matrices de Figuras (Figural Matrices Generator, GeomGen[28]​). Entre otros resultados, los autores mostraron que la existencia de distractores destacados favorece la búsqueda de estrategias de eliminación de respuestas y que estas estrategias afectan la validez de constructo de dichos ítems. Además, Arendasy y cols.[29][30]​ estudiaron el Funcionamiento Diferencial del Ítem (Differential Item Functioning, DIF) por género, así como las diferencias intergénero, con ítems de rotación mental generados automáticamente. Los autores manipularon características del diseño de ítems que habían exhibido DIF por género en estudios previos y demostraron que los estimadores del tamaño del efecto de las diferencias intergénero se veían afectados por la presencia de diferentes tipos de DIF por género, tal vez causados por determinadas características del diseño de los ítems. Freund, Hofer y Holling[31]​ generaron 25 ítems de matrices de 4x4 automáticamente por medio del Desarrollador Matricial (MatrixDeveloper[32]​), que fueron administrados a 169 participantes. Los reactivos mostraron un buen ajuste al model de Rasch y la generación de ítems basada en reglas pudo explicar la dificultad de dichos reactivos. Arendasy[33]​ estudió posibles violaciones de la calidad psicométrica de ítems de razonamiento visuoespacial generados en forma automática, utilizando para ello principios de la teoría de respuesta al ítem. Con dicho fin, presentó dos programas, a saber: el ya mencionado GeomGen y el Generador de Bucles Interminables (Endless Loop Generator, EsGen). Informó que GeomGen resultó ser más adecuado para la AIG ya que este programa consideró todo tipo de violación durante la generación de ítems. En un estudio paralelo con GeomGen, Arendasy y Sommer[34]​ reportaron que la sola variación de cierta organización perceptual de los ítems influyó en el desempeño de los respondientes en determinados niveles de habilidad y que tuvo un efecto sobre varios índices de calidad psicométrica. Estos resultados podrían cuestionar el supuesto de unidimensionalidad de los ítems de matrices de figuras a nivel general. El primer generador de matrices conocido fue creado por Susan Embretson,[35][36]​ demostrando buena calidad psicométrica de los ítems automáticamente creados, lo cual se detalla en el libro de Embretson y Reise.[37]​ Embretson propuso además un modelo para la correcta creación de ítems en línea.



Referencias

  1. Bormuth, J. (1969). On a theory of achievement test items. Chicago, IL: University of Chicago Press.
  2. Gierl, M.J., & Haladyna, T.M. (2012). Automatic item generation, theory and practice. New York, NY: Routledge Chapman & Hall.
  3. Glas, C.A.W., van der Linden, W.J., & Geerlings, H. (2010). Estimation of the parameters in an item-cloning model for adaptive testing. In W.J. van der Linden, & C.A.W. Glas (Eds.). Elements of adaptive testing (pp. 289-314). DOI: 10.1007/978-0-387-85461-8_15.
  4. Gierl, M.J., & Lai, H. (2012). The role of item models in automatic item generation. International journal of testing, 12(3), 273-298. DOI: 10.1080/15305058.2011.635830.
  5. Rudner, L. (2010). Implementing the graduate management admission test computerised adaptive test. In W.J. van der Linden, and C.A.W. Glas (Eds.). Elements of adaptive testing (pp. 151-165). DOI: 10.1007/978-0-387-85461-8_15.
  6. Irvine, S. (2002). The foundations of item generation for mass testing. In S.H. Irvine, & P.C. Kyllonen (Eds.). Item generation for test development (pp. 3-34). Mahwah: Lawrence Erlbaum Associates.
  7. Lai, H., Alves, C., & Gierl, M.J. (2009). Using automatic item generation to address item demands for CAT. In D.J. Weiss (Ed.), Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing. Web: www.psych.umn.edu/psylabs/CATCentral.
  8. Embretson, S.E., & Kingston, N.M. (2018). Automatic item generation: a more efficient process for developing mathematics achievement items? Journal of educational measurement, 55(1), 112-131. DOI: 10.1111/jedm.12166
  9. Willson, J., Morrison, K., & Embretson, S.E. (2014). Automatic item generator for mathematical achievement items: MathGen3.0. Technical report IES1005A-2014 for the Institute of Educational Sciences Grant R305A100234. Atlanta, GA: Cognitive Measurement Laboratory, Georgia, Institute of Technology.
  10. Harrison, P.M., Collins, T., & Müllensiefen, D. (2017). Applying modern psychometric techniques to melodic discrimination testing: item response theory, computerised adaptive testing, and automatic item generation. Scientific reports, 7(3618), 1-18.
  11. Collins, T., Laney, R., Willis, A., & Garthwaite, P.H. (2016). Developing and evaluating computational models of music style. Artificial intelligence for engineering design, analysis and manufacturing, 30, 16-43. DOI: 10.1017/S0890060414000687
  12. Ferreyra, M.F., & Backhoff-Escudero, E. (2016). Validez del Generador Automático de Ítems del Examen de Competencias Básicas (Excoba). Relieve, 22(1), art. 2, 1-16. DOI: 10.7203/relieve.22.1.8048
  13. Gierl, M.J., Lai, H., Pugh, D., Touchie, C., Boulais, A.P., & De Champlain, A. (2016). Evaluating the psychometric characteristics of generated multiple-choice test items. Applied measurement in education, 29(3), 196-210. DOI: 10.1080/08957347.2016.1171768
  14. Lai, H., Gierl, M.J., Byrne, B.E., Spielman, A.I., & Waldschmidt, D.M. (2016). Three modelling applications to promote automatic item generation for examinations in dentistry. Journal of dental education, 80(3), 339-347.
  15. Gierl, M.J., & Lai, H. (2013). Evaluating the quality of medical multiple-choice items created with automated processes. Medical education, 47, 726-733. DOI: 10.1111/medu.12202
  16. Gierl, M.J., Lai, H., & Turner, S.R. (2012). Using automatic item generation to create multiple-choice test items. Medical education, 46(8), 757-765. DOI: 10.1111/j.1365-2923.2012.04289.x
  17. Gierl, M.J., Zhou, J., & Alves, C. (2008). Developing a taxonomy of item mode types to promote assessment engineering. J technol learn assess, 7(2), 1-51.
  18. Arendasy, M.E., Sommer, M., & Mayr, F. (2011). Using automatic item generation to simultaneously construct German and English versions of a Word Fluency Test. Journal of cross-cultural psychology, 43(3), 464-479. DOI: 10.1177/0022022110397360.
  19. Holling, H., Bertling, J.P., & Zeuch, N. (2009). Automatic item generation of probability word problems. Studies in educational evaluation, 35(2-3), 71-76.
  20. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Chicago: University of Chicago Press.
  21. Fischer, G.H. (1973). The linear logistic test model as an instrument of educational research. Acta Psychological, 37, 359-374. DOI: 10.1016/0001-6918(73)90003-6.
  22. Holling, H., Blank, H., Kuchenbäcker, K., & Kuhn, J.T. (2008). Rule-based item design of statistical word problems: a review and first implementation. Psychology science quarterly, 50(3), 363-378.
  23. Arendasy, M.E., Sommer, M., Gittler, G., & Hergovich, A. (2006). Automatic generation of quantitative reasoning items. A pilot study. Journal of individual differences, 27(1), 2-14. DOI: 10.1027/1614-0001.27.1.2.
  24. Arendasy, M.E., & Sommer, M. (2007). Using psychometric technology in educational assessment: the case of a schema-based isomorphic approach to the automatic generation of quantitative reasoning items. Learning and individual differences, 17(4), 366-383. DOI: 10.1016/j.lindif.2007.03.005.
  25. Blum, D., & Holling, H. (2018). Automatic generation of figural analogies with the IMak package. Frontiers in psychology, 9(1286), 1-13. DOI: 10.3389/fpsyg.2018.01286.
  26. Loe, B.S., & Rust, J. (2017). The perceptual maze test revisited: evaluating the difficulty of automatically generated mazes. Assessment, 1-16. DOI: 10.1177/1073191117746501.
  27. Arendasy, M.E., & Sommer, M. (2013). Reducing response elimination strategies enhances the construct validity of figural matrices. Intelligence, 41, 234-243. DOI: 10.1016/j.intell.2013.03.006
  28. Arendasy, M. (2002). Geom-Gen-Ein Itemgenerator für Matrizentestaufgaben. Viena: Eigenverlag.
  29. Arendasy, M.E., & Sommer, M. (2010). Evaluating the contribution of different item features to the effect size of the gender difference in three-dimensional mental rotation using automatic item generation. Intelligence, 38(6), 574-581. DOI:10.1016/j.intell.2010.06.004.
  30. Arendasy, M.E., Sommer, M., & Gittler, G. (2010). Combining automatic item generation and experimental designs to investigate the contribution of cognitive components to the gender difference in mental rotation. Intelligence, 38(5), 506-512. DOI:10.1016/j.intell.2010.06.006.
  31. Freund, P.A., Hofer, S., & Holling, H. (2008). Explaining and controlling for the psychometric properties of computer-generated figural matrix items. Applied psychological measurement, 32(3), 195-210. DOI: 10.1177/0146621607306972.
  32. Hofer, S. (2004). MatrixDeveloper. Münster, Germany: Psychological Institute IV. Westfälische Wilhelms-Universität.
  33. Arendasy, M. (2005). Automatic generation of Rasch-calibrated items: figural matrices test GEOM and Endless-Loops Test EC. International journal of testing, 5(3), 197-224.
  34. Arendasy, M.E., & Sommer, M. (2005). The effect of different types of perceptual manipulations on the dimensionality of automatic generated figural matrices. Intelligence, 33(3), 307-324. DOI: 10.1016/j.intell.2005.02.002.
  35. Embretson, S.E. (1998). A cognitive design system approach to generating valid tests: application to abstract reasoning. Psychological methods, 3(3), 380-396.
  36. Embretson, S.E. (1999). Generating items during testing: psychometric issues and models. Psychometrika, 64(4), 407-433.
  37. Embretson, S.E., & Reise, S.P. (2000). Item Response Theory for psychologists. Mahwah: Lawrence Erlbaum Associates.