Generación automática de ítemsLa Generación Automática de Ítems (en inglés Automatic Item Generation, AIG), o Generación Automatizada de Ítems, es un proceso ideado originalmente por Bormuth[1] y que comenzó un amplio desarrollo hacia fines de los '90. Es una disciplina joven en psicología, que reúne conocimientos de psicometría con elementos de programación. Consiste en la creación de ítems (que son las unidades que componen los tests psicológicos) controlada por algoritmos computacionales. Dicha creación utiliza como base un ítem modelo (IM), que es una representación prototípica de los reactivos a generar.[2] En lugar de redactar cada ítem en forma individual, los mencionados algoritmos se utilizan para generar familias de ítems partiendo de un grupo más pequeño de IM-padres.[3][4] Se espera que la AIG reduzca costos monetarios, ya que la generación tradicional de ítems resulta costosa para muchas organizaciones reconocidas a nivel mundial.[5] La AIG incrementa enormemente la cantidad de ítems generados en el mismo lapso de tiempo invertido para la creación tradicional de ítems. Los ítems pueden incluso crearse al instante en el transcurso de un Test Adaptativo Informatizado. Las formas paralelas de un test pueden generarse de manera sencilla a través de la AIG para reducir la sobreexposición del individuo a un grupo de ítems, lo cual promueve la seguridad de testeo. También se espera que la AIG produzca ítems con una gama amplia de niveles de dificultad, evite errores de construcción y permita una comparabilidad mayor entre los ítems gracias a una definición más sistemática del IM prototípico.[6][7] Desarrollos existentesVarios programas han sido creados con el fin de automatizar la generación de reactivos de todo tipo. Entre ellos se destacan los siguientes en orden cronológico inverso. Embretson y Kingston[8] examinaron las propiedades cualitativas y psicométricas de ítems de ejecución matemática que fueron creados automáticamente con el programa MathGen.[9] Dichos ítems sobrevivieron exitosamente a revisiones cualitativas extensas así como a ensayos empíricos. Aquellos ítems generados bajo una misma estructura mostraron propiedades psicométricas predecibles. Harrison, Collins y Müllensiefen[10] desarrollaron ítems para evaluar la discriminación de melodías musicales y para ello emplearon un generador de ítems basado en el modelo computacional Racchman-Jun2015.[11] Los resultados de calidad psicométrica son óptimos. Ferreyra y Backhoff-Escudero[12] desarrollaron el programa GenerEx para crear dos versiones paralelas del Examen de Competencias Básicas y luego estudiaron la estructura interna así como equivalencia psicométrica de estos tests. Los estudios empíricos de calidad psicométrica revelan resultados favorables a rasgos generales y además, los tests guardan múltiples similitudes con respecto a los índices psicométricos estudiados. Gierl y sus colegas[13][14][15][16] presentaron nuevos métodos de AIG aplicados a la evaluación de la educación médica y utilizaron el Generador de Ítems (Item Generator, IGOR[17]) para la creación de reactivos de respuesta múltiple sobre conocimiento médico. Los resultados generales revelan buenas propiedades psicométricas de los ítems proporcionados por IGOR, incluso al compararlas con aquellas pertenecientes a ítems manualmente creados. Arendasy, Sommer y Mayr[18] describieron la alta calidad psicométrica de ítems verbales generados en forma automática luego de administrarlos a dos muestras, las cuales consistían respectivamente en participantes de habla alemana e inglesa. Los grupos de ítems administrados a estas muestras se basaron en un conjunto común de ítems de anclaje interlingüísticos, lo cual facilitó la comparación del desempeño de los individuos a través de ambos idiomas. Holling, Bertling y Zeuch[19] utilizaron teoría de la probabilidad para generar automáticamente problemas de palabras de matemática con dificultades anticipadas. Los autores consiguieron ajustar el modelo de Rasch[20] y las dificultades de los ítems pudieron anticiparse con ayuda del Modelo Logístico Lineal de Rasgo Latente (Linear Logistic Test Model, LLTM[21]), así como del LLTM por Efectos Aleatorios. Holling, Blank, Kuchenbäcker y Kuhn[22] realizaron un estudio similar con problemas de palabras de estadística, pero sin el uso de la AIG. Arendasy y cols.[23][24] presentaron estudios con problemas de palabras de álgebra generados en forma automática y examinaron la manera en que un marco de control de calidad de la AIG puede afectar la calidad de medida de dichos ítems. Generación automática de ítems de figurasEl Creador de Ítems (Item Maker, IMak) es un paquete escrito en lenguaje R que grafica analogías de figuras y cuya descarga es gratuita. Al respect, Blum y Holling[25] destacaron que las propiedades psicométricas de 23 ítems generados por medio de IMak resultaron satisfactorias y que las dificultades de los reactivos basadas en la generación de reglas pudieron anticiparse por medio del LLTM. Loe y Rust[26] exploraron las propiedades psicométricas de 18 laberintos desarrollados automáticamente con el Generador de Laberintos (MazeGen), paquete escrito en lenguaje R. Las propiedades de los laberintos son óptimas, incluyendo el ajuste al modelo de Rasch y la predicción de la dificultad de los laberintos por medio del LLTM. Arendasy y Sommer[27] identificaron causas del sesgo de medición relacionadas con estrategias de eliminación de respuestas a ítems de matrices figurales, los cuales fueron creadas con el Generador de Matrices de Figuras (Figural Matrices Generator, GeomGen[28]). Entre otros resultados, los autores mostraron que la existencia de distractores destacados favorece la búsqueda de estrategias de eliminación de respuestas y que estas estrategias afectan la validez de constructo de dichos ítems. Además, Arendasy y cols.[29][30] estudiaron el Funcionamiento Diferencial del Ítem (Differential Item Functioning, DIF) por género, así como las diferencias intergénero, con ítems de rotación mental generados automáticamente. Los autores manipularon características del diseño de ítems que habían exhibido DIF por género en estudios previos y demostraron que los estimadores del tamaño del efecto de las diferencias intergénero se veían afectados por la presencia de diferentes tipos de DIF por género, tal vez causados por determinadas características del diseño de los ítems. Freund, Hofer y Holling[31] generaron 25 ítems de matrices de 4x4 automáticamente por medio del Desarrollador Matricial (MatrixDeveloper[32]), que fueron administrados a 169 participantes. Los reactivos mostraron un buen ajuste al model de Rasch y la generación de ítems basada en reglas pudo explicar la dificultad de dichos reactivos. Arendasy[33] estudió posibles violaciones de la calidad psicométrica de ítems de razonamiento visuoespacial generados en forma automática, utilizando para ello principios de la teoría de respuesta al ítem. Con dicho fin, presentó dos programas, a saber: el ya mencionado GeomGen y el Generador de Bucles Interminables (Endless Loop Generator, EsGen). Informó que GeomGen resultó ser más adecuado para la AIG ya que este programa consideró todo tipo de violación durante la generación de ítems. En un estudio paralelo con GeomGen, Arendasy y Sommer[34] reportaron que la sola variación de cierta organización perceptual de los ítems influyó en el desempeño de los respondientes en determinados niveles de habilidad y que tuvo un efecto sobre varios índices de calidad psicométrica. Estos resultados podrían cuestionar el supuesto de unidimensionalidad de los ítems de matrices de figuras a nivel general. El primer generador de matrices conocido fue creado por Susan Embretson,[35][36] demostrando buena calidad psicométrica de los ítems automáticamente creados, lo cual se detalla en el libro de Embretson y Reise.[37] Embretson propuso además un modelo para la correcta creación de ítems en línea.
Referencias
|