Repetibilidad (medición)

La repetibilidad o confiabilidad test-retest (o prueba-reprueba)[1]​ es la proximidad de la concordancia entre los resultados de mediciones sucesivas del mismo mensurando realizadas en las mismas condiciones de medición.[2]​ Es decir, las mediciones las realiza una sola persona o instrumento sobre la misma cosa, en las mismas condiciones y en un período corto de tiempo. Una confiabilidad de test-retest menos que perfecta provoca variabilidad de test-retest. Esta variabilidad puede deberse, por ejemplo, a la variabilidad intraindividual y la variabilidad intraobservador. Se puede decir que una medición es repetible cuando estas variaciones son menores que un criterio de aceptación predeterminado.

La variabilidad test-retest se utiliza prácticamente, por ejemplo, en la monitorización médica de enfermedades. En estas situaciones, a menudo hay una "diferencia crítica" predeterminada, y para las diferencias en los valores monitoreados que sean menores a esta diferencia crítica, se puede considerar la posibilidad de variabilidad previa a la prueba como única causa de la diferencia además de, por ejemplo, cambios en enfermedades o tratamientos.[3]

Condiciones

Deben cumplirse las siguientes condiciones para establecer la repetibilidad:[2][4]

  • las mismas herramientas experimentales
  • el mismo observador
  • el mismo instrumento de medida, utilizado en las mismas condiciones
  • el mismo lugar
  • repetición durante un corto período de tiempo.
  • mismos objetivos

Los métodos de repetibilidad fueron desarrollados por Bland y Altman (1986).[5]

Si la correlación entre administraciones separadas de la prueba es alta (por ejemplo, 0,7 o más como en esta tabla de consistencia interna alfa de Cronbach[6]​), entonces tiene una buena confiabilidad prueba-reprueba.

El coeficiente de repetibilidad es una medida de precisión que representa el valor por debajo del cual se puede esperar que la diferencia absoluta entre dos resultados de prueba repetidos se encuentre con una probabilidad del 95%.

La desviación estándar en condiciones de repetibilidad es parte de la precisión y exactitud .

Análisis de concordancia de atributos en bases de datos de defectos

Un análisis de concordancia de atributos está diseñado para evaluar simultáneamente el impacto de la repetibilidad y la reproducibilidad en la precisión. Le permite al analista examinar las respuestas de varios revisores mientras miran varios escenarios varias veces. Produce estadísticas que evalúan la capacidad de los evaluadores para estar de acuerdo consigo mismos (repetibilidad), entre sí (reproducibilidad) y con un maestro conocido o valor correcto (precisión general) para cada característica, una y otra vez.[7]

Pruebas psicológicas

Debido a que la misma prueba se administra dos veces y cada prueba es paralela a sí misma, las diferencias entre las calificaciones de la prueba y las calificaciones de la nueva prueba deben deberse únicamente a un error de medición. Este tipo de argumento es muy probablemente cierto para muchas mediciones físicas. Sin embargo, este argumento a menudo es inapropiado para la medición psicológica, porque a menudo es imposible considerar la segunda administración de una prueba como una medida paralela a la primera.[8]

La segunda administración de una prueba psicológica puede producir puntuaciones sistemáticamente diferentes a las de la primera administración debido a las siguientes razones:[8]

  1. El atributo que se está midiendo puede cambiar entre la primera prueba y la nueva prueba. Por ejemplo, una prueba de lectura que se administra en septiembre a una clase de tercer grado puede producir resultados diferentes cuando se vuelve a tomar en junio. Uno esperaría algún cambio en la capacidad de lectura de los niños durante ese lapso de tiempo, una correlación baja prueba-reprueba podría reflejar cambios reales en el atributo mismo.
  2. La experiencia de realizar la prueba en sí misma puede cambiar la puntuación real de una persona. Por ejemplo, completar un inventario de ansiedad podría servir para aumentar el nivel de ansiedad de una persona.
  3. Efecto de arrastre, especialmente si el intervalo entre la prueba y la repetición es corto. Cuando se vuelve a probar, las personas pueden recordar su respuesta original, lo que podría afectar las respuestas en la segunda administración.

Véase también

Referencias

  1. Types of Reliability The Research Methods Knowledge Base. Last Revised: 20 October 2006
  2. a b JCGM 100:2008. Evaluation of measurement data – Guide to the expression of uncertainty in measurement, Joint Committee for Guides in Metrology, 2008 .
  3. Fraser, C. G.; Fogarty, Y. (1989). «Interpreting laboratory results». BMJ (Clinical Research Ed.) 298 (6689): 1659-1660. PMC 1836738. PMID 2503170. doi:10.1136/bmj.298.6689.1659. 
  4. Taylor, Barry N.; Kuyatt, Chris E. (1994), NIST Guidelines for Evaluating and Expressing the Uncertainty of NIST Measurement Results Cover, Gaithersburg, MD, USA: National Institute of Standards and Technology .
  5. «Statistical methods for assessing agreement between two methods of clinical measurement». 
  6. George, D., & Mallery, P. (2003). SPSS for Windows step by step: A simple guide and reference. 11.0 update (4th ed.). Boston: Allyn & Bacon.
  7. «Attribute Agreement Analysis for Defect Databases | iSixSigma». 
  8. a b Davidshofer, Kevin R. Murphy, Charles O. (2005). Psychological testing : principles and applications (6th edición). Upper Saddle River, N.J.: Pearson/Prentice Hall. ISBN 978-0-13-189172-2. 

Enlaces externos