Transformación de datos

En estadística, la transformación de datos se efectúa para asegurarse que estos tienen una distribución normal (lo que puede ser un remedio para analizar datos que tienen otros tipos de distribución, falta de normalidad, linealidad, y homocedasticidad). Con la transformación de los datos estos se preparan para diferentes tipos de análisis, como los de regresión,[1]t de student, correlación y ANOVA. Cuando se usan este tipo de pruebas estadísticas la transformación de datos puede ser necesaria ya que este tipo de análisis asumen que los datos deben ser lineales, normales y tienen homocedasticidad en su varianza. Este tipo de transformación se conoce también como transformación de la linealidad. Un buen indicador de datos con una distribución normal es que el sesgo en el rango va de -0,8 a 0,8 y la curtosis se encuentra en el rango de -3,0 a 3,0. La normalidad se mide comúnmente con pruebas de bondad de ajuste, como las de chi-cuadrada y Kolmogorov-Smirnov.

Para los novatos en estadística el análisis de muestras que no tienen una distribución normal pueden ser un problema, porque las pruebas paramétricas estadísticas comunes asumen normalidad en los datos, es decir, que la distribución de los mismos se ajusta a una campana de Gauss. Si la distribución de los datos no es normal se asume que la distribución de los datos no es semejante estadísticamente a una campana de Gauss, porque sus intervalos de confianza pueden estar a menudo fuera de centro o ser estrechos. Si el tamaño de la muestra es demasiado pequeño o los datos están sesgados hacia una distribución no normal se puede intentar hacer una de las siguientes transformaciones: logarítmica, raíz cuadrada o inversa. Se debe tener en cuenta que el tipo de trasformación que se use debe ser acorde con el tipo de datos que se desea transformar, para ello debe considerarse si la variable tiene distribución continua y que tipo datos son (por ejemplo, resultados de conteos, porcentajes, etc.).

Para personas con mayor experiencia en estadística que tengan datos cuya distribución no se ajusta a la normalidad se sugiere definir la distribución real de los datos, que puede ser exponencial, poisson, etc., y analizarlos usando procedimientos específicos (algunos de ellos encontrados en el programa R que asumen de facto ese tipo de distribución.

Referencias

  1. Swift, Ronald S. (2002). Cómo mejorar las relaciones con los clientes. Pearson Educación. p. 172. ISBN 9702601924.