En el ámbito de la estadística, se denomina remuestreo (resampling, en inglés) a una variedad de métodos que permiten realizar algunas de las siguientes operaciones:
Estimar la precisión de muestras estadísticas (medianas, variancias, percentiles) mediante el uso de subconjuntos de datos disponibles (jackknifing) o tomando datos en forma aleatoria de un conjunto de datos bootstrapping)
Intercambiar marcadores de puntos de datos al realizar tests de significancia (test de permutación, también denominados tests exactos, tests de aleatoriedad, o pruebas de re-aleatoriedad)
Validar modelos para el uso de subconjuntos aleatorios (bootstrapping, validación cruzada)
Entre las técnicas comunes de remuestreo se encuentran bootstrapping, jackknifing y pruebas de permutación.
Por ejemplo,[2] al estimar la media de la población, este método utiliza la media de la muestra; para estimar la mediana de la población, utiliza la mediana de la muestra; para estimar la regresión lineal de la población, utiliza la regresión lineal de la muestra.
También se puede utilizar para construir pruebas de hipótesis. A menudo se usa como una alternativa robusta a la inferencia basada en suposiciones paramétricas cuando esas suposiciones están en duda, o cuando la inferencia paramétrica es imposible o requiere fórmulas muy complicadas para el cálculo de errores estándar. Las técnicas de bootstrapping también se utilizan en las transiciones de selección de actualización de filtros de partículas, algoritmos genéticos y métodos Monte Carlo de remuestreo/reconfiguración relacionados utilizados en física computacional.[3][4] En este contexto, el bootstrap se utiliza para reemplazar medidas de probabilidad ponderada secuencialmente empíricas por medidas empíricas. El bootstrap permite reemplazar las muestras con factores de ponderación bajos por copias de las muestras con factores de ponderación altos.
Jackknifing
Jackknifing, es similar a bootstrapping, y se usa en inferencia estadística para estimar el sesgo y el error estándar (varianza) de una estadística, cuando se usa una muestra aleatoria de observaciones para calcularlo.[1]
Quenouille inventó este método con la intención de reducir el sesgo de la estimación de la muestra. Tukey amplió este método al suponer que si las réplicas pudieran considerarse distribuidas de manera idéntica e independiente, entonces podría hacerse una estimación de la varianza del parámetro de muestra y que se distribuiría aproximadamente como una variable t con n -1 grados de libertad (donde n es el tamaño de la muestra).[1]
La idea básica del estimador de varianza jackknife radica en volver a calcular sistemáticamente la estimación estadística, omitiendo una o más observaciones a la vez del conjunto de muestras. A partir de este nuevo conjunto de réplicas de la estadística, se puede calcular una estimación del sesgo y una estimación de la varianza de la estadística.
En lugar de usar jackknife para estimar la varianza, se puede aplicar en cambio al logaritmo de la varianza. Esta transformación puede resultar en mejores estimaciones, particularmente cuando la distribución de la varianza puede no ser normal.
Para muchos parámetros estadísticos, la estimación de varianza jackknife tiende asintóticamente al valor verdadero casi con seguridad. Desde un punto de vista técnico, se dice que la estimación jackknife es consistente. El jackknife es consistente para las medias muestrales, las varianzas muestrales, las estadísticas t centradas y no centradas (con poblaciones posiblemente no normales), el coeficiente de variación de la muestra, los estimadores de máxima verosimilitud, los estimadores de cuadrados mínimos , los coeficientes de correlación y los coeficientes de regresión.
Submuestreo
El submuestreo es un método alternativo para aproximar la distribución muestral de un estimador.[5] Las dos diferencias claves con el bootstrap son: (i) el tamaño de la submuestra es más pequeño que el tamaño de la muestra y (ii) el muestreo se realiza sin reemplazo. La ventaja del submuestreo es que es válido en condiciones mucho más débiles en comparación con el bootstrap. En particular, un conjunto de condiciones suficientes es que se conoce la tasa de convergencia del estimador y que la distribución limitante es continua; además, el tamaño de la nueva muestra (o submuestra) debe tender a infinito junto con el tamaño de la muestra, pero a una tasa menor, de modo que su relación converja a cero. Si bien el submuestreo se propuso originalmente solo para el caso de datos independientes e idénticamente distribuidos (iid), la metodología se ha ampliado para abarcar también datos de series temporales; en este caso, se vuelven a muestrear bloques de datos posteriores en lugar de puntos de datos individuales. Hay muchos casos de interés aplicado en los que el submuestreo conduce a una inferencia válida, mientras que el bootstrapping no lo hace; por ejemplo, casos en los que la tasa de convergencia del estimador no es la raíz cuadrada del tamaño de la muestra o cuando la distribución limitante no es normal.
Referencias
↑ abcBradley Efron (1982). The jackknife, the bootstrap, and other resampling plans, In Society of Industrial and Applied Mathematics CBMS-NSF Monographs, 38.
↑ abLogan, J. David and Wolesensky, Willian R. Mathematical methods in biology. Pure and Applied Mathematics: a Wiley-interscience Series of Texts, Monographs, and Tracts. John Wiley& Sons, Inc. 2009. Chapter 6: Statistical inference. Section 6.6: Bootstrap methods
Bradley Efron (1981). "Nonparametric estimates of standard error: The jackknife, the bootstrap and other methods", Biometrika, 68, 589-599.
Bradley Efron (1982). The jackknife, the bootstrap, and other resampling plans, In Society of Industrial and Applied Mathematics CBMS-NSF Monographs, 38.
Davison, A. C. and Hinkley, D. V. (1997): Bootstrap Methods and their Application, software.
Mooney, C Z & Duval, R D (1993). Bootstrapping. A Nonparametric Approach to Statistical Inference. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-095. Newbury Park, CA: Sage.
Berger, Y.G. (2007). A jackknife variance estimator for unistage stratified samples with unequal probabilities. Biometrika. Vol. 94, 4, pp. 953-964.
Berger, Y.G. and Rao, J.N.K. (2006). Adjusted jackknife for imputation under unequal probability sampling without replacement. Journal of the Royal Statistical Society B. Vol. 68, 3, pp. 531-547.
Berger, Y.G. and Skinner, C.J. (2005). A jackknife variance estimator for unequal probability sampling. Journal of the Royal Statistical Society B. Vol. 67, 1, pp. 79-89.
Jiang, J., Lahiri, P. and Wan, S-M. (2002). A unified jackknife theory for empirical best prediction with M-estimation. The Annals of Statistics. Vol. 30, 6, pp. 1782-810.
Jones, H.L. (1974). Jackknife estimation of functions of stratum means. Biometrika. Vol. 61, 2, pp. 343-348.
Krewski, D. and Rao, J.N.K. (1981). Inference from stratified samples: properties of the linearization, jackknife and balanced repeated replication methods. The Annals of Statistics. Vol. 9, 5, pp. 1010-1019.
Quenouille, M.H. (1956). Notes on bias in estimation. Biometrika. Vol. 43, pp. 353-360.
Rao, J.N.K. and Shao, J. (1992). Jackknife variance estimation with survey data under hot deck imputation. Biometrika. Vol. 79, 4, pp. 811-822.
Rao, J.N.K., Wu, C.F.J. and Yue, K. (1992). Some recent work on resampling methods for complex surveys. Survey Methodology. Vol. 18, 2, pp. 209-217.
Shao, J. and Tu, D. (1995). The Jackknife and Bootstrap. Springer-Verlag, Inc.
Pitman, E. J. G., "Significance tests which may be applied to samples from any population", Royal Statistical Society Supplement, 1937; 4: 119-130 and 225-32 (parts I and II).
Pitman, E. J. G., "Significance tests which may be applied to samples from any population. Part III. The analysis of variance test", Biometrika, 1938; 29: 322-335.
Mehta, C. R. and Patel, N. R. (1983). 2A network algorithm for performing Fisher’s exact test in r x c contingency tables", J. Amer. Statist. Assoc, 78(382):427–434.
Metha, C. R., Patel, N. R. and Senchaudhuri, P. (1988). "Importance sampling for estimating exact probabilities in permutational inference", J. Am. Statist. Assoc., 83(404):999–1005.
Métodos de remuestreo
Good, P. (2006) Resampling Methods. 3rd Ed. Birkhauser.
Wolter, K.M. (2007). Introduction to Variance Estimation. 2nd Edition. Springer, Inc.