Remuestreo

En el ámbito de la estadística, se denomina remuestreo (resampling, en inglés) a una variedad de métodos que permiten realizar algunas de las siguientes operaciones:

  1. Estimar la precisión de muestras estadísticas (medianas, variancias, percentiles) mediante el uso de subconjuntos de datos disponibles (jackknifing) o tomando datos en forma aleatoria de un conjunto de datos bootstrapping)
  2. Intercambiar marcadores de puntos de datos al realizar tests de significancia (test de permutación, también denominados tests exactos, tests de aleatoriedad, o pruebas de re-aleatoriedad)
  3. Validar modelos para el uso de subconjuntos aleatorios (bootstrapping, validación cruzada)

Entre las técnicas comunes de remuestreo se encuentran bootstrapping, jackknifing y pruebas de permutación.

Bootstrap

El mejor ejemplo del principio de plug-in, el método bootstrapping.

Bootstrapping es un método estadístico para estimar la distribución muestral de un estimador mediante el muestreo con reemplazo de la muestra original, la mayoría de las veces con el propósito de obtener estimaciones robustas de errores estándar e intervalos de confianza de un parámetro de la población como una media, mediana, proporción, razón de momios, coeficiente de correlación o coeficiente de regresión.[1]​ Se le ha llamado principio plug-in,[2]​ ya que es el método de estimación de los funcionales de una distribución de población mediante la evaluación de los mismos funcionales en la distribución empírica basada en una muestra. Se le llama un principio porque es demasiado simple para ser otra cosa, es solo una guía, no un teorema.

Por ejemplo,[2]​ al estimar la media de la población, este método utiliza la media de la muestra; para estimar la mediana de la población, utiliza la mediana de la muestra; para estimar la regresión lineal de la población, utiliza la regresión lineal de la muestra.

También se puede utilizar para construir pruebas de hipótesis. A menudo se usa como una alternativa robusta a la inferencia basada en suposiciones paramétricas cuando esas suposiciones están en duda, o cuando la inferencia paramétrica es imposible o requiere fórmulas muy complicadas para el cálculo de errores estándar. Las técnicas de bootstrapping también se utilizan en las transiciones de selección de actualización de filtros de partículas, algoritmos genéticos y métodos Monte Carlo de remuestreo/reconfiguración relacionados utilizados en física computacional.[3][4]​ En este contexto, el bootstrap se utiliza para reemplazar medidas de probabilidad ponderada secuencialmente empíricas por medidas empíricas. El bootstrap permite reemplazar las muestras con factores de ponderación bajos por copias de las muestras con factores de ponderación altos.

Jackknifing

Jackknifing, es similar a bootstrapping, y se usa en inferencia estadística para estimar el sesgo y el error estándar (varianza) de una estadística, cuando se usa una muestra aleatoria de observaciones para calcularlo.[1]

Quenouille inventó este método con la intención de reducir el sesgo de la estimación de la muestra. Tukey amplió este método al suponer que si las réplicas pudieran considerarse distribuidas de manera idéntica e independiente, entonces podría hacerse una estimación de la varianza del parámetro de muestra y que se distribuiría aproximadamente como una variable t con n -1 grados de libertad (donde n es el tamaño de la muestra).[1]

La idea básica del estimador de varianza jackknife radica en volver a calcular sistemáticamente la estimación estadística, omitiendo una o más observaciones a la vez del conjunto de muestras. A partir de este nuevo conjunto de réplicas de la estadística, se puede calcular una estimación del sesgo y una estimación de la varianza de la estadística.

En lugar de usar jackknife para estimar la varianza, se puede aplicar en cambio al logaritmo de la varianza. Esta transformación puede resultar en mejores estimaciones, particularmente cuando la distribución de la varianza puede no ser normal.

Para muchos parámetros estadísticos, la estimación de varianza jackknife tiende asintóticamente al valor verdadero casi con seguridad. Desde un punto de vista técnico, se dice que la estimación jackknife es consistente. El jackknife es consistente para las medias muestrales, las varianzas muestrales, las estadísticas t centradas y no centradas (con poblaciones posiblemente no normales), el coeficiente de variación de la muestra, los estimadores de máxima verosimilitud, los estimadores de cuadrados mínimos , los coeficientes de correlación y los coeficientes de regresión.

Submuestreo

El submuestreo es un método alternativo para aproximar la distribución muestral de un estimador.[5]​ Las dos diferencias claves con el bootstrap son: (i) el tamaño de la submuestra es más pequeño que el tamaño de la muestra y (ii) el muestreo se realiza sin reemplazo. La ventaja del submuestreo es que es válido en condiciones mucho más débiles en comparación con el bootstrap. En particular, un conjunto de condiciones suficientes es que se conoce la tasa de convergencia del estimador y que la distribución limitante es continua; además, el tamaño de la nueva muestra (o submuestra) debe tender a infinito junto con el tamaño de la muestra, pero a una tasa menor, de modo que su relación converja a cero. Si bien el submuestreo se propuso originalmente solo para el caso de datos independientes e idénticamente distribuidos (iid), la metodología se ha ampliado para abarcar también datos de series temporales; en este caso, se vuelven a muestrear bloques de datos posteriores en lugar de puntos de datos individuales. Hay muchos casos de interés aplicado en los que el submuestreo conduce a una inferencia válida, mientras que el bootstrapping no lo hace; por ejemplo, casos en los que la tasa de convergencia del estimador no es la raíz cuadrada del tamaño de la muestra o cuando la distribución limitante no es normal.

Referencias

  1. a b c Bradley Efron (1982). The jackknife, the bootstrap, and other resampling plans, In Society of Industrial and Applied Mathematics CBMS-NSF Monographs, 38.
  2. a b Logan, J. David and Wolesensky, Willian R. Mathematical methods in biology. Pure and Applied Mathematics: a Wiley-interscience Series of Texts, Monographs, and Tracts. John Wiley& Sons, Inc. 2009. Chapter 6: Statistical inference. Section 6.6: Bootstrap methods
  3. Del Moral, Pierre (2004). Feynman-Kac formulae. Genealogical and interacting particle approximations. Springer. p. 575. «Series: Probability and Applications». 
  4. Del Moral, Pierre (2013). Mean field simulation for Monte Carlo integration. Chapman & Hall/CRC Press. p. 626. «Monographs on Statistics & Applied Probability». 
  5. Good, P. (2005) Introduction to Statistics Through Resampling Methods and R/S-PLUS. Wiley. ISBN 0-471-71575-1

Bibliografía

Introducción a la estadística

  • Good, P. (2005) Introduction to Statistics Through Resampling Methods and R/S-PLUS. Wiley. ISBN 0-471-71575-1
  • Good, P. (2005) Introduction to Statistics Through Resampling Methods and Microsoft Office Excel. Wiley. ISBN 0-471-73191-9
  • Hesterberg, T. C., D. S. Moore, S. Monaghan, A. Clipson, and R. Epstein (2005). Bootstrap Methods and Permutation Tests.
  • Wolter, K.M. (2007). Introduction to Variance Estimation. Second Edition. Springer, Inc.

Técnica de bootstrap


Técnica de Jackknife

  • Berger, Y.G. (2007). A jackknife variance estimator for unistage stratified samples with unequal probabilities. Biometrika. Vol. 94, 4, pp. 953-964.
  • Berger, Y.G. and Rao, J.N.K. (2006). Adjusted jackknife for imputation under unequal probability sampling without replacement. Journal of the Royal Statistical Society B. Vol. 68, 3, pp. 531-547.
  • Berger, Y.G. and Skinner, C.J. (2005). A jackknife variance estimator for unequal probability sampling. Journal of the Royal Statistical Society B. Vol. 67, 1, pp. 79-89.
  • Jiang, J., Lahiri, P. and Wan, S-M. (2002). A unified jackknife theory for empirical best prediction with M-estimation. The Annals of Statistics. Vol. 30, 6, pp. 1782-810.
  • Jones, H.L. (1974). Jackknife estimation of functions of stratum means. Biometrika. Vol. 61, 2, pp. 343-348.
  • Kish, L. and Frankel M.R. (1974). Inference from complex samples. Journal of the Royal Statistical Society B. Vol. 36, 1, pp. 1-37.
  • Krewski, D. and Rao, J.N.K. (1981). Inference from stratified samples: properties of the linearization, jackknife and balanced repeated replication methods. The Annals of Statistics. Vol. 9, 5, pp. 1010-1019.
  • Quenouille, M.H. (1956). Notes on bias in estimation. Biometrika. Vol. 43, pp. 353-360.
  • Rao, J.N.K. and Shao, J. (1992). Jackknife variance estimation with survey data under hot deck imputation. Biometrika. Vol. 79, 4, pp. 811-822.
  • Rao, J.N.K., Wu, C.F.J. and Yue, K. (1992). Some recent work on resampling methods for complex surveys. Survey Methodology. Vol. 18, 2, pp. 209-217.
  • Shao, J. and Tu, D. (1995). The Jackknife and Bootstrap. Springer-Verlag, Inc.
  • Tukey, J.W. (1958). Bias and confidence in not-quite large samples (abstract). The Annals of Mathematical Statistics. Vol. 29, 2, pp. 614.
  • Wu, C.F.J. (1986). Jackknife, Bootstrap and other resampling methods in regression analysis. The Annals of Statistics. Vol. 14, 4, pp. 1261-1295.

Métodos Monte Carlo

  • George S. Fishman (1995). Monte Carlo: Concepts, Algorithms, and Applications, Springer, New York. ISBN 0-387-94527-X.
  • James E. Gentle (2009). Computational Statistics, Springer, New York. Part III: Methods of Computational Statistics. ISBN 978-0-387-98143-7.
  • Christian P. Robert and George Casella (2004). Monte Carlo Statistical Methods, Second ed., Springer, New York. ISBN 0-387-21239-6.
  • Shlomo Sawilowsky and Gail Fahoome (2003). Statistics via Monte Carlo Simulation with Fortran. Rochester Hills, MI: JMASM. ISBN 0-9740236-0-4.


Test de Permutación

Referencias originales:

  • R. A. Fisher, The Design of Experiment, New York: Hafner, 1935.
  • Pitman, E. J. G., "Significance tests which may be applied to samples from any population", Royal Statistical Society Supplement, 1937; 4: 119-130 and 225-32 (parts I and II).
  • Pitman, E. J. G., "Significance tests which may be applied to samples from any population. Part III. The analysis of variance test", Biometrika, 1938; 29: 322-335.

Referencias modernas:

Métodos computacionales:

  • Mehta, C. R. and Patel, N. R. (1983). 2A network algorithm for performing Fisher’s exact test in r x c contingency tables", J. Amer. Statist. Assoc, 78(382):427–434.
  • Metha, C. R., Patel, N. R. and Senchaudhuri, P. (1988). "Importance sampling for estimating exact probabilities in permutational inference", J. Am. Statist. Assoc., 83(404):999–1005.

Métodos de remuestreo

  • Good, P. (2006) Resampling Methods. 3rd Ed. Birkhauser.
  • Wolter, K.M. (2007). Introduction to Variance Estimation. 2nd Edition. Springer, Inc.