Métodos de Montecarlo basados en cadenas de Markov
En estadística, los métodos de Montecarlo basados en cadenas de Markov (MCMC por sus siglas en inglés, Markov chain Montecarlo) comprenden una clase de algoritmos para el muestreo de una distribución de probabilidad. Construyendo una cadena de Markov que tiene la distribución deseada como su distribución de equilibrio, se puede obtener una muestra de la distribución deseada registrando estados de la cadena. Cuantos más pasos se incluyan, más se acercará la distribución de la muestra a la distribución real deseada. Existen varios algoritmos para construir cadenas, incluido el algoritmo de Metrópolis-Hastings.
En la estadística bayesiana, el reciente desarrollo de los métodos MCMC ha permitido calcular grandes modelos jerárquicos que requieren integraciones sobre cientos o miles de parámetros desconocidos.[5]
En el muestreo de eventos raros, también se utilizan para generar muestras que pueblan gradualmente la región de fallos raros.[cita requerida]
Explicación general
Los métodos de Montecarlo basados en cadenas de Markov crean muestras de una variable aleatoria continua, con una densidad de probabilidad proporcional a una función conocida. Estas muestras pueden utilizarse para evaluar una integral sobre esa variable, como su valor esperado o su varianza.
En la práctica, se suele desarrollar una colectividad de cadenas que parten de un conjunto de puntos elegidos arbitrariamente y suficientemente distantes entre sí. Estas cadenas son procesos estocásticos de "caminantes" que se desplazan aleatoriamente según un algoritmo que busca lugares con una contribución razonablemente alta a la integral para desplazarse a continuación, asignándoles mayores probabilidades.
Estos algoritmos crean cadenas de Markov tales que tienen una distribución de equilibrio que es proporcional a la función dada.
Reducción de la correlación
Aunque los métodos MCMC se crearon para abordar problemas multidimensionales mejor que los algoritmos genéricos de Montecarlo, cuando el número de dimensiones aumenta también tienden a sufrir la maldición de la dimensión: las regiones de mayor probabilidad tienden a estirarse y perderse en un volumen creciente de espacio que contribuye poco a la integral. Una forma de abordar este problema podría ser acortar los pasos del caminante, de forma que no intente continuamente salir de la región de mayor probabilidad, aunque de esta forma el proceso sería altamente autocorrelacionado y costoso (es decir, se necesitarían muchos pasos para obtener un resultado preciso). Métodos más sofisticados, como los métodos hamiltonianos de Montecarlo y el algoritmo de Wang-Landau, utilizan diversas formas de reducir esta autocorrelación, al tiempo que consiguen mantener el proceso en las regiones que dan una mayor contribución a la integral. Estos algoritmos suelen basarse en una teoría más complicada y son más difíciles de aplicar, pero suelen converger más rápidamente.
Ejemplos
Paseo aleatorio
Algoritmo de Metrópolis-Hastings: Este método genera una cadena de Markov utilizando una densidad de propuesta para nuevos pasos y un método para rechazar algunos de los movimientos propuestos. En realidad es un marco general que incluye como casos especiales el primer y más sencillo MCMC (algoritmo de Metrópolis) y muchas alternativas más recientes que se enumeran a continuación.
Muestreo de Gibbs: Este método requiere que todas las distribuciones condicionales de la distribución objetivo sean muestreadas exactamente. Cuando la extracción de las distribuciones condicionales completas no es sencilla, se utilizan otros muestreadores dentro de Gibbs (por ejemplo, véase[6][7]). El muestreo de Gibbs es popular en parte porque no requiere ningún "ajuste". La estructura del algoritmo del muestreo de Gibbs se asemeja mucho a la de la inferencia variacional por ascenso de coordenadas, ya que ambos algoritmos utilizan las distribuciones condicionales completas en el procedimiento de actualización.[8]
Algoritmo de Langevin ajustado por Metrópolis y otros métodos que se basan en el gradiente (y posiblemente en la segunda derivada) de la densidad logarítmica del objetivo para proponer pasos que tengan más probabilidades de ir en la dirección de una mayor densidad de probabilidad.[9]
Método de Metrópolis-Hastings pseudo-marginal: Este método sustituye la evaluación de la densidad de la distribución objetivo por una estimación insesgada y es útil cuando la densidad objetivo no está disponible analíticamente, por ejemplo, en los modelos de variables latentes.
Muestreo por cortes: Este método se basa en el principio de que se puede realizar un muestreo de una distribución tomando muestras uniformes de la región bajo el gráfico de su función de densidad. Alterna el muestreo uniforme en la dirección vertical con el muestreo uniforme de la "rebanada" horizontal definida por la posición vertical actual.
Método de Metrópolis de múltiples intentos: Este método es una variación del algoritmo Metrópolis-Hastings que permite realizar múltiples ensayos en cada punto. Al permitir dar pasos más grandes en cada iteración, ayuda a resolver la maldición de la dimensionalidad.
Salto reversible: Este método es una variante del algoritmo Metropolis-Hastings que permite propuestas que cambian la dimensionalidad del espacio.[10] Los métodos de Montecarlo con cadena de Markov que cambian la dimensionalidad se han utilizado durante mucho tiempo en aplicaciones de física estadística, donde para algunos problemas se utiliza una distribución que es una colectividad macrocanónica (por ejemplo, cuando el número de moléculas en una caja es variable). Pero la variante de salto reversible es útil cuando se hace un Montecarlo de cadena de Markov o un muestreo de Gibbs sobre modelos bayesianos no paramétricos, como los que implican el proceso de Dirichlet o el proceso de restaurante chino, en los que el número de componentes de mezcla/clústeres/etc. se infiere automáticamente de los datos.
Métodos hamiltonianos (o híbridos) de Montecarlo (HMC): Intenta evitar el comportamiento de paseo aleatorio introduciendo un vector de momento auxiliar e implementando la dinámica hamiltoniana, de modo que la función de energía potencial es la densidad objetivo. Las muestras de momento se descartan después del muestreo. El resultado final del Montecarlo Híbrido es que las propuestas se mueven a través del espacio muestral en pasos más grandes; por lo tanto, están menos correlacionadas y convergen a la distribución objetivo más rápidamente.
Métodos de partículas interactivas
Las metodologías MCMC interactivas son una clase de métodos de partículas de campo medio para obtener muestras aleatorias de una secuencia de distribuciones de probabilidad con un nivel creciente de complejidad de muestreo.[11] Estos modelos probabilísticos incluyen modelos de estado de espacio de trayectoria con un horizonte temporal creciente, distribuciones posteriores en función de la secuencia de observaciones parciales, conjuntos de niveles de restricción crecientes para distribuciones condicionales, programas de temperatura decrecientes asociados a algunas distribuciones de Boltzmann-Gibbs, y muchos otros. En principio, cualquier muestreador de Montecarlo con cadena de Markov puede convertirse en un muestreador de Montecarlo con cadena de Markov interactiva. Estos muestreadores de Montecarlo de cadenas de Markov interactivas pueden interpretarse como una forma de ejecutar en paralelo una secuencia de muestreadores de Montecarlo de cadenas de Markov. Por ejemplo, los algoritmos de recocido simulado interactivo se basan en movimientos independientes de Metropolis-Hastings que interactúan secuencialmente con un mecanismo de tipo selección-muestreo. A diferencia de los métodos tradicionales de Montecarlo en cadena de Markov, el parámetro de precisión de esta clase de muestreadores de Montecarlo en cadena de Markov interactivos sólo está relacionado con el número de muestreadores de Montecarlo en cadena de Markov interactivos. Estas metodologías avanzadas de partículas pertenecen a la clase de modelos de partículas de Feynman-Kac,[12][13] también llamados métodos de Montecarlo secuencial o de filtro de partículas en las comunidades de inferencia bayesiana y de procesamiento de señales.[14] Los métodos de Montecarlo de cadenas de Markov interactivas también pueden interpretarse como un algoritmo genético de partículas de selección de mutaciones con mutaciones de Montecarlo de cadenas de Markov.
La ventaja de las secuencias de baja discrepancia en lugar de los números aleatorios para el muestreo Montecarlo independiente simple es bien conocida.[16] Este procedimiento, conocido como método cuasi-Montecarlo (QMC),[17] produce un error de integración que decae a un ritmo superior al obtenido por el muestreo IID, por la desigualdad de Koksma-Hlawka. Empíricamente permite reducir tanto el error de estimación como el tiempo de convergencia en un orden de magnitud.[cita requerida] El método Array-RQMC combina el cuasi-Montecarlo aleatorio y la simulación en cadena de Markov, simulando cadenas simultáneamente de forma que la distribución empírica de los estados en cualquier paso dado es una mejor aproximación a la verdadera distribución de la cadena que con el MCMC ordinario.[18] En los experimentos empíricos, la varianza de la media de una función de estado converge a veces a una velocidad o incluso más rápido, en lugar del de Montecarlo.[19]
Convergencia
Normalmente no es difícil construir una cadena de Markov con las propiedades deseadas. El problema más difícil es determinar cuántos pasos son necesarios para converger a la distribución estacionaria dentro de un error aceptable.[20] Una buena cadena tendrá una mezcla rápida: la distribución estacionaria se alcanza rápidamente partiendo de una posición arbitraria. Un método empírico estándar para evaluar la convergencia consiste en ejecutar varias cadenas de Markov simuladas independientes y comprobar que la relación entre las varianzas entre cadenas y dentro de ellas para todos los parámetros muestreados es cercana a 1.[20][21]
Normalmente, el muestreo de Montecarlo con cadena de Markov sólo puede aproximarse a la distribución objetivo, ya que siempre hay algún efecto residual de la posición inicial. Los algoritmos más sofisticados basados en cadenas de Markov de Montecarlo, como el acoplamiento desde el pasado, pueden producir muestras exactas, a costa de un cálculo adicional y un tiempo de ejecución ilimitado (aunque finito en la expectativa).
Muchos métodos de Montecarlo de paseo aleatorio se mueven alrededor de la distribución de equilibrio en pasos relativamente pequeños, sin tendencia a que los pasos procedan en la misma dirección. Estos métodos son fáciles de implementar y analizar, pero desgraciadamente el caminante puede tardar mucho tiempo en explorar todo el espacio. A menudo, el caminante vuelve atrás y cubre el terreno ya cubierto.
Una consideración más detallada de la convergencia se encuentra en el teorema del límite central de la cadena de Markov. En[22] encontramos una discusión de la teoría relacionada con la convergencia y la estacionariedad del algoritmo Metropolis-Hastings.
Software
Varios programas de software proporcionan capacidades de muestreo MCMC, por ejemplo:
El software de Montecarlo paralelo ParaMonte está disponible en múltiples lenguajes de programación, como C, C++, Fortran, MATLAB y Python.
Paquetes que utilizan dialectos del lenguaje del modelo BUGS:
↑Banerjee, Sudipto; Carlin, Bradley P.; Gelfand, Alan P. (12 de septiembre de 2014). Hierarchical Modeling and Analysis for Spatial Data (Second edición). CRC Press. p. xix. ISBN978-1-4398-1917-3.
↑Gilks, W. R.; Wild, P. (1 de enero de 1992). «Adaptive Rejection Sampling for Gibbs Sampling». Journal of the Royal Statistical Society. Series C (Applied Statistics)41 (2): 337-348. JSTOR2347565. doi:10.2307/2347565.
↑Gilks, W. R.; Best, N. G.; Tan, K. K. C. (1 de enero de 1995). «Adaptive Rejection Metropolis Sampling within Gibbs Sampling». Journal of the Royal Statistical Society. Series C (Applied Statistics)44 (4): 455-472. JSTOR2986138. doi:10.2307/2986138.
↑Lee, Se Yoon (2021). «Gibbs sampler and coordinate ascent variational inference: A set-theoretical review». Communications in Statistics - Theory and Methods: 1-21. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214.
↑L'Ecuyer, P.; Munger, D.; Lécot, C.; Tuffin, B. (2018). «Sorting Methods and Convergence Rates for Array-RQMC: Some Empirical Comparisons». Mathematics and Computers in Simulation143: 191-201. doi:10.1016/j.matcom.2016.07.010.
↑Hill, S. D.; Spall, J. C. (2019). «Stationarity and Convergence of the Metropolis-Hastings Algorithm: Insights into Theoretical Aspects». IEEE Control Systems Magazine39 (1): 56-67. doi:10.1109/MCS.2018.2876959.
↑Foreman-Mackey, Daniel; Hogg, David W.; Lang, Dustin; Goodman, Jonathan (25 de noviembre de 2013). «emcee: The MCMC Hammer». Publications of the Astronomical Society of the Pacific125 (925): 306-312. doi:10.1086/670067.