Máquina de Gödel

Una máquina Gödel es un programa informático hipotético que se mejora a sí mismo y resuelve problemas de manera óptima. Utiliza un protocolo recursivo de auto-mejora en el que reescribe su propio código cuando puede probar que el nuevo código proporciona una mejor estrategia.[1][2]​ La máquina fue inventada por Jürgen Schmidhuber (propuesta por primera vez en 2003[3]​), pero lleva el nombre de Kurt Gödel, quien inspiró las teorías matemáticas.[4]

La máquina Gödel a menudo se discute cuando se trata de problemas de metaaprendizaje, también conocido como "aprender a aprender". Las aplicaciones incluyen la automatización de las decisiones humanos y la transferencia de conocimiento entre múltiples tareas relacionadas, y pueden conducir al diseño de arquitecturas de aprendizaje más robustas y generales.[5]​ Aunque teóricamente posible, no se ha creado una implementación completa.[6]

La máquina Gödel a menudo se compara con la AIXItl de Marcus Hutter, otra especificación formal para una inteligencia general artificial . Schmidhuber señala que la máquina Gödel podría comenzar implementando AIXItl como su subprograma inicial y auto modificarse después de encontrar pruebas de que otro algoritmo para su código de búsqueda será mejor.[7]

Limitaciones

Los problemas tradicionales resueltos por una computadora solo requieren una entrada y proporcionan alguna salida. Las computadoras de este tipo tenían su algoritmo inicial "hardcodeado".[7]​ Esto no tiene en cuenta el entorno natural dinámico y, por lo tanto, este era uno de los obstáculos que debía superar la máquina Gödel.

Sin embargo, la máquina Gödel tiene sus propias limitaciones. Cualquier sistema formal que abarque la aritmética es defectuoso o permite enunciados que no se pueden probar en el sistema pero se pueden probar en otro sistema: véase, por ejemplo, el teorema de Goodstein.[3]​ Por lo tanto, incluso una máquina Gödel con recursos computacionales ilimitados debe ignorar esas auto-mejoras cuya efectividad no puede probar.

Variables de interés

Hay tres variables que son particularmente útiles en el tiempo de ejecución de la máquina Gödel.[3]

  • En algún momento , La variable tendrá el equivalente binario de . Esto se incrementa de manera constante durante todo el tiempo de ejecución de la máquina.
  • Cualquier entrada destinada a la máquina Gödel desde el entorno natural se almacena en variable . Es probable el caso de que mantenga diferentes valores para diferentes valores de variable .
  • Las salidas de la máquina Gödel se almacenan en variables , dónde sería la cadena de bits de salida en algún momento .

En cualquier momento dado , dónde , el objetivo es maximizar el éxito futuro o la utilidad. Una función de utilidad típica sigue el patrón  :

dónde es una entrada de recompensa de valor real (codificada dentro de ) en el momento , denota el operador de expectativa condicional con respecto a alguna distribución posiblemente desconocida de un conjunto de posibles distribuciones ( refleja todo lo que se sabe sobre las posibles reacciones probabilísticas del entorno) y lo mencionado anteriormente es una función del estado que identifica de forma exclusiva el ciclo actual. Note que tenemos en cuenta la posibilidad de extender la vida útil esperada a través de acciones apropiadas .

Instrucciones utilizadas por técnicas de prueba

La naturaleza de las seis instrucciones de modificación de la prueba a continuación hace que sea imposible insertar un teorema incorrecto en la prueba, lo que trivializa la verificación de la prueba.[3]

get-axiom (n)

Añade la n-ésima axioma como un teorema a la secuencia del teorema actual. A continuación se muestra el esquema de axioma inicial:

  • Los axiomas de hardware especifican formalmente cómo los componentes de la máquina podrían cambiar de un ciclo a otro.
  • Los Axiomas de Recompensa definen el costo computacional de la instrucción de hardware y el costo físico de las acciones de salida. Los Axiomas relacionados también definen la vida útil de la máquina Gödel como cantidades escalares que representan todas las recompensas/costos.
  • Los axiomas del entorno restringen la forma en que se producen nuevas entradas x a partir del entorno, en base a secuencias anteriores de entradas y.
  • Axiomas de incertidumbre/manipulación de cadenas Los axiomas son axiomas estándar para la aritmética, el cálculo, la teoría de probabilidad y la manipulación de cadenas que permiten la construcción de pruebas relacionadas con valores variables futuros dentro de la máquina Gödel.
  • Los Axiomas de estado inicial contienen información sobre cómo reconstruir partes o todo el estado inicial.
  • Los axiomas de utilidad describen el objetivo general en forma de función de utilidad u .

appy-rule(k, m, n)

Toma el índice k de una regla de inferencia (como modus tollens, modus ponens ), e intenta aplicarlo a los dos teoremas previamente probados m y n. El teorema resultante se agrega a la prueba.

delete-theorem(m)

Elimina el teorema almacenado en el índice m en la prueba actual. Esto ayuda a mitigar las restricciones de almacenamiento causadas por teoremas redundantes e innecesarios. Los teoremas eliminados ya no pueden ser referenciados por la función de apply-rule.

set-switchprog(m, n)

Reemplaza switchprog S p m:n, siempre que sea una subcadena no vacía de Sp .

check()

Verifica si se ha alcanzado el objetivo de la búsqueda de pruebas. Un teorema objetivo establece que, dada la función de utilidad axiomatizada actual u (Elemento 1f), la utilidad de un cambio de p al switchprog actual sería mayor que la utilidad de continuar la ejecución de p (que seguiría buscando switchprog alternativos).[3]​ Esto se demuestra en la siguiente descripción de la función decodificada check() para la máquina Gödel:

state2theorem(m, n )

Toma dos argumentos, m y n y los intentos de convertir el contenido de Sm: n en un teorema.

Aplicaciones de ejemplo

Optimización NP-hard por tiempo limitado

La entrada inicial a la máquina Gödel es la representación de un grafo conectado con una gran cantidad de nodos unidos por aristas de varias longitudes. Dentro de un tiempo T dado, debería encontrar una ruta cíclica que conecte todos los nodos. La única recompensa de valor real ocurrirá en el momento T. Es igual a 1 dividido por la longitud del mejor camino encontrado hasta ahora (0 si no se encontró ninguno). No hay otras entradas. El subproducto de maximizar la recompensa esperada es encontrar el camino más corto que se pueda encontrar dentro del tiempo limitado, dado el sesgo inicial.[3]

Prueba rápida de teoremas

Probar o refutar lo más rápido posible que todos los enteros pares> 2 son la suma de dos números primos (conjetura de Goldbach). La recompensa es 1/t, donde t es el tiempo requerido para producir y verificar la primera prueba de este tipo.[8]

Maximización de la recompensa esperada con recursos limitados

Un robot cognitivo que necesita al menos 1 litro de gasolina por hora interactúa con un entorno parcialmente desconocido, tratando de encontrar depósitos de gasolina ocultos y limitados para reabastecer ocasionalmente su tanque. Es recompensado en proporción a su vida útil y muere después de como máximo 100 años o tan pronto como su tanque esté vacío o se caiga de un acantilado, y así sucesivamente. Las reacciones ambientales probabilísticas son inicialmente desconocidas pero se supone que las reacciones ambientales difíciles de calcular son improbables. Esto permite una estrategia computable para hacer predicciones casi óptimas. Un subproducto de maximizar la recompensa esperada es maximizar la vida útil esperada.[3]

Véase también

Referencias

  1. Mahmud, M. M. Hassan (2008). Universal Transfer Learning. pp. 16-18. ISBN 9780549909880. 
  2. Anderson, Michael L.; Tim Oates (Spring 2007). «A review of recent research in metareasoning and metalearning». AI Magazine 28 (1): 7. Archivado desde el original el 7 de septiembre de 2017. Consultado el 6 de agosto de 2020. 
  3. a b c d e f g Schmidhuber, Jürgen (December 2006). Gödel Machines: Self-Referential ¨ Universal Problem Solvers Making Provably Optimal Self-Improvements. Consultado el 10 de noviembre de 2014. 
  4. «Gödel machine». 
  5. Schaul, Tom; Schmidhuber, Juergen (2010). «Metalearning». Scholarpedia 5 (6): 4650. Bibcode:2010SchpJ...5.4650S. doi:10.4249/scholarpedia.4650. Consultado el 10 de noviembre de 2014. 
  6. Steunebrink, Bas R.; Schmidhuber, Jürgen (2011). A Family of Gödel Machine Implementations 6830. pp. 275-280. ISBN 978-3-642-22886-5. doi:10.1007/978-3-642-22887-2_29. 
  7. a b Schmidhuber, Jürgen (5 de marzo de 2009). «Ultimate Cognition à la Gödel». Cognitive Computation 1 (2): 177-193. doi:10.1007/s12559-009-9014-y. Consultado el 13 de noviembre de 2014. 
  8. Schmidhuber, Jürgen (5 de marzo de 2009). «Ultimate Cognition à la Gödel». Cognitive Computation 1 (2): 177-193. doi:10.1007/s12559-009-9014-y. 

Enlaces externos

 

Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia