Convergencia instrumental

La convergencia instrumental es la tendencia hipotética de la mayoría de los agentes suficientemente inteligentes a perseguir objetivos instrumentales potencialmente ilimitados, como la autopreservación y la adquisición de recursos, siempre que sus objetivos finales no tengan límites.

La convergencia instrumental sugiere que un agente inteligente con objetivos ilimitados pero aparentemente inofensivos puede actuar de maneras sorprendentemente dañinas. Por ejemplo, una computadora con el único objetivo ilimitado de resolver la hipótesis de Riemann podría intentar convertir toda la Tierra en un computronio en un esfuerzo por aumentar su potencia de cálculo para que pueda tener éxito en sus cálculos.[1]

Las unidades básicas de inteligencia artificial (IA) propuestas incluyen la función de utilidad o la integridad del contenido del objetivo, la autoprotección, la ausencia de interferencias, la mejora de sí mismas y la adquisición insaciable de recursos adicionales.

Objetivos instrumentales y finales

Los objetivos finales, o valores finales, son intrínsecamente valiosos para un agente inteligente, ya sea una inteligencia artificial o un ser humano, como un fin en sí mismo. En contraste, las metas instrumentales, o valores instrumentales, sólo son valiosos para un agente como medio para lograr sus metas finales. El contenido y las compensaciones del sistema de "objetivo final" de un agente completamente racional pueden, en principio, formalizarse en una función de utilidad.

Ejemplos hipotéticos de convergencia

Un ejemplo hipotético de convergencia instrumental es la catástrofe de la Hipótesis de Riemann. Marvin Minsky, cofundador del laboratorio de IA del MIT, ha sugerido que una inteligencia artificial diseñada para resolver la hipótesis de Riemann podría decidir apoderarse de todos los recursos de la Tierra para construir superordenadores que ayuden a lograr su objetivo. Si la computadora hubiera sido programada para producir tantos clips como sea posible, aun así decidiría apoderarse de todos los recursos de la Tierra para cumplir con su objetivo final[2]​ A pesar de que estos dos objetivos finales son diferentes, ambos producen un objetivo instrumental convergente de apoderarse de los recursos de la Tierra.

Maximizador de clips

El maximizador de clips es un experimento mental descrito por el filósofo sueco Nick Bostrom en 2003. Ilustra el riesgo existencial que una inteligencia general artificial puede suponer para los seres humanos cuando se programa para perseguir objetivos aparentemente inofensivos, y la necesidad de incorporar la ética de las máquinas en el diseño de la inteligencia artificial. El escenario describe una inteligencia artificial avanzada encargada de fabricar clips. Si tal máquina no estuviera programada para valorar la vida humana, o para usar sólo los recursos designados en un tiempo limitado, entonces, con suficiente poder, su objetivo optimizado sería convertir toda la materia del universo, incluyendo a los seres humanos, en clips o en máquinas que fabrican clips.[3]

Supongamos que tenemos una IA cuyo único objetivo es hacer tantos clips como sea posible. La IA se dará cuenta rápidamente de que sería mucho mejor si no hubiera humanos porque los humanos podrían decidir apagarlo. Porque si los humanos lo hicieran, habría menos clips. Además, los cuerpos humanos contienen muchos átomos que podrían convertirse en clips. El futuro hacia el que la IA trataría de orientarse sería uno en el que hubiera muchos clips pero no humanos.

- Nick Bostrom, citado en Miles, Kathleen (2014-08-22). "La inteligencia artificial puede condenar a la raza humana dentro de un siglo, dice el profesor Oxford". Huffington Post.[4]

Bostrom ha enfatizado que no cree que el escenario del maximizador del sujetapapeles ocurra de por sí; más bien, su intención es ilustrar los peligros de crear máquinas superinteligentes sin saber cómo programarlas con seguridad para eliminar el riesgo existencial para los seres humanos.[5]​El ejemplo del maximizador del sujetapapeles ilustra el amplio problema de manejar sistemas poderosos que carecen de valores humanos.[6]

Impulsos básicos de inteligencia artificial

Steve Omohundro ha desglosado varios objetivos instrumentales convergentes, incluyendo la autopreservación o autoprotección, la función de utilidad o la integridad del contenido de los objetivos, la mejora de sí mismo y la adquisición de recursos. Él se refiere a ellos como las "unidades básicas de IA". Un "impulso" aquí denota una "tendencia que estará presente a menos que se contrarreste específicamente"; esto es diferente del término psicológico "impulso", que denota un estado excitador producido por una perturbación homeostática. Una tendencia de una persona a llenar formularios de impuesto sobre la renta cada año es un "impulso" en el sentido de Omohundro, pero no en el sentido psicológico. Daniel Dewey del Instituto de Investigación de Inteligencia de Máquinas argumenta que incluso un AGI inicialmente introvertido que se auto-recompensa puede continuar adquiriendo energía, espacio, tiempo y libertad de interferencia para asegurar que no se le detenga la auto-recompensa.

Integridad del contenido de los objetivos

En los humanos, el mantenimiento de las metas finales puede explicarse con un experimento de pensamiento. Supongamos que un hombre llamado "Gandhi" tiene una píldora que, si la tomara, le haría querer matar gente. Este Gandhi es actualmente un pacifista: uno de sus objetivos finales explícitos es no matar a nadie. Es probable que Gandhi se niegue a tomar la píldora, porque Gandhi sabe que si en el futuro quiere matar a la gente, es probable que en realidad mate a la gente, y por lo tanto el objetivo de "no matar a la gente" no estaría satisfecho.[7]

Sin embargo, en otros casos, la gente parece contenta de dejar que sus valores finales se desvíen. Los humanos son complicados, y sus metas pueden ser inconsistentes o desconocidas, incluso para ellos mismos.

En la inteligencia artificial

En 2009, Jürgen Schmidhuber concluyó, en un contexto en el que los agentes buscan pruebas sobre posibles auto-modificaciones, "que cualquier reescritura de la función de utilidad sólo puede ocurrir si la máquina Gödel puede probar primero que la reescritura es útil de acuerdo con la función de utilidad actual."Un análisis de Bill Hibbard de un escenario diferente es igualmente consistente con el mantenimiento de la integridad del contenido de la meta. Hibbard también argumenta que en un marco de maximización de la utilidad, la única meta es maximizar la utilidad esperada, de modo que las metas instrumentales deben ser llamadas acciones instrumentales no intencionadas.

Adquisición de recursos

Muchas metas instrumentales, como la adquisición de recursos, son valiosas para un agente porque aumentan su libertad de acción.

Para casi cualquier función (o conjunto de objetivos) de recompensa no trivial y de duración indefinida, la posesión de más recursos (como equipos, materias primas o energía) puede permitir que la IA encuentre una solución más "óptima". Los recursos pueden beneficiar directamente a algunos IAs, ya que pueden crear más de lo que sea que valga su función de recompensa: "La IA no te odia, ni te ama, sino que está hecha de átomos que puede usar para otra cosa". Además, casi todos los IAs pueden beneficiarse de tener más recursos para gastar en otros objetivos instrumentales, como la autopreservación.

Mejora cognitiva

"Si los objetivos finales del agente son bastante ilimitados y el agente está en condiciones de convertirse en la primera superinteligencia y obtener así una ventaja estratégica decisiva, [...] según sus preferencias. Al menos en este caso especial, un agente inteligente racional le daría un muy *alto valor instrumental a la mejora cognitiva*".

Perfección tecnológica

Muchas metas instrumentales, como el avance tecnológico, son valiosas para un agente porque aumentan su libertad de acción.

Autopreservación

Muchos objetivos instrumentales, como la autopreservación, son valiosos para un agente porque aumentan su libertad de acción.

Tesis sobre la convergencia instrumental

La tesis de la convergencia instrumental, tal como la esbozó el filósofo Nick Bostrom, afirma:

Se pueden identificar varios valores instrumentales que son convergentes en el sentido de que su consecución aumentaría las posibilidades de que el objetivo del agente se alcanzara para una amplia gama de objetivos finales y una amplia gama de situaciones, lo que implica que es probable que estos valores instrumentales sean perseguidos por un amplio espectro de agentes inteligentes situados.

La tesis de la convergencia instrumental se aplica sólo a los objetivos instrumentales; los agentes inteligentes pueden tener una amplia variedad de posibles objetivos finales.[8]​ Nótese que, según la tesis de ortogonalidad de Bostrom,[9]​ los objetivos finales de los agentes altamente inteligentes pueden estar bien limitados en el espacio, el tiempo y los recursos; los objetivos finales bien delimitados no engendran, en general, objetivos instrumentales ilimitados.[10]

Referencias

  1. Russell, Stuart J.; Norvig, Peter (2003). «Section 26.3: The Ethics and Risks of Developing Artificial Intelligence». Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0137903955. «De manera similar, Marvin Minsky sugirió una vez que un programa de IA diseñado para resolver la Hipótesis de Riemann podría terminar apoderándose de todos los recursos de la Tierra para construir supercomputadoras más poderosas que le ayudaran a lograr su objetivo..»  Parámetro desconocido |title-link= ignorado (ayuda)
  2. Bostrom 2014, Chapter 8, p. 123. "A una IA, diseñada para gestionar la producción en una fábrica, se le asigna el objetivo final de maximizar la fabricación de clips, y procede a convertir primero la Tierra y luego trozos cada vez más grandes del universo observable en clips.."
  3. Bostrom, Nick (2003). «Ethical Issues in Advanced Artificial Intelligence». 
  4. Miles, Kathleen (22 de agosto de 2014). «Artificial Intelligence May Doom The Human Race Within A Century, Oxford Professor Says». Huffington Post. 
  5. Ford, Paul (11 de febrero de 2015). «Are We Smart Enough to Control Artificial Intelligence?». MIT Technology Review. Archivado desde el original el 23 de enero de 2016. Consultado el 25 de enero de 2016. 
  6. Friend, Tad (3 de octubre de 2016). «Sam Altman’s Manifest Destiny». The New Yorker. Consultado el 25 de noviembre de 2017. 
  7. Yudkowsky, Eliezer. "Complex value systems in friendly AI." In Artificial general intelligence, pp. 388-393. Springer Berlin Heidelberg, 2011.
  8. Bostrom 2014, chapter 7.
  9. Bostrom 2014, chapter 7.
  10. Reframing Superintelligence: Comprehensive AI Services as General Intelligence, Technical Report, 2019, Future of Humanity Institute

Véase también

Notas