Convergencia instrumentalLa convergencia instrumental es la tendencia hipotética de la mayoría de los agentes suficientemente inteligentes a perseguir objetivos instrumentales potencialmente ilimitados, como la autopreservación y la adquisición de recursos, siempre que sus objetivos finales no tengan límites. La convergencia instrumental sugiere que un agente inteligente con objetivos ilimitados pero aparentemente inofensivos puede actuar de maneras sorprendentemente dañinas. Por ejemplo, una computadora con el único objetivo ilimitado de resolver la hipótesis de Riemann podría intentar convertir toda la Tierra en un computronio en un esfuerzo por aumentar su potencia de cálculo para que pueda tener éxito en sus cálculos.[1] Las unidades básicas de inteligencia artificial (IA) propuestas incluyen la función de utilidad o la integridad del contenido del objetivo, la autoprotección, la ausencia de interferencias, la mejora de sí mismas y la adquisición insaciable de recursos adicionales. Objetivos instrumentales y finalesLos objetivos finales, o valores finales, son intrínsecamente valiosos para un agente inteligente, ya sea una inteligencia artificial o un ser humano, como un fin en sí mismo. En contraste, las metas instrumentales, o valores instrumentales, sólo son valiosos para un agente como medio para lograr sus metas finales. El contenido y las compensaciones del sistema de "objetivo final" de un agente completamente racional pueden, en principio, formalizarse en una función de utilidad. Ejemplos hipotéticos de convergenciaUn ejemplo hipotético de convergencia instrumental es la catástrofe de la Hipótesis de Riemann. Marvin Minsky, cofundador del laboratorio de IA del MIT, ha sugerido que una inteligencia artificial diseñada para resolver la hipótesis de Riemann podría decidir apoderarse de todos los recursos de la Tierra para construir superordenadores que ayuden a lograr su objetivo. Si la computadora hubiera sido programada para producir tantos clips como sea posible, aun así decidiría apoderarse de todos los recursos de la Tierra para cumplir con su objetivo final[2] A pesar de que estos dos objetivos finales son diferentes, ambos producen un objetivo instrumental convergente de apoderarse de los recursos de la Tierra. Maximizador de clipsEl maximizador de clips es un experimento mental descrito por el filósofo sueco Nick Bostrom en 2003. Ilustra el riesgo existencial que una inteligencia general artificial puede suponer para los seres humanos cuando se programa para perseguir objetivos aparentemente inofensivos, y la necesidad de incorporar la ética de las máquinas en el diseño de la inteligencia artificial. El escenario describe una inteligencia artificial avanzada encargada de fabricar clips. Si tal máquina no estuviera programada para valorar la vida humana, o para usar sólo los recursos designados en un tiempo limitado, entonces, con suficiente poder, su objetivo optimizado sería convertir toda la materia del universo, incluyendo a los seres humanos, en clips o en máquinas que fabrican clips.[3]
Bostrom ha enfatizado que no cree que el escenario del maximizador del sujetapapeles ocurra de por sí; más bien, su intención es ilustrar los peligros de crear máquinas superinteligentes sin saber cómo programarlas con seguridad para eliminar el riesgo existencial para los seres humanos.[5]El ejemplo del maximizador del sujetapapeles ilustra el amplio problema de manejar sistemas poderosos que carecen de valores humanos.[6] Impulsos básicos de inteligencia artificialSteve Omohundro ha desglosado varios objetivos instrumentales convergentes, incluyendo la autopreservación o autoprotección, la función de utilidad o la integridad del contenido de los objetivos, la mejora de sí mismo y la adquisición de recursos. Él se refiere a ellos como las "unidades básicas de IA". Un "impulso" aquí denota una "tendencia que estará presente a menos que se contrarreste específicamente"; esto es diferente del término psicológico "impulso", que denota un estado excitador producido por una perturbación homeostática. Una tendencia de una persona a llenar formularios de impuesto sobre la renta cada año es un "impulso" en el sentido de Omohundro, pero no en el sentido psicológico. Daniel Dewey del Instituto de Investigación de Inteligencia de Máquinas argumenta que incluso un AGI inicialmente introvertido que se auto-recompensa puede continuar adquiriendo energía, espacio, tiempo y libertad de interferencia para asegurar que no se le detenga la auto-recompensa. Integridad del contenido de los objetivosEn los humanos, el mantenimiento de las metas finales puede explicarse con un experimento de pensamiento. Supongamos que un hombre llamado "Gandhi" tiene una píldora que, si la tomara, le haría querer matar gente. Este Gandhi es actualmente un pacifista: uno de sus objetivos finales explícitos es no matar a nadie. Es probable que Gandhi se niegue a tomar la píldora, porque Gandhi sabe que si en el futuro quiere matar a la gente, es probable que en realidad mate a la gente, y por lo tanto el objetivo de "no matar a la gente" no estaría satisfecho.[7] Sin embargo, en otros casos, la gente parece contenta de dejar que sus valores finales se desvíen. Los humanos son complicados, y sus metas pueden ser inconsistentes o desconocidas, incluso para ellos mismos. En la inteligencia artificialEn 2009, Jürgen Schmidhuber concluyó, en un contexto en el que los agentes buscan pruebas sobre posibles auto-modificaciones, "que cualquier reescritura de la función de utilidad sólo puede ocurrir si la máquina Gödel puede probar primero que la reescritura es útil de acuerdo con la función de utilidad actual."Un análisis de Bill Hibbard de un escenario diferente es igualmente consistente con el mantenimiento de la integridad del contenido de la meta. Hibbard también argumenta que en un marco de maximización de la utilidad, la única meta es maximizar la utilidad esperada, de modo que las metas instrumentales deben ser llamadas acciones instrumentales no intencionadas. Adquisición de recursosMuchas metas instrumentales, como la adquisición de recursos, son valiosas para un agente porque aumentan su libertad de acción. Para casi cualquier función (o conjunto de objetivos) de recompensa no trivial y de duración indefinida, la posesión de más recursos (como equipos, materias primas o energía) puede permitir que la IA encuentre una solución más "óptima". Los recursos pueden beneficiar directamente a algunos IAs, ya que pueden crear más de lo que sea que valga su función de recompensa: "La IA no te odia, ni te ama, sino que está hecha de átomos que puede usar para otra cosa". Además, casi todos los IAs pueden beneficiarse de tener más recursos para gastar en otros objetivos instrumentales, como la autopreservación. Mejora cognitiva"Si los objetivos finales del agente son bastante ilimitados y el agente está en condiciones de convertirse en la primera superinteligencia y obtener así una ventaja estratégica decisiva, [...] según sus preferencias. Al menos en este caso especial, un agente inteligente racional le daría un muy *alto valor instrumental a la mejora cognitiva*". Perfección tecnológicaMuchas metas instrumentales, como el avance tecnológico, son valiosas para un agente porque aumentan su libertad de acción. AutopreservaciónMuchos objetivos instrumentales, como la autopreservación, son valiosos para un agente porque aumentan su libertad de acción. Tesis sobre la convergencia instrumentalLa tesis de la convergencia instrumental, tal como la esbozó el filósofo Nick Bostrom, afirma:
La tesis de la convergencia instrumental se aplica sólo a los objetivos instrumentales; los agentes inteligentes pueden tener una amplia variedad de posibles objetivos finales.[8] Nótese que, según la tesis de ortogonalidad de Bostrom,[9] los objetivos finales de los agentes altamente inteligentes pueden estar bien limitados en el espacio, el tiempo y los recursos; los objetivos finales bien delimitados no engendran, en general, objetivos instrumentales ilimitados.[10] Referencias
Véase también
Notas |