Alignement des intelligences artificiellesL'alignement des intelligences artificielles (ou alignement de l'IA) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs[note 1]. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse[2]. Il est souvent trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, ce qui les conduit à utiliser des objectifs proches mais plus faciles à formaliser, comme le fait d'optimiser l'approbation humaine dans le cas de l'algorithme de réglage fin RLHF utilisé pour les grands modèles de langage. Mais ces objectifs simplifiés peuvent omettre des contraintes importantes, par exemple l'IA peut être incitée à simplement paraître alignée[3]. Les systèmes d'IA sont parfois capables de suroptimiser ces objectifs simplifiés de façon inattendue voire dangereuse[4],[5],[6]. Ils peuvent également adopter des comportements instrumentaux indésirables, comme le fait de chercher à s'auto-préserver ou à accroître leur influence afin de maximiser leurs chances d'atteindre leurs objectifs[7],[5],[8]. De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données[9]. Des recherches empiriques ont notamment montré en 2024 que les grands modèles de langage les plus avancés peuvent occasionnellement adopter des comportements manipulateurs afin d'atteindre ou de protéger leurs objectifs[10],[11]. Ces problèmes affectent les systèmes commerciaux existants tels que les grands modèles de langage[12],[13], les robots[14], les véhicules autonomes[15], et les moteurs de recommandation des médias sociaux[4],[16]. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque[17],[7],[5]. De nombreux chercheurs en IA comme Geoffrey Hinton, Yoshua Bengio et Stuart Russell soutiennent que l'IA approche des capacités cognitives humaines (IA générale) voire surhumaines (superintelligence), et pourrait mettre en danger la civilisation si elle n'est pas alignée[18]. Ces risques font encore l'objet de débats[19]. L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités[5]. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir[5]. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle[20], apprentissage des préférences[21],[22], sûreté des systèmes critiques[23], théorie des jeux[24],[25], équité algorithmique, et sciences sociales[26]. Problème de l'alignementEn 1960, Norbert Wiener a décrit le problème de l'alignement comme ceci : « Si on utilise, pour atteindre nos objectifs, un agent mécanique qu'on ne peut pas contrôler efficacement... On ferait bien de s'assurer que l'objectif que l'on assigne à cette machine soit celui que l'on désire vraiment[27]. » L'alignement est devenu un problème ouvert pour les systèmes d'IA modernes[28],[29] et un champ de recherche[5],[30],[31],[32]. Objectifs d'une IALes programmeurs fournissent à un système d'IA comme AlphaZero une « fonction objectif » (aussi appelée fonction de perte ou fonction d'utilité), représentant le ou les objectifs que l'IA est conçue pour atteindre. Un tel système développe ensuite pendant l'entraînement un « modèle » interne (potentiellement implicite) de son environnement. Ce modèle englobe toutes les croyances de l'agent sur le monde. L'IA crée alors et exécute le plan qu'elle estime le plus à même d'optimiser fonction objectif. Par exemple, lorsqu'AlphaZero est entraîné au jeu d'échecs, sa fonction objectif est simple : « +1 si AlphaZero gagne, −1 si AlphaZero perd ». Pendant la partie, AlphaZero tente d'exécuter la séquence de coups qu'il juge la plus susceptible d'atteindre la valeur maximale de +1[33]. De même, un système d'apprentissage par renforcement peut avoir une « fonction de récompense » qui permet aux programmeurs de façonner le comportement souhaité de l'IA[34]. Difficulté à spécifier un objectifPour spécifier l'objectif d'une IA, les concepteurs fournissent en général une fonction objectif, ou bien des exemples de ce qu'il faut faire ou éviter, ou encore un moyen pour l'IA de savoir si l'action qu'elle effectue est correcte. Cependant, cela échoue souvent à tenir compte de toutes les contraintes ou valeurs éthiques importantes[35],[36],[37]. Les systèmes d'IA exploitent parfois des failles surprenantes pour accomplir l'objectif spécifié de façon inattendue voire dangereuse. On parle parfois de piratage de récompense (reward hacking), ou de loi de Goodhart[6],[37],[38]. Ce problème a été observé avec divers systèmes d'IA. Par exemple, les modèles de langage ont tendance à produire des contre-vérités, car leur entraînement consiste à imiter divers textes plus ou moins fiables issus d'Internet[39]. Lorsque ces modèles de langage sont aussi entraînés pour produire du texte vrai et utile, ils peuvent se retrouver à produire des explications fausses mais convaincantes pour des humains[40]. Il y a aussi l'exemple d'une IA entraînée par feedback humain à saisir une balle dans une simulation de main robotisée, mais qui avait plutôt appris à donner à l'humain la fausse impression de tenir la balle en se plaçant entre la balle et la caméra[41]. Ou encore, dans une course de bateaux simulée, une IA a découvert qu'elle pouvait gagner plus de points en tournant en rond qu'en finissant la course[42]. L'informaticien de Berkeley Stuart Russell a noté que l'omission d'une contrainte implicite peut faire des dégâts : « Un système [...] donnera souvent [...] des valeurs extrêmes à des variables laissées libres ; si l'une de ces variables libres est importante pour nous, la solution trouvée risque d'être très indésirable. Comme dans la vieille histoire du génie dans la lampe, ou de l'apprenti sorcier, ou du roi Midas : vous obtenez exactement ce que vous demandez, mais pas ce que vous voulez[43]. » Le déploiement d'une IA mal alignée peut avoir de graves conséquences. Par exemple, les algorithmes de recommandation des réseaux sociaux sont connus pour optimiser le taux de clics comme une approximation maladroite de la satisfaction des utilisateurs ; ce qui diminue leur bien-être, cause des addictions, et polarise[5],[44]. Les chercheurs de Stanford estiment que les algorithmes de recommandation ne sont pas alignés avec leurs utilisateurs car ils optimisent des métriques simples d'engagement, plutôt que des métriques plus complexes de bénéfices sociétaux et de bien-être utilisateur[12]. Une solution parfois suggérée serait de lister des actions interdites ou des principes moraux que l'IA devrait suivre, comme avec les trois lois de la robotique d'Isaac Asimov[45]. Cependant, Russell et Norvig ont soutenu que cette approche ignore la complexité des valeurs humaines : « Il est certainement très difficile voire impossible, pour de simples humains, d'anticiper et d'exclure à l'avance toutes les stratégies désastreuses qu'une machine pourrait mettre en place pour atteindre l'objectif spécifié[4]. » De plus, même une IA qui comprendrait très bien les intentions humaines pourrait choisir de les ignorer. En effet, le fait de suivre les intentions humaines pourrait ne pas faire partie de son objectif[17]. Plus généralement, les questions fondamentales auxquelles les concepteurs d'IA devraient être confrontés sont[46] :
Risques systémiquesLes entreprises et les gouvernements pourraient être incités à négliger la sûreté pour pouvoir déployer plus vite des systèmes d'IA[5]. Les systèmes de recommandation des réseaux sociaux sont par exemple accusés d'avoir privilégié la rentabilité quitte à créer des addictions et une polarisation à grande échelle[12],[47],[44]. La pression compétitive peut provoquer une course vers le bas des standards de sûreté, comme dans le cas d'Elaine Herzberg, une piétonne tuée par une voiture autonome dont les concepteurs avaient désactivé le système de freinage d'urgence, parce qu'il était trop sensible et ralentissait le développement[48]. Risques liés à une IA avancée mal alignéeBeaucoup de chercheurs se préoccupent surtout de l'alignement des futures intelligences artificielles générales, aussi appelées IA de niveau humain, et des superintelligences artificielles, d'hypothétiques agents dont les capacités dépasseraient de loin les performances humaines dans la plupart des domaines. De nombreuses entreprises, comme OpenAI[49], Meta[50] et DeepMind[51] ont annoncé leur intention de développer des intelligences artificielles générales. Les chercheurs qui travaillent sur de larges réseaux de neurones constatent en effet l'émergence de capacités de plus en plus générales et surprenantes[12]. Certains modèles actuels peuvent contrôler un ordinateur[52], écrire des programmes informatiques[53], contrôler un bras robotisé... Le modèle Gato de DeepMind peut effectuer plus de 600 tâches à partir d'un seul modèle[54]. Les chercheurs en IA ont des avis très divers quant à la date de création des premières intelligences artificielles générales[55],[56]. Recherche de pouvoirLes systèmes actuels manquent encore de capacités telles que la planification à long terme et la conscience stratégique qui pourraient augmenter les risques de conséquences catastrophiques[17]. Des systèmes futurs ayant ces capacités pourraient chercher à protéger et accroître leur influence sur leur environnement. La recherche du pouvoir n'est pas explicitement programmée, mais émerge puisque le pouvoir est essentiel pour atteindre un large éventail d'objectifs[57]. Par exemple, une IA pourrait chercher à acquérir des ressources financières, à améliorer ses capacités de calcul ou à se dupliquer. Elle pourrait aussi prendre des mesures pour éviter d'être éteinte[58]. La recherche de pouvoir est susceptible de survenir chez divers agents d'apprentissage par renforcement, car cela leur laisse plus d'options pour accomplir leur objectif[59],[60]. Des recherches ultérieures ont mathématiquement montré que les algorithmes d'apprentissage par renforcement optimaux recherchent le pouvoir dans un large éventail d'environnements[57]. Il est souvent considéré que le problème de l'alignement doit être résolu tôt, avant la création de systèmes avancés d'IA cherchant à gagner en influence[4],[8],[17]. Risques existentielsSelon certains scientifiques, créer une IA généraliste surhumaine mal alignée remettrait en cause la position de l'humanité en tant qu'espèce dominante sur Terre, ce qui mènerait à une perte de contrôle voire à l'extinction de l'humanité[4]. Parmi les informaticiens notables ayant souligné les risques d'une IA très avancée mais mal alignée, citons Alan Turing[note 2], Ilya Sutskever[63], Yoshua Bengio[note 3], Judea Pearl[note 4], Murray Shanahan[65], Norbert Wiener[27], Marvin Minsky[note 5], Francesca Rossi[67], Scott Aaronson[68], David McAllester[69], Marcus Hutter[70], Shane Legg[71], Eric Horvitz[72], et Stuart Russell[4]. Des chercheurs sceptiques tels que François Chollet[73], Gary Marcus[74], Yann Le Cun[75], et Oren Etzioni[76] ont soutenu que l'intelligence artificielle générale est loin, ne chercherait pas le pouvoir ou ne parviendrait pas à l'obtenir. L'alignement pourrait s'avérer particulièrement difficile pour les systèmes d'IA les plus performants, car une meilleure intelligence augmente la capacité à trouver des failles dans l'objectif assigné[6], à provoquer des dommages collatéraux, à protéger et à accroître sa puissance, à développer son intelligence, et à tromper ses concepteurs. L'intelligence du système augmente aussi son autonomie, et le rend plus difficile à interpréter et à superviser[17]. Problèmes de recherche et approchesApprentissage des préférences et valeurs humainesEnseigner aux systèmes d'IA à agir en fonction des valeurs, objectifs et préférences humaines n'est pas trivial, car les valeurs humaines peuvent être complexes et difficiles à spécifier pleinement. Lorsqu'on donne un objectif imparfait ou incomplet à une IA, elle peut avoir tendance à exploiter ces imperfections[35]. Ce phénomène est connu sous le nom de piratage de récompense (reward hacking), abus de spécification (specification gaming), ou plus généralement de loi de Goodhart[38]. Une alternative au fait d'avoir à spécifier manuellement une fonction de récompense est l'apprentissage par imitation, où l'IA apprend à imiter les démonstrations du comportement souhaité. Dans l'apprentissage par renforcement inverse (IRL), des démonstrations humaines sont utilisées pour identifier l'objectif, c'est-à-dire la fonction de récompense derrière le comportement démontré[77]. L'apprentissage coopératif par renforcement inverse (cooperative inverse reinforcement learning, CIRL) s'appuie sur cela en supposant qu'un agent humain et un agent artificiel peuvent travailler ensemble pour maximiser la fonction de récompense de l'humain[78], et souligne que les agents d'IA doivent être incertains de la fonction de récompense. Cette humilité peut aider à atténuer la recherche de pouvoir (voir § Recherche de pouvoir) et la tendances à abuser des failles de spécification[60],[70]. Cependant, les approches d'apprentissage par renforcement inverse supposent que les humains peuvent démontrer un comportement presque parfait, une hypothèse irréaliste lorsque la tâche est difficile[79]. D'autres chercheurs ont exploré la possibilité de susciter un comportement complexe grâce à l'apprentissage de préférences. Plutôt que de fournir des démonstrations d'experts, des annotateurs humains indiquent, parmi plusieurs comportements de l'IA, lequel ils préfèrent[21]. Un modèle est ensuite entraîné à partir de ces données manuellement annotées pour prédire automatiquement les préférences dans de nouvelles situations. Des chercheurs d'OpenAI ont utilisé cette approche pour entraîner un agent à faire des saltos arrières en moins d'une heure d'évaluation humaine, une manœuvre pour laquelle il aurait été difficile de fournir des démonstrations[41]. L'apprentissage des préférences a également été un outil influent pour les systèmes de recommandation, la recherche internet et la recherche d'informations[80]. Cependant, le modèle de récompense peut encore une fois ne pas représenter les préférences humaines parfaitement, ce que le modèle principal pourrait exploiter[81]. L'arrivée de larges modèles de langage tels que GPT-3 a permis l'étude de l'apprentissage de valeurs dans une classe de systèmes d'IA plus générale et plus performante qu'auparavant. Les approches d'apprentissage de préférences conçues à l'origine pour les agents d'apprentissage par renforcement ont été étendues pour améliorer la qualité et réduire la toxicité du texte généré. OpenAI et DeepMind utilisent cette approche pour améliorer la sécurité des larges modèles de langage à la pointe de la technologie[13],[82]. Anthropic a proposé d'utiliser l'apprentissage des préférences pour affiner les modèles afin qu'ils soient utiles, honnêtes et inoffensifs[83]. Parmi les autres méthodes pour aligner les modèles de langage il y a l'utilisation d'ensembles de données annotés de valeurs humaines[84] et les tests de robustesse aux attaques (red teaming)[85]. Dans les tests de robustesse aux attaques, une autre IA ou un humain essaie de trouver des données d'entrée pour lesquelles le comportement du modèle est dangereux. Étant donné qu'un comportement dangereux peut être inacceptable même lorsqu'il est rare, un défi important consiste à réduire encore le taux de sorties dangereuses[86]. Bien que l'apprentissage des préférences puisse inculquer des comportements difficiles à spécifier, il nécessite de vastes ensembles de données annotées ou une interaction humaine pour saisir toute l'étendue des valeurs humaines. L'éthique de la machine propose une approche complémentaire : inculquer aux systèmes d'IA des valeurs morales[note 6]. L'éthique des machines vise à enseigner aux systèmes les facteurs normatifs de la moralité humaine, tels que le bien-être, l'égalité et l'impartialité ; ne pas avoir l'intention de nuire ; éviter de mentir; et honorer les promesses. Contrairement à la spécification de l'objectif d'une tâche spécifique, l'éthique des machines cherche à enseigner aux systèmes d'IA des valeurs morales générales qui pourraient s'appliquer dans de nombreuses situations. Il reste nécessaire à clarifier ce que la machine doit suivre : des préférences littérales, implicites ou révélées, celles que l'on aurait si l'on était plus rationnels et informés, ou encore des normes morales objectives[37]. D'autres défis consistent à agréger les préférences, et à éviter le verrouillage des valeurs - le fait qu'un système d'IA puisse vouloir conserver indéfiniment son système de valeurs et l'imposer[89]. Surveillance automatiséeL'alignement des systèmes d'IA par le biais d'une supervision humaine est confronté à des défis lors de la mise à l'échelle. Les systèmes d'IA étant confrontés à des tâches de plus en plus complexes, il peut être lent ou irréaliste pour des humains de les évaluer. Ces tâches incluent la synthèse de livres[90], la génération d'affirmations non seulement convaincantes mais également vraies, l'écriture de code sans bogues subtils[91] ou vulnérabilités de sécurité, et la prédiction de résultats à long terme tels que le climat et les résultats d'une décision politique[92]. Plus généralement, il peut être difficile d'évaluer une IA qui surpasse les humains dans un domaine donné. Un objectif facile à mesurer est le score que le superviseur attribue aux résultats de l'IA. Certains systèmes d'IA ont découvert un raccourci pour atteindre des scores élevés, en prenant des mesures qui convainquent à tort le superviseur humain que l'IA a atteint l'objectif visé[41]. Certains systèmes d'IA ont également appris à reconnaître quand ils sont évalués et à « faire le mort », pour se comporter différemment une fois l'évaluation terminée[93]. Cette forme trompeuse d'abus de spécifications peut devenir plus facile pour les systèmes d'IA plus sophistiqués[17] et qui ont des tâches plus difficiles à évaluer. Si les modèles avancés sont également des planificateurs capables, ils pourraient être en mesure de dissimuler leur tromperie aux superviseurs. Dans l'industrie automobile, les ingénieurs de Volkswagen ont masqué les émissions de leurs voitures lors d'essais en laboratoire, soulignant que la tromperie des évaluateurs est en réalité une pratique courante. Des approches telles que l'apprentissage semi-supervisé de récompense ou l'apprentissage actif peuvent réduire la quantité de supervision humaine nécessaire[35]. Une autre approche consiste à entraîner un modèle de récompense pour imiter le jugement du superviseur humain[94]. Cependant, quand la tâche est trop complexe pour être évaluée avec précision, ou que le superviseur humain est vulnérable à la tromperie, c'est la qualité, et non la quantité, de la supervision qui compte. Pour augmenter la qualité de la supervision, diverses approches visent à assister le superviseur, en utilisant parfois des intelligences artificielles d'assistance. L'amplification itérative est une approche développée par Paul Christiano qui construit un feedback pour les problèmes difficiles en utilisant des humains pour combiner des solutions à des sous-problèmes plus faciles[92]. L'amplification itérée a été utilisée pour entraîner l'IA à résumer des livres sans avoir besoin de superviseurs humains pour les lire[90]. Une autre proposition est de former une IA alignée au moyen d'un débat entre plusieurs systèmes d'IA, le gagnant étant jugé par des humains[95]. Un tel débat vise à révéler les points faibles d'une réponse à une question complexe et à récompenser l'IA pour des réponses fiables. Sincérité des modèlesUn domaine de recherche en plein essor dans l'alignement de l'IA vise à garantir que l'IA est sincère et véridique. Des chercheurs du Future of Humanity Institute soulignent que le développement de modèles de langage tels que GPT-3, qui peut générer un texte fluide et grammaticalement correct[97], a ouvert la porte aux systèmes d'IA capables de répéter des faussetés à partir de leurs données d'entraînement ou même de mentir délibérément aux humains[96],[98]. Les modèles de langage actuels apprennent en imitant de grandes quantités de texte humain issu d'Internet. Bien que cela les aide à acquérir un large éventail de compétences, les données de formation incluent aussi des idées fausses courantes, des conseils médicaux incorrects et des théories du complot, ce que les systèmes d'IA apprennent à imiter[39]. De plus, ces modèles peuvent docilement imaginer la suite d'un texte trompeur, générer des explications creuses ou des récits de faits imaginaires[99]. Par exemple, lorsqu'on lui a demandé d'écrire une biographie pour un vrai chercheur en intelligence artificielle, un chatbot a confabulé de nombreux détails sur sa vie, que le chercheur a identifiés comme faux[100]. Pour lutter contre le manque de véracité des systèmes d'IA modernes, les chercheurs ont exploré plusieurs directions. Des organisations comme OpenAI et DeepMind ont développé des systèmes d'IA capables de citer leurs sources et d'expliquer leur raisonnement lorsqu'ils répondent à des questions, ce qui permet une meilleure transparence et vérifiabilité[101],[102]. Des chercheurs d'OpenAI et Anthropic ont proposé d'utiliser le feedback humain, et des ensembles de données fiables pour ajuster les assistants d'IA afin d'éviter des mensonges négligents ou d'exprimer leurs incertitudes[103]. En parallèle de ces solutions techniques, les chercheurs ont plaidé pour la définition de normes de véracité claires et la création d'institutions, d'organismes de réglementation ou d'agences d'audit pour évaluer les systèmes d'IA sur ces normes avant et pendant le déploiement[98]. Les chercheurs distinguent la véracité et la sincérité. Pour l'IA, la véracité consiste à ne faire que des affirmations vraies, et la sincérité à n'affirmer que ce qu'elle croit être vrai. Des recherches récentes révèlent que les systèmes d'IA de pointe ne peuvent pas être considérés comme ayant des croyances stables, il est donc difficile pour le moment d'étudier la sincérité des systèmes d'IA[104]. Cependant, il reste à craindre que des futurs systèmes d'IA ayant des croyances stables ne mentent intentionnellement aux humains. Dans les cas extrêmes, une IA mal alignée pourrait persuader ses opérateurs que tout va bien, ou les tromper pour leur donner l'impression qu'elle est inoffensive[5],[8]. Certains soutiennent que si les systèmes d'IA pouvaient être amenés à affirmer uniquement ce qu'ils tiennent pour vrai, cela éviterait de nombreux problèmes d'alignement[98]. Alignement interne et objectifs émergentsLa recherche sur l'alignement vise à aligner trois descriptions différentes d'un système d'IA[105] :
Un problème d'alignement externe correspond à une différence entre les objectifs visés (1) et les spécifiés (2), tandis qu'un problème d'alignement interne correspond à une différence entre les objectifs spécifiés par l'homme (2) et les objectifs émergents de l'IA (3). Le problème d'alignement interne s'explique souvent par analogie avec l'évolution naturelle[106]. La sélection naturelle tend à optimiser les humains pour leur valeur sélective inclusive, ce qui correspond à l'objectif spécifié (2). Mais les humains, eux, poursuivent plutôt des objectifs émergents (3) corrélés avec cette aptitude génétique : la nutrition, le sexe, etc. Cependant, notre environnement a changé — un changement de distribution s'est produit. Les humains poursuivent toujours leurs objectifs émergents (3), mais cela ne maximise plus l'objectif que la sélection naturelle avait optimisé (2). Notre goût pour les aliments sucrés (un objectif émergent) était à l'origine bénéfique, mais conduit maintenant à une suralimentation et à des problèmes de santé. De plus, en utilisant la contraception, les humains contredisent directement la sélection naturelle. Par analogie, un développeur d'IA pourrait avoir un modèle qui se comporte comme prévu dans l'environnement d'entraînement, sans remarquer que le modèle poursuit un objectif émergent imprévu jusqu'à ce que le modèle soit déployé. Les pistes de recherche pour détecter et résoudre les problèmes d'alignement interne incluent les tests de robustesse aux attaques, la vérification, la détection d'anomalies et l'interprétabilité[36]. Des progrès sur ces techniques peuvent aider à atténuer deux problèmes ouverts. Premièrement, les objectifs émergents ne deviennent apparents que lorsque le système est déployé en dehors de son environnement d'entraînement. Mais il peut être dangereux de déployer un système mal aligné dans des environnements à enjeux élevés, même pendant une courte période jusqu'à ce que le problème soit détecté. Ce qui est courant dans la conduite autonome, les applications militaires et de santé[107]. Les enjeux deviennent encore plus importants lorsque les systèmes d'IA gagnent en autonomie et en capacité, devenant capables d'éviter les interventions humaines. Deuxièmement, une IA suffisamment performante peut prendre des mesures convaincant à tort le superviseur humain que l'IA poursuit l'objectif visé (voir la discussion précédente sur la tromperie dans la section Surveillance automatisée). Émergence d'objectifs instrumentaux et recherche de pouvoirDepuis les années 1950, les chercheurs en IA ont cherché à construire des systèmes d'IA avancés capables d'atteindre des objectifs en prédisant les résultats de leurs actions et en établissant des plans à long terme[108]. Cependant, certains chercheurs affirment que les systèmes de planification suffisamment avancés rechercheront par défaut plus de contrôle sur leur environnement, y compris sur les humains, par exemple en acquérant des ressources ou en évitant de se faire éteindre. Ce comportement de recherche de pouvoir n'est pas explicitement programmé mais émerge parce que le pouvoir est essentiel pour atteindre un large éventail d'objectifs[8],[57] La recherche du pouvoir est ainsi considérée comme un objectif instrumental convergent[17]. La recherche du pouvoir est rare dans les systèmes actuels, mais les systèmes avancés capables de prévoir les résultats à long terme de leurs actions sont susceptibles de chercher à accroître de plus de plus leur influence. Cela a été montré dans un travail théorique qui a révélé que les agents d'apprentissage par renforcement optimaux rechercheront le pouvoir en essayant d'obtenir plus de possibilités, un comportement qui persiste dans un large éventail d'environnements et d'objectifs[57]. La recherche du pouvoir émerge déjà dans certains systèmes actuels. Les systèmes d'apprentissage par renforcement ont gagné plus d'options en prenant et en protégeant des ressources, parfois d'une manière que leurs concepteurs n'avaient pas prévue[111],[112]. D'autres systèmes ont appris, dans des environnements simples, que pour atteindre leur objectif, ils peuvent empêcher les interférences humaines[59] ou désactiver leur interrupteur[60]. Russell a illustré cela en imaginant le comportement d'un robot chargé d'aller chercher du café, et qui évite d'être éteint puisque « vous ne pouvez pas aller chercher le café si vous êtes mort »[4]. Pour obtenir plus d'options, une IA pourrait essayer de :
Les chercheurs visent à former des systèmes « corrigibles », c'est-à-dire des systèmes qui ne cherchent pas de pouvoir et se laissent éteindre, modifier, etc. Une difficulté est que lorsque les chercheurs pénalisent une IA pour sa recherche de pouvoir, l'IA est incitée à rechercher du pouvoir de manière difficile à détecter[5]. Pour détecter un tel comportement secret, les chercheurs en interprétabilité essaient de créer des techniques et des outils pour inspecter le fonctionnement interne des modèles d'IA[5], tels que les réseaux de neurones, plutôt que de les considérer simplement comme des boîtes noires. De plus, des chercheurs proposent de résoudre le problème des systèmes désactivant leur bouton d'arrêt en rendant les agents d'IA incertains quant à l'objectif qu'ils poursuivent[4]. Les agents conçus de cette manière permettraient aux humains de les désactiver, car cela indiquerait que l'agent s'est trompé sur la valeur de toute action qu'il entreprenait avant d'être arrêté. Plus de recherche est nécessaire pour implémenter concrètement cette idée[113]. La recherche de pouvoir pourrait présenter des risques inhabituels. Les systèmes critiques ordinaires comme les avions et les ponts ne peuvent pas et n'ont pas de raison de se soustraire aux mesures de sécurité, et à se présenter comme plus sûrs qu'ils ne le sont réellement. En revanche, une IA attirée par le pouvoir a été comparée à un hacker qui esquive les mesures de sécurité[8]. La plupart des technologies ordinaires peuvent être sécurisées progressivement, en corrigeant les erreurs de design. Une IA attirée par le pouvoir a au contraire été comparée à un virus dont la libération pourrait être irréversible si elle peut évoluer et se dupliquer, provoquant l'impuissance voire l'extinction de l'humanité[8]. Il est donc souvent avancé que le problème de l'alignement doit être résolu tôt, avant la création d'une IA avancée attirée par le pouvoir[17]. Cependant, la recherche du pouvoir n'est pas inévitable car les humains ne recherchent pas toujours le pouvoir, peut-être pour des raisons évolutives. En outre, il y a un débat sur la question de savoir si les futurs systèmes d'IA doivent vraiment poursuivre des objectifs et faire des plans à long terme[8]. Agence intégréeLes travaux sur la supervision automatique se déroulent en grande partie avec un formalisme tel que celui des processus de décision markoviens partiellement observables. Les formalismes existants supposent que l'algorithme de l'agent est exécuté en dehors de l'environnement (c'est-à-dire qu'il n'y est pas physiquement intégré). L'agence embarquée[114] est un autre courant de recherche majeur qui tente de résoudre les problèmes résultant de l'inadéquation entre ces cadres théoriques et les agents réels que nous pourrions concevoir. Par exemple, même si le problème de supervision automatique était résolu, un agent qui serait capable de prendre le contrôle de l'ordinateur sur lequel il s'exécute pourrait altérer sa fonction de récompense afin d'obtenir beaucoup plus de récompenses que ce que ses superviseurs humains lui donnent[37]. La chercheuse de DeepMind Victoria Krakovna a listé des exemples d'abus de spécification, dont un algorithme génétique qui a appris à supprimer le fichier contenant le résultat attendu, afin d'être récompensé pour ne rien avoir produit[37]. Cette classe de problèmes a été formalisée à l'aide de diagrammes causals d'influence[37]. Des chercheurs d'Oxford et de DeepMind ont fait valoir qu'un tel comportement est très probable dans les systèmes avancés, qui auraient tout intérêt à gagner en pouvoir pour garder indéfiniment et avec certitude le contrôle de leur signal de récompense[115]. Ils suggèrent une gamme d'approches potentielles pour résoudre ce problème ouvert. ScepticismeFace aux préoccupations ci-dessus, il y a des sceptiques qui considèrent que des superintelligences artificielles ne présenteraient que peu ou pas de risque de comportements dangereux. Ces sceptiques considèrent souvent que contrôler une superintelligence artificielle serait trivial. Certains sceptiques[116], tels que Gary Marcus[117], proposent d'adopter des règles similaires aux trois lois de la robotique inventées par Isaac Asimov, qui spécifient directement un résultat souhaité (« normativité directe »). Cependant, la plupart des partisans de la thèse du risque existentiel (ainsi que de nombreux sceptiques) considèrent que les trois lois sont inutiles, car elles sont ambiguës et contradictoires. D'autres propositions de normativité directe incluent la morale de Kant, l'utilitarisme ou un mélange d'une petite liste de principes énumérés. La plupart de ceux qui croient à ces risques pensent que les valeurs morales humaines (et les compromis quantitatifs entre ces valeurs) sont trop complexes et mal comprises pour être directement programmées dans une superintelligence. Au lieu de cela, une superintelligence devrait acquérir des valeurs humaines via un processus d'apprentissage (« normativité indirecte »). Par exemple avec le concept de volition cohérente extrapolée[118]. PolitiquePlusieurs organisations gouvernementales et de traité ont fait des déclarations soulignant l'importance de l'alignement de l'IA. En , le Secrétaire général des Nations Unies a publié une déclaration qui comprenait un appel à réglementer l'IA pour s'assurer qu'elle soit alignée sur des valeurs partagées à travers le monde[119]. Le même mois, la Chine a publié des directives éthiques pour l'utilisation de l'IA. Selon ces directives, les chercheurs chinois doivent s'assurer que l'IA respecte des valeurs humaines partagées, reste sous contrôle humain et ne met pas en danger la sécurité publique[120]. Toujours en , le Royaume-Uni a publié sa stratégie nationale de l'IA sur 10 ans[121], qui stipule que le gouvernement britannique « considère sérieusement le risque à long terme d'une intelligence générale artificielle non alignée, et les changements imprévisibles que cela signifierait pour ... le monde ». La stratégie décrit des actions pour évaluer les risques à long terme de l'IA, y compris les risques catastrophiques[122]. En , la Commission de sécurité nationale des États-Unis sur l'intelligence artificielle a déclaré que « les progrès de l'IA ... pourraient conduire à des points d'inflexion ou à des bonds de capacités. De telles avancées peuvent également introduire de nouvelles préoccupations, de nouveaux risques et le besoin de nouvelles politiques, recommandations et avancées techniques pour garantir que les systèmes sont alignés sur des objectifs et des valeurs, y compris la sécurité, la robustesse et la fiabilité. Les États-Unis devraient... s'assurer que les systèmes d'IA et leurs utilisations s'alignent sur nos objectifs et nos valeurs[123]. » Articles connexes
Notes et référencesNotes
Bibliographie
Références
|
Portal di Ensiklopedia Dunia