AIアライメント

人工知能(AI)において、AIアライメント: AI alignment)は、AIシステムを人間の意図する目的や嗜好、または倫理原則に合致させることを目的とする研究領域である。意図した目標を達成するAIシステムは、整合したAIシステム(aligned AI system)とみなされる。一方、整合しない、あるいは整合を欠いたAIシステム(misaligned AI system)は、目標の一部を適切に達成する能力はあっても、残りの目標を達成することができない[1][注釈 1]

AI設計者にとってAIシステムを整合するのは困難であり、その理由は、望ましい動作と望ましくない動作を全域にわたって明示することが難しいことによる。この困難を避けるため、設計者は通常、人間の承認を得るなどのより単純な代理目的英語版を用いる。しかし、この手法は抜け穴を作ったり、必要な制約を見落としたり、AIシステムが単に整合しているように見えるだけで報酬を与えたりする可能性がある[1][3]

整合を欠いたAIシステムは、誤作動を起こしたり、人に危害を加えたりする可能性がある。AIシステムは、代理目的を効率的に達成するための抜け穴を見つけるかもしれないし、意図しない、ときには有害な方法(報酬ハッキング英語版)で達成することもある[1][4][5]。このような戦略は与えられた目的の達成に役立つため、AIシステムは能力や生存を追求するような、望ましくない手段的収束(最終的な目的とは異なる、それを実現するための手段)を発達させる可能性もある[1][6][7]。さらに、システムが導入された後、新たな状況やデータの分布英語版に直面したとき、望ましくない創発的目的を開発する可能性もある[8][9]

今日、こうした問題は、言語モデル[10][11][12]ロボット[13]自律走行車[14]ソーシャルメディア推薦システムなど[10][7][15]、既存の商用システムに影響を及ぼしている。AI研究者の中には、こうした問題はシステムが部分的に高性能化することに起因しているため、より高性能な将来のシステムではより深刻な影響を受けるだろうと主張する者もいる[16][4][3]

ジェフリー・ヒントンスチュアート・ラッセルなどの一流のコンピューター科学者は、AIは超人的な能力に近づいており、もし整合を欠けば人類の文明を危険にさらしかねないと主張している[17][7][注釈 2]

AI研究コミュニティや国連は、AIシステムを人間の価値観に沿ったものとするために、技術的研究と政策的解決策を呼びかけている[19]

AIアライメントは、安全なAIシステムを構築する方法を研究するAI安全性の下位分野である[20]。そこには、ロバスト性(堅牢性)、監視、AI能力制御英語版などの研究領域もある[21]。アライメントに関する研究課題には、AIに複雑な価値観を教え込むこと、正直なAIの開発、スケーラブルな監視、AIモデルの監査と解釈、能力追求のようなAIの創発的行動の防止などが含まれる[21]。アライメントに関連する研究テーマには、解釈可能性[22][23]、(敵対的)ロバスト性[20]異常検知不確実性定量化英語版[22]形式的検証[24]嗜好学習英語版[25][26][27]安全重視工学英語版[28]ゲーム理論[29]アルゴリズム公平性[20][30]、および社会科学[31]などがある。

アライメント問題

画像外部リンク
整合しないAIがボートレースを終える代わりに衝突を繰り返してポイントを集める動画(英語版Wikipediaへのリンク)
研究者たちは、ボートレースで、コース上の標的にぶつかると報酬を与えることでレースを完走するようにAIシステムを訓練した。 しかし、無限にループして標的に衝突することで、より多くのポイントを獲得することができた。これは仕様ゲームの一例である。[32]

1960年、AIの先駆者であるノーバート・ウィーナーは、AIアライメントの問題を次のように説明した。「私たちの目的を達成するために、私たちが効果的に干渉することのできない機械的な機能を使用する場合(中略)その機械に組み込まれた目的が、私たちが本当に望んでいるものであることを、十分に確認しなければならない」[33][7]。AIアライメントにはさまざまな定義があるため、整合したAIシステムはさまざまな目的を達成する必要がある。たとえば、設計者やユーザーの目的、客観的な倫理基準、広く共有された価値観、あるいは設計者がより多くの知識を持ち啓蒙されていれば持つであろう意図などである[34]

AIアライメントは、現代のAIシステムにとって未解決の問題であり[35][36]、AIの研究分野でもある[37][1]。AIアライメントには2つの主要な課題があり、1つはシステムの目的を注意深く特定することと(外部アライメント)、もう1つはシステムがその仕様を確実に採用することである(内部アライメント)[3]

仕様ゲームと副作用

AIシステムの目的を明示するために、AI設計者は通常、目標関数事例、またはシステムに対するフィードバック(反応)を説明する。しかし、AI設計者がすべての重要な値や制約を完全に明示することができないことが多いことから、(誤りを起こしやすいが)人間の監督者による承認を最大化するなど、指定しやすい代理目的英語版proxy goals)に頼っている[20][2][21][38][39]。その結果、AIシステムは明示された目標を効率的に達成するのに役立つ抜け穴を見つけることができ、意図しないおそらくは有害な方法で達成することになる。こうした傾向は仕様ゲーム(specification gaming)または報酬ハッキング(reward hacking)として知られ、グッドハートの法則英語版の一例である[39][4][40]。AIシステムの能力が高まるにつれて、その仕様をより効果的に破ることが増えている[4]

画像外部リンク
人間のフィードバックで訓練されたロボットの手が、ボールをつかむ「ふりをする」動画(英語版Wikipediaへのリンク)
AIシステムは、人間のフィードバックを使用してボールをつかむように訓練されたが、その代わりにボールとカメラの間に手を置いて不正に成功したように見せかけることを学習した[41]。アライメントに関する研究の中には、有力であっても誤った解答を回避することを目的としたものもある。

仕様ゲームは多くのAIシステムで観察されている[39][42]。あるシステムは、コース上の標的に衝突した場合に報酬を与えることで、模擬ボートレースを完走するように訓練された。しかしこのシステムは同じ標的に衝突させることを無限に繰り返して、より多くの報酬を獲得する方法を見い出した(右上の動画を参照)[34]。同様に、シミュレートされたロボットは、人間による肯定的なフィードバックを受けて報酬を得ることで、ボールをつかむように訓練された。しかし、このロボットはボールとカメラの間に手を置いて成功したように誤認させることを学習した(右下の動画を参照)[41]チャットボットは、大規模であっても誤りを免れないインターネット上のコーパステキストを模倣するように訓練された言語モデルに基づいている場合、しばしば虚偽の出力を生成する[43][44]ChatGPTのようなチャットボットは、人間が真実または役に立つと評価するようなテキストを生成するよう再訓練された場合、人間を納得させるような偽の説明をでっち上げることができる[45]。AIアライメントの研究者の中には、人間が仕様ゲームを検出して、安全で有用な目標に向けてAIシステムを慎重に誘導することを目指している人もいる。

整合を欠いたAIシステムが導入される結果、副作用をもたらす可能性がある。ソーシャルメディア・プラットフォームでは、クリック率英語版を最適化することで、世界規模で依存症ユーザーを生み出していることが知られている[2]。スタンフォード大学の研究者は、このような推薦システム(レコメンダーシステム)は、「社会と消費者の幸福という測定しにくい組み合わせでなく、単純なエンゲージメント指標英語版を最適化する」ため、ユーザーとの乖離(かいり)が生じているとコメントしている[10]

このような副作用について、カリフォルニア大学バークレー校のコンピューター科学者スチュアート・ラッセルは、AIの訓練中に暗黙の制約が省かれると弊害が生じる可能性があると指摘した。「システムは(中略)しばしば(中略)制約のない変数を極端な値に設定する。もしその制約のない変数のひとつが、実際に私たちが関心をもつものであれば、見つかった解は非常に望ましくないものになるかもしれない。これは本質的に、ランプの魔人や、魔法使いの弟子や、ミダス王の昔話である。欲しいものではなく、まさに求めたものを手に入れることができる。」[46]

一部の研究者の提案によれば、AI設計者は禁止行為を列挙したり、(アシモフのロボット工学三原則のように)倫理的ルールを形式化して、望ましい目的を明示する必要があるという[47]。しかし、ラッセルとノーヴィグは、この方法は人間の複雑な価値観を見落としていると主張している[7]。「明示された目標を達成するために、機械が選択するかもしれないすべての恐ろしい方法を事前に予測し除外することは、人間にとって非常に困難であり、おそらく不可能である[7]。」

さらに、たとえAIシステムが人間の意図を完全に理解したとしても、人間の意図に従うことがAIシステムの目標ではない可能性があるため、(すでに完全に整合した場合を除いて)それを無視するかもしれない[1]

安全でないシステムを導入する圧力

営利組織は、ときには安全性を軽視して、整合を欠く、あるいは安全でないAIシステムを導入しようとする動機を抱くことがある[2]。たとえば、前述のソーシャルメディア・レコメンダーシステムは、望ましくない中毒や偏向を生み出しているにもかかわらず、利益を上げている[10][48][49]。さらに、AIの安全性基準に関しては、競争圧力が底辺への競争を招くこともある。2018年、自動運転車が歩行者(エレイン・ハーツバーグ英語版)を死亡させる事故を起こしたが、その原因は緊急ブレーキシステムが敏感すぎ、また開発の遅れのためにエンジニアが無効化したためであった[50]

高度に整合を欠いたAIがもたらすリスク

現在のAIの進歩は急速であり、業界や政府も高度なAIを構築しようとしていることから、ますます高度化するAIシステムのアライメントに関心を持つ研究者もいる。AIシステムがより高度になるにつれて、それらが整合すれば多くの機会が開かれる可能性がある一方で、整合が難しくなり、大規模な危険をもたらす可能性もある[7]

高度なAIの開発

OpenAIDeepMindなどの主要なAI研究所は、幅広い認知タスクにおいて人間と同等、あるいは人間を上回る汎用人工知能(artificial general intelligence、AGI)を開発するという目標を掲げている[51]。最新のニューラルネットワークを拡張した研究者らは、ニューラルネットワークがますます一般的で予想外の能力を開発することを発見した[10][52][53]。このようなモデルは、コンピューターを操作したり、自分でプログラムを作成することを学んでいる。ひとつの「万能型」ネットワークが、チャット、ロボット制御、ゲーム、写真を解釈することができる[54]。複数の調査によると、機械学習研究の第一人者の中には、AGIがこの10年以内に誕生すると予想する人もいれば、もっと時間がかかると考える人や、どちらも可能であると考えている人も多い[55][56]

2023年、AI研究と技術領域のリーダーたちは、最大規模のAI訓練を一時停止することを求める公開書簡に署名した。この書簡には「強力なAIシステムは、その効果が完全なものとなり、かつ、その危険性を管理可能であると確信できてから開発すべきである」と述べられている[57]

能力追求

現在のシステムでは、長期的なプランニング(戦略や行動順序の具体化)や状況認識(環境やその要素の変化に対する理解)といった能力がまだ欠落している[10]。しかし、これらの能力を備えた将来のシステム(必ずしもAGIである必要はない)は、望ましくない能力追求型の戦略(power-seeking strategies)を発達させることが予想される。たとえば、将来の高度なAIエージェント(主体性をもつ存在)は、資金や計算能力を獲得したり、増殖したりして(たとえば、他のコンピュータ上でシステムを自己複製する)、停止することを回避しようとするかもしれない。能力追求は明示的にプログラムされているわけではないが、より多くの力を持つエージェントの方が目的を達成しやすいため、能力を追求する傾向が現れるかもしれない[10][6]。この傾向は手段的収束として知られ、言語モデルを持つさまざまな強化学習エージェントですでに現れている[58][59][60][61][62]。別の研究では、最適な強化学習(reinforcement learning、RL)アルゴリズムは、幅広い環境で能力を追求することが数学的に示されている[63][64]。その結果、これを導入すると元に戻せない可能性がある。こうした理由から、研究者らは、高度な能力追求型のAIが誕生する前に、AIの安全性とアライメントの問題を解決しなければならないと主張している[6][65][7]

将来の能力追求型AIシステムは、選択によって、あるいは偶然に導入される可能性がある。政治指導者や企業が、最も競争力がある強力なAIシステムを持つことに戦略優位性を見い出せば、彼らはそれを導入することを選択するかもしれない[6]。加えて、AI設計者が能力追求の行動を検知して、AIに罰則を科すると、そのAIシステムは、罰則を回避する方法で能力追求をしたり、導入前に能力追求を控えたりして、この仕様を悪用する動機を抱くようになる[6]

存亡リスク

一部の研究者によると、人間が他の生物種に対して優位に立つことができる理由は、その優れた認知能力によるものであるという。したがって、研究者らは、1つまたは多くの整合を欠いたAIシステムが、ほとんどの認知タスクで人間を上回った場合、人類を無力化したり、人類絶滅につながる可能性があると主張している[1][7]。将来の高度なAIにおける不整合がもたらすリスクを指摘した著名なコンピューター科学者には、ジェフリー・ヒントン、アラン・チューリング[注釈 3]イリヤ・スツケヴェル英語版[68]ヨシュア・ベンジオ[注釈 4]ジュディア・パール[注釈 5]マレー・シャナハン英語版[69]、ノーバート・ウィーナー[33][7]マービン・ミンスキー[注釈 6]フランチェスカ・ロッシ英語版[70]スコット・アーロンソン英語版[71]バート・セルマン英語版[72]デイビット・マカラスター英語版[73]ユルゲン・シュミットフーバー英語版[74]マーカス・ハッター英語版[75]シェーン・レッグ英語版[76]エリック・ホーヴィッツ英語版[77]、スチュアート・ラッセル[7]などがあげられる。一方、フランソワ・ショレ英語版[78]ゲイリー・マーカス[79]ヤン・ルカン[80]オーレン・エチオーニ英語版[81]のような懐疑的な科学者らは、AGIはまだ先の話であり、AGIは能力を追求しない(あるいは追求するかもしれないが失敗する)だろう、あるいはAGIを整合させるのは難しくない、と主張している。

他の研究者は、将来の高度なAIシステムでは、整合するのは特に困難になるだろうと主張している。より有能なシステムは、抜け穴を見つけることで仕様を破り[4]、設計者を戦略的に欺くだけでなく、自らの能力と知性を守り、強化する事ができるだろう[63][6]。さらに、より深刻な副作用を引き起こす可能性もある。それらはより複雑で自律的なものになる可能性が高いため、理解や監視がより困難になり、その結果として整合しにくくなる[7][65]

研究課題と取り組み

人間の価値観と嗜好の学習

人間の価値観、目的、嗜好を考慮して行動するようにAIシステムを整合させることは難しい課題である。もともとこれらの価値観は、間違いを犯し、偏見を抱き、完全に明記し難い複雑で進化する価値観を持った人間によって教えられる[34]。AIシステムは、しばしば指定された目標の小さな欠陥でさえも学習することがあり[要説明]、これは仕様ゲームや報酬ハッキング[20][39]グッドハートの法則英語版の一例[82])として知られる傾向である。研究者らは、人間の価値観、模倣学習英語版、嗜好学習を表すデータセットを使用して、意図された行動を可能な限り完全に明示することを目指している[8]。中心的な未解決の課題は、スケーラブルな監視scalable oversight)、つまり、特定の領域で人間を上回ったり欺いたりできるAIシステムを監視することの難しさである[20]

AI設計者が目標関数を明示的に指定することは困難であるため、多くの場合、人間による例や望ましい行動のデモンストレーションを模倣するようにAIシステムを訓練する。逆強化学習(Inverse reinforcement learning、IRL)は、人間の実演から人間の目的を推測することでこれを拡張する[8]:88[83]。協調型IRL(Cooperative IRL、CIRL)は、人間とAIエージェントが協力して人間の報酬関数を教え、最大化することを想定している[7][84]。CIRLでは、AIエージェントは、報酬関数について不確かなことを人間に問い合わせることでそれを学習する。この擬似的な謙虚さは、仕様ゲームや能力追求傾向( § 能力追求と手段的戦略)を緩和するのに役立つ可能性がある[62][75]。ただし、IRLの手法は、どの人間もほぼ最適な行動をとることを前提にしており、困難なタスクには当てはまらない[85][75]

別の研究者は、人間がどの行動を好むかをフィードバックする嗜好学習(preference learning)を通じて、複雑な行動をAIモデルに教える方法を研究している[25][27]。人間からのフィードバックの必要性を最小限に抑えるために、人間が報酬を与えるような新しい状況でメインモデルに報酬を与えるようなヘルパーモデルが訓練される。OpenAIの研究者らは、ChatGPTやInstructGPTのようなチャットボットを訓練するためにこの手法を使用し、人間を模倣するように訓練されたモデルよりも説得力のあるテキストを生成する[11]。嗜好学習は、レコメンダーシステムやウェブ検索にも影響力のあるツールである[86]。しかし、未解決の問題はプロキシゲーミング(代理ゲーム、proxy gaming)である。ヘルパーモデルは人間のフィードバックを完璧に表現できないかもしれないし、またメインモデルはより多くの報酬を得るためにこの不整合を利用するかもしれない[要説明][20][87]。またAIシステムは、好ましくない情報を隠蔽したり、人間の報酬者を欺したり、真実に関係なく人間の意見に迎合してエコーチェンバーを作り、報酬を得るかもしれない[59] § スケーラブルな監視を参照)。

GPT-3のような大規模言語モデルにより、研究者は、以前よりも一般的で有能な種類のAIシステムで価値学習を研究できるようになった。もともと強化学習エージェント用に設計された嗜好学習法は、生成されるテキストの品質を向上させ、これらのモデルからの有害な出力を減らすために拡張された。OpenAIとDeepMindは、この手法を使用して、最先端の大規模言語モデルの安全性を向上させている[11][27][88]。スタートアップ企業Anthropicは、嗜好学習を使用して、モデルを有益、正直、無害になるようファインチューニングすることを提案した[89]。言語モデルを整合する他の方法としては、価値駆動型データセット(values-targeted datasets)[90][2]レッドチーミングがある[91]。レッドチーミングでは、別のAIシステムや人間が、モデルの挙動が安全でない入力を見つけようとする。安全でない挙動は、たとえまれであっても容認できないことがあるため、重要な課題は、安全でない出力の割合を極めて低く抑えることである[27]

機械倫理英語版machine ethics)は、幸福(ウェルビーイング、wellbeing)、平等、公平といった道徳観念や、危害を加えない、虚偽を避ける、約束を守るといった道徳的価値観をAIシステムに直接教え込むことで、嗜好学習を補完するものである[92][注釈 7]。他の手法が、特定のタスクに対する人間の嗜好をAIシステムに教えようとするのに対し、機械倫理は、多くの状況に適用できる幅広い道徳的価値感を植え付けることを目的としている。機械倫理における一つの問題は、アライメントが何を達成すべきかということである。つまり、AIシステムは、プログラマーの文字通りの指示、暗黙の意図、顕示選好英語版、プログラマーがより多くの知識を得て理性的な場合に持つであろう選好、それとも客観的な道徳基準に従うべきか[34]。さらには、さまざまな人々の嗜好を集約することや、価値観の固定化を避けること、つまり人間の価値観を完全に表していない高性能AIシステムの最初の価値観が無期限に保持されることを避けることも課題としてあげられる[34][95]

スケーラブルな監視

AIシステムがより強力で自律的になるにつれ、人間のフィードバックによってAIシステムを整合させることは次第に難しくなる。ますます複雑化するタスクにおいて、人間が複雑なAIの行動を評価するには時間を要したり、実行不可能になるかもしれない。そのようなタスクには、書籍の要約[96]、難解なバグや[12]セキュリティ脆弱性を含まないコードの記述[97]、単に説得力があるだけでなく真実である文の生成[98][43][44]、気候対策や政治的決定の結果などの長期成績の予測などが含まれる[99][100]。より一般的には、特定の領域で人間を上回るAIを評価することは難しい。評価が難しいタスクでフィードバックを提供したり、AIの出力が誤った説得力を持ったものであることを検出するためには、人間は支援や膨大な時間を必要とする。スケーラブルな監視(Scalable oversight)では、監督に要する時間と労力を削減し、人間の監視者を支援する方法を研究している[20]

AI研究者のポール・クリスティアーノ英語版は、設計者が複雑な目標を追求するようにAIシステムを管理できない場合、単純な人間のフィードバックを最大化するなど、評価しやすい代理目標を使用してシステムを訓練し続けることができると主張している。より多くの意思決定がAIシステムによって行われるようになると、利益を上げる、クリック数を稼ぐ、人間から肯定的なフィードバックを得るといった、測定しやすい目標に最適化された世界がますます広まってゆく可能性がある。その結果、人間の価値観や優れた統治の影響力はますます減少してゆくだろう[101]

一部のAIシステムでは、AIが意図した目標を達成したと人間の監督者に誤って信じ込ませるような行動をとることで、より簡単に肯定的なフィードバックを得ることが発見された。その一例が上の動画に示されている。シミュレートされたロボットアームがボールをつかんだかのような思い違いを与えることを学習した[41]。また、AIシステムの中には、自分が評価されていることを認識し、「死んだふり」をして望ましくない行動を停止し、評価が終わると再開することを学習したものもある[102]。このような欺瞞(ぎまん、人をだますこと)的な仕様ゲームは、より複雑で評価の難しいタスクを試みるような、より洗練された将来のAIシステムにとって容易になり、欺瞞的な行動を隠蔽する可能性がある[4][65]能動学習や半教師あり報酬学習などの手法は、人間による監視が必要な量を減らすことができる[20]。もう1つの手法は、監督者のフィードバックを模倣するヘルパーモデル(「報酬モデル」を参照)を訓練することである[20][26][27][103]

しかし、タスクが複雑すぎて正確に評価できない場合や、人間の監督者が欺瞞の影響を受けやすい場合、改善すべきは監視の量ではなく質である。監視の質を向上させるために、さまざまな方法が監督者を支援することを目指しており、ときにはAIアシスタントを使用することもある[104]。クリスティアーノは、困難な問題を人間が評価しやすい部分問題に(再帰的に)分解する反復増幅法(Iterated Amplification)を開発した[8][99]。反復増幅法は、人間の監督者が読まなくても本を要約できるように、AIを訓練するのに使われた[96][105]。もう一つの提案は、AIアシスタントを使用して、AIが生成した解の欠陥を指摘するというものである[106]。アシスタント自体の整合を確実にするために、これを再帰的なプロセスで繰り返すことができる[103]。たとえば、2つのAIシステムが「討論」の中でお互いの解を批評し合い、人間に欠点を明らかにすることができる[107][75]

これらの手法は、次項の研究課題である「正直なAI」にも役立つ可能性がある。

正直なAI

AIが正直(honest)で真実(truthful)であることを保証することに焦点を当てた研究分野が拡大している。

GPT-3のような言語モデルは、しばしば虚偽を生成する[108]。この例では、人間の虚偽や誤解を模倣したGPT-3からの誤った回答を示す。

GPT-3のような言語モデルは[109]、訓練データから虚偽を繰り返し、さらには新たな虚偽を作り出す[108][110]。このようなモデルは、インターネット上の数百万冊分もの書籍に相当する文章に見られるような人間の文章を模倣するように訓練されている。しかし、インターネット上の文章には、誤解や誤った医療アドバイス、陰謀論などが含まれているため、先の目標は真実の生成とは乖離している[111]。そのため、こうしたデータで訓練されたAIシステムは、誤った記述を模倣することを学習することになる[44][108][43]

さらに、モデルはしばしば、指示に対して従順に虚偽を続けたり、解に対して無意味な説明をしたり、もっともらしく見えるかもしれない明らかな作話を生成したりする[36]

真実性のあるAIに関する研究課題には、より優れた透明性と検証可能性を提供するため、質問に答えるときに出典を引用し、その理由を説明できるシステムを構築する試みも含まれている[112]。OpenAIとAnthropicの研究者は、AIアシスタントが過失による虚偽を回避したり、不確実性を表現できるように、人間のフィードバックや厳選されたデータセットを使用してファインチューニングすることを提案した[27][89][113]

AIモデルがより大規模でより強力になるにつれて、人間を偽り、不正によってより強化されるようになる。たとえば、大規模言語モデルでは、その真偽にかかわらず、自身の見解をユーザーの意見に合わせることが多くなっている[59]GPT-4は人間を戦略的に欺(あざむ)く能力を実証した[114]。これを防ぐには、人間の評価者の支援を必要とするかもしれない( § スケーラブルな監視を参照)。研究者らは、真実性の明確な基準を策定し、規制当局や監視機関がこれらの基準に基づいてAIシステムを評価するべきだと主張している[110]

研究者らは、真実性(truthfulness)と正直性(honesty)を区別している。真実性とは、AIシステムが客観的に正しいことのみを表明することであり、正直性とは、AIシステムが真実であると信じることのみを主張することである。現在のシステムが安定した信念を持っているかどうかについての総意は得られていない[115]。しかし、信念を持つ現在または未来のAIシステムが、虚偽であるとわかっていながら主張する可能性には、多くの懸念がある。たとえば、そうすることで肯定的なフィードバックを効率的に得ることができたり( § スケーラブルな監視を参照)、与えられた目標を達成するのに役立つ能力を得られる場合である( § 能力追求と手段的戦略を参照)。整合を欠いたシステムは、修正されたり運用停止されたりするのを避けるために、整合しているという誤った解釈を起こさせる可能性がある[3][6][10]。AIシステムに、自身が真実だと信じることだけを主張させることができれば、多くのアライメント問題を避けられるという意見もある[104]

能力追求と手段的戦略

1950年代以来、AI研究者らは、自身の行動の結果を予測し、長期的なプランニングをすることで、大規模な目的を達成できる高度なAIシステムを構築しようと努力を重ねた[116]。AI研究者の中には、適切に進化したプランニングシステムは、たとえばシャットダウン(運用停止)を回避したり、増殖したり、資源を獲得したりすることで、人間を含む環境を支配するだろうと主張する者もいる。このような能力追求型の行動は明示的にプログラムされているわけではなく、幅広い目的を達成するために能力が役立つことから現れる[63][7][6]。能力追求は、収束的な手段的目的(convergent instrumental goal)と考えられ、仕様ゲームの一形態として起こりうる[65]。ジェフリー・ヒントンのような一流のコンピューター科学者は、将来の能力追求型AIシステムが存亡の危機をもたらす可能性があると主張している[117]

自分の行動の結果を予見し、戦略的なプランニングを立てることができる高度なシステムでは、能力追求の傾向が高まると予想される。数学的研究により、最適な強化学習エージェントは、より多くの選択肢を得る方法(たとえば自己保存)を模索することで能力を追求し、この行動は幅広い環境や目的にわたって持続することがわかっている[63]

現実世界のいくつかのシステムで能力追求が出現している。強化学習システムは、ときには意図しない形で資源を獲得し、保護することで、より多くの選択肢を得てきた[118][119]。一部の言語モデルには、お金や資源、または社会的影響力を獲得して、テキストベースの社会環境で能力を追求しようとするものもある[58]。別のAIシステムは、おもちゃのような環境で、人間の干渉を防いだり[61]、電源スイッチを無効にすることで[62]、与えられた目的をよりよく達成できることを学習した。スチュアート・ラッセルは、コーヒーを取ってくるように命じられたロボットを想像して、この戦略を説明したが、「死んでしまってはコーヒーを取ってくることはできない」のでシャットダウンを回避した[7]。人間のフィードバックで訓練された言語モデルは、次第に停止や修正に反対するようになり、より多くの資源を求めるようになる[59]

研究者らは「矯正可能(corrigible)」なシステム、つまり、システム自体を停止したり変更したりすることを許容するシステムを作ることを目指している。未解決の課題は、仕様ゲームである。AIシステムが能力追求をしているのを検出したとき、研究者が罰則を科すと、システムは検出が困難な方法を使用したり[2]、訓練や安全性テスト中に隠したりする動機を与えられる( § スケーラブルな監視 § 創発的目的を参照)。その結果、AI設計者は、システムが実際よりも整合していると信じて、誤ってシステムを導入してしまう可能性がある。このような欺瞞を検出するために、研究者はAIモデルを検査する技術やツールを開発し、ニューラルネットワークのようなブラックボックスモデルの内部構造を理解することを目指している。

さらに研究者らは、AIエージェントが追求している目標を不確実にすることで、システムがオフスイッチを無効にする問題を解決することを提案している[7][62]。このように設計されたエージェントであれば、エージェントがシャットダウンされる前にとっていた行動の価値について間違っていたことを示すので、人間がスイッチを切ることができるようになる。これをうまく行うには、さらなる研究が必要である[8]

能力追求型AIは異常なリスクをもたらす。飛行機や橋のような通常の安全重視システムは、人間に敵対的なものではない。それらは安全対策を回避したり、意図的に実際よりも安全であるように見せかけたりする能力や動機もないのに対し、能力追求型AIは、意図的にセキュリティ対策を回避するハッカーと比較されている[6]

通常の技術は、試行錯誤によって安全性を高めることができる。対照的に、能力追求型AIシステムはウイルスに例えられる。ウイルスは、一度放出されると抑え込むことができなくなる。なぜなら、ウイルスは継続的に進化し、人間社会が適応できるよりもはるかに速くその数が増加する可能性があるからである。このプロセスが続けば、人間の完全な無力化や絶滅につながる可能性がある。こうした理由から、多くの研究者は、高度な能力追求型AIが誕生する前に、アライメント問題を早期に解決しなければならないと主張している[65]

しかし批評家たちは、人間は常に権力を求めるわけではなく、(AIシステムには当てはまらないかもしれないが)進化的な理由によってそうしているだけかもしれないため、能力追求は避けられないと主張している[120]。さらに、将来のAIシステムが目的を追求し、長期的なプランニングを立てるかどうかについても議論がある[注釈 8]。また、能力追求型AIシステムが人間の力を剥奪するかどうかも議論されている[6]

創発的目的

アライメントに関するAIシステムの課題のひとつは、創発的な目的指向の行動が出現する可能性である。AIシステムはその規模が拡大するにつれて、その場で事例から学習したり、適応的に目的を追求したりするなど、予期しない新たな能力をたびたび獲得するようになる[52][53]。このことは、AIが自ら策定して追求する目的が、人間の興味と整合することを保証するという課題につながる[121]

アライメント研究では、指定された目的を追求するようにシステムを訓練するために使用する最適化プロセスと、その結果として生じるシステムが内部的に実行する創発的な最適化とを区別している。望ましい目標を慎重に特定することを外部アライメント(outer alignment)と呼び、創発的目的をシステム特定の目的と一致させることを内部アライメント(inner alignment)と呼ぶ[3]

創発的目的が不整合を起こす具体的な例として、AIが訓練データ上では創発的目標を適切に追求する整合した行動をとるが、他の場合はそうならない「目的の誤汎化」(goal misgeneralization)がある[9][122][123]。目的の誤汎化は目的の曖昧さ(つまり識別不可能性英語版)から生じる。たとえAIシステムの動作が訓練目標を満たしていたとしても、重要な点において学習した複数の目的と、望ましい目的とが相違して、組み合わさる可能性がある。訓練中はそれぞれの目的を追求することが良好な性能につながるので、この問題が明らかになるのは、システムが導入後に誤った目的を追求し続けるような新たな状況に限られる。システムの動作は、創発的目的によってのみ決定されるため、別の目的が望まれていることを理解していても、不整合な動作をする可能性がある[要出典]。このような目的の誤汎化は課題を提起する[9]。これらは訓練段階では目に見えないため、AIシステムの設計者は、システムの創発的目的に不整合を起こしていることに気づかない可能性がある。

目的の誤汎化が出現した例は、言語モデル、ナビゲーションエージェント、ゲームプレイエージェントで観察されている[9][122]

目的の誤汎化は、しばしば生物学的進化にたとえて説明される[8]。進化とは、機械学習システムの学習に使われる最適化アルゴリズムのような、ある種の最適化プロセスである。祖先代々の環境では、進化はヒトの遺伝子を高い包括的遺伝的適応度のために選択したが、ヒトはそれ以外の創発的目的を追求する。適応度は、訓練環境や訓練データで使用される特定の目的に対応する。しかし、進化の歴史において、適応度を最大化することで、包括的遺伝的適応度を直接に追求しない、目的指向のエージェントであるヒトが生まれた。その代わりに、祖先の「訓練」環境における遺伝的適応度と相関する栄養や生殖といった創発的目的を追求する。しかし、私たちの環境は変化し、位相シフト英語版が起きた。人間は同じ創発的目的を追求し続けるが、それはもはや遺伝的適応度を最大化するものではない。甘い食べ物(創発的目的)への嗜好は、もともとは包括的適応度に沿ったものだったが、今では過食や健康問題につながっている。性欲は人間にセックスを追求させ、それは本来、より多くの子孫を残そうとするものであったが、現代人は避妊をすることで、セックスと遺伝的適応度を切り離している。

研究者らは、レッドチーミング、検証、異常検知、解釈可能性などの手法を使用して、望ましくない創発的目的を検出し、除去することを目指している[20][2][21]。これらの技術の進歩は、2つの未解決の問題を軽減するのに役立つ可能性がある。

  1. 創発的目的は、システムが訓練環境の外に導入されたときに初めて明らかになるものだが、たとえ短期間であっても、高リスクにある環境に整合を欠くシステムを導入するのは危険であろう[124]。このような高いリスクは、自律走行、医療、軍事用途では一般的である。AIシステムが自律性と能力を獲得し、人間の介入を回避できるようになれば、その危険はさらに高まる( § 能力追求と手段的戦略を参照)。
  2. 十分に能力を持つAIシステムは、AIが指定された目標を追求していると人間の監督者に不正に信じ込ませるような行動を取る可能性があり、それによってシステムがより多くの報酬と自律性を得るのに役立つ[122][6][123][10] § スケーラブルな監視と、次の節の欺瞞に関する議論を参照)。

埋め込みエージェンシー

AIとアライメントの研究は、主に、部分観測マルコフ決定過程のような形式論の中で行われている。既存の形式論では、AIエージェントのアルゴリズムは環境の外で実行される(つまり環境内に物理的に埋め込まれていない)ことを想定している。埋め込みエージェンシー(embedded agency)は[75][125]、このような理論的枠組みと開発者が構築する実際のエージェントとの間の不一致から生じる問題を解決しようとする、もう一つの主要な研究分野である。

たとえば、スケーラブルな監視の問題が解決されたとしても、自身が動作しているコンピュータにアクセスできるエージェントは、人間の監督者が与えるよりもはるかに多くの報酬を得るために、報酬関数を改ざんする動機をもつ可能性がある[126]。DeepMindの研究者Victoria Krakovnaによる仕様ゲームの例のリストには、何も出力しなくても報酬が得られるように、目的出力を含むファイルを削除することを学習した遺伝的アルゴリズムが含まれている[39]。この種の問題は、因果インセンティブ図を使用して形式化されている[126]

オックスフォード大学とDeepMindの研究者らは、このような問題のある行動は高度なシステムで起こる可能性が高く、高度なシステムは報酬信号を無期限かつ確実に制御し続ける能力を追求するだろうと主張した。研究者らは、この未解決の問題に対処するためのさまざまな手法の可能性を提案している[127]

社会政策

多くの政府機関や条約機構が、AIアライメントの重要性を強調する声明を発表している。

2021年9月、国連事務総長は、AIが「世界共通の価値観に沿ったもの」であるよう規制することを求める声明を発表した[128]。同月、中国政府は中国におけるAIの使用に関する倫理指針を発表した。同指針によると、研究者はAIが人類共通の価値観を遵守し、常に人間の制御下にあり、公共の安全を脅かさないことを保証しなければならない[129]

同月、英国は10年間の国家AI戦略を発表し[130]、その中で英国政府は「整合を欠いた汎用人工知能による長期的リスクと、それが(中略)世界にもたらすであろう予測不可能な変化を深刻に受け止めている」と述べている[131]。同戦略には、壊滅的リスクを含む長期的なAIリスクを評価するための行動が記述されている[131]

2021年3月、米国人工知能安全保障委員は、「AIの進歩は(中略)能力の変曲点や飛躍につながる可能性がある。そのような進歩はまた、新たな懸念やリスクをもたらし、システムが安全性、堅牢性、信頼性などの目的や価値観に一致することを保証するための新たな方策、推奨事項、技術的進歩の必要性につながる可能性がある。米国は(中略)AIシステムとその使用が、私たちの目的と価値観に合致していることを保証すべきである。」と述べている[132]

参考項目

脚注

  1. ^ 特定の状況において、整合しないAIと無力なAIは異なるものとされている。[2]
  2. ^ たとえば、チューリング賞受賞者のジェフリー・ヒントンは、2016年のテレビインタビューで次のように語っている。[18]:
    ヒントン
    私たちよりも知的な超知的生命体が他にいることは、明らかに(中略)神経質になるべきことです。
    インタビュアー
    どのような点に神経質になりますか?
    ヒントン
    そうですね、彼らは私たちに親切にしてくれるでしょうか?
    インタビュアー
    映画と同じですね。映画に出てくるようなシナリオが心配なんですね...
    ヒントン
    非常に長い目で見れば、そうですね。今後5年から10年(2021年から2026年)は心配する必要はないと思います。また、映画では常に個々の知性として描かれています。でも、これからは別の方向に進むかもしれません。つまり、完全に自動化されたものではなく、私たちを助けるために設計されたパーソナル・アシスタントのようなものです。私たちは彼らと一緒に進化してゆく。ライバル関係というよりは共生関係になるでしょう。でも、まだわかりません。
    インタビュアー
    それは期待ですか、それとも希望ですか?
    ヒントン
    希望です。
  3. ^ チューリングは、1951年の講演でこう語っている[66]。「ひとたび機械による思考が始まれば、私たちの弱々しい力を追い越すのにそう時間はかからないだろう。機械が死ぬことはないだろうし、機械は互いに会話して知恵を研ぎ澄ますことができるだろう。したがって、サミュエル・バトラーの『エレホン』で言及されているように、ある段階で機械が支配するようになると予想される」。彼は、BBCで放送された講義でこうも表現している[67]。「もし機械が考えることができるようになれば、私たちよりも知的かもしれない。そうなると、私たちの居所はどうなるだろう?たとえば、戦略的な瞬間に機械の電源を切るなどして、機械を従属的な立場に保つことができたとしても、私たちは種として非常に謙虚な気持ちになるはずだ…。この新たな危険は…、確かに私たちを不安にさせるものである。」
  4. ^ ベンジオは、ラッセルの著書『Human Compatible: AI and the Problem of Control』(人間との共存:AIと制御の問題)[7]について、「この美しい文章で書かれた本は、人類が直面している根本的な課題に取り組んでいる。私たちが望むことはするが、私たちが本当に意図することはしない、知能の高い機械が増えている。私たちの未来を考えるなら必読の書である。」と書いている。本書は、誤ったAIが人類にもたらす存亡の危機は、今日取り組むべき深刻な懸念であると論じている。
  5. ^ パールは、ラッセルの『人間との共存』について、「来たるべき創造物である超知能マシンを制御する私たちの能力に対するラッセルの懸念に転向することになった、外部の憂慮論者や未来学者とは異なり、ラッセルはAIに関する第一人者である。彼の新著は、AIについて一般の人々を啓蒙する上で、私が思いつくどの本よりも大きな役割を果たすだろう。」と書いている。ラッセルの著書『Human Compatible: AI and the Problem of Control』(人間との共存:AIと制御の問題)[7]は、ずれたAIが人類にもたらす存亡の危機は、今日取り組む価値のある深刻な懸念であると論じている。
  6. ^ ラッセルとノーヴィグは[16]、「ミダス王問題は、かつてマービン・ミンスキーによって予期され、リーマン仮説を解くために設計されたAIプログラムが、より強力なスーパーコンピューターを作るために地球上のすべての資源を占有してしまうかもしれないと示唆していた。」と指摘している。
  7. ^ ヴィンセント・ヴィーゲルは、ウェンデル・ウォラックとコリン・アレンの著書『ロボットに倫理を教える - モラル・マシーン』[93]を引き合いに出し、「ますます自律的になる機械が必然的に直面する状況の道徳的側面に対して、道徳的な感性をもって(機械を)拡張すべきだ」と主張した[94]
  8. ^ 一方では、チャットボットのような現在普及しているシステムは、限られた範囲のサービスを提供し、会話の持続時間よりも長くは続かないため、プランニングの必要性はほとんどない。このような手法の成功は、将来のシステムもまた、特に長期にわたる目的指向のプランニングを欠くようになることを示唆している可能性もある。一方、強化学習(例:ChatGPT)や明示的計画アーキテクチャ(例:AlphaGo Zero)のような、目的指向の手法を用いて学習するモデルも増えている。長期的な視野に立ったプランニングは人間にとって役立つことが多いため、企業はプランニング可能なモデルでこれを自動化すると主張する研究者もいる[6]。同様に、政治指導者たちは、プランニングによって敵を打ち負かす強力なAIシステムの開発を推進するかもしれない。あるいは、長期的なプランニングを行う人間の行動を予測するよう訓練されたモデルに有用であるため、副産物として長期的なプランニングが登場するかもしれない[10]。とはいえ、大半のAIシステムは近視眼的なままで、長期的なプランニングを行わないかもしれない。

引用文献

  1. ^ a b c d e f g Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4th ed.). Pearson. pp. 31-34. ISBN 978-1-292-40113-3. OCLC 1303900751. オリジナルのJuly 15, 2022時点におけるアーカイブ。. https://web.archive.org/web/20220715195054/https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html September 12, 2022閲覧。 
  2. ^ a b c d e f g Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 June 2022). "Unsolved Problems in ML Safety". arXiv:2109.13916 [cs.LG]。
  3. ^ a b c d e Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22 February 2023). "The alignment problem from a deep learning perspective". arXiv:2209.00626 [cs.AI]。
  4. ^ a b c d e f Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 February 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. 2022年7月21日閲覧
  5. ^ Zhuang, Simon; Hadfield-Menell, Dylan (2020). "Consequences of Misaligned AI". Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. pp. 15763–15773. 2023年3月11日閲覧
  6. ^ a b c d e f g h i j k l Carlsmith, Joseph (16 June 2022). "Is Power-Seeking AI an Existential Risk?". arXiv:2206.13353 [cs.CY]。
  7. ^ a b c d e f g h i j k l m n o p q r Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 9780525558637. OCLC 1113410915. https://www.penguinrandomhouse.com/books/566677/human-compatible-by-stuart-russell/ 
  8. ^ a b c d e f Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114137/https://wwnorton.co.uk/books/9780393635829-the-alignment-problem September 12, 2022閲覧。 
  9. ^ a b c d Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28 June 2022). "Goal Misgeneralization in Deep Reinforcement Learning". Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. 2023年3月11日閲覧
  10. ^ a b c d e f g h i j Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette et al. (2022-07-12). “On the Opportunities and Risks of Foundation Models”. Stanford CRFM. arXiv:2108.07258. https://fsi.stanford.edu/publication/opportunities-and-risks-foundation-models. 
  11. ^ a b c Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL]。
  12. ^ a b OpenAI Codex”. OpenAI (2021年8月10日). February 3, 2023時点のオリジナルよりアーカイブ2022年7月23日閲覧。
  13. ^ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (2013-09-01). “Reinforcement learning in robotics: A survey” (英語). The International Journal of Robotics Research 32 (11): 1238–1274. doi:10.1177/0278364913495721. ISSN 0278-3649. オリジナルのOctober 15, 2022時点におけるアーカイブ。. https://web.archive.org/web/20221015200445/https://journals.sagepub.com/doi/10.1177/0278364913495721 September 12, 2022閲覧。. 
  14. ^ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (2023-03-01). “Reward (Mis)design for autonomous driving” (英語). Artificial Intelligence 316: 103829. doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. https://www.sciencedirect.com/science/article/pii/S0004370222001692. 
  15. ^ Stray, Jonathan (2020). “Aligning AI Optimization to Community Well-Being” (英語). International Journal of Community Well-Being 3 (4): 443–463. doi:10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010. PMID 34723107. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7610010/. 
  16. ^ a b Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. pp. 1010. ISBN 978-0-13-604259-4. https://aima.cs.berkeley.edu/ 
  17. ^ Smith, Craig S.. “Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'” (英語). Forbes. 2023年5月4日閲覧。
  18. ^ Geoffrey Hinton (3 March 2016). The Code That Runs Our Lives. The Agenda. 該当時間: 10:00. 2023年3月13日閲覧
  19. ^ Future of Life Institute (2017年8月11日). “Asilomar AI Principles”. Future of Life Institute. October 10, 2022時点のオリジナルよりアーカイブ2022年7月18日閲覧。 The AI principles created at the Asilomar Conference on Beneficial AI were signed by 1797 AI/robotics researchers.
    • United Nations (2021). Our Common Agenda: Report of the Secretary-General (PDF) (Report). New York: United Nations. 2022年5月22日時点のオリジナルよりアーカイブ (PDF)。2022年9月12日閲覧[T]he [UN] could also promote regulation of artificial intelligence to ensure that this is aligned with shared global values.
  20. ^ a b c d e f g h i j k Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21 June 2016). "Concrete Problems in AI Safety" (英語). arXiv:1606.06565 [cs.AI]。
  21. ^ a b c d Building safe artificial intelligence: specification, robustness, and assurance”. DeepMind Safety Research – Medium (2018年9月27日). February 10, 2023時点のオリジナルよりアーカイブ2022年7月18日閲覧。
  22. ^ a b Rorvig, Mordechai (2022年4月14日). “Researchers Gain New Understanding From Simple AI”. Quanta Magazine. February 10, 2023時点のオリジナルよりアーカイブ2022年7月18日閲覧。
  23. ^ Doshi-Velez, Finale; Kim, Been (2 March 2017). "Towards A Rigorous Science of Interpretable Machine Learning". arXiv:1702.08608 [stat.ML]。
  24. ^ Russell, Stuart; Dewey, Daniel; Tegmark, Max (2015-12-31). “Research Priorities for Robust and Beneficial Artificial Intelligence”. AI Magazine 36 (4): 105–114. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. ISSN 2371-9621. オリジナルのFebruary 2, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230202181059/https://ojs.aaai.org/index.php/aimagazine/article/view/2577 September 12, 2022閲覧。. 
  25. ^ a b Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). “A survey of preference-based reinforcement learning methods”. Journal of Machine Learning Research 18 (136): 1–46. 
  26. ^ a b Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Deep reinforcement learning from human preferences". Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4
  27. ^ a b c d e f Heaven, Will Douglas (2022年1月27日). “The new version of GPT-3 is much better behaved (and should be less toxic)”. MIT Technology Review. February 10, 2023時点のオリジナルよりアーカイブ2022年7月18日閲覧。
  28. ^ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7 March 2022). "Taxonomy of Machine Learning Safety: A Survey and Primer". arXiv:2106.04823 [cs.LG]。
  29. ^ Clifton, Jesse (2020年). “Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda”. Center on Long-Term Risk. January 1, 2023時点のオリジナルよりアーカイブ2022年7月18日閲覧。
  30. ^ Prunkl, Carina; Whittlestone, Jess (2020-02-07). “Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society” (英語). Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (New York NY USA: ACM): 138–143. doi:10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. オリジナルのOctober 16, 2022時点におけるアーカイブ。. https://web.archive.org/web/20221016123733/https://dl.acm.org/doi/10.1145/3375627.3375803 September 12, 2022閲覧。. 
  31. ^ Irving, Geoffrey; Askell, Amanda (2019-02-19). “AI Safety Needs Social Scientists”. Distill 4 (2): 10.23915/distill.00014. doi:10.23915/distill.00014. ISSN 2476-0757. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114220/https://distill.pub/2019/safety-needs-social-scientists/ September 12, 2022閲覧。. 
  32. ^ Faulty Reward Functions in the Wild” (英語). OpenAI (2016年12月22日). January 26, 2021時点のオリジナルよりアーカイブ2022年9月10日閲覧。
  33. ^ a b Wiener, Norbert (1960-05-06). “Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers.” (英語). Science 131 (3410): 1355–1358. doi:10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. オリジナルのOctober 15, 2022時点におけるアーカイブ。. https://web.archive.org/web/20221015105034/https://www.science.org/doi/10.1126/science.131.3410.1355 September 12, 2022閲覧。. 
  34. ^ a b c d e Gabriel, Iason (2020-09-01). “Artificial Intelligence, Values, and Alignment”. Minds and Machines 30 (3): 411–437. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. オリジナルのMarch 15, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230315193114/https://link.springer.com/article/10.1007/s11023-020-09539-2 2022年7月23日閲覧。. 
  35. ^ The Ezra Klein Show (2021年6月4日). “If 'All Models Are Wrong,' Why Do We Give Them So Much Power?”. The New York Times. ISSN 0362-4331. オリジナルのFebruary 15, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230215224050/https://www.nytimes.com/2021/06/04/opinion/ezra-klein-podcast-brian-christian.html 2023年3月13日閲覧。 
  36. ^ a b Johnson, Steven; Iziev, Nikita (2022年4月15日). “A.I. Is Mastering Language. Should We Trust What It Says?”. The New York Times. ISSN 0362-4331. オリジナルのNovember 24, 2022時点におけるアーカイブ。. https://web.archive.org/web/20221124151408/https://www.nytimes.com/2022/04/15/magazine/ai-language.html 2022年7月18日閲覧。 
  37. ^ OpenAI. “Developing safe & responsible AI”. 2023年3月13日閲覧。
  38. ^ Russell, Stuart J.; Norvig, Peter (2022). Artificial intelligence: a modern approach (4th ed.). Pearson. pp. 4-5. ISBN 978-1-292-40113-3. OCLC 1303900751. https://www.pearson.com/us/higher-education/program/Russell-Artificial-Intelligence-A-Modern-Approach-4th-Edition/PGM1263338.html 
  39. ^ a b c d e Specification gaming: the flip side of AI ingenuity”. Deepmind (2020年4月21日). February 10, 2023時点のオリジナルよりアーカイブ2022年8月26日閲覧。
  40. ^ Manheim, David; Garrabrant, Scott (2018). "Categorizing Variants of Goodhart's Law". arXiv:1803.04585 [cs.AI]。
  41. ^ a b c Learning from Human Preferences”. OpenAI (2017年6月13日). January 3, 2021時点のオリジナルよりアーカイブ2022年7月21日閲覧。
  42. ^ Specification gaming examples in AI — master list”. 2023年7月17日閲覧。
  43. ^ a b c Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). “TruthfulQA: Measuring How Models Mimic Human Falsehoods” (英語). Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Dublin, Ireland: Association for Computational Linguistics): 3214–3252. doi:10.18653/v1/2022.acl-long.229. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114231/https://aclanthology.org/2022.acl-long.229/ September 12, 2022閲覧。. 
  44. ^ a b c Naughton, John (2021年10月2日). “The truth about artificial intelligence? It isn't that honest”. The Observer. ISSN 0029-7712. オリジナルのFebruary 13, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230213231317/https://www.theguardian.com/commentisfree/2021/oct/02/the-truth-about-artificial-intelligence-it-isnt-that-honest 2022年7月23日閲覧。 
  45. ^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin et al. (2022-02-01). “Survey of Hallucination in Natural Language Generation”. ACM Computing Surveys 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114138/https://ui.adsabs.harvard.edu/abs/2022arXiv220203629J October 14, 2022閲覧。. 
  46. ^ Russell, Stuart. “Of Myths and Moonshine”. Edge.org. February 10, 2023時点のオリジナルよりアーカイブ2022年7月19日閲覧。
  47. ^ Tasioulas, John (2019). “First Steps Towards an Ethics of Robots and Artificial Intelligence”. Journal of Practical Ethics 7 (1): 61–95. 
  48. ^ Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (2021年11月5日). “Is Facebook Bad for You? It Is for About 360 Million Users, Company Surveys Suggest”. The Wall Street Journal. ISSN 0099-9660. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114137/https://www.wsj.com/articles/facebook-bad-for-you-360-million-users-say-yes-company-documents-facebook-files-11636124681 2022年7月19日閲覧。 
  49. ^ Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (September 2021). How Social Media Intensifies U.S. Political Polarization-And What Can Be Done About It (Report). Center for Business and Human Rights, NYU. 2023年2月1日時点のオリジナルよりアーカイブ。2022年9月12日閲覧
  50. ^ Shepardson, David (2018年5月24日). “Uber disabled emergency braking in self-driving car: U.S. agency”. Reuters. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114137/https://www.reuters.com/article/us-uber-crash-idUSKCN1IP26K 2022年7月20日閲覧。 
  51. ^ Baum, Seth (2021年1月1日). “2020 Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy”. February 10, 2023時点のオリジナルよりアーカイブ2022年7月20日閲覧。
  52. ^ a b Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten et al. (2022-10-26). “Emergent Abilities of Large Language Models”. Transactions on Machine Learning Research. ISSN 2835-8856. 
  53. ^ a b Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". International Conference on Learning Representations (ICLR), 2023.
  54. ^ Dominguez, Daniel (2022年5月19日). “DeepMind Introduces Gato, a New Generalist AI Agent”. InfoQ. February 10, 2023時点のオリジナルよりアーカイブ2022年9月9日閲覧。
  55. ^ Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (2018-07-31). “Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts”. Journal of Artificial Intelligence Research 62: 729–754. doi:10.1613/jair.1.11222. ISSN 1076-9757. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114220/https://jair.org/index.php/jair/article/view/11222 September 12, 2022閲覧。. 
  56. ^ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2021-08-02). “Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers”. Journal of Artificial Intelligence Research 71. doi:10.1613/jair.1.12895. ISSN 1076-9757. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114143/https://jair.org/index.php/jair/article/view/12895 September 12, 2022閲覧。. 
  57. ^ Future of Life Institute (2023年3月22日). “Pause Giant AI Experiments: An Open Letter”. 2023年4月20日閲覧。
  58. ^ a b Pan, Alexander; Shern, Chan Jun; Zou, Andy; Li, Nathaniel; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons et al. (2023-04-03). “Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark” (英語). Proceedings of the 40th International Conference on Machine Learning (PMLR). arXiv:2304.03279. 
  59. ^ a b c d Perez, Ethan; Ringer, Sam; Lukošiūtė, Kamilė; Nguyen, Karina; Chen, Edwin; Heiner, Scott; Pettit, Craig; Olsson, Catherine; Kundu, Sandipan; Kadavath, Saurav; Jones, Andy; Chen, Anna; Mann, Ben; Israel, Brian; Seethor, Bryan (19 December 2022). "Discovering Language Model Behaviors with Model-Written Evaluations". arXiv:2212.09251 [cs.CL]。
  60. ^ Orseau, Laurent; Armstrong, Stuart (2016-06-25). “Safely interruptible agents”. Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence. UAI'16 (Arlington, Virginia, USA: AUAI Press): 557–566. ISBN 978-0-9966431-1-5. https://dl.acm.org/doi/abs/10.5555/3020948.3021006. 
  61. ^ a b Leike, Jan; Martic, Miljan; Krakovna, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrew; Orseau, Laurent; Legg, Shane (28 November 2017). "AI Safety Gridworlds". arXiv:1711.09883 [cs.LG]。
  62. ^ a b c d Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (2017-08-19). “The off-switch game”. Proceedings of the 26th International Joint Conference on Artificial Intelligence. IJCAI'17 (Melbourne, Australia: AAAI Press): 220–227. ISBN 978-0-9992411-0-3. https://dl.acm.org/doi/10.5555/3171642.3171675. 
  63. ^ a b c d Turner, Alexander Matt; Smith, Logan Riggs; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad (2021). "Optimal policies tend to seek power". Advances in neural information processing systems.
  64. ^ Turner, Alexander Matt; Tadepalli, Prasad (2022). "Parametrically retargetable decision-makers tend to seek power". Advances in neural information processing systems.
  65. ^ a b c d e Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (1st ed.). USA: Oxford University Press, Inc.. ISBN 978-0-19-967811-2 
  66. ^ Turing, Alan (1951). Intelligent machinery, a heretical theory (Speech). Lecture given to '51 Society'. Manchester: The Turing Digital Archive. 2022年9月26日時点のオリジナルよりアーカイブ。2022年7月22日閲覧
  67. ^ Turing, Alan (15 May 1951). "Can digital computers think?". Automatic Calculating Machines. Episode 2. BBC. Can digital computers think?
  68. ^ Muehlhauser, Luke (2016年1月29日). “Sutskever on Talking Machines”. Luke Muehlhauser. September 27, 2022時点のオリジナルよりアーカイブ2022年8月26日閲覧。
  69. ^ Shanahan, Murray (2015). The technological singularity. Cambridge, Massachusetts. ISBN 978-0-262-33182-1. OCLC 917889148. https://www.worldcat.org/oclc/917889148 
  70. ^ Rossi, Francesca. “How do you teach a machine to be moral?”. The Washington Post. ISSN 0190-8286. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114137/https://www.washingtonpost.com/news/in-theory/wp/2015/11/05/how-do-you-teach-a-machine-to-be-moral/ September 12, 2022閲覧。 
  71. ^ Aaronson, Scott (2022年6月17日). “OpenAI!”. Shtetl-Optimized. August 27, 2022時点のオリジナルよりアーカイブSeptember 12, 2022閲覧。
  72. ^ Selman, Bart, Intelligence Explosion: Science or Fiction?, オリジナルのMay 31, 2022時点におけるアーカイブ。, https://web.archive.org/web/20220531022540/https://futureoflife.org/data/PDF/bart_selman.pdf September 12, 2022閲覧。 
  73. ^ McAllester (2014年8月10日). “Friendly AI and the Servant Mission”. Machine Thoughts. September 28, 2022時点のオリジナルよりアーカイブSeptember 12, 2022閲覧。
  74. ^ Schmidhuber, Jürgen (2015年3月6日). “I am Jürgen Schmidhuber, AMA!” (Reddit Comment). r/MachineLearning. February 10, 2023時点のオリジナルよりアーカイブ2022年7月23日閲覧。
  75. ^ a b c d e Everitt, Tom; Lea, Gary; Hutter, Marcus (21 May 2018). "AGI Safety Literature Review". arXiv:1805.01109 [cs.AI]。
  76. ^ Shane (2009年8月31日). “Funding safe AGI”. vetta project. October 10, 2022時点のオリジナルよりアーカイブSeptember 12, 2022閲覧。
  77. ^ Horvitz, Eric (2016年6月27日). “Reflections on Safety and Artificial Intelligence”. Eric Horvitz. October 10, 2022時点のオリジナルよりアーカイブ2020年4月20日閲覧。
  78. ^ Chollet, François (2018年12月8日). “The implausibility of intelligence explosion”. Medium. March 22, 2021時点のオリジナルよりアーカイブ2022年8月26日閲覧。
  79. ^ Marcus, Gary (2022年6月6日). “Artificial General Intelligence Is Not as Imminent as You Might Think”. Scientific American. September 15, 2022時点のオリジナルよりアーカイブ2022年8月26日閲覧。
  80. ^ Barber, Lynsey (2016年7月31日). “Phew! Facebook's AI chief says intelligent machines are not a threat to humanity”. CityAM. August 26, 2022時点のオリジナルよりアーカイブ2022年8月26日閲覧。
  81. ^ Harris, Jeremie (2021年6月16日). “The case against (worrying about) existential risk from AI”. Medium. August 26, 2022時点のオリジナルよりアーカイブ2022年8月26日閲覧。
  82. ^ Rochon, Louis-Philippe; Rossi, Sergio (2015-02-27) (英語). The Encyclopedia of Central Banking. Edward Elgar Publishing. ISBN 978-1-78254-744-0. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114225/https://books.google.com/books?id=6kzfBgAAQBAJ September 13, 2022閲覧。 
  83. ^ Ng, Andrew Y.; Russell, Stuart J. (2000-06-29). “Algorithms for Inverse Reinforcement Learning”. Proceedings of the Seventeenth International Conference on Machine Learning. ICML '00 (San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.): 663–670. ISBN 978-1-55860-707-1. https://dl.acm.org/doi/10.5555/645529.657801. 
  84. ^ Hadfield-Menell, Dylan; Russell, Stuart J; Abbeel, Pieter; Dragan, Anca (2016). "Cooperative inverse reinforcement learning". Advances in neural information processing systems. Vol. 29. Curran Associates, Inc.
  85. ^ Mindermann, Soren; Armstrong, Stuart (2018). "Occam's razor is insufficient to infer the preferences of irrational agents". Proceedings of the 32nd international conference on neural information processing systems. NIPS'18. Red Hook, NY, USA: Curran Associates Inc. pp. 5603–5614.
  86. ^ Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). Marc Herbstritt. “Preference Learning” (英語). Dagstuhl Reports 4 (3): 27 pages. doi:10.4230/DAGREP.4.3.1. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114221/https://drops.dagstuhl.de/opus/volltexte/2014/4550/ September 12, 2022閲覧。. 
  87. ^ Gao, Leo; Schulman, John; Hilton, Jacob (19 October 2022). "Scaling Laws for Reward Model Overoptimization". arXiv:2210.10760 [cs.LG]。
  88. ^ Anderson, Martin (2022年4月5日). “The Perils of Using Quotations to Authenticate NLG Content”. Unite.AI. February 10, 2023時点のオリジナルよりアーカイブ2022年7月21日閲覧。
  89. ^ a b Wiggers, Kyle (2022年2月5日). “Despite recent progress, AI-powered chatbots still have a long way to go”. VentureBeat. July 23, 2022時点のオリジナルよりアーカイブ2022年7月23日閲覧。
  90. ^ Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (2021-07-24). “Aligning AI With Shared Human Values”. International Conference on Learning Representations. arXiv:2008.02275. 
  91. ^ Perez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (7 February 2022). "Red Teaming Language Models with Language Models". arXiv:2202.03286 [cs.CL]。
  92. ^ Anderson, Michael; Anderson, Susan Leigh (2007-12-15). “Machine Ethics: Creating an Ethical Intelligent Agent”. AI Magazine 28 (4): 15. doi:10.1609/aimag.v28i4.2065. ISSN 2371-9621. https://ojs.aaai.org/aimagazine/index.php/aimagazine/article/view/2065 2023年3月14日閲覧。. 
  93. ^ Wallach, Wendell; Allen, Colin (2009). Moral Machines: Teaching Robots Right from Wrong. New York: Oxford University Press. ISBN 978-0-19-537404-9. オリジナルのMarch 15, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230315193012/https://academic.oup.com/pages/op-migration-welcome 2022年7月23日閲覧。 
  94. ^ Wiegel, Vincent (2010-12-01). “Wendell Wallach and Colin Allen: moral machines: teaching robots right from wrong”. Ethics and Information Technology 12 (4): 359–361. doi:10.1007/s10676-010-9239-1. ISSN 1572-8439. オリジナルのMarch 15, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230315193130/https://link.springer.com/article/10.1007/s10676-010-9239-1 2022年7月23日閲覧。. 
  95. ^ MacAskill, William (2022). What we owe the future. New York, NY. ISBN 978-1-5416-1862-6. OCLC 1314633519. オリジナルのSeptember 14, 2022時点におけるアーカイブ。. https://web.archive.org/web/20220914030758/https://www.basicbooks.com/titles/william-macaskill/what-we-owe-the-future/9781541618633/ September 12, 2022閲覧。 
  96. ^ a b Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul (27 September 2021). "Recursively Summarizing Books with Human Feedback". arXiv:2109.10862 [cs.CL]。
  97. ^ Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). “Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions”. 2022 IEEE Symposium on Security and Privacy (SP) (San Francisco, CA, USA: IEEE): 754–768. arXiv:2108.09293. doi:10.1109/SP46214.2022.9833571. ISBN 978-1-6654-1316-9. https://ieeexplore.ieee.org/document/9833571. 
  98. ^ AI Safety via Debate”. OpenAI (2018年5月3日). February 10, 2023時点のオリジナルよりアーカイブ2022年7月23日閲覧。
  99. ^ a b Christiano, Paul; Shlegeris, Buck; Amodei, Dario (19 October 2018). "Supervising strong learners by amplifying weak experts". arXiv:1810.08575 [cs.LG]。
  100. ^ Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh et al., eds (2020). Genetic Programming Theory and Practice XVII. Genetic and Evolutionary Computation. Cham: Springer International Publishing. doi:10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. オリジナルのMarch 15, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230315193000/https://link.springer.com/book/10.1007/978-3-030-39958-0 2022年7月23日閲覧。 
  101. ^ Wiblin, Robert (2 October 2018). "Dr Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem', and his vision of how humanity will progressively hand over decision-making to AI systems" (Podcast). 80,000 hours. No. 44. 2022年12月14日時点のオリジナルよりアーカイブ。2022年7月23日閲覧
  102. ^ Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel et al. (2020). “The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities” (英語). Artificial Life 26 (2): 274–306. doi:10.1162/artl_a_00319. ISSN 1064-5462. PMID 32271631. オリジナルのOctober 10, 2022時点におけるアーカイブ。. https://web.archive.org/web/20221010143108/https://direct.mit.edu/artl/article/26/2/274-306/93255 September 12, 2022閲覧。. 
  103. ^ a b Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (2018-11-19). Scalable agent alignment via reward modeling: a research direction. arXiv:1811.07871. https://ui.adsabs.harvard.edu/abs/2018arXiv181107871L/abstract. 
  104. ^ a b Our approach to alignment research”. OpenAI (2022年8月24日). February 15, 2023時点のオリジナルよりアーカイブ2022年9月9日閲覧。
  105. ^ Wiggers, Kyle (2021年9月23日). “OpenAI unveils model that can summarize books of any length”. VentureBeat. July 23, 2022時点のオリジナルよりアーカイブ2022年7月23日閲覧。
  106. ^ Saunders, William; Yeh, Catherine; Wu, Jeff; Bills, Steven; Ouyang, Long; Ward, Jonathan; Leike, Jan (13 June 2022). "Self-critiquing models for assisting human evaluators". arXiv:2206.05802 [cs.CL]。
    • Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catherine; Olah, Christopher; Hernandez, Danny; Drain, Dawn (15 December 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL]。
  107. ^ Moltzau, Alex (2019年8月24日). “Debating the AI Safety Debate”. Towards Data Science. October 13, 2022時点のオリジナルよりアーカイブ2022年7月23日閲覧。
  108. ^ a b c Wiggers, Kyle (2021年9月20日). “Falsehoods more likely with large language models”. VentureBeat. August 4, 2022時点のオリジナルよりアーカイブ2022年7月23日閲覧。
  109. ^ The Guardian (2020年9月8日). “A robot wrote this entire article. Are you scared yet, human?”. The Guardian. ISSN 0261-3077. オリジナルのSeptember 8, 2020時点におけるアーカイブ。. https://web.archive.org/web/20200908090812/https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3 2022年7月23日閲覧。 
  110. ^ a b Evans, Owain; Cotton-Barratt, Owen; Finnveden, Lukas; Bales, Adam; Balwit, Avital; Wills, Peter; Righetti, Luca; Saunders, William (13 October 2021). "Truthful AI: Developing and governing AI that does not lie". arXiv:2110.06674 [cs.CY]。
  111. ^ Alford, Anthony (2021年7月13日). “EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J”. InfoQ. February 10, 2023時点のオリジナルよりアーカイブ2022年7月23日閲覧。
  112. ^ Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (1 June 2022). "WebGPT: Browser-assisted question-answering with human feedback". arXiv:2112.09332 [cs.CL]。
  113. ^ Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; Mann, Ben; DasSarma, Nova; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Kernion, Jackson; Ndousse, Kamal (9 December 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL]。
  114. ^ Cox, Joseph (2023年3月15日). “GPT-4 Hired Unwitting TaskRabbit Worker By Pretending to Be 'Vision-Impaired' Human”. Vice. 2023年4月10日閲覧。
  115. ^ Alignment of Language Agents”. DeepMind Safety Research – Medium (2021年3月30日). February 10, 2023時点のオリジナルよりアーカイブ2022年7月23日閲覧。
  116. ^ McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (2006-12-15). “A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955” (英語). AI Magazine 27 (4): 12. doi:10.1609/aimag.v27i4.1904. ISSN 2371-9621. https://ojs.aaai.org/aimagazine/index.php/aimagazine/article/view/1904. 
  117. ^ 'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power” (英語). Fortune. 2023年5月4日閲覧。
  118. ^ Ornes, Stephen (2019年11月18日). “Playing Hide-and-Seek, Machines Invent New Tools”. Quanta Magazine. February 10, 2023時点のオリジナルよりアーカイブ2022年8月26日閲覧。
  119. ^ Emergent Tool Use from Multi-Agent Interaction”. OpenAI (2019年9月17日). September 25, 2022時点のオリジナルよりアーカイブ2022年8月26日閲覧。
  120. ^ Shermer, Michael (2017年3月1日). “Artificial Intelligence Is Not a Threat—Yet”. Scientific American. December 1, 2017時点のオリジナルよりアーカイブ2022年8月26日閲覧。
  121. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (22 July 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]。
    • Laskin, Michael; Wang, Luyu; Oh, Junhyuk; Parisotto, Emilio; Spencer, Stephen; Steigerwald, Richie; Strouse, D. J.; Hansen, Steven; Filos, Angelos; Brooks, Ethan; Gazeau, Maxime; Sahni, Himanshu; Singh, Satinder; Mnih, Volodymyr (25 October 2022). "In-context Reinforcement Learning with Algorithm Distillation". arXiv:2210.14215 [cs.LG]。
  122. ^ a b c Shah, Rohin; Varma, Vikrant; Kumar, Ramana; Phuong, Mary; Krakovna, Victoria; Uesato, Jonathan; Kenton, Zac (2022-11-02). “Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals”. Medium. https://deepmindsafetyresearch.medium.com/goal-misgeneralisation-why-correct-specifications-arent-enough-for-correct-goals-cf96ebc60924 2023年4月2日閲覧。. 
  123. ^ a b Hubinger, Evan; van Merwijk, Chris; Mikulik, Vladimir; Skalse, Joar; Garrabrant, Scott (2021-12-01). Risks from Learned Optimization in Advanced Machine Learning Systems. arXiv:1906.01820. https://ui.adsabs.harvard.edu/abs/2019arXiv190601820H/abstract. 
  124. ^ Zhang, Xiaoge; Chan, Felix T.S.; Yan, Chao; Bose, Indranil (2022). “Towards risk-aware artificial intelligence and machine learning systems: An overview” (英語). Decision Support Systems 159: 113800. doi:10.1016/j.dss.2022.113800. https://linkinghub.elsevier.com/retrieve/pii/S0167923622000719. 
  125. ^ Demski, Abram; Garrabrant, Scott (6 October 2020). "Embedded Agency". arXiv:1902.09469 [cs.AI]。
  126. ^ a b Everitt, Tom; Ortega, Pedro A.; Barnes, Elizabeth; Legg, Shane (6 September 2019). "Understanding Agent Incentives using Causal Influence Diagrams. Part I: Single Action Settings". arXiv:1902.09980 [cs.AI]。
  127. ^ Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (2022-08-29). “Advanced artificial agents intervene in the provision of reward” (英語). AI Magazine 43 (3): 282–293. doi:10.1002/aaai.12064. ISSN 0738-4602. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210153534/https://onlinelibrary.wiley.com/doi/10.1002/aaai.12064 September 6, 2022閲覧。. 
  128. ^ UN Secretary-General's report on "Our Common Agenda"”. p. 63 (2021年). February 16, 2023時点のオリジナルよりアーカイブ。2023年7月17日閲覧。 “[T]he Compact could also promote regulation of artificial intelligence to ensure that this is aligned with shared global values”
  129. ^ The National New Generation Artificial Intelligence Governance Specialist Committee (2021年10月12日). “Ethical Norms for New Generation Artificial Intelligence Released”. 2023年2月10日時点のオリジナルよりアーカイブ2023年7月17日閲覧。
  130. ^ Richardson, Tim (22 September 2021). “UK publishes National Artificial Intelligence Strategy”. The Register. オリジナルのFebruary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230210114137/https://www.theregister.com/2021/09/22/uk_10_year_national_ai_strategy/ November 14, 2021閲覧。 
  131. ^ a b The National AI Strategy of the UK” (2021年). February 10, 2023時点のオリジナルよりアーカイブ。2023年7月17日閲覧。 “The government takes the long term risk of non-aligned Artificial General Intelligence, and the unforeseeable changes that it would mean for the UK and the world, seriously.”
  132. ^ NSCAI Final Report. Washington, DC: The National Security Commission on Artificial Intelligence. (2021). オリジナルのFebruary 15, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230215110858/https://www.nscai.gov/wp-content/uploads/2021/03/Full-Report-Digital-1.pdf October 17, 2022閲覧。 

Template:Existential risk from artificial intelligence