Безпека штучного інтелекту — це міждисциплінарна галузь, пов'язана із запобіганням нещасних випадків, неправильному використанню чи іншим шкідливим наслідкам, до яких можуть призвести системи штучного інтелекту (ШІ). Він охоплює машинну етику та узгодження думки ШІ зі своєю[en], які мають на меті зробити системи штучного інтелекту моральними та корисними, а безпека штучного інтелекту охоплює технічні проблеми, зокрема системи моніторингу ризиків і підвищення їх надійності. Окрім досліджень штучного інтелекту, це передбачає розробку норм і політики, які сприяють безпеці.
Мотивації
Дослідники штучного інтелекту мають дуже різні думки щодо серйозності та основних джерел ризику, пов'язаного з технологією штучного інтелекту[1][2][3], хоча опитування свідчать про те, що експерти серйозно ставляться до високих ризиків наслідків. У двох опитуваннях дослідників штучного інтелекту середній респондент був оптимістично налаштований щодо штучного інтелекту в цілому, але поставив 5 % ймовірність «надзвичайно поганого (наприклад, вимирання людини)» результату передового штучного інтелекту.[1] У 2022 році в опитуванні спільноти обробки природної мови (NLP) 37 % погодилися або не погодилися з тим, що рішення штучного інтелекту можуть призвести до катастрофи, «щонайменше такої ж поганої, як повна ядерна війна».[4] Науковці обговорюють поточні ризики від збоїв критичних систем, упередженості[5] та стеження за допомогою ШІ; нові ризики, пов'язані з технологічним безробіттям, цифровими маніпуляціями[6] та використанням зброї;[7] та спекулятивні ризики від втрати контролю над майбутніми агентами штучного загального інтелекту (AGI).[8]
Деякі критикували занепокоєння щодо AGI, наприклад Ендрю Нґ, який у 2015 році порівняв їх із «занепокоєнням про перенаселення Марса, коли ми ще навіть не ступили на планету».[9] З іншого боку, Стюарт Дж. Рассел закликає бути обережними, стверджуючи, що «людську винахідливість краще передбачити, ніж недооцінювати».[10]
Тло
Ризики штучного інтелекту почали серйозно обговорювати на початку комп'ютерної ери:
Більше того, якщо ми рухаємося в напрямку створення машин, які навчаються і чия поведінка змінюється під впливом досвіду, ми повинні визнати той факт, що кожна ступінь незалежності, яку ми надаємо машині, є ступенем можливого ігнорування наших бажань.
Оригінальний текст (англ.)
Moreover, if we move in the direction of making machines which learn and whose behavior is modified by experience, we must face the fact that every degree of independence we give the machine is a degree of possible defiance of our wishes.
З 2008 по 2009 рік Асоціація розвитку штучного інтелекту (AAAI) замовила дослідження, щоб вивчити й розглянути потенційний довгостроковий суспільний вплив досліджень і розробок ШІ. Комісія загалом скептично поставилася до радикальних поглядів, висловлених авторами наукової фантастики, але погодилася, що «додаткове дослідження було б цінним щодо методів розуміння та перевірки діапазону поведінки складних обчислювальних систем для мінімізації неочікуваних результатів».[12]
У 2011 році Роман Ямпольський ввів термін «техніка безпеки штучного інтелекту»[13] на конференції з філософії та теорії штучного інтелекту[14], перерахувавши попередні збої систем штучного інтелекту та стверджуючи, що «частота та серйозність таких подій невпинно зростатиме, оскільки ШІ стає більш здібним».[15]
У 2014 році філософ Нік Бостром опублікував книгу «Суперінтелект: шляхи, небезпеки, стратегії». Він вважає, що зростання AGI потенційно може створити різні суспільні проблеми, починаючи від витіснення робочої сили штучним інтелектом, маніпуляцій політичними та військовими структурами, навіть до можливості вимирання людства.[16] Його аргумент про те, що майбутні передові системи можуть становити загрозу існуванню людства, спонукав Ілона Маска, Білла Гейтса[17] і Стівена Гокінга[18] висловили подібні занепокоєння.
У 2015 році десятки експертів зі штучного інтелекту підписали відкритий лист щодо штучного інтелекту, у якому закликали до дослідження впливу штучного інтелекту на суспільство та окреслили конкретні напрямки.[19] На сьогоднішній день лист підписали понад 8000 людей, включаючи Янна Лекуна, Шейна Легга, Йошуа Бенгіо та Стюарта Рассела.
У тому ж році група вчених під керівництвом професора Стюарта Рассела заснувала Центр сумісного з людиною штучного інтелекту в Каліфорнійському університеті Берклі, а Інститут майбутнього життя виділив гранти в розмірі 6,5 мільйонів доларів на дослідження, спрямовані на «забезпечення штучного інтелекту (ШІ)». залишається безпечним, етичним і корисним".[20]
У 2016 році Управління наукової та технологічної політики Білого дому та Університет Карнегі-Меллона оголосили Громадський семінар з безпеки та контролю за штучним інтелектом[21], який був одним із чотирьох семінарів Білого дому, спрямованих на дослідження «переваг і недоліків» ШІ.[22] У тому ж році було опубліковано Concrete Problems in AI Safety — один із перших і найвпливовіших технічних планів безпеки AI.[23]
У 2017 році Інститут майбутнього життя спонсорував Asilomar Conference on Beneficial AI, де понад 100 лідерів думок сформулювали принципи для корисного AI, зокрема «Уникнення перегонів: команди, які розробляють системи AI, повинні активно співпрацювати, щоб уникнути порушення стандартів безпеки».[24]
У 2018 році команда DeepMind Safety окреслила проблеми безпеки штучного інтелекту в специфікаціях, надійності та надійності.[25] Наступного року дослідники організували в ICLR семінар, присвячений цим проблемним сферам.[26]
У 2021 році було опубліковано Unsolved Problems in ML Safety, в якому окреслено напрями досліджень у сфері надійності, моніторингу, узгодження та системної безпеки.[27]
У 2023 році Ріші Сунак заявив, що хоче, щоб Сполучене Королівство стало «географічним домом для глобального регулювання безпеки штучного інтелекту» та прийняло перший глобальний саміт з безпеки ШІ.[28]
Фокус дослідження
Сфери досліджень безпеки ШІ включають надійність, моніторинг і вирівнювання.[27][25]
Міцність
Змагальна міцність
Системи штучного інтелекту часто вразливі до суперечливих прикладів або «вхідних даних до моделей машинного навчання (ML), які зловмисник навмисно створив, щоб змусити модель зробити помилку».[29] Наприклад, у 2013 році Szegedy et al. виявив, що додавання певних непомітних збурень до зображення може призвести до його неправильної класифікації з високою достовірністю.[30] Це продовжує залишатися проблемою для нейронних мереж, хоча в останніх роботах збурення, як правило, досить великі, щоб їх можна було відчути.[31][32][33]
Передбачається, що всі зображення праворуч будуть страусами після застосування пертурбації. (Ліворуч) — правильно передбачений зразок, (у центрі) застосоване збурення, збільшене в 10 разів, (праворуч) змагальний приклад.[30]
Стійкість змагання часто асоціюється з безпекою.[34] Дослідники продемонстрували, що аудіосигнал можна непомітно модифікувати, щоб системи перетворення мови в текст транскрибували його в будь-яке повідомлення, яке вибере зловмисник.[35] Системи виявлення мережевих вторгнень[36] і зловмисного програмного забезпечення[37] також повинні бути стійкими до змагань, оскільки зловмисники можуть планувати свої атаки, щоб обдурити детектори.
Моделі, які представляють цілі (моделі винагороди), також повинні бути стійкими до змагальності. Наприклад, модель винагороди може оцінити, наскільки корисною є текстова відповідь, а мовну модель можна навчити, щоб максимізувати цей бал.[38] Дослідники показали, що якщо мовну модель тренувати достатньо довго, вона використовуватиме вразливі місця моделі винагороди, щоб отримати кращий результат і гірше виконувати заплановане завдання.[39] Цю проблему можна вирішити, покращивши конкурентоспроможність моделі винагороди.[40] Загалом, будь-яка система ШІ, яка використовується для оцінки іншої системи ШІ, має бути стійкою до змагань. Це може включати інструменти моніторингу, оскільки вони також потенційно можуть бути підроблені для отримання більшої винагороди.[41]
Моніторинг
Оцінка невизначеності
Для людей-операторів часто важливо оцінити, наскільки вони повинні довіряти системі штучного інтелекту, особливо в таких серйозних ситуаціях, як медична діагностика.[42] Моделі ML зазвичай виражають впевненість шляхом виведення ймовірностей; однак вони часто надто самовпевнені, особливо в ситуаціях, які відрізняються від тих, з якими їх навчили вирішувати.[43] Дослідження калібрування спрямоване на те, щоб імовірності моделі якомога точніше відповідали справжньому співвідношенню правильності моделі.
Подібним чином виявлення аномалій або виявлення нерозповсюдження (OOD) має на меті визначити, коли система ШІ знаходиться в незвичній ситуації. Наприклад, якщо датчик на автономному транспортному засобі несправний або він натрапляє на складну місцевість, він повинен попередити водія про необхідність взяти керування або зупинитися.[44] Виявлення аномалій було реалізовано шляхом простого навчання класифікатора розрізняти аномальні та неаномальні вхідні дані[45], хоча використовується низка додаткових методів.[46][47]
Виявлення шкідливого використання
Вчені[7] та державні установи висловлюють занепокоєння, що системи штучного інтелекту можуть використовуватися, щоб допомогти зловмисникам створювати зброю,[48] маніпулювати громадською думкою[49][50] або автоматизувати кібератаки.[51] Ці занепокоєння викликають практичне занепокоєння для таких компаній, як OpenAI, які розміщують потужні інструменти штучного інтелекту онлайн.[52] Щоб запобігти зловживанням, OpenAI створив системи виявлення, які позначають або обмежують користувачів на основі їх активності.[53]
Прозорість
Нейронні мережі часто описують як чорні ящики[54], що означає, що важко зрозуміти, чому вони приймають рішення, які вони приймають, у результаті величезної кількості обчислень, які вони виконують.[55] Через це складно передбачити невдачі. У 2018 році безпілотний автомобіль збив на смерть пішохода, не впізнавши його. Через природу програмного забезпечення штучного інтелекту як чорного ящика причина збою залишається незрозумілою.[56]
Однією з найважливіших переваг прозорості є можливість пояснення.[57] Іноді юридична вимога надати пояснення, чому було прийнято рішення, щоб забезпечити справедливість, наприклад, для автоматичного фільтрування заявок на прийом на роботу або визначення кредитного рейтингу.[57]
Ще одна перевага полягає в тому, щоб виявити причину невдач.[54] На початку пандемії COVID-19 2020 року дослідники використовували інструменти прозорості, щоб показати, що класифікатори медичних зображень «звертали увагу» на нерелевантні мітки лікарень.[58]
Методи прозорості також можна використовувати для виправлення помилок. Наприклад, у статті «Розташування та редагування фактичних асоціацій у GPT» автори змогли визначити параметри моделі, які вплинули на те, як вона відповідає на запитання про розташування Ейфелевої вежі. Потім вони змогли «відредагувати» ці знання, щоб змусити модель відповідати на запитання так, ніби вона вважала, що вежа знаходиться в Римі, а не у Франції.[59] Хоча в цьому випадку автори викликали помилку, ці методи потенційно можуть бути використані для ефективного їх виправлення. Техніка редагування моделі також існує в комп'ютерному зорі.[60]
Нарешті, деякі стверджують, що непрозорість систем штучного інтелекту є значним джерелом ризику, і краще розуміння того, як вони функціонують, може запобігти серйозним збоям у майбутньому.[61] Дослідження «внутрішньої» інтерпретації спрямовані на те, щоб зробити моделі машинного навчання менш непрозорими. Однією з цілей цього дослідження є визначення того, що представляють активації внутрішніх нейронів.[62][63] Наприклад, дослідники ідентифікували нейрон у системі штучного інтелекту CLIP, який реагує на зображення людей у костюмах людини-павука, ескізи людини-павука та слово «павук».[64] Це також передбачає пояснення зв'язків між цими нейронами або «ланцюгами».[65][66] Наприклад, дослідники виявили механізми зіставлення шаблонів у трансформаторній увазі, які можуть відігравати роль у тому, як мовні моделі вивчають свій контекст.[67] «Внутрішню інтерпретативність» порівнюють із нейронаукою. В обох випадках мета полягає в тому, щоб зрозуміти, що відбувається в складній системі, хоча дослідники ML мають перевагу в тому, що вони можуть проводити ідеальні вимірювання та виконувати довільні абляції.[68]
Виявлення троянів
Моделі ML потенційно можуть містити «трояни» або «бекдори»: уразливості, які зловмисники зловмисно вбудовують у систему ШІ. Наприклад, троянська система розпізнавання обличчя може надати доступ, коли в полі зору певний ювелірний виріб;[27] або троянський автономний транспортний засіб може функціонувати нормально, доки не буде видно конкретний тригер.[69] Зауважте, що зловмисник повинен мати доступ до навчальних даних системи, щоб встановити троян. Це може бути неважко зробити з деякими великими моделями, такими як CLIP або GPT-3, оскільки вони навчаються на загальнодоступних даних в Інтернеті.[70] Дослідники змогли підсадити троян до класифікатора зображень, змінивши лише 300 із 3 мільйонів навчальних зображень.[71] Крім загрози безпеці, дослідники стверджують, що трояни забезпечують конкретне налаштування для тестування та розробки кращих інструментів моніторингу.[41]
Зазвичай ризики штучного інтелекту (і технологічні ризики в цілому) класифікують як неправильне використання або нещасні випадки.[72] Деякі вчені припускають, що ця структура не відповідає вимогам.[72] Наприклад, кубинська ракетна криза не була однозначно нещасним випадком чи неправильним використанням технологій.[72] Політичні аналітики Цветслот і Дефо написали: «Перспективи неправильного використання та нещасних випадків, як правило, зосереджуються лише на останньому етапі причинно-наслідкового ланцюга, що призводить до шкоди: тобто особа, яка неправильно використала технологію, або система, яка поводилася ненавмисно… Однак часто відповідний причинно-наслідковий ланцюг набагато довший». Ризики часто виникають через «структурні» або «системні» фактори, такі як конкурентний тиск, розповсюдження шкоди, швидкий розвиток, високий рівень невизначеності та недостатня культура безпеки.[72] У ширшому контексті техніки безпеки структурні фактори, такі як «організаційна культура безпеки», відіграють центральну роль у популярній системі аналізу ризиків STAMP.[73]
Натхненні структурною перспективою, деякі дослідники підкреслили важливість використання машинного навчання для покращення соціально-технічних факторів безпеки, наприклад, використання машинного навчання для кіберзахисту, покращення інституційного прийняття рішень і сприяння співпраці.[27]
Кіберзахист
Деякі вчені стурбовані тим, що штучний інтелект загострить і без того незбалансовану гру між кібер-зловмисниками та кібер-захисниками.[74] Це посилить стимули до «першого удару» та може призвести до більш агресивних та дестабілізуючих атак. Щоб зменшити цей ризик, деякі виступають за посилення уваги до кіберзахисту. Крім того, безпека програмного забезпечення має важливе значення для запобігання крадіжці та неправильному використанню потужних моделей ШІ.[7]
Удосконалення інституційного прийняття рішень
Розвиток штучного інтелекту в економічній і військовій сферах може спричинити безпрецедентні політичні виклики.[75] Деякі вчені порівнюють динаміку гонки штучного інтелекту з холодною війною, коли ретельне судження невеликої кількості осіб, які приймають рішення, часто вказувало на різницю між стабільністю та катастрофою.[76] Дослідники штучного інтелекту стверджують, що технології штучного інтелекту також можна використовувати для сприяння прийняттю рішень.[27] Наприклад, дослідники починають розробляти системи прогнозування ШІ[77] та консультаційні системи.[78]
Сприяння співпраці
Багато найбільших глобальних загроз (ядерна війна,[79] зміна клімату[80] тощо) були представлені як виклики співпраці. Як і у добре відомому сценарії дилеми в'язня, певна динаміка може призвести до поганих результатів для всіх гравців, навіть якщо вони оптимально діють у власних інтересах. Наприклад, жодна окрема сторона не має сильних стимулів для вирішення проблеми зміни клімату, навіть якщо наслідки можуть бути значними, якщо ніхто не втрутиться.[80]
Основна проблема співпраці зі штучним інтелектом полягає в уникненні «гонки на дно». У цьому сценарії країни чи компанії намагаються створити більш потужні системи ШІ та нехтують безпекою, що призводить до катастрофічної аварії, яка завдає шкоди всім учасникам. Занепокоєння щодо подібних сценаріїв надихнуло як політичні, так і технічні[81] зусилля, спрямовані на сприяння співпраці між людьми та, можливо, також між системами ШІ. Більшість досліджень штучного інтелекту зосереджено на розробці окремих агентів для виконання ізольованих функцій (часто в «одиночних» іграх).[82] Вчені припустили, що коли системи штучного інтелекту стають більш автономними, може стати важливим вивчення та формування способу їх взаємодії.[82]
В урядуванні
Управління штучним інтелектом широко стосується створення норм, стандартів і правил, які б керували використанням і розвитком систем штучного інтелекту.[76]
Дослідження
Дослідження управління безпекою штучного інтелекту варіюються від фундаментальних досліджень потенційного впливу ШІ до конкретних програм. Щодо основи, дослідники стверджують, що штучний інтелект може змінити багато аспектів суспільства завдяки його широкому застосуванню, порівнюючи його з електрикою та паровою машиною.[83] Деяка робота була зосереджена на передбаченні конкретних ризиків, які можуть виникнути внаслідок цих впливів — наприклад, ризики від масового безробіття,[84] використання зброї,[85] дезінформації,[86] стеження та концентрації влади.[87] Інша робота досліджує основні фактори ризику, такі як складність моніторингу індустрії штучного інтелекту, що швидко розвивається,[88] доступність моделей штучного інтелекту[89] та динаміку «гонки до дна».[90] Аллан Дефо, голова відділу довгострокового управління та стратегії DeepMind, підкреслив небезпеку перегонів і потенційну потребу у співпраці: «це може бути майже необхідною та достатньою умовою для безпеки та узгодження штучного інтелекту, щоб перед тим був високий ступінь обережності. до розгортання передових потужних систем; однак, якщо учасники конкурують у сфері з великою віддачею для тих, хто йде першими, або відносною перевагою, тоді вони будуть вимушені вибирати неоптимальний рівень обережності».
Дії уряду
Деякі експерти стверджують, що ще занадто рано регулювати штучний інтелект, висловлюючи занепокоєння тим, що регулювання перешкоджатиме інноваціям, і було б нерозумно «поспішати з регулюванням через незнання».[91][92] Інші, такі як бізнес-магнат Ілон Маск, закликають до превентивних дій для пом'якшення катастрофічних ризиків.[93]
Окрім офіційного законодавства, державні установи висунули етичні рекомендації та рекомендації щодо безпеки. У березні 2021 року Комісія національної безпеки США зі штучного інтелекту повідомила, що прогрес у ШІ може зробити все більш важливим "забезпечення того, щоб системи відповідали цілям і цінностям, включаючи безпеку, надійність і надійність.[94] Згодом Національний інститут стандартів і технологій розробив структуру для управління ризиками штучного інтелекту, яка радить, що коли «присутні катастрофічні ризики — розробку та розгортання слід припинити безпечним способом, доки ризиками не можна буде належним чином керувати».[95]
У вересні 2021 року Китайська Народна Республіка опублікувала етичні рекомендації щодо використання штучного інтелекту в Китаї, наголошуючи на тому, що рішення щодо штучного інтелекту повинні залишатися під контролем людини, і закликаючи до механізмів підзвітності. У тому ж місяці Сполучене Королівство опублікувало свою 10-річну національну стратегію штучного інтелекту[96], в якій зазначено, що британський уряд «бере на себе довгостроковий ризик позаблокового загального штучного інтелекту та непередбачуваних змін, які це означатиме для. .. світ, серйозно».[97] Стратегія описує дії для оцінки довгострокових ризиків ШІ, включаючи катастрофічні ризики.[97] Британський уряд оголосив про плани щодо першого великого глобального саміту з безпеки ШІ. Це має відбутися 1 і 2 листопада 2023 року, і це «можливість для політиків і світових лідерів розглянути безпосередні та майбутні ризики ШІ та те, як ці ризики можна пом'якшити за допомогою глобально скоординованого підходу».[98][99]
Лабораторії штучного інтелекту та компанії зазвичай дотримуються правил безпеки та норм, які виходять за рамки офіційного законодавства.[104] Однією з цілей дослідників управління є формування цих норм. Приклади рекомендацій щодо безпеки, знайдені в літературі, включають проведення аудиту третьої сторони,[105] пропозицію премії за виявлення збоїв,[105] обмін інцидентами ШІ[105] (для цієї мети була створена база даних інцидентів ШІ),[106] дотримання вказівок. щоб визначити, чи варто публікувати дослідження чи моделі,[89] і покращення інформаційної та кібербезпеки в лабораторіях ШІ.[107]
Компанії також взяли на себе зобов'язання. Cohere, OpenAI та AI21 запропонували та узгодили «найкращі методи розгортання мовних моделей», зосереджуючись на пом'якшенні зловживання.[108] Щоб уникнути внеску в динаміку перегонів, OpenAI також зазначив у своєму статуті, що «якщо проект, орієнтований на цінності та безпеку, наблизиться до створення AGI раніше, ніж ми, ми зобов'язуємося припинити конкурувати з цим проектом і почати допомагати йому»[109] Крім того, такі лідери галузі, як генеральний директор DeepMind Деміс Хассабіс, директор Facebook AI Yann LeCun, підписали такі відкриті листи, як Принципи Асіломара.[24] та Відкритий лист щодо автономної зброї.[110]
↑Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 травня 2021). Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers. arXiv:2105.02117.
↑Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (4 серпня 2022). 2022 Expert Survey on Progress in AI. AI Impacts. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe (26 серпня 2022). What Do NLP Researchers Believe? Results of the NLP Community Metasurvey. arXiv:2208.12852.
↑Barnes, Beth (2021). Risks from AI persuasion. Lesswrong. Архів оригіналу за 23 листопада 2022. Процитовано 23 листопада 2022.
↑ абвBrundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas (30 квітня 2018). The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation. Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. Apollo - University of Cambridge Repository. doi:10.17863/cam.22520. Архів оригіналу за 23 листопада 2022. Процитовано 28 листопада 2022.
↑Carlsmith, Joseph (16 червня 2022). Is Power-Seeking AI an Existential Risk?. arXiv:2206.13353.
↑Yampolskiy, Roman V.; Spellchecker, M. S. (25 жовтня 2016). Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures. arXiv:1610.07997.
↑Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (24 лютого 2017). Attacking Machine Learning with Adversarial Examples. OpenAI. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑ абSzegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 лютого 2014). Intriguing properties of neural networks. arXiv:1312.6199.
↑Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 лютого 2017). Adversarial examples in the physical world. arXiv:1607.02533.
↑Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 вересня 2019). Towards Deep Learning Models Resistant to Adversarial Attacks. arXiv:1706.06083.
↑Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 березня 2018). Adversarial Logit Pairing. arXiv:1803.06373.
↑Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 липня 2018). Motivating the Rules of the Game for Adversarial Example Research. arXiv:1807.06732.
↑Carlini, Nicholas; Wagner, David (29 березня 2018). Audio Adversarial Examples: Targeted Attacks on Speech-to-Text. arXiv:1801.01944.
↑Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 вересня 2022). Adversarial Examples in Constrained Domains. arXiv:2011.01183.
↑Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 квітня 2019). Exploring Adversarial Examples in Malware Detection. arXiv:1810.08280.
↑Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina (4 березня 2022). Training language models to follow instructions with human feedback. arXiv:2203.02155.
↑Gao, Leo; Schulman, John; Hilton, Jacob (19 жовтня 2022). Scaling Laws for Reward Model Overoptimization. arXiv:2210.10760.
↑Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 жовтня 2021). RoMA: Robust Model Adaptation for Offline Model-based Optimization. arXiv:2110.14188.
↑ абHendrycks, Dan; Mazeika, Mantas (20 вересня 2022). X-Risk Analysis for AI Research. arXiv:2206.05862.
↑Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 грудня 2019). Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift. arXiv:1906.02530.
↑Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). Description of Corner Cases in Automated Driving: Goals and Challenges. 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). с. 1023—1028. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119. ISBN978-1-6654-0191-3.
↑Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 січня 2019). Deep Anomaly Detection with Outlier Exposure. arXiv:1812.04606.
↑Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 березня 2022). ViM: Out-Of-Distribution with Virtual-logit Matching. arXiv:2203.10807.
↑Hendrycks, Dan; Gimpel, Kevin (3 жовтня 2018). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. arXiv:1610.02136.
↑ абDoshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James (20 грудня 2019). Accountability of AI Under the Law: The Role of Explanation. arXiv:1711.01134.
↑Fong, Ruth; Vedaldi, Andrea (2017). Interpretable Explanations of Black Boxes by Meaningful Perturbation. 2017 IEEE International Conference on Computer Vision (ICCV). с. 3449—3457. arXiv:1704.03296. doi:10.1109/ICCV.2017.371. ISBN978-1-5386-1032-9.
↑Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). Locating and editing factual associations in GPT. Advances in Neural Information Processing Systems. 35. arXiv:2202.05262.
↑Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 липня 2020). Rewriting a Deep Generative Model. arXiv:2007.15646.
↑Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 вересня 2022). Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks. arXiv:2207.13243.
↑Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 квітня 2017). Network Dissection: Quantifying Interpretability of Deep Visual Representations. arXiv:1704.05796.
↑Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 березня 2019). BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain. arXiv:1708.06733.
↑Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 грудня 2017). Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning. arXiv:1712.05526.
↑Carlini, Nicholas; Terzis, Andreas (28 березня 2022). Poisoning and Backdooring Contrastive Learning. arXiv:2106.09667.
↑Belton, Keith B. (7 березня 2019). How Should AI Be Regulated?. IndustryWeek. Архів оригіналу за 29 січня 2022. Процитовано 24 листопада 2022.
↑National Security Commission on Artificial Intelligence (2021), Final Report
↑National Institute of Standards and Technology (12 липня 2021). AI Risk Management Framework. NIST. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.
↑Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. IARPA – TrojAI. Архів оригіналу за 24 листопада 2022. Процитовано 24 листопада 2022.