GPT-3

Породжувальний попередньо тренований трансформер (Generative Pre-trained Transformer 3, GPT-3)
ТипАвторегресійна модель трансформерна модель мови
АвторOpenAI[1]
РозробникOpenAI
Перший випуск11 червня 2020 року (бета)
Версії175B[2]
ЛіцензіяКод не доступний, доступна лише через платний ППІ
Репозиторійgithub.com/openai/gpt-3
Вебсайтopenai.com/blog/openai-api

Поро́джувальний попере́дньо трено́ваний трансфо́рмер 3 (англ. Generative Pre-trained Transformer 3, GPT-3) — це авторегресійна модель мови, яка використовує глибоке навчання, щоби виробляти текст, подібний до людського. Вона є мовною передбачувальною моделлю третього покоління в серії GPT-n, створеній OpenAI, лабораторією досліджень штучного інтелекту в Сан-Франциско.[4] Повна версія GPT-3 має ємність у 175 мільярдів параметрів машинного навчання. GPT-3, яку було представлено в травні 2020 року і яка перебуває в бета-тестуванні станом на липень 2020 року[5], є частиною тенденції попереднього тренування представлень мови в системах обробки природної мови (ОПМ)[1]. Перед випуском GPT-3 найбільшою мовною моделлю була Turing NLG Microsoft, представлена в лютому 2020 року, з ємністю в 17 мільярдів параметрів, або менш ніж 10 % у порівнянні з GPT-3[6].

Якість тексту, породжуваного GPT-3, є настільки високою, що його складно відрізнити від тексту, написаного людиною, що несе як переваги, так і ризики[6]. Оригінальну працю 28 травня 2020 року, яка представила GPT-3, презентували тридцять один дослідник та інженер OpenAI. У своїй праці вони попередили про небезпеки потенціалу GPT-3, й закликали провести дослідження з метою зниження ризику.[1]:34 Девід Чалмерс, австралійський філософ, описав GPT-3 як «одну із найцікавіших та найважливіших систем ШІ з будь-коли зроблених».[7]

22 вересня 2020 року Microsoft оголосила, що отримала ліцензію на «ексклюзивне» використання GPT-3; інші все ще можуть використовувати цей загальнодоступний ППІ для отримування виходу, але лише Microsoft має контроль над первинним кодом.[8]

Передісторія

Згідно журналу «Економіст», вдосконалені алгоритми, потужні комп'ютери, та збільшення оцифрованих даних спричинили революцію у машинному навчанні, завдяки чому нові методики призвели 2010 року до «швидкого вдосконалення в задачах», включно з маніпулюванням мовою.[9] Програмні моделі тренуються навчатися, використовуючи тисячі або мільйони зразків у «структурі, … що в загальних рисах ґрунтується на нейронній архітектурі мозку».[9] Однією з архітектур, які використовують в обробці природної мови (ОПМ), є нейронна мережа, що ґрунтується на моделі глибокого навчання, вперше представлена 2017 року —Трансформер.[10] Моделі GPT-n ґрунтуються на цій нейромережній архітектурі глибокого навчання на основі Трансформера. Існує низка систем ОПМ, здатних оброблювати, видобувати, впорядковувати, з'єднувати, протиставляти, розуміти, та породжувати відповіді на питання.[11]

11 червня 2018 року дослідники та інженери OpenAI опублікувати свою оригінальну працю про породжувальні моделі — мовні моделі — системи штучного інтелекту — які може бути попередньо треновано величезним та різноманітним корпусом тексту через набори даних, у процесі, який вони назвали породжувальним попереднім тренуванням (англ. generative pre-training, GP).[12] Ці автори описали, як в GPT-n було покращено продуктивності розуміння мови в обробці природної мови (ОПМ) за допомогою процесу «породжувального попереднього тренування моделі мови на різноманітнім корпусі неміченого тексту, з подальшим розрізнювальним тонким налаштуванням на для кожної конкретної задачі». Це усунуло потребу в людському керуванні та тривалому міченні вручну.[12]

В лютому 2020 року Microsoft представила своє Тюрінгове породжування природної мови (англ. Turing Natural Language Generation, T-NLG), що було на той момент «найбільшою моделлю мови з будь-коли опублікованих, із 17 мільярдами параметрів».[13] Вона працювала краще за будь-яку іншу модель мови на різноманітних задачах, до яких належали автоматизоване реферування та відповідання на питання.[13]

Можливості

Сигнальний примірник arXiv 28 травня 2020 року від групи з 31 інженера та дослідника OpenAI[a] описав розробку GPT-3, «моделі мови найвищого рівня» третього покоління.[1][6] Ця команда збільшила ємність GPT-3 на понад два порядки відносно її попередниці, GPT-2,[14] зробивши GPT-3 найбільшою нерозрідженою[прояснити] моделлю мови на той момент.[1]:14[4] Вище число параметрів GPT-3 дає їй вищий рівень точності відносно попередніх версій із меншою ємністю.[15] Ємність GPT-3 є в десять разів більшою за Тюрінгове ППМ Microsoft.[6]

Шістдесят відсотків зваженого набору даних попереднього тренування GPT-3 походить із відфільтрованої версії Common Crawl[en], що складається з 410 мільярдів діграмно кодованих[en] лексем[1]:9. Іншими джерелами є 19 мільярдів лексем з WebText2, що представляють 22 % зваженого загального, 12 мільярдів лексем з Books1, що представляють 8 %, 55 мільярдів лексем з Books2, що представляють 8 %, та 3 мільярди лексем із Вікіпедії, що представляють 3 %[1]:9. GPT-3 треновано на сотнях мільярдів слів, і вона здатна, серед іншого, писати код мовами CSS, JSX та Python[5]. Оскільки тренувальні дані GPT-3 були всеосяжними, вона не вимагає подальшого тренування для окремих мовних задач[5].

11 червня 2020 року OpenAI оголосила, що користувачі можуть робити запити на доступ до їхнього дружнього ППІ GPT-3 — «набору інструментів машинного навчання» (англ. «machine learning toolset») — щоби допомогти OpenAI «дослідити сильні сторони та межі» цієї нової технології.[16][17] Це запрошення описувало, що цей ППІ мав інтерфейс загального призначення «текст на вході, текст на виході», що може виконувати майже «будь-яку задачу для англійської мови», замість звичного єдиного сценарію використання.[16] Згідно з одним користувачем, який мав доступ до приватного раннього випуску ППІ GPT-3 OpenAI, GPT-3 була «моторошно доброю» в написанні «напрочуд зв'язного тексту», маючи лише декілька простих підказок[18].

Оскільки GPT-3 може «породжувати новинні статті, які оцінювачам-людям складно відрізнити від статей, написаних людьми»,[6] GPT-3 має «потенціал створити прогрес як у корисних, так і в шкідливих застосуваннях моделей мови».[1]:34 У своїй праці від 28 травня 2020 року дослідники описали в деталях потенційні «шкідливі впливи GPT-3»,[6] до яких належать «дезінформація, спам, фішинг, зловживання правовими та державними процесами[en], написання шахрайських академічних есе[en] та соціально-інженерний претекстинг».[1] Автори привернули увагу до цих небезпек, щоби закликати до дослідження стосовно зниження ризику.[1]:34

Огляди

У своєму огляді 29 липня 2020 року в «Нью-Йорк таймс» Фархад Манджу[en] сказав, що GPT-3, яка може породжувати комп'ютерний код та поезію, так само як і прозу, є не просто «дивовижною», «моторошною» та «принижувальною», але й також «більш ніж трохи жахальною»[19].

«Дейлі Ноус» представив низку статей про GPT-3 від дев'яти філософів.[20] Австралійський філософ Девід Чалмерс описав GPT-3 як «одну із найцікавіших та найважливіших систем ШІ з будь-коли зроблених».[7]

В огляді у «Wired» сказано, що GPT-3 «викликала озноб по всій Кремнієвій долині».[21]

У статті в «Towards Data Science» зазначено, що GPT-3 треновано на сотнях мільярдів слів, і що вона здатна писати код мовами CSS, JSX, Python, та іншими[5].

У «National Law Review»[en] сказано, що GPT-3 є «вражаючим кроком у масштабнішому процесі», і що OpenAI та інші перебувають у пошуку «корисних застосувань для всієї цієї потужності», в той же час продовжуючи «працювати в напрямку сильнішого інтелекту».[22]

У статті в «MIT Technology Review», написаній у співавторстві з критиком глибокого навчання Ґері Маркусом[en],[23] зазначено стосовно GPT-3, що її «розуміння світу є часто дуже бідним, що означає, що ви ніколи не можете насправді довіряти тому, що вона каже».[24] Згідно цих авторів, GPT-3 моделює взаємозв'язки між словами, не маючи розуміння значення, що стоїть за кожним словом.

Джером Пезенті, голова лабораторії Facebook A.I., сказав, що GPT-3 є «не безпечною», вказавши на сексистські, расистські та інші упередження й негативний тон, породжувані цією системою, коли її просили обговорити євреїв, жінок, чорношкірих та Голокост.[25]

Застосування

  • GPT-3 використано Ендрю Мейном[en] для AI Writer [Архівовано 31 жовтня 2020 у Wayback Machine.], який дозволяє людям листуватися з історичними діячами електронною поштою.
  • GPT-3 використано Джейсоном Рорером[en] в стилізованім під ретро проєкті чатботу, названім «Project December» («Проєкт Грудень»), що є доступним онлайн і дозволяє користувачам спілкуватися з декількома ШІ за допомогою технології GPT-3.
  • GPT-3 використано «Ґардіан» для написання статті про те, що ШІ є нешкідливим для людей. Їй згодовано декілька ідей, і вона виробила вісім різних есе, які в підсумку об'єднано в одну статтю[26].
  • GPT-3 використовують у AI Dungeon (Темниця ШІ), що породжує текстові пригодницькі ігри.
  • GPT-3 використовується для написання текстів та інших маркетингових матеріалів стартапами Copy.ai,[27] Jasper.ai,[28], TextCortex AI[29] та Hypotenuse AI.[30]

Виноски

  1. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario

Примітки

  1. а б в г д е ж и к л Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 липня 2020). Language Models are Few-Shot Learners. arXiv:2005.14165. {{cite arXiv}}: Проігноровано невідомий параметр |url= (довідка) (англ.)
  2. Sutskever I., Neelakantan A., Radford A. et al. Language Models are Few-Shot Learners // ArXiv.org — 2020. — 75 p. — ISSN 2331-8422doi:10.48550/ARXIV.2005.14165arXiv:2005.14165
  3. https://www.makeuseof.com/gpt-models-explained-and-compared
  4. а б Shead, Sam (23 липня 2020). Why everyone is talking about the A.I. text generator released by an Elon Musk-backed lab. CNBC. Архів оригіналу за 30 липня 2020. Процитовано 31 липня 2020. (англ.) Між 28 травня та 22 липня 2020 року випущено чотири сигнальні примірники.
  5. а б в г Bussler, Frederik (21 липня 2020). Will GPT-3 Kill Coding?. Towards Data Science. Архів оригіналу за 19 серпня 2020. Процитовано 1 серпня 2020. (англ.)
  6. а б в г д е Sagar, Ram (3 червня 2020). OpenAI Releases GPT-3, The Largest Model So Far. Analytics India Magazine. Архів оригіналу за 4 серпня 2020. Процитовано 31 липня 2020. (англ.)
  7. а б Chalmers, David (30 липня 2020). Weinberg, Justin (ред.). GPT-3 and General Intelligence. Daily Nous. Philosophers On GPT-3 (updated with replies by GPT-3). Архів оригіналу за 4 серпня 2020. Процитовано 4 серпня 2020. (англ.)
  8. Hao, Karen (23 вересня 2020). OpenAI is giving Microsoft exclusive access to its GPT-3 language model. MIT Technology Review (англ.). Архів оригіналу за 5 лютого 2021. Процитовано 25 вересня 2020. Компанії заявляють, що OpenAI продовжуватиме пропонувати свій публічний ППІ, що дозволяє обраним користувачам надсилати текст до GPT-3 або інших моделей OpenAI та отримувати їхній вихід. Проте лише Microsoft матиме доступ до коду, що лежить в основі GTP-3, що дозволяє їм вбудовувати, перепрофільовувати та змінювати модель, як їм заманеться. (англ.)
  9. а б An understanding of AI’s limitations is starting to sink in. The Economist. 11 червня 2020. ISSN 0013-0613. Архів оригіналу за 31 липня 2020. Процитовано 31 липня 2020. (англ.)
  10. Polosukhin, Illia; Kaiser, Lukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (12 червня 2017). Attention Is All You Need. arXiv:1706.03762 [cs.CL]. (англ.)
  11. Natural Language Processing. Архів оригіналу за 22 серпня 2020. Процитовано 31 липня 2020. (англ.)
  12. а б Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 червня 2018). Improving Language Understanding by Generative Pre-Training (PDF). с. 12. Архів оригіналу (PDF) за 5 лютого 2021. Процитовано 31 липня 2020. (англ.)
  13. а б Sterling, Bruce (13 лютого 2020). Web Semantics: Microsoft Project Turing introduces Turing Natural Language Generation (T-NLG). Wired. ISSN 1059-1028. Архів оригіналу за 4 листопада 2020. Процитовано 31 липня 2020. (англ.)
  14. Language Models are Unsupervised Multitask Learners (PDF). Архів оригіналу (PDF) за 12 грудня 2019. Процитовано 4 грудня 2019. GPT-2, is a 1.5B parameter Transformer [Архівовано 2019-12-12 у Wayback Machine.] (англ.)
  15. Ray, Tiernan (1 червня 2020). OpenAI’s gigantic GPT-3 hints at the limits of language models for AI. ZDNet. Архів оригіналу за 1 червня 2020. Процитовано 31 липня 2020. (англ.)
  16. а б OpenAI API. OpenAI. 11 червня 2020. Архів оригіналу за 11 червня 2020. Процитовано 30 жовтня 2020. (англ.)
  17. TechCrunch – Startup and Technology News. TechCrunch. 11 червня 2020. Архів оригіналу за 12 червня 2020. Процитовано 31 липня 2020. Якщо ви коли-небудь хотіли спробувати хвалений набір інструментів машинного навчання OpenAI, то це стало набагато простішим. Ця компанія випустила ППІ, що дає можливість розробникам робити виклики її інструментів ШІ у „практично будь-якій задачі для англійської мови“. (англ.)
  18. Arram (9 липня 2020). GPT-3: An AI that's eerily good at writing almost anything. Arram Sabeti. Архів оригіналу за 20 липня 2020. Процитовано 31 липня 2020. (англ.)
  19. Manjoo, Farhad (29 липня 2020). How Do You Know a Human Wrote This?. The New York Times. ISSN 0362-4331. Архів оригіналу за 29 жовтня 2020. Процитовано 4 серпня 2020. (англ.)
  20. Weinberg, Justin, ред. (30 липня 2020). Philosophers On GPT-3 (updated with replies by GPT-3). Daily Nous. Архів оригіналу за 30 жовтня 2020. Процитовано 31 липня 2020. (англ.)
  21. Simonite, Tom (22 липня 2020). Did a Person Write This Headline, or a Machine?. Wired. ISSN 1059-1028. Архів оригіналу за 1 листопада 2020. Процитовано 31 липня 2020. (англ.)
  22. Claypoole, Theodore (30 липня 2020). New AI Tool GPT-3 Ascends to New Peaks, But Proves How Far We Still Need to Travel. The National Law Review[en]. Т. 10, № 214. Архів оригіналу за 30 жовтня 2020. Процитовано 4 серпня 2020. (англ.)
  23. Marcus, Gary (1 грудня 2018). The deepest problem with deep learning. Medium (англ.). Архів оригіналу за 1 серпня 2019. Процитовано 29 вересня 2020. (англ.)
  24. Marcus, Gary; Davis, Ernest (22 серпня 2020). GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about. MIT Technology Review. Архів оригіналу за 23 серпня 2020. Процитовано 23 серпня 2020. (англ.)
  25. Metz, Cade (24 листопада 2020). Meet GPT-3. It Has Learned to Code (and Blog and Argue). The New York Times (амер.). ISSN 0362-4331. Архів оригіналу за 6 грудня 2020. Процитовано 24 листопада 2020. (англ.)
  26. GPT-3 (8 вересня 2020). A robot wrote this entire article. Are you scared yet, human? | GPT-3. The Guardian (брит.). ISSN 0261-3077. Архів оригіналу за 4 лютого 2021. Процитовано 15 вересня 2020. (англ.)
  27. Writing helper Copy.ai raises $2.9M in a round led by Craft Ventures. copy.ai. 17 березня 2021. Процитовано 5 листопада 2022.
  28. Dzieza, Josh (20 липня 2022). Can AI write good novels?. The Verge. Процитовано 23 грудня 2022.
  29. Democratizing Written Communication - TextCortex Raises $1.2 Million Pre-Seed To Advance Proprietary NLG Capabilities And Launch Chrome Extension. TextCortex AI (амер.). 21 червня 2022. Процитовано 14 лютого 2023.
  30. Lomas, Natasha (7 серпня 2020). Hypotenuse AI wants to take the strain out of copywriting for e-commerce. TechCrunch (амер.). Процитовано 5 січня 2023.

Посилання