У этого термина существуют и другие значения, см. GPT.
Generative pre-trained transformer или GPT (рус.Генеративныйпредобученныйтрансформер) — это тип нейронных языковых моделей, впервые представленных компанией OpenAI[источник не указан 413 дней], которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка (NLP), таких как генерация текста, машинный перевод и классификация текста.
11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный предобученный трансформер (GPT)[1]. До этого момента лучшие нейронные модели обработки естественного языка в основном использовали обучение с учителем на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей[2]. Кроме того, многие языки (такие как суахили или гаитянский креольский) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках[2]. Предложенный OpenAI подход слабонадзорного ("полунадзорного")[англ.] обучения на основе модели GPT включает два этапа:
несобственное генеративное «предварительное» обучение, на котором устанавливаются начальные параметры путем обучения модели языковым моделированием
GPT-2, но с изменениями для возможности масштабирования в большем объёме.
175 миллиардов (▲11 566 %)
570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных Common Crawl, WebText, английской Википедии, а также BookCorpus.
Также обучен на основе предсказания текста и основан на обучении с подкреплением. Принимает как текст, так и изображения. Дополнительные подробности не разглашаются.[7]
↑Ouyang, Long; Wu, Jeff; Jiang, Xu; et al. (2022-03-04). "Training language models to follow instructions with human feedback". arXiv:2203.02155. {{cite journal}}: Cite journal требует |journal= (справка)