Stable Diffusion
Stable Diffusion (дословно «стабильная диффузия») — модель глубокого обучения создающая изображения по текстовым описаниям[англ.], с открытым исходным кодом[2]. Выпущена в 2022 году и основанна на методах диффузии[англ.]. В основном используется для создания детальных изображений на основе текстовых описаний, хотя ее также можно применять и для других задач, например дорисовывать наброски и редактировать исходные картинки[3]. Разработана группой компаний CompVis в Мюнхенском университете. Кроме того, в разработке участвовали Runway, EleutherAI и LAION[4][5][6][7]. Stable Diffusion — модель скрытой диффузии, своего рода глубокая генеративная нейронная сеть. Код и вес модели были открыты[8]. Может работать на большинстве потребительских устройств, оснащенных графическим процессором с объемом видеопамяти не менее 4 ГБ. Её появление ознаменовало отход от предыдущих проприетарных моделей преобразования текста в изображение, таких как DALL-E и Midjourney, которые были доступны только через облачные сервисы[9][10]. В настоящее время существует ряд наиболее распространенные модификации: Stable Diffusion v1.0, Stable Diffusion XL и Stable Diffusion 3. Последняя третья версия построена на архитектуре DiT трансформер[11], в отличие от первых двух имеющих в своей основе U-Net [12]. См. такжеПримечания
|