Stable Diffusion
Stable Diffusion là một mô hình học sâu (deep learning), chuyển văn bản thành hình ảnh (text-to-image) được phát hành vào năm 2022. Nó được sử dụng chủ yếu để tạo ra các hình ảnh chi tiết dựa trên mô tả văn bản, tuy nhiên cũng có thể áp dụng cho các nhiệm vụ khác như inpainting, outpainting và tạo ra các phiên dịch hình ảnh-hình ảnh dựa trên một đề xuất văn bản (text-prompt)[3]. Nó được phát triển bởi các nhà nghiên cứu từ Nhóm CompVis tại Đại học Ludwig Maximilian ở Munich và Runway với sự đóng góp tính toán từ Stability AI và dữ liệu huấn luyện từ các tổ chức phi lợi nhuận[4][5][6][7] Stable Diffusion là một mô hình lan truyền tiềm ẩn (latent diffusion model), một loại mạng nơ-ron nhân tạo sinh sâu (generative artificial neural network). Mã nguồn và model của nó đã được công khai phát hành dưới giấy phép CreativeML Open RAIL-M, và nó có thể hoạt động trên hầu hết các thiết bị máy tính thông thường được trang bị GPU tầm trung với ít nhất 8 GB VRAM. Điều này đánh dấu một sự khác biệt so với các mô hình chuyển văn bản thành hình ảnh độc quyền trước đây như DALL-E và Midjourney, chỉ có thể truy cập thông qua dịch vụ đám mây. Tham khảo
|