Stable Diffusion

Stable Diffusion


Ein von Stable Diffusion generiertes Bild mithilfe des Prompts: „a photograph of an astronaut riding a horse“
Basisdaten

Entwickler Stability AI
Erscheinungsjahr 22. August 2022
Aktuelle Version 3.5[1]
(23. Oktober 2024)
Betriebssystem Linux, macOS, Microsoft Windows
Programmier­sprache Python
Kategorie Text-zu-Bild-Generator
Lizenz Stability AI Community License
https://stability.ai/stable-image

Stable Diffusion ist ein Deep-Learning-Text-zu-Bild-Generator. Die Open-Source-Software wird hauptsächlich zur Generierung detaillierter Bilder auf der Grundlage von Textbeschreibungen verwendet, kann aber auch für andere Aufgaben wie Inpainting, Outpainting und die Erzeugung von Bild-zu-Bild-Übersetzungen auf der Grundlage einer schriftlichen Aufforderung (Prompt) eingesetzt werden.

Stable Diffusion verwendet ein latentes Diffusionsmodell als Variante eines tiefen generativen neuronalen Netzes, das von der CompVis-Gruppe an der LMU München[2] in Zusammenarbeit von Stability AI, CompVis LMU und Runway mit Unterstützung von EleutherAI und LAION entwickelt wurde.[3][4]

Im Oktober 2022 erhielt Stability AI in einer von Lightspeed Venture Partners und Coatue Management angeführten Finanzierungsrunde 101 Millionen US-Dollar.[5]

Der Code und die Modellgewichte von Stable Diffusion wurden veröffentlicht[6] und können auf vielen Consumer-Hardware-Systemen ausgeführt werden, sofern diese mit einer GPU mit mindestens 8 GB Grafikspeicher ausgestattet sind. Die Verwendung auf weniger leistungsfähiger Hardware bzw. ohne GPU-Beschleunigung ist mittlerweile ebenfalls möglich, jedoch deutlich langsamer. Dieser offene Ansatz stellt eine Abkehr von proprietären Text-zu-Bild-Modellen wie DALL-E und Midjourney dar, die nur über Cloud-Dienste zugänglich sind.[7][8]

Technologie

Diagramm der von Stable Diffusion verwendeten Architektur
Stable Diffusion generiert Bilder, indem es iterativ zufälliges Rauschen entschärft, bis eine konfigurierte Anzahl von Schritten erreicht ist. Dabei wird es von dem CLIP-Textencoder, der vorab auf Konzepte trainiert wurde, sowie dem Aufmerksamkeitsmechanismus angeleitet. Das Ergebnis ist das gewünschte Bild, das eine Darstellung des trainierten Konzepts zeigt.

Trainingsdaten

Stable Diffusion wurde anhand von Bild- und Beschriftungspaaren aus LAION-5B trainiert, einem öffentlich zugänglichen Datensatz, der aus „Common Crawl“-Daten aus dem Internet abgeleitet wurde. Dabei wurden 5 Milliarden Bild-Text-Paare auf der Grundlage ihrer Sprache, Auflösung, vorhergesagter Wahrscheinlichkeit ein Wasserzeichen zu enthalten, und vorhergesagter „ästhetischer“ Bewertung (z. B. subjektive visuelle Qualität) in separate Datensätze gefiltert.[9] Der Datensatz wurde von LAION erstellt, einer deutschen gemeinnützigen Organisation, die von Stability AI finanziert wird.[9][10] Das Stable-Diffusion-Modell wurde auf drei Teilmengen von LAION-5B trainiert: laion2B-de, laion-high-resolution und laion-aesthetics v2 5+. Eine von Dritten durchgeführte Analyse der Trainingsdaten des Modells ergab, dass von einer kleineren Teilmenge von 12 Millionen Bildern aus dem ursprünglich verwendeten größeren Datensatz etwa 47 % der Bilder von 100 verschiedenen Domains stammten, wobei Pinterest 8,5 % der Teilmenge ausmachte, gefolgt von Websites wie WordPress, Blogger, Flickr, DeviantArt und Wikimedia Commons.[9][11]

Eine Recherche des Bayerischen Rundfunks zeigte, dass die Datensätze von LAION, die auf Hugging Face liegen, große Mengen an privaten und sensiblen Daten enthalten.[12]

Aufgrund der Kritik von Künstlern, Fotografen und anderen Kreativen hat Stability AI 2024 für Stable Cascade und Stable Diffusion 3 die vom Verein Spawning geschaffene Möglichkeit für Künstler genutzt, ihre Werke per Opt-Out von einem Training auszuschließen. Ebenso wären Daten von Institutionen und Personen ausgeschlossen worden, die Stablity AI direkt kontaktiert haben.[13][14]

Verwendung

Stable Diffusion beansprucht keine Rechte an den generierten Bildern und räumt den Nutzern die Nutzungsrechte für alle aus dem Modell generierten Bilder ein, vorausgesetzt, der Bildinhalt ist nicht illegal oder schädlich für Personen. Die den Nutzern gewährte Freiheit bei der Verwendung der Bilder hat zu einer Kontroverse über die Ethik des Eigentums geführt, da Stable Diffusion und andere generative Modelle anhand von urheberrechtlich geschützten Bildern ohne die Zustimmung des Eigentümers trainiert werden.[15]

Da visuelle Stile und Kompositionen nicht dem Urheberrecht unterliegen, wird häufig die Auffassung vertreten, dass Benutzer von Stable Diffusion, die Bilder von Kunstwerken generieren, nicht gegen das Urheberrecht von visuell ähnlichen Werken verstoßen. Allerdings können Personen, die in den generierten Bildern abgebildet sind, durch Persönlichkeitsrechte geschützt sein, wenn ihr Konterfei verwendet wird, und geistiges Eigentum wie erkennbare Markenlogos bleiben weiterhin durch das Urheberrecht geschützt. Dennoch haben bildende Künstler ihre Besorgnis darüber geäußert, dass der weit verbreitete Einsatz von Bildsynthese-Software wie Stable Diffusion dazu führen könnte, dass menschliche Künstler sowie Fotografen, Models, Kameraleute und Schauspieler allmählich ihre kommerzielle Rentabilität gegenüber KI-basierten Konkurrenten verlieren.[16]

Im Vergleich zu anderen kommerziellen Produkten, die auf generativer KI beruhen, ist Stable Diffusion deutlich freizügiger, was die Art der Inhalte angeht, die die Nutzer erstellen dürfen, wie etwa gewalttätige oder sexuell eindeutige Bilder.[17] Emad Mostaque, CEO von Stability AI, entgegnet den Bedenken, dass das Modell zu missbräuchlichen Zwecken eingesetzt werden könnte: „Es liegt in der Verantwortung der Menschen, ob sie diese Technologie auf ethische, moralische und legale Weise einsetzen“, und dass die Technologie trotz möglicher negativer Folgen einen Nettonutzen bringen würde, wenn die Fähigkeiten von Stable Diffusion der Öffentlichkeit zugänglich gemacht würden.[7] Darüber hinaus argumentiert Mostaque, dass die Absicht hinter der offenen Verfügbarkeit von Stable Diffusion darin besteht, die Kontrolle von Unternehmen über solche Technologien zu beenden, die bisher nur geschlossene KI-Systeme für die Bildsynthese entwickelt haben. Dies spiegelt sich in der Tatsache wider, dass alle Beschränkungen, die Stability AI für die von den Nutzern erzeugten Inhalte auferlegt, aufgrund der Open-Source-Natur der Lizenz, unter der Stable Diffusion veröffentlicht wurde, leicht umgangen werden können.[15] Neuere Versionen wie Stable Diffusion 2 und 3 sowie Stable Cascade wurden mit gefilterten Datensätzen trainiert, um die Erstellung von sexuellen oder gewalttätigen Bildern zu verhindern, eine Entscheidung, die in der Open-Source-Community stark umstritten ist.[18]

Im Juli 2023 stellte Stability AI MindEye vor. Ein KI Model, das mittels Stable Diffusion und funktioneller Magnetresonanztomographie (fMRI) bildhafte Erinnerungen von Probanden rekonstruieren und auslesen kann.[19] Im März 2024 veröffentlichte MedARC MindEye2. Das verbesserte Model soll nach nur einer Stunde Training mit Patientendaten Rekonstruktionen in hoher Qualität liefern.[20]

Versionen

Versionsnummer Veröffentlichungsdatum Anmerkungen
1.1, 1.2, 1.3, 1.4[21] August 2022 Alle Modelle wurden von CompVis veröffentlicht. Es gibt keine „Version 1.0“.[22]
1.5[23] Oktober 2022 Trainiert auf den Parameterwerten von 1.2, nicht 1.4. Veröffentlicht von RunwayML.
2.0[24] November 2022 Von Grund auf neu trainiert mit einem gefilterten Datensatz.
2.1[25] Dezember 2022 Trainiert mit den Parameterwerten von 2.0.
XL 1.0[26] Juli 2023 Das XL 1.0 Basis-Modell hat 3,5 Milliarden Parameter, etwa 3,5-mal mehr als die vorherigen Versionen.[27]
XL Turbo[28] November 2023 Ein destilliertes XL 1.0, das weniger Diffusionsschritte braucht.[29]
3.0[30] Februar 2024 (frühe Vorschau) Eine Modellfamilie, die von 800M bis zu 8B Parametern reicht.
3.5[31] Oktober 2024 Eine Modellfamilie mit 3 Versionen. „Large“ (8 Milliarden Parameter), „Large Turbo“ (destilliert aus „Large“, dadurch weniger Schritte notwendig), und „Medium“ (2,5 Milliarden Parameter).

Lizenz

Im Gegensatz zu Modellen wie DALL-E stellt Stable Diffusion seinen Quellcode zusammen mit den vortrainierten Gewichten zur Verfügung.[32] Die Lizenz von Stable Diffusion verbietet bestimmte Anwendungsfälle, darunter Verbrechen, Verleumdung, Belästigung, Doxing, „Ausbeutung von Minderjährigen“, medizinische Ratschläge, die automatische Schaffung rechtlicher Verpflichtungen, die Erstellung juristischer Beweise und „die Diskriminierung oder Schädigung von Einzelpersonen oder Gruppen aufgrund von … sozialem Verhalten oder … persönlichen oder charakterlichen Eigenschaften … [oder] gesetzlich geschützten Merkmalen oder Kategorien“. Der Nutzer ist Eigentümer der Rechte an den von ihm erzeugten Bildern (sofern für KI-generierte Kunst überhaupt Urheberrecht beansprucht werden kann[33]) und kann diese kommerziell nutzen.[15]

Literatur

Commons: Stable Diffusion – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

  1. stability.ai.
  2. Der KI-Bildgenerator Stable Diffusion stammt aus München – und soll KI „demokratisieren“. 15. Dezember 2022, abgerufen am 20. Dezember 2022.
  3. Revolutionizing image generation by AI: Turning text into images. Abgerufen am 25. November 2022 (englisch).
  4. Emad Mostaque, CEO of Stability AI: Emad on Twitter: 'Stable Diffusion came from the Machine Vision & Learning research group (CompVis) @LMU_Muenchen'. Abgerufen am 29. März 2023 (englisch).
  5. Kyle Wiggers: Stability AI, the startup behind Stable Diffusion, raises $101M. In: TechCrunch. 17. Oktober 2022, abgerufen am 25. November 2022 (amerikanisches Englisch).
  6. Stable Diffusion. CompVis – Machine Vision and Learning LMU Munich, 25. November 2022, abgerufen am 25. November 2022.
  7. a b James Vincent: Anyone can use this AI art generator — that’s the risk. 15. September 2022, abgerufen am 25. November 2022 (amerikanisches Englisch).
  8. The new killer app: Creating AI art will absolutely crush your PC | PCWorld. 31. August 2022, archiviert vom Original am 31. August 2022; abgerufen am 25. November 2022.  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.pcworld.com
  9. a b c Andy Baio: Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator. In: Waxy.org. 30. August 2022, abgerufen am 25. November 2022 (amerikanisches Englisch).
  10. This artist is dominating AI-generated art. And he’s not happy about it. Abgerufen am 25. November 2022 (englisch).
  11. Alex Ivanovs: Stable Diffusion: Tutorials, Resources, and Tools – Stack Diary. In: Stack Diary. 8. September 2022 (stackdiary.com [abgerufen am 25. November 2022]).
  12. Katharina Brunner, Elisa Harlan: Der Rohstoff der KI sind wir. Abgerufen am 12. September 2023.
  13. Kyle Wiggers: Spawning lays out plans for letting creators opt out of generative AI training. In: TechCrunch. 3. Mai 2023, abgerufen am 5. März 2024 (amerikanisches Englisch).
  14. Laura: In the EU, Opt-outs Are the Way Forward. In: Spawning Blog. 27. Februar 2024, abgerufen am 5. März 2024.
  15. a b c Kenrick Cai: Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion. Abgerufen am 25. November 2022 (englisch).
  16. This artist is dominating AI-generated art. And he’s not happy about it. Abgerufen am 25. November 2022 (englisch).
  17. 清水亮 / Ryo Shimizu: Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由. 26. August 2022, abgerufen am 25. November 2022 (japanisch).
  18. Stable Diffusion 1 vs 2 - What you need to know. 6. Dezember 2022, abgerufen am 3. April 2024 (englisch).
  19. Reconstructing the Mind’s Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors. Abgerufen am 3. April 2024 (britisches Englisch).
  20. MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data. Abgerufen am 3. April 2024.
  21. CompVis/stable-diffusion-v1-4 · Hugging Face. Abgerufen am 3. April 2024 (englisch).
  22. CompVis (CompVis). 23. August 2023, abgerufen am 3. April 2024 (englisch).
  23. runwayml/stable-diffusion-v1-5 · Hugging Face. Abgerufen am 3. April 2024 (englisch).
  24. stabilityai/stable-diffusion-2-base · Hugging Face. Abgerufen am 3. April 2024 (englisch).
  25. stabilityai/stable-diffusion-2-1 · Hugging Face. Abgerufen am 3. April 2024 (englisch).
  26. stabilityai/stable-diffusion-xl-base-1.0 · Hugging Face. Abgerufen am 3. April 2024 (englisch).
  27. Announcing SDXL 1.0. Abgerufen am 3. April 2024 (englisch).
  28. stabilityai/sdxl-turbo · Hugging Face. Abgerufen am 3. April 2024 (englisch).
  29. Adversarial Diffusion Distillation. Abgerufen am 3. April 2024 (englisch).
  30. Stable Diffusion 3: Research Paper. Abgerufen am 3. April 2024 (englisch).
  31. Introducing Stable Diffusion 3.5. Abgerufen am 20. November 2024 (britisches Englisch).
  32. Stable Diffusion Public Release. Abgerufen am 25. November 2022 (britisches Englisch).
  33. KI-Kunst: Keine Urheberrechte für Comics von Midjourney. In: Der Spiegel. 23. Februar 2023, ISSN 2195-1349 (spiegel.de [abgerufen am 22. März 2023]).