Stabile Diffusion

Modellkarte Stabile Diffusion v1-5

Stable Diffusion ist ein latentes Text-zu-Bild-Diffusionsmodell, das aus beliebigen Texteingaben fotorealistische Bilder erzeugen kann. Weitere Informationen darüber, wie Stable Diffusion funktioniert, finden Sie unter Blog "Stabile Diffusion.

Die Stabile-Diffusion-v1-5 Kontrollpunkt wurde mit den Gewichten der Stabile-Diffusion-v1-2 Checkpoint und anschließende Feinabstimmung in 595k Schritten bei einer Auflösung von 512×512 auf "laion-aesthetics v2 5+" und 10% Abschaffung der Textkonditionierung zur Verbesserung klassifikatorfreie Stichprobenführung.

Sie können dies sowohl mit dem 🧨Diffuser-Bibliothek und die RunwayML GitHub-Repository.

Auslässe

from diffusers import StableDiffusionPipeline
importieren Fackel

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "ein Foto eines Astronauten, der auf dem Mars auf einem Pferd reitet"
image = pipe(prompt).images[0]
    
image.save("astronaut_rides_horse.png")

Für detailliertere Anweisungen, Anwendungsfälle und Beispiele in JAX folgen Sie den Anweisungen hier

Ursprüngliches GitHub-Repository

  1. Download der Gewichte
  2. Anweisungen befolgen hier.

Details zum Modell

  • Entwickelt von: Robin Rombach, Patrick Esser
  • Modell-Typ: Diffusionsbasiertes Modell zur Text-Bild-Erzeugung
  • Sprache(n): Englisch
  • Lizenz: Die CreativeML OpenRAIL M-Lizenz ist ein Offene RAIL M-Lizenzin Anlehnung an das Werk, das BigScience und die RAIL-Initiative gemeinsam im Bereich der verantwortungsvollen KI-Lizenzierung tätig sind. Siehe auch der Artikel über die BLOOM Open RAIL Lizenz auf denen unsere Lizenz basiert.
  • Modellbeschreibung: Es handelt sich um ein Modell, mit dem Bilder auf der Grundlage von Textaufforderungen erzeugt und verändert werden können. Es ist ein Latentes Diffusionsmodell die einen festen, vortrainierten Textkodierer verwendet (CLIP ViT-L/14), wie es in der Imagen Papier.
  • Ressourcen für weitere Informationen: GitHub-RepositoryPapier.
  • Zitiert als:@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin und Blattmann, Andreas und Lorenz, Dominik und Esser, Patrick und Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

Verwendet

Direkte Verwendung

Das Modell ist nur für Forschungszwecke gedacht. Mögliche Forschungsbereiche und Aufgaben sind

  • Sicherer Einsatz von Modellen, die das Potenzial haben, schädliche Inhalte zu erzeugen.
  • Ausloten und Verstehen der Grenzen und Verzerrungen von generativen Modellen.
  • Erstellung von Kunstwerken und Verwendung in Design- und anderen künstlerischen Prozessen.
  • Anwendungen in pädagogischen oder kreativen Werkzeugen.
  • Forschung über generative Modelle.

Ausgeschlossene Verwendungszwecke werden im Folgenden beschrieben.

Missbrauch, böswillige Verwendung und Verwendung außerhalb des Geltungsbereichs

Hinweis: Dieser Abschnitt stammt aus der DALLE-MINI Modellkartegilt aber in gleicher Weise für die Stabile Diffusion v1.

Das Modell sollte nicht dazu verwendet werden, absichtlich Bilder zu erstellen oder zu verbreiten, die ein feindliches oder entfremdendes Umfeld für Menschen schaffen. Dazu gehört die Erstellung von Bildern, die Menschen vorhersehbar als störend, beunruhigend oder beleidigend empfinden würden, oder Inhalte, die historische oder aktuelle Stereotypen propagieren.

Verwendung außerhalb des Geltungsbereichs

Das Modell wurde nicht darauf trainiert, Personen oder Ereignisse faktisch oder wahrheitsgetreu darzustellen, weshalb die Verwendung des Modells zur Generierung solcher Inhalte die Fähigkeiten dieses Modells übersteigt.

Missbräuchliche und böswillige Verwendung

Die Verwendung des Modells zur Erstellung von Inhalten, die für Einzelpersonen grausam sind, ist ein Missbrauch des Modells. Dies schließt ein, ist aber nicht beschränkt auf:

  • Herabwürdigende, entmenschlichende oder anderweitig schädliche Darstellungen von Menschen oder ihrer Umgebung, Kulturen, Religionen usw.
  • Vorsätzliche Förderung oder Verbreitung diskriminierender Inhalte oder schädlicher Stereotypen.
  • Nachahmung von Personen ohne deren Zustimmung.
  • Sexuelle Inhalte ohne Zustimmung der Personen, die sie sehen könnten.
  • Fehlinformation und Desinformation
  • Darstellungen von ungeheuerlicher Gewalt und blutigen Szenen
  • Weitergabe von urheberrechtlich geschütztem oder lizenziertem Material unter Verletzung der Nutzungsbedingungen.
  • Weitergabe von Inhalten, die eine Abänderung von urheberrechtlich geschütztem oder lizenziertem Material darstellen und gegen die Nutzungsbedingungen verstoßen.

Beschränkungen und Verzerrungen

Beschränkungen

  • Das Modell erreicht keinen perfekten Fotorealismus
  • Das Modell kann keinen lesbaren Text wiedergeben
  • Das Modell schneidet bei schwierigeren Aufgaben, bei denen es um Kompositionalität geht, nicht gut ab, z. B. beim Rendern eines Bildes, das "Ein roter Würfel auf einer blauen Kugel" entspricht.
  • Gesichter und Menschen im Allgemeinen werden möglicherweise nicht richtig generiert.
  • Das Modell wurde hauptsächlich mit englischen Untertiteln trainiert und funktioniert in anderen Sprachen nicht so gut.
  • Der Autocodierungsteil des Modells ist verlustbehaftet
  • Das Modell wurde anhand eines umfangreichen Datensatzes trainiert LAION-5B das Material für Erwachsene enthält und ohne zusätzliche Sicherheitsmechanismen und Überlegungen nicht für die Verwendung des Produkts geeignet ist.
  • Zur Deduplizierung des Datensatzes wurden keine zusätzlichen Maßnahmen ergriffen. Infolgedessen beobachten wir einen gewissen Grad an Merkfähigkeit für Bilder, die in den Trainingsdaten doppelt vorhanden sind. Die Trainingsdaten können durchsucht werden unter https://rom1504.github.io/clip-retrieval/ um möglicherweise bei der Erkennung von gespeicherten Bildern zu helfen.

Vorurteil

Die Fähigkeiten der Bilderzeugungsmodelle sind zwar beeindruckend, aber sie können auch soziale Vorurteile verstärken oder verschlimmern. Stable Diffusion v1 wurde auf Teilmengen von LAION-2B(de)die aus Bildern besteht, die sich hauptsächlich auf englische Beschreibungen beschränken. Texte und Bilder aus Gemeinschaften und Kulturen, die andere Sprachen verwenden, werden wahrscheinlich nur unzureichend berücksichtigt. Dies wirkt sich auf die Gesamtleistung des Modells aus, da weiße und westliche Kulturen oft als Standard eingestellt sind. Außerdem ist die Fähigkeit des Modells, Inhalte mit nicht-englischen Prompts zu generieren, deutlich schlechter als mit englischsprachigen Prompts.

Sicherheitsmodul

Der Verwendungszweck dieses Modells ist mit dem Sicherheits-Checker in Diffusoren. Dieser Checker überprüft die Modellausgaben anhand bekannter, fest kodierter NSFW-Konzepte. Die Konzepte werden absichtlich versteckt, um die Wahrscheinlichkeit eines Reverse-Engineerings dieses Filters zu verringern. Konkret vergleicht der Checker die Klassenwahrscheinlichkeit von schädlichen Konzepten im Einbettungsraum des CLIPTextModel nach der Generation der Bilder. Die Konzepte werden zusammen mit dem generierten Bild in das Modell eingegeben und mit einem von Hand erstellten Gewicht für jedes NSFW-Konzept verglichen.

Ausbildung

Ausbildungsdaten Die Modellentwickler verwendeten den folgenden Datensatz für das Training des Modells:

  • LAION-2B (de) und Untergruppen davon (siehe nächster Abschnitt)

Trainingsverfahren Stabil Diffusion v1-5 ist ein latentes Diffusionsmodell, das einen Autoencoder mit einem Diffusionsmodell kombiniert, das im latenten Raum des Autoencoders trainiert wird. Während des Trainings,

  • Bilder werden durch einen Encoder kodiert, der Bilder in latente Darstellungen umwandelt. Der Autoencoder verwendet einen relativen Downsampling-Faktor von 8 und bildet Bilder der Form H x W x 3 auf Latente der Form H/f x W/f x 4 ab.
  • Die Textaufforderungen werden durch einen ViT-L/14 Text-Encoder kodiert.
  • Der nicht gepoolte Output des Text-Encoders wird über Cross-Attention in das UNet-Backbone des latenten Diffusionsmodells eingespeist.
  • Der Verlust ist ein Rekonstruktionsziel zwischen dem Rauschen, das dem Latenzwert hinzugefügt wurde, und der Vorhersage durch das UNet.

Derzeit sind sechs Stable Diffusion Checkpoints vorgesehen, die wie folgt ausgebildet wurden.

  • stabile-diffusion-v1-1237.000 Schritte bei Auflösung 256x256 auf laion2B-de. 194.000 Schritte bei Auflösung 512x512 auf laion-hochauflösend (170M Beispiele aus LAION-5B mit Auflösung >= 1024x1024).
  • stabile-diffusion-v1-2: Wiederaufgenommen von stabile-diffusion-v1-1. 515.000 Schritte bei Auflösung 512x512 auf "laion-improved-aesthetics" (eine Teilmenge von laion2B-de, gefiltert auf Bilder mit einer Originalgröße >= 512x512geschätzte Bewertung der Ästhetik > 5.0und eine geschätzte Wasserzeichenwahrscheinlichkeit < 0.5. Die Schätzung des Wasserzeichens stammt aus den LAION-5B-Metadaten, die Bewertung der Ästhetik wird anhand eines verbesserter Schätzer für die Ästhetik).
  • stabile-diffusion-v1-3: Wiederaufgenommen von stabile-diffusion-v1-2 - 195.000 Schritte bei Auflösung 512x512 auf "laion-improved-aesthetics" und 10 % Wegfall der Textaufbereitung zur Verbesserung klassifikatorfreie Stichprobenführung.
  • stabile-diffusion-v1-4 Wiederaufgenommen von stabile-diffusion-v1-2 - 225.000 Schritte bei Auflösung 512x512 auf "laion-aesthetics v2 5+" und 10 % Wegfall der Textaufbereitung zur Verbesserung klassifikatorfreie Stichprobenführung.
  • stabile-diffusion-v1-5 Wiederaufgenommen von stabile-diffusion-v1-2 - 595.000 Schritte bei der Auflösung 512x512 auf "laion-aesthetics v2 5+" und 10 % Wegfall der Textaufbereitung zur Verbesserung klassifikatorfreie Stichprobenführung.
  • Stabile-Diffusions-Malerei Wiederaufgenommen von stabile-diffusion-v1-5 - dann 440.000 Schritte des Inpainting-Trainings bei einer Auflösung von 512×512 auf "laion-aesthetics v2 5+" und 10% Auslassen der Textkonditionierung. Für das Inpainting verfügt das UNet über 5 zusätzliche Eingangskanäle (4 für das kodierte maskierte Bild und 1 für die Maske selbst), deren Gewichte nach Wiederherstellung des Nicht-Inpainting-Kontrollpunkts auf Null initialisiert wurden. Während des Trainings erzeugen wir synthetische Masken und maskieren in 25% alles.
  • Hardware: 32 x 8 x A100-GPUs
  • Optimierer: AdamW
  • Gradient Akkumulationen: 2
  • Charge: 32 x 8 x 2 x 4 = 2048
  • Lerntempo: Aufwärmen auf 0,0001 für 10.000 Schritte und dann konstant gehalten

Ergebnisse der Bewertung

Auswertungen mit verschiedenen klassifikatorfreien Orientierungsskalen (1,5, 2,0, 3,0, 4,0, 5,0, 6,0, 7,0, 8,0) und 50 PNDM/PLMS-Stichprobenschritten zeigen die relativen Verbesserungen der Kontrollpunkte:

Pareto

Bewertet mit 50 PLMS-Schritten und 10000 zufälligen Aufforderungen aus dem COCO2017-Validierungsset, bewertet mit einer Auflösung von 512×512. Nicht für FID-Scores optimiert.

Auswirkungen auf die Umwelt

Stabile Diffusion v1 Geschätzte Emissionen Auf der Grundlage dieser Informationen schätzen wir die folgenden CO2-Emissionen unter Verwendung der Rechner für die Auswirkungen des maschinellen Lernens vorgestellt in Lacoste et al. (2019). Die Hardware, die Laufzeit, der Cloud-Anbieter und die Rechenregion wurden zur Schätzung der Kohlenstoffauswirkungen herangezogen.

  • Hardware-Typ: A100 PCIe 40GB
  • Verwendete Stunden: 150000
  • Cloud-Anbieter: AWS
  • Region berechnen: US-Ost
  • Kohlenstoffemissionen (Stromverbrauch x Zeit x erzeugter Kohlenstoff je nach Standort des Stromnetzes): 11250 kg CO2-Äq.

Zitat

    @InProceedings{Rombach_2022_CVPR,
        author = {Rombach, Robin und Blattmann, Andreas und Lorenz, Dominik und Esser, Patrick und Ommer, Bj\"orn},
        title = {High-Resolution Image Synthesis With Latent Diffusion Models},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month = {June},
        year = {2022},
        pages = {10684-10695}
    }

Diese Modellkarte wurde geschrieben von: Robin Rombach und Patrick Esser und basiert auf dem DALL-E Mini Modellkarte.