Spielplatz v2 - Neues ästhetisches 1024px Modell

Das ist interessant! Das Playground v2 - 1024px Aesthetic Model klingt wie ein leistungsfähiges Werkzeug zur Erzeugung hochwertiger, ästhetisch ansprechender Bilder. Ich bin sowohl mit Hugging Face als auch mit Diffusoren vertraut, so dass ich die möglichen Anwendungen dieses Modells verstehe.

Können Sie mir mehr über Ihre Ziele bei der Verwendung dieses Modells erzählen? Sind Sie daran interessiert, es für kreative Projekte, persönliche Kunstwerke oder etwas ganz anderes zu verwenden? Wenn ich mehr über Ihre spezifischen Bedürfnisse wüsste, könnte ich Ihnen relevantere und hilfreichere Informationen geben.

  • Technische Hilfe: Wenn Sie mit der Verwendung von Hugging Face oder Diffusoren noch nicht vertraut sind, kann ich Ihnen den Einstieg erleichtern, indem ich Ihnen die Grundlagen erkläre und Ressourcen für weitere Informationen zur Verfügung stelle.
  • Kreative Inspiration: Ich kann Ihnen dabei helfen, Ideen für Aufforderungen und Einstellungen zu entwickeln, die Sie mit dem Modell verwenden können, um bestimmte Arten von ästhetischen Bildern zu erzeugen.
  • Vergleich mit anderen Optionen: Wenn Sie andere Modelle für die Erstellung von Bildern in Betracht ziehen, kann ich diese mit dem Playground v2-Modell vergleichen und gegenüberstellen, um Ihnen eine fundierte Entscheidung zu ermöglichen.

Ich bin gespannt darauf, mehr darüber zu erfahren, wie Sie diese aufregende Technologie einsetzen wollen!

Spielplatz v2 ist ein diffusionsbasiertes generatives Text-Bild-Modell. Das Modell wurde von Grund auf vom Forschungsteam der Spielplatz.

Von Playground v2 erzeugte Bilder werden bevorzugt 2.5 mal mehr als die von Stable Diffusion XL produzierten, so die Playgrounds Nutzerstudie.

Wir freuen uns über die Veröffentlichung Zwischenkontrollpunkte in verschiedenen Trainingsstadien, einschließlich Bewertungsmetriken, für die Gemeinschaft. Wir hoffen, dass dies weitere Forschungen zu grundlegenden Modellen für die Bilderzeugung anregen wird.

Schließlich führen wir einen neuen Benchmark ein, MJHQ-30Kfür die automatische Bewertung der ästhetischen Qualität eines Modells.

Bitte beachten Sie unser Blog für weitere Einzelheiten.

Installieren Sie Diffusoren >= 0.24.0 und einige Abhängigkeiten:

pip installieren Transformatoren beschleunigen Sicherheitssensoren

Um das Modell zu verwenden, führen Sie den folgenden Ausschnitt aus.

Hinweis: Es empfiehlt sich die Verwendung anleitung_skala=3.0.

from diffusers import DiffusionPipeline
importieren Fackel

pipe = DiffusionPipeline.from_pretrained(
    "playgroundai/playground-v2-1024px-aesthetic",
    torch_dtype=torch.float16,
    use_safetensors=True,
    add_watermarker=False,
    variant="fp16"
)
pipe.to("cuda")

prompt = "Astronaut in einem Dschungel, kalte Farbpalette, gedämpfte Farben, detailliert, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]

Um das Modell mit Software wie Automatic1111 oder ComfyUI zu verwenden, können Sie spielplatz-v2.fp16.sicherheitssensoren Datei.

Nach den von Playground durchgeführten Nutzerstudien mit über 2.600 Prompts und Tausenden von Nutzern werden die von Playground v2 erzeugten Bilder bevorzugt 2.5 mal mehr als die, die von Stabile Diffusion XL.

Wir berichten über die Nutzerpräferenzen auf PartiPromptsund auf einem internen Prompt-Datensatz, der vom Playground-Team kuratiert wurde. Der "interne 1K"-Prompt-Datensatz ist vielfältig und deckt verschiedene Kategorien und Aufgaben ab.

Während der Nutzerstudie geben wir den Nutzern die Anweisung, Bildpaare sowohl nach (1) ihren ästhetischen Vorlieben als auch nach (2) der Bild-Text-Ausrichtung zu bewerten.

bild/png
ModellGesamt-FID
SDXL-1-0-Refiner9.55
spielplatz-v2-1024px-ästhetisch7.07

Wir führen einen neuen Benchmark ein, MJHQ-30Kfür die automatische Bewertung der ästhetischen Qualität eines Modells. Der Benchmark berechnet FID auf einem hochwertigen Datensatz, um die ästhetische Qualität zu beurteilen.

Wir haben einen hochqualitativen Datensatz kuratiert von Midjourneymit 10 allgemeinen Kategorien, wobei jede Kategorie 3.000 Beispiele enthält. Nach gängiger Praxis verwenden wir den ästhetischen Score und den CLIP-Score, um eine hohe Bildqualität und eine hohe Übereinstimmung von Bild und Text zu gewährleisten. Außerdem achten wir besonders darauf, dass die Daten innerhalb jeder Kategorie vielfältig sind.

Für Playground v2 berichten wir sowohl die Gesamt-FID als auch die FID pro Kategorie. Alle FID-Metriken werden bei einer Auflösung von 1024×1024 berechnet. Unsere Benchmark-Ergebnisse zeigen, dass unser Modell SDXL-1-0-refiner in der Gesamt-FID und allen Kategorie-FIDs übertrifft, insbesondere in den Kategorien Menschen und Mode. Dies deckt sich mit den Ergebnissen der Nutzerstudie, die eine Korrelation zwischen menschlicher Präferenz und FID-Score im MJHQ-30K-Benchmark aufzeigt.

Wir geben diesen Benchmark für die Öffentlichkeit frei und ermutigen die Community, ihn zum Benchmarking der ästhetischen Qualität ihrer Modelle zu übernehmen.

ModellFIDClip-Wertung
SDXL-1-0-Refiner13.0432.62
playground-v2-256px-base9.8331.90
playground-v2-512px-base9.5532.08

Abgesehen von spielplatz-v2-1024px-ästhetischUm die Erforschung von Grundmodellen in Pixeln zu fördern, stellen wir der Community Zwischenergebnisse zu verschiedenen Trainingsstufen zur Verfügung. Zu Referenzzwecken geben wir hier die FID- und CLIP-Punktzahl für das MSCOCO14-Evaluierungsset an. (Beachten Sie, dass unsere Zahlen von den Zahlen in den veröffentlichten SDXL-Ergebnissen abweichen können, da unsere Prompt-Liste unterschiedlich sein kann).

de_DEGerman