Playground v2 - Nouveau modèle esthétique 1024px

C'est intéressant ! Le modèle esthétique Playground v2 - 1024px semble être un outil puissant pour générer des images de haute qualité et esthétiquement agréables. Je connais bien les modèles Hugging Face et Diffusers, et je comprends donc les applications potentielles de ce modèle.

Pouvez-vous m'en dire plus sur les objectifs que vous poursuivez en utilisant ce modèle ? Souhaitez-vous l'utiliser pour des projets créatifs, des œuvres d'art personnelles ou tout autre chose ? En connaissant mieux vos besoins spécifiques, je pourrai vous fournir des informations plus pertinentes et plus utiles.

  • Assistance technique : Si vous n'êtes pas familier avec l'utilisation de Hugging Face ou de diffuseurs, je peux vous aider à démarrer en vous expliquant les principes de base et en vous fournissant des ressources pour approfondir vos connaissances.
  • Inspiration créative : Je peux vous aider à trouver des idées d'incitations et de paramètres à utiliser avec le modèle pour générer des types spécifiques d'images esthétiques.
  • Comparaison avec d'autres options : Si vous envisagez d'utiliser d'autres modèles pour générer des images, je peux les comparer avec le modèle Playground v2 pour vous aider à prendre une décision éclairée.

J'ai hâte d'en savoir plus sur la façon dont vous comptez utiliser cette technologie passionnante !

Terrain de jeux v2 est un modèle génératif texte-image basé sur la diffusion. Le modèle a été entraîné à partir de zéro par l'équipe de recherche de Terrain de jeux.

Les images générées par Playground v2 sont privilégiées 2.5 fois plus que celles produites par Stable Diffusion XL, selon l'étude de Playground. étude des utilisateurs.

Nous sommes ravis de publier points de contrôle intermédiaires à différentes étapes de la formation, y compris les mesures d'évaluation, à la communauté. Nous espérons que cela encouragera la poursuite de la recherche sur les modèles fondamentaux pour la génération d'images.

Enfin, nous introduisons un nouveau critère de référence, MJHQ-30Kpour l'évaluation automatique de la qualité esthétique d'un modèle.

Veuillez consulter notre blog pour plus de détails.

Installer les diffuseurs >= 0.24.0 et quelques dépendances :

pip install transformers accelerate safetensors

Pour utiliser le modèle, exécutez l'extrait suivant.

Note: Il est recommandé d'utiliser guidance_scale=3.0.

from diffuseurs import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "aire de jeuxai/aire de jeux-v2-1024px-aesthetic",
    torch_dtype=torch.float16,
    use_safetensors=True,
    add_watermarker=False,
    variant="fp16"
)
pipe.to("cuda")

prompt = "Astronaute dans la jungle, palette de couleurs froides, couleurs sourdes, détaillées, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]

Pour utiliser le modèle avec des logiciels tels que Automatic1111 ou ComfyUI, vous pouvez utiliser aire de jeux-v2.fp16.safetensors fichier.

Selon les études menées par Playground auprès de plus de 2 600 invites et de milliers d'utilisateurs, les images générées par Playground v2 sont favorisées. 2.5 fois plus que celles produites par les Diffusion stable XL.

Nous indiquons les préférences des utilisateurs sur PartiPromptsL'équipe de l'aire de jeux s'est servie d'une base de données interne d'invites, conformément aux pratiques habituelles, et d'une base de données interne d'invites créée par l'équipe de l'aire de jeux. L'ensemble de données "Internal 1K" est diversifié et couvre différentes catégories et tâches.

Au cours de l'étude, nous donnons aux utilisateurs des instructions pour évaluer les paires d'images en fonction (1) de leurs préférences esthétiques et (2) de l'alignement entre l'image et le texte.

image/png
ModèleFID global
SDXL-1-0-refiner9.55
aire de jeux-v2-1024px-aesthetic7.07

Nous introduisons un nouveau critère de référence, MJHQ-30KLe benchmark est un outil d'évaluation automatique de la qualité esthétique d'un modèle. Le benchmark calcule le FID sur un ensemble de données de haute qualité pour évaluer la qualité esthétique.

Nous avons constitué un ensemble de données de haute qualité à partir de Voyage à mi-parcoursLa base de données est composée de 10 catégories communes, chaque catégorie contenant 3 000 échantillons. Conformément à la pratique courante, nous utilisons le score esthétique et le score CLIP pour garantir une qualité d'image et un alignement image-texte élevés. En outre, nous prenons soin de diversifier les données au sein de chaque catégorie.

Pour Playground v2, nous indiquons à la fois le FID global et le FID par catégorie. Toutes les mesures FID sont calculées à une résolution de 1024×1024. Nos résultats de référence montrent que notre modèle est plus performant que SDXL-1-0-refiner en termes de FID global et de FID par catégorie, en particulier dans les catégories personnes et mode. Cela correspond aux résultats de l'étude sur les utilisateurs, qui indique une corrélation entre la préférence humaine et le score FID sur le benchmark MJHQ-30K.

Nous rendons ce benchmark public et encourageons la communauté à l'adopter pour évaluer la qualité esthétique de leurs modèles.

ModèleFIDClip Score
SDXL-1-0-refiner13.0432.62
playground-v2-256px-base9.8331.90
playground-v2-512px-base9.5532.08

En dehors de aire de jeux-v2-1024px-aestheticPour ce faire, nous mettons à la disposition de la communauté des points de contrôle intermédiaires à différentes étapes de la formation afin d'encourager la recherche sur les modèles de fondation en pixels. Nous présentons ici le score FID et le score CLIP sur l'ensemble d'évaluation MSCOCO14 à des fins de référence. (Il convient de noter que les chiffres que nous indiquons peuvent différer des chiffres indiqués dans les résultats publiés par SDXL, étant donné que notre liste d'invites peut être différente).

fr_FRFrench