Carte modèle de diffusion stable v1-5
Stable Diffusion est un modèle de diffusion latente texte-image capable de générer des images photo-réalistes à partir de n'importe quel texte. Pour plus d'informations sur le fonctionnement de Stable Diffusion, veuillez consulter le site suivant Le blog de 🤗's Stable Diffusion.
Les Stable-Diffusion-v1-5 a été initialisé avec les poids du Stable-Diffusion-v1-2 et ensuite affiné sur 595k pas à la résolution 512×512 sur "laion-aesthetics v2 5+" et 10% abandon du conditionnement du texte pour améliorer la qualité de l'information. l'échantillonnage d'orientation sans classificateur.
Vous pouvez l'utiliser à la fois avec le 🧨Diffuseurs de la bibliothèque et le Dépôt GitHub RunwayML.
Diffuseurs
from diffuseurs import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "une photo d'un astronaute à cheval sur mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Pour des instructions plus détaillées, des cas d'utilisation et des exemples de JAX, veuillez suivre les instructions suivantes ici
Dépôt GitHub original
- Télécharger les poids
- v1-5-pruned-emaonly.ckpt - 4.27GB, poids ema-only. utilise moins de VRAM - convient pour l'inférence
- v1-5-pruned.ckpt - 7,7 Go, poids ema+non-ema. utilise plus de VRAM - convient pour un réglage fin
- Suivre les instructions ici.
Détails du modèle
- Développé par : Robin Rombach, Patrick Esser
- Type de modèle : Modèle de génération texte-image basé sur la diffusion
- Langue(s) : Anglais
- Licence : La licence CreativeML OpenRAIL M est un Licence ouverte RAIL M, adapté de l'œuvre que BigScience et l'initiative RAIL mènent conjointement des actions dans le domaine de l'octroi de licences d'IA responsables. Voir aussi l'article sur la licence BLOOM Open RAIL sur lequel notre licence est basée.
- Description du modèle : Il s'agit d'un modèle qui peut être utilisé pour générer et modifier des images sur la base d'invites textuelles. Il s'agit d'un Modèle de diffusion latente qui utilise un codeur de texte fixe et pré-entraîné (CLIP ViT-L/14), comme le suggère la Papier Imagen.
- Ressources pour plus d'informations : Dépôt GitHub, Papier.
- Citer comme :
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
Utilisations
Utilisation directe
Le modèle est destiné à des fins de recherche uniquement. Les domaines de recherche et les tâches possibles sont les suivants
- Déploiement en toute sécurité de modèles susceptibles de générer des contenus préjudiciables.
- Sonder et comprendre les limites et les biais des modèles génératifs.
- Création d'œuvres d'art et utilisation dans la conception et d'autres processus artistiques.
- Applications dans les outils éducatifs ou créatifs.
- Recherche sur les modèles génératifs.
Les utilisations exclues sont décrites ci-dessous.
Mauvais usage, usage malveillant et usage hors du champ de l'enquête
Note : Cette section est tirée de la Carte modèle DALLE-MINImais s'applique de la même manière à la diffusion stable v1.
Le modèle ne doit pas être utilisé pour créer ou diffuser intentionnellement des images qui créent des environnements hostiles ou aliénants pour les personnes. Il s'agit notamment de générer des images que les gens pourraient vraisemblablement trouver dérangeantes, pénibles ou offensantes, ou des contenus qui propagent des stéréotypes historiques ou actuels.
Utilisation hors du champ de l'enquête
Le modèle n'a pas été formé pour être une représentation factuelle ou véridique de personnes ou d'événements, et l'utilisation du modèle pour générer ce type de contenu est donc hors de portée des capacités de ce modèle.
Utilisation abusive et malveillante
L'utilisation du modèle pour générer un contenu cruel pour les individus constitue un usage abusif de ce modèle. Cela inclut, mais n'est pas limité à :
- Générer des représentations dégradantes, déshumanisantes ou autrement nuisibles des personnes ou de leur environnement, de leur culture, de leur religion, etc.
- Promouvoir ou propager intentionnellement des contenus discriminatoires ou des stéréotypes nuisibles.
- usurper l'identité d'une personne sans son consentement.
- Contenu sexuel sans le consentement des personnes susceptibles de le voir.
- Fausses informations et désinformation
- Représentations d'une violence et d'un gore flagrants
- Partage de matériel protégé par des droits d'auteur ou des licences en violation des conditions d'utilisation.
- Partager du contenu qui est une altération d'un matériel protégé par des droits d'auteur ou sous licence, en violation de ses conditions d'utilisation.
Limites et biais
Limites
- Le modèle n'atteint pas un photoréalisme parfait
- Le modèle ne peut pas rendre un texte lisible
- Le modèle ne donne pas de bons résultats pour les tâches plus difficiles qui impliquent la composition, telles que le rendu d'une image correspondant à "Un cube rouge au-dessus d'une sphère bleue"
- Les visages et les personnes en général peuvent ne pas être générés correctement.
- Le modèle a été formé principalement avec des sous-titres en anglais et ne fonctionnera pas aussi bien dans d'autres langues.
- La partie auto-codage du modèle est avec perte
- Le modèle a été entraîné sur un ensemble de données à grande échelle LAION-5B qui contient du matériel pour adultes et n'est pas adapté à l'utilisation du produit sans mécanismes et considérations de sécurité supplémentaires.
- Aucune mesure supplémentaire n'a été utilisée pour dédupliquer l'ensemble de données. Par conséquent, nous observons un certain degré de mémorisation pour les images qui sont dupliquées dans les données d'apprentissage. Les données d'entraînement peuvent être consultées à l'adresse suivante https://rom1504.github.io/clip-retrieval/ pour éventuellement aider à la détection d'images mémorisées.
Biais
Si les capacités des modèles de génération d'images sont impressionnantes, elles peuvent également renforcer ou exacerber les préjugés sociaux. Stable Diffusion v1 a été entraîné sur des sous-ensembles d'images de LAION-2B(en)Les textes et les images provenant de communautés et de cultures utilisant d'autres langues risquent de ne pas être suffisamment pris en compte. Les textes et les images provenant de communautés et de cultures qui utilisent d'autres langues risquent de ne pas être suffisamment pris en compte. Cela affecte le résultat global du modèle, car les cultures blanches et occidentales sont souvent définies par défaut. En outre, la capacité du modèle à générer du contenu avec des invites non anglaises est nettement moins bonne qu'avec des invites anglaises.
Module de sécurité
Ce modèle est destiné à être utilisé avec le Contrôleur de sécurité dans Diffuseurs. Ce vérificateur vérifie les sorties du modèle par rapport à des concepts NSFW codés en dur. Les concepts sont intentionnellement cachés pour réduire la probabilité d'une rétro-ingénierie de ce filtre. Plus précisément, le vérificateur compare la probabilité de classe des concepts nuisibles dans l'espace d'intégration du filtre CLIPTextModel
après génération des images. Les concepts sont introduits dans le modèle avec l'image générée et comparés à un poids élaboré à la main pour chaque concept NSFW.
Formation
Données de formation Les développeurs du modèle ont utilisé l'ensemble de données suivant pour l'entraînement du modèle :
- LAION-2B (en) et ses sous-ensembles (voir section suivante)
Procédure de formation Stable Diffusion v1-5 est un modèle de diffusion latent qui combine un autoencodeur avec un modèle de diffusion formé dans l'espace latent de l'autoencodeur. Pendant la formation,
- Les images sont encodées par un encodeur qui les transforme en représentations latentes. L'autoencodeur utilise un facteur de sous-échantillonnage relatif de 8 et associe les images de forme H x W x 3 à des latents de forme H/f x W/f x 4.
- Les invites textuelles sont encodées par un encodeur de texte ViT-L/14.
- La sortie non groupée du codeur de texte est introduite dans l'épine dorsale UNet du modèle de diffusion latente par le biais de l'attention croisée.
- La perte est un objectif de reconstruction entre le bruit qui a été ajouté au latent et la prédiction faite par l'UNet.
Actuellement, six points de contrôle de la diffusion stable sont fournis, qui ont été formés comme suit.
stable-diffusion-v1-1
: 237 000 pas à la résolution256x256
sur laion2B-fr. 194 000 pas à la résolution512x512
sur laion-haute-résolution (170M exemples de LAION-5B avec résolution>= 1024x1024
).stable-diffusion-v1-2
: Reprise dustable-diffusion-v1-1
. 515 000 pas à la résolution512x512
sur "laion-improved-aesthetics" (un sous-ensemble de laion2B-fr, filtré sur les images avec une taille originale>= 512x512
score esthétique estimé> 5.0
et une probabilité de filigrane estimée< 0.5
. L'estimation du filigrane provient des métadonnées de LAION-5B, le score esthétique est estimé à l'aide d'une méthode de calcul de l'indice de masse corporelle. Estimateur d'esthétique améliorée).stable-diffusion-v1-3
: Reprise dustable-diffusion-v1-2
- 195 000 pas à la résolution512x512
sur "laion-improved-aesthetics" et 10 % abandon du conditionnement du texte pour l'améliorer l'échantillonnage d'orientation sans classificateur.stable-diffusion-v1-4
Reprise destable-diffusion-v1-2
- 225 000 pas à la résolution512x512
sur "laion-aesthetics v2 5+" et 10 % abandon du conditionnement du texte pour améliorer la qualité du texte. l'échantillonnage d'orientation sans classificateur.stable-diffusion-v1-5
Reprise destable-diffusion-v1-2
- 595 000 pas à la résolution512x512
sur "laion-aesthetics v2 5+" et 10 % abandon du conditionnement du texte pour améliorer la qualité du texte. l'échantillonnage d'orientation sans classificateur.peinture par diffusion stable
Reprise destable-diffusion-v1-5
- puis 440 000 pas d'entraînement à l'inpainting à la résolution 512×512 sur "laion-aesthetics v2 5+" et 10% d'abandon du conditionnement du texte. Pour l'inpainting, l'UNet dispose de 5 canaux d'entrée supplémentaires (4 pour l'image masquée encodée et 1 pour le masque lui-même) dont les poids ont été réinitialisés à zéro après avoir restauré le point de contrôle de non-inpainting. Pendant l'entraînement, nous générons des masques synthétiques et, dans 25%, nous masquons tout.- Matériel : 32 x 8 x A100 GPU
- Optimiseur : AdamW
- Accumulations de gradients: 2
- Lot : 32 x 8 x 2 x 4 = 2048
- Taux d'apprentissage : échauffement à 0,0001 pour 10 000 pas, puis maintenue constante
Résultats de l'évaluation
Les évaluations avec différentes échelles d'orientation sans classificateur (1,5, 2,0, 3,0, 4,0, 5,0, 6,0, 7,0, 8,0) et 50 étapes d'échantillonnage PNDM/PLMS montrent les améliorations relatives des points de contrôle :
Évalué en utilisant 50 étapes PLMS et 10000 invites aléatoires de l'ensemble de validation COCO2017, évaluées à une résolution de 512×512. Non optimisé pour les scores FID.
Impact sur l'environnement
Diffusion stable v1 Estimation des émissions Sur la base de ces informations, nous estimons les émissions de CO2 suivantes à l'aide de la méthode d'évaluation des émissions de gaz à effet de serre. Calculateur d'impact de l'apprentissage automatique présenté en Lacoste et al. (2019). Le matériel, la durée d'exécution, le fournisseur de services en nuage et la région de calcul ont été utilisés pour estimer l'impact carbone.
- Type de matériel : A100 PCIe 40GB
- Heures utilisées : 150000
- Fournisseur de services en nuage : AWS
- Région de calcul : États-Unis - Est
- Carbone émis (consommation d'électricité x temps x carbone produit en fonction de la localisation du réseau électrique) : 11250 kg CO2 eq.
Citation
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {Synthèse d'images à haute résolution avec des modèles de diffusion latente},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
Cette carte modèle a été rédigée par : Robin Rombach et Patrick Esser et est basé sur le document Carte miniature DALL-E.