Stabil diffusion

Stabil diffusion v1-5 Modellkort

Stable Diffusion är en latent text-till-bild-diffusionsmodell som kan generera fotorealistiska bilder med hjälp av textinmatning. Mer information om hur Stable Diffusion fungerar finns på 🤗s blogg om stabil diffusion.

Den Stabil-Diffusion-v1-5 checkpoint initierades med vikterna för Stabil-diffusion-v1-2 checkpoint och därefter finjusterat i 595k steg med upplösning 512×512 på "laion-aesthetics v2 5+" och 10% borttagning av textkonditioneringen för att förbättra Klassificeringsfri provtagning för vägledning.

Du kan använda detta både med 🧨Diffusers bibliotek och RunwayML GitHub-förvar.

Diffusorer

från diffusorer importera StableDiffusionPipeline
importera fackla

modell_id = "runwayml/stabil-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "ett foto av en astronaut som rider på en häst på Mars"
bild = pipe(prompt).images[0]
    
image.save("astronaut_rider_häst.png")

För mer detaljerade instruktioner, användningsfall och exempel på JAX, följ instruktionerna här

Ursprungligt GitHub-arkiv

  1. Ladda ner vikterna
  2. Följ instruktionerna här.

Modelldetaljer

  • Utvecklad av: Robin Rombach, Patrick Esser
  • Modell typ: Diffusionsbaserad modell för text-till-bild-generering
  • Språk: Engelska
  • Licens: CreativeML OpenRAIL M-licensen är en Öppen RAIL M-licens, anpassat efter det arbete som Stor vetenskap och RAIL-initiativet är gemensamt drivande inom området ansvarsfull AI-licensiering. Se även artikeln om BLOOM Open RAIL-licensen som vår licens är baserad på.
  • Modellbeskrivning: Detta är en modell som kan användas för att generera och modifiera bilder baserat på textmeddelanden. Det är en Latent diffusionsmodell som använder en fast, förtränad textkodare (CLIP ViT-L/14) som föreslås i Imagen papper.
  • Resurser för mer information: GitHub-förvarTidning.
  • Citera som:@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {juni}, year = {2022}, pages = {10684-10695} }

Användningsområden

Direkt användning

Modellen är endast avsedd för forskningsändamål. Möjliga forskningsområden och uppgifter omfattar

  • Säker driftsättning av modeller som har potential att generera skadligt innehåll.
  • Undersöka och förstå begränsningar och fördomar hos generativa modeller.
  • Skapande av konstverk och användning i design och andra konstnärliga processer.
  • Tillämpningar i pedagogiska eller kreativa verktyg.
  • Forskning om generativa modeller.

Uteslutna användningsområden beskrivs nedan.

Missbruk, skadlig användning och användning utanför räckvidden

Anmärkning: Detta avsnitt är hämtat från Modellkort för DALLE-MINI, men gäller på samma sätt för Stable Diffusion v1.

Modellen bör inte användas för att avsiktligt skapa eller sprida bilder som skapar fientliga eller alienerande miljöer för människor. Detta inkluderar att generera bilder som människor kan förväntas finna störande, oroande eller stötande, eller innehåll som sprider historiska eller aktuella stereotyper.

Användning utanför tillämpningsområdet

Modellen har inte tränats för att vara sakliga eller sanna återgivningar av personer eller händelser, och därför ligger det utanför modellens förmågor att använda modellen för att generera sådant innehåll.

Missbruk och skadlig användning

Att använda modellen för att generera innehåll som är grymt mot individer är ett missbruk av denna modell. Detta inkluderar, men är inte begränsat till:

  • Skapa förnedrande, avhumaniserande eller på annat sätt skadliga representationer av människor eller deras miljöer, kulturer, religioner etc.
  • Avsiktligt främja eller sprida diskriminerande innehåll eller skadliga stereotyper.
  • Utge sig för att vara en person utan dennes samtycke.
  • Sexuellt innehåll utan samtycke från de personer som kan komma att se det.
  • Felaktig och desinformation
  • Representationer av grovt våld och gore
  • Delning av upphovsrättsskyddat eller licensierat material i strid med dess användarvillkor.
  • Dela innehåll som är en ändring av upphovsrättsskyddat eller licensierat material i strid med dess användarvillkor.

Begränsningar och partiskhet

Begränsningar

  • Modellen uppnår inte perfekt fotorealism
  • Modellen kan inte återge läsbar text
  • Modellen presterar inte bra på svårare uppgifter som involverar kompositionalitet, som att rendera en bild som motsvarar "En röd kub ovanpå en blå sfär"
  • Ansikten och personer i allmänhet kanske inte genereras korrekt.
  • Modellen tränades huvudsakligen med engelska bildtexter och fungerar inte lika bra på andra språk.
  • Modellens autoenkodningsdel är förlustbaserad
  • Modellen tränades på ett storskaligt dataset LAION-5B som innehåller material för vuxna och inte är lämplig för produktanvändning utan ytterligare säkerhetsmekanismer och överväganden.
  • Inga ytterligare åtgärder användes för att deduplicera datasetet. Som ett resultat av detta observerar vi en viss grad av memorering för bilder som är duplicerade i träningsdata. Träningsdata kan sökas på https://rom1504.github.io/clip-retrieval/ för att eventuellt underlätta upptäckten av memorerade bilder.

Bias

Bildgenereringsmodellernas kapacitet är imponerande, men de kan också förstärka eller förvärra sociala fördomar. Stable Diffusion v1 tränades på delmängder av LAION-2B(sv), som består av bilder som huvudsakligen är begränsade till engelska beskrivningar. Texter och bilder från samhällen och kulturer som använder andra språk kommer sannolikt inte att beaktas i tillräcklig utsträckning. Detta påverkar modellens övergripande resultat, eftersom vita och västerländska kulturer ofta används som standard. Dessutom är modellens förmåga att generera innehåll med icke-engelskspråkiga uppmaningar betydligt sämre än med engelskspråkiga uppmaningar.

Säkerhetsmodul

Den avsedda användningen av denna modell är med Säkerhetskontroll i Diffusorer. Denna kontroll fungerar genom att kontrollera modellutdata mot kända hårdkodade NSFW-koncept. Begreppen är avsiktligt dolda för att minska sannolikheten för omvänd ingenjörskonst av detta filter. Specifikt jämför kontrollen klassens sannolikhet för skadliga begrepp i inbäddningsrymden för CLIPTextModel efter generation av bilderna. Begreppen förs in i modellen med den genererade bilden och jämförs med en handberäknad vikt för varje NSFW-begrepp.

Utbildning

Utbildningsdata Modellutvecklarna använde följande dataset för att träna modellen:

  • LAION-2B (en) och undergrupper därav (se nästa avsnitt)

Utbildningsförfarande Stabil Diffusion v1-5 är en latent diffusionsmodell som kombinerar en autoencoder med en diffusionsmodell som tränas i autoencoderns latenta utrymme. Under träningen,

  • Bilderna kodas genom en kodare som omvandlar bilderna till latenta representationer. Den automatiska kodaren använder en relativ nedsamplingsfaktor på 8 och mappar bilder med formen H x W x 3 till latenta bilder med formen H/f x W/f x 4
  • Textmeddelanden kodas genom en ViT-L/14-textkodare.
  • Den icke-poolade produktionen från textkodaren matas in i UNet-backbonen för den latenta diffusionsmodellen via cross-attention.
  • Förlusten är ett rekonstruktionsmål mellan det brus som lades till den latenta och den förutsägelse som gjordes av UNet.

För närvarande finns sex kontrollpunkter för stabil diffusion, som tränades enligt följande.

  • stabil-diffusion-v1-1: 237 000 steg vid upplösning 256x256 på laion2B-en. 194 000 steg vid resolution 512x512 på laion-hög upplösning (170M exempel från LAION-5B med upplösning >= 1024x1024).
  • stabil-diffusion-v1-2: Återupptaget från stabil-diffusion-v1-1. 515.000 steg vid upplösning 512x512 på "laion-improved-aesthetics" (en delmängd av laion2B-en, filtrerad till bilder med en originalstorlek >= 512x512, uppskattad estetisk poäng > 5.0och en uppskattad sannolikhet för vattenmärket < 0.5. Uppskattningen av vattenstämpeln kommer från LAION-5B-metadata, den estetiska poängen uppskattas med hjälp av en uppskattare av förbättrad estetik).
  • stabil-diffusion-v1-3: Återupptaget från stabil-diffusion-v1-2 - 195 000 steg vid resolution 512x512 on "laion-improved-aesthetics" and 10 % dropping of the text-konditionering för att förbättra Klassificeringsfri provtagning för vägledning.
  • stabil-diffusion-v1-4 Återupptagen från stabil-diffusion-v1-2 - 225 000 steg vid resolution 512x512 on "laion-aesthetics v2 5+" and 10 % dropping of the text-conditioning to improve Klassificeringsfri provtagning för vägledning.
  • stabil-diffusion-v1-5 Återupptagen från stabil-diffusion-v1-2 - 595 000 steg vid upplösning 512x512 on "laion-aesthetics v2 5+" and 10 % dropping of the text-conditioning to improve Klassificeringsfri provtagning för vägledning.
  • stabil-diffusion-inmålning Återupptagen från stabil-diffusion-v1-5 - sedan 440 000 steg av inpainting-träning med upplösningen 512×512 på "laion-aesthetics v2 5+" och 10% bortfall av textkonditioneringen. För inpainting har UNet ytterligare 5 ingångskanaler (4 för den kodade maskerade bilden och 1 för själva masken) vars vikter noll-initialiserades efter återställning av kontrollpunkten för icke-inpainting. Under träningen genererar vi syntetiska masker och i 25% maskerar vi allt.
  • Hårdvara: 32 x 8 x A100 GPU:er
  • Optimerare: AdamW
  • Gradient ackumulering: 2
  • Batch: 32 x 8 x 2 x 4 = 2048
  • Inlärningshastighet: uppvärmning till 0,0001 i 10 000 steg och hålls sedan konstant

Resultat av utvärdering

Utvärderingar med olika klassificeringsfria vägledningsskalor (1,5, 2,0, 3,0, 4,0, 5,0, 6,0, 7,0, 8,0) och 50 PNDM/PLMS-provtagningssteg visar de relativa förbättringarna av kontrollpunkterna:

Pareto

Utvärderad med 50 PLMS-steg och 10000 slumpmässiga frågor från COCO2017-valideringsuppsättningen, utvärderad med 512×512-upplösning. Inte optimerad för FID-poäng.

Miljöpåverkan

Stabil diffusion v1 Beräknade utsläpp Baserat på denna information uppskattar vi följande CO2-utsläpp med hjälp av Kalkylator för maskininlärningens inverkan presenteras i Lacoste et al (2019). Hårdvaran, körtiden, molnleverantören och beräkningsregionen användes för att uppskatta koldioxidpåverkan.

  • Typ av hårdvara: A100 PCIe 40GB
  • Använda timmar: 150000
  • Molnleverantör: AWS
  • Beräkningsregion: USA-Öst
  • Koldioxidutsläpp (elförbrukning x tid x koldioxidutsläpp baserat på var elnätet är beläget): 11250 kg CO2 ekv.

Citat

    @InProceedings{Rombach_2022_CVPR,
        author = {Rombach, Robin och Blattmann, Andreas och Lorenz, Dominik och Esser, Patrick och Ommer, Bj\"orn},
        title = {Högupplöst bildsyntes med latenta diffusionsmodeller},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month = {juni},
        år = {2022},
        pages = {10684-10695}
    }

Detta modellkort skrevs av: Robin Rombach och Patrick Esser och är baserad på DALL-E Mini modellkort.