Stabil diffusion

Stabil diffusion v1-5 modelkort

Stable Diffusion er en latent tekst-til-billede-diffusionsmodel, der er i stand til at generere fotorealistiske billeder ud fra ethvert tekstinput. Hvis du vil vide mere om, hvordan Stable Diffusion fungerer, kan du kigge på 🤗s blog om stabil diffusion.

Den Stabil-diffusion-v1-5 checkpoint blev initialiseret med vægtene fra Stabil-diffusion-v1-2 checkpoint og efterfølgende finjusteret på 595k trin ved opløsning 512×512 på "laion-aesthetics v2 5+" og 10% dropper tekstkonditioneringen for at forbedre klassifikationsfri vejledende prøveudtagning.

Du kan bruge dette både med 🧨Diffusorernes bibliotek og den RunwayML GitHub-opbevaringssted.

Diffusorer

fra diffusers import StableDiffusionPipeline
import fakkel

model_id = "runwayml/stabil-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "et foto af en astronaut, der rider på en hest på Mars"
image = pipe(prompt).images[0]
    
image.save("astronaut_rides_horse.png")

For mere detaljerede instruktioner, use-cases og eksempler i JAX følg instruktionerne her

Oprindeligt GitHub-opbevaringssted

  1. Download vægtene
  2. Følg instruktionerne her.

Detaljer om modellen

  • Udviklet af: Robin Rombach, Patrick Esser
  • Model type: Diffusionsbaseret model til generering af tekst til billede
  • Sprog(e): Engelsk
  • Licens: CreativeML OpenRAIL M-licensen er en Åben RAIL M-licens, tilpasset fra det arbejde, som BigScience og RAIL-initiativet er fælles om ansvarlig AI-licensering. Se også artiklen om BLOOM Open RAIL-licensen som vores licens er baseret på.
  • Modelbeskrivelse: Dette er en model, der kan bruges til at generere og ændre billeder baseret på tekstprompter. Det er en Latent diffusionsmodel der bruger en fast, forudtrænet tekstkoder (CLIP ViT-L/14) som foreslået i Billedpapir.
  • Ressourcer til mere information: GitHub-arkivPapir.
  • Citeres som:@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {juni}, year = {2022}, pages = {10684-10695}. }

Anvendelser

Direkte brug

Modellen er kun beregnet til forskningsformål. Mulige forskningsområder og opgaver omfatter

  • Sikker implementering af modeller, der har potentiale til at generere skadeligt indhold.
  • Undersøgelse og forståelse af generative modellers begrænsninger og bias.
  • Produktion af kunstværker og brug i design og andre kunstneriske processer.
  • Anvendelser i pædagogiske eller kreative værktøjer.
  • Forskning i generative modeller.

Ekskluderede anvendelser er beskrevet nedenfor.

Misbrug, ondsindet brug og brug uden for scope

Bemærk: Dette afsnit er taget fra DALLE-MINI modelkort, men gælder på samme måde for Stabil Diffusion v1.

Modellen bør ikke bruges til bevidst at skabe eller udbrede billeder, der skaber fjendtlige eller fremmedgørende miljøer for mennesker. Dette omfatter generering af billeder, som folk kan forventes at finde forstyrrende, foruroligende eller stødende; eller indhold, der udbreder historiske eller aktuelle stereotyper.

Anvendelse uden for scope

Modellen blev ikke trænet til at være faktuelle eller sande repræsentationer af mennesker eller begivenheder, og derfor er det uden for denne models rækkevidde at bruge modellen til at generere sådant indhold.

Misbrug og ondsindet brug

Brug af modellen til at generere indhold, der er ondt mod enkeltpersoner, er misbrug af denne model. Dette omfatter, men er ikke begrænset til:

  • Generere nedværdigende, dehumaniserende eller på anden måde skadelige repræsentationer af mennesker eller deres miljøer, kulturer, religioner osv.
  • Forsætligt at fremme eller udbrede diskriminerende indhold eller skadelige stereotyper.
  • At udgive sig for at være personer uden deres samtykke.
  • Seksuelt indhold uden samtykke fra de personer, der kan se det.
  • Mis- og desinformation
  • Repræsentationer af grov vold og blodige scener
  • Deling af ophavsretligt beskyttet eller licenseret materiale i strid med dets brugsbetingelser.
  • Deling af indhold, der er en ændring af ophavsretligt beskyttet eller licenseret materiale i strid med dets brugsbetingelser.

Begrænsninger og bias

Begrænsninger

  • Modellen opnår ikke perfekt fotorealisme
  • Modellen kan ikke gengive læselig tekst
  • Modellen klarer sig ikke godt på sværere opgaver, der involverer kompositionalitet, såsom at gengive et billede, der svarer til "En rød terning oven på en blå kugle".
  • Ansigter og mennesker i almindelighed genereres måske ikke korrekt.
  • Modellen blev primært trænet med engelske undertekster og vil ikke fungere lige så godt på andre sprog.
  • Den automatiske kodningsdel af modellen er tabsgivende
  • Modellen blev trænet på et stort datasæt. LAION-5B som indeholder voksenmateriale og ikke er egnet til produktbrug uden yderligere sikkerhedsmekanismer og overvejelser.
  • Der blev ikke brugt yderligere foranstaltninger til at deduplikere datasættet. Som et resultat observerer vi en vis grad af memorisering for billeder, der er duplikeret i træningsdataene. Træningsdataene kan søges på https://rom1504.github.io/clip-retrieval/ for muligvis at hjælpe med at opdage billeder, der er gemt i hukommelsen.

Bias

Selvom billedgenereringsmodellernes evner er imponerende, kan de også forstærke eller forværre sociale fordomme. Stable Diffusion v1 blev trænet på delmængder af LAION-2B(da), som består af billeder, der primært er begrænset til engelske beskrivelser. Tekster og billeder fra samfund og kulturer, der bruger andre sprog, vil sandsynligvis ikke blive taget tilstrækkeligt i betragtning. Det påvirker modellens samlede output, da hvide og vestlige kulturer ofte er indstillet som standard. Desuden er modellens evne til at generere indhold med ikke-engelske prompts betydeligt dårligere end med engelsksprogede prompts.

Sikkerhedsmodul

Den tilsigtede brug af denne model er med Sikkerhedstjek i Diffusorer. Denne tjekker fungerer ved at tjekke modeloutput mod kendte hårdkodede NSFW-begreber. Begreberne er med vilje skjult for at reducere sandsynligheden for reverse-engineering af dette filter. Specifikt sammenligner checkeren klassesandsynligheden for skadelige koncepter i indlejringsrummet for CLIPTextModel efter generation af billederne. Begreberne sendes ind i modellen med det genererede billede og sammenlignes med en håndkonstrueret vægt for hvert NSFW-begreb.

Træning

Træningsdata Modeludviklerne brugte følgende datasæt til at træne modellen:

  • LAION-2B (en) og undergrupper heraf (se næste afsnit)

Træningsprocedure Stabil Diffusion v1-5 er en latent diffusionsmodel, som kombinerer en autoencoder med en diffusionsmodel, der er trænet i autoencoderens latente rum. Under træningen,

  • Billeder kodes gennem en encoder, som omdanner billeder til latente repræsentationer. Autoencoderen bruger en relativ downsampling-faktor på 8 og mapper billeder med formen H x W x 3 til latente billeder med formen H/f x W/f x 4.
  • Tekstprompter kodes gennem en ViT-L/14-tekstkoder.
  • Det ikke-poolede output fra tekstkoderen føres ind i UNet-backbonen i den latente diffusionsmodel via cross-attention.
  • Tabet er et rekonstruktionsmål mellem den støj, der blev føjet til den latente, og den forudsigelse, som UNet lavede.

I øjeblikket er der seks kontrolpunkter for stabil diffusion, som blev trænet på følgende måde.

  • stabil-diffusion-v1-1: 237.000 trin ved opløsning 256x256 på laion2B-en. 194.000 skridt ved opløsning 512x512 på laion-høj-opløsning (170M eksempler fra LAION-5B med opløsning >= 1024x1024).
  • stabil-diffusion-v1-2: Genoptaget fra stabil-diffusion-v1-1. 515.000 trin ved opløsning 512x512 på "laion-improved-aesthetics" (en delmængde af laion2B-en, filtreret til billeder med en original størrelse >= 512x512, estimeret æstetisk score > 5.0og en estimeret sandsynlighed for vandmærket < 0.5. Vandmærkeestimatet er fra LAION-5B metadata, den æstetiske score er estimeret ved hjælp af en forbedret æstetik-estimator).
  • stabil-diffusion-v1-3: Genoptaget fra stabil-diffusion-v1-2 - 195.000 skridt ved opløsning 512x512 på "laion-improved-aesthetics" og 10 % dropping af tekst-betingelsen for at forbedre klassifikationsfri vejledende prøveudtagning.
  • stabil-diffusion-v1-4 Genoptaget fra stabil-diffusion-v1-2 - 225.000 skridt ved opløsning 512x512 på "laion-aesthetics v2 5+" og 10 % dropper tekstbehandlingen for at forbedre klassifikationsfri vejledende prøveudtagning.
  • stabil-diffusion-v1-5 Genoptaget fra stabil-diffusion-v1-2 - 595.000 skridt ved opløsning 512x512 på "laion-aesthetics v2 5+" og 10 % dropper tekstbehandlingen for at forbedre klassifikationsfri vejledende prøveudtagning.
  • stabil-diffusion-maleri Genoptaget fra stabil-diffusion-v1-5 - derefter 440.000 trin af inpainting-træning ved opløsning 512×512 på "laion-aesthetics v2 5+" og 10% dropping af tekstkonditioneringen. Til inpainting har UNet 5 ekstra inputkanaler (4 til det kodede maskerede billede og 1 til selve masken), hvis vægte blev nul-initialiseret efter gendannelse af kontrolpunktet for ikke-inpainting. Under træningen genererer vi syntetiske masker, og i 25% maskerer vi alt.
  • Hardware: 32 x 8 x A100 GPU'er
  • Optimerer: AdamW
  • Akkumulering af gradienter: 2
  • Batch: 32 x 8 x 2 x 4 = 2048
  • Indlæringshastighed: opvarmning til 0,0001 i 10.000 trin og derefter holdt konstant

Evalueringsresultater

Evalueringer med forskellige klassificeringsfrie vejledningsskalaer (1,5, 2,0, 3,0, 4,0, 5,0, 6,0, 7,0, 8,0) og 50 PNDM/PLMS-prøvetagningstrin viser de relative forbedringer af kontrolpunkterne:

Pareto

Evalueret ved hjælp af 50 PLMS-trin og 10.000 tilfældige prompts fra COCO2017-valideringssættet, evalueret ved 512×512 opløsning. Ikke optimeret til FID-score.

Miljøpåvirkning

Stabil diffusion v1 Anslåede emissioner Baseret på disse oplysninger estimerer vi følgende CO2-emissioner ved hjælp af Beregner af effekten af maskinlæring præsenteret i Lacoste et al (2019). Hardware, runtime, cloud-udbyder og beregningsregion blev brugt til at estimere CO2-belastningen.

  • Hardware Type: A100 PCIe 40 GB
  • Brugte timer: 150000
  • Cloud-udbyder: AWS
  • Beregningsregion: USA-Øst
  • Udledt kulstof (strømforbrug x tid x produceret kulstof baseret på placering af elnet): 11250 kg CO2-ækv.

Citation

    @InProceedings{Rombach_2022_CVPR,
        author = {Rombach, Robin og Blattmann, Andreas og Lorenz, Dominik og Esser, Patrick og Ommer, Bj\"orn},
        title = {Højopløselig billedsyntese med latente diffusionsmodeller},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month = {juni},
        year = {2022},
        pages = {10684-10695}
    }

Dette modelkort er skrevet af: Robin Rombach og Patrick Esser og er baseret på DALL-E Mini modelkort.