da_DKDanish

Playground v2 - Ny 1024px æstetisk model

Det er interessant! Playground v2 - 1024px Aesthetic Model lyder som et stærkt værktøj til at generere æstetisk tiltalende billeder i høj kvalitet. Jeg er bekendt med både Hugging Face og Diffusers, så jeg forstår de potentielle anvendelser af denne model.

Kan du fortælle mig mere om dine mål med at bruge denne model? Er du interesseret i at bruge den til kreative projekter, personlige kunstværker eller noget helt andet? Hvis jeg ved mere om dine specifikke behov, kan jeg give dig mere relevante og nyttige oplysninger.

  • Teknisk bistand: Hvis du ikke er vant til at bruge Hugging Face eller Diffusers, kan jeg hjælpe dig med at komme i gang ved at forklare det grundlæggende og give dig ressourcer til yderligere læring.
  • Kreativ inspiration: Jeg kan hjælpe dig med at brainstorme ideer til prompts og indstillinger, som du kan bruge sammen med modellen til at skabe specifikke æstetiske billeder.
  • Sammenligning med andre muligheder: Hvis du overvejer andre modeller til generering af billeder, kan jeg sammenligne dem med Playground v2-modellen, så du kan træffe en informeret beslutning.

Jeg er spændt på at høre mere om, hvordan du har tænkt dig at bruge denne spændende teknologi!

Legeplads v2 er en diffusionsbaseret generativ tekst-til-billede-model. Modellen blev trænet helt fra bunden af forskerholdet på Legeplads.

Billeder genereret af Playground v2 foretrækkes 2.5 gange mere end dem, der produceres af Stable Diffusion XL, ifølge Playgrounds Brugerundersøgelse.

Vi er begejstrede for at udgive mellemliggende kontrolpunkter på forskellige træningsstadier, herunder evalueringsmålinger, til fællesskabet. Vi håber, at dette vil tilskynde til yderligere forskning i grundlæggende modeller til billedgenerering.

Til sidst introducerer vi et nyt benchmark, MJHQ-30K, til automatisk evaluering af en models æstetiske kvalitet.

Se venligst vores blog for flere detaljer.

Installer diffusers >= 0.24.0 og nogle afhængigheder:

pip install transformers accelerate safetensors

For at bruge modellen skal du køre følgende uddrag.

Bemærk: Det anbefales at bruge guidance_scale=3.0.

fra diffusers import DiffusionPipeline
import fakkel

pipe = DiffusionPipeline.from_pretrained(
    "playgroundai/playground-v2-1024px-aesthetic",
    torch_dtype=torch.float16,
    use_safetensors=True,
    add_watermarker=False,
    variant="fp16"
)
pipe.to("cuda")

prompt = "Astronaut i en jungle, kold farvepalet, dæmpede farver, detaljeret, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]

For at kunne bruge modellen med software som Automatic1111 eller ComfyUI kan du bruge legeplads-v2.fp16.safetensors fil.

Ifølge brugerundersøgelser foretaget af Playground, der involverer over 2.600 prompts og tusindvis af brugere, er de billeder, der genereres af Playground v2, foretrukne 2.5 gange mere end dem, der produceres af Stabil diffusion XL.

Vi rapporterer brugerpræferencemålinger på PartiPrompts, efter standardpraksis, og på et internt prompt-datasæt kurateret af Playground-teamet. Det "interne 1K"-prompt-datasæt er mangfoldigt og dækker forskellige kategorier og opgaver.

Under brugerundersøgelsen giver vi brugerne instruktioner om at evaluere billedpar baseret på både (1) deres æstetiske præferencer og (2) billed-tekst-tilpasningen.

billede/png
ModelSamlet FID
SDXL-1-0-refiner9.55
legeplads-v2-1024px-æstetisk7.07

Vi introducerer et nyt benchmark, MJHQ-30K, til automatisk evaluering af en models æstetiske kvalitet. Benchmarket beregner FID på et datasæt af høj kvalitet for at måle den æstetiske kvalitet.

Vi har kurateret et datasæt af høj kvalitet fra Midt på rejsenmed 10 fælles kategorier, hvor hver kategori indeholder 3.000 eksempler. Efter almindelig praksis bruger vi æstetisk score og CLIP-score til at sikre høj billedkvalitet og høj tilpasning mellem billede og tekst. Desuden er vi ekstra omhyggelige med at gøre dataene forskelligartede inden for hver kategori.

For Playground v2 rapporterer vi både den samlede FID og FID pr. kategori. Alle FID-målinger er beregnet ved en opløsning på 1024×1024. Vores benchmark-resultater viser, at vores model overgår SDXL-1-0-refiner i samlet FID og alle kategori FID'er, især i kategorierne mennesker og mode. Dette er i tråd med resultaterne af brugerundersøgelsen, som indikerer en sammenhæng mellem menneskelig præference og FID-score på MJHQ-30K-benchmarket.

Vi frigiver dette benchmark til offentligheden og opfordrer samfundet til at anvende det til benchmarking af deres modellers æstetiske kvalitet.

ModelFIDKlipscore
SDXL-1-0-refiner13.0432.62
playground-v2-256px-base9.8331.90
playground-v2-512px-base9.5532.08

Bortset fra legeplads-v2-1024px-æstetiskfrigiver vi mellemliggende kontrolpunkter på forskellige træningsstadier til fællesskabet for at fremme forskning i fundamentmodeller i pixels. Her rapporterer vi FID-score og CLIP-score på MSCOCO14-evalueringssættet til referenceformål. (Bemærk, at vores rapporterede tal kan afvige fra de tal, der er rapporteret i SDXL's offentliggjorte resultater, da vores promptliste kan være anderledes).

da_DKDanish