Det var intressant! The Playground v2 - 1024px Aesthetic Model låter som ett kraftfullt verktyg för att generera högkvalitativa, estetiskt tilltalande bilder. Jag är bekant med både Hugging Face och Diffusers, så jag förstår de potentiella tillämpningarna av denna modell.
Kan du berätta mer om dina mål med att använda den här modellen? Är du intresserad av att använda den för kreativa projekt, personliga konstverk eller något helt annat? Om jag vet mer om dina specifika behov kan jag ge dig mer relevant och användbar information.
Här är några saker jag kan erbjuda:
- Tekniskt bistånd: Om du inte är van vid att använda Hugging Face eller Diffusers kan jag hjälpa dig att komma igång genom att förklara grunderna och tillhandahålla resurser för vidareutbildning.
- Kreativ inspiration: Jag kan hjälpa dig att ta fram idéer för uppmaningar och inställningar som du kan använda med modellen för att skapa specifika typer av estetiska bilder.
- Jämförelse med andra alternativ: Om du funderar på andra modeller för bildgenerering kan jag jämföra dem med Playground v2-modellen för att hjälpa dig att fatta ett välgrundat beslut.
Jag ser fram emot att få veta mer om hur du planerar att använda denna spännande teknik!
Lekplats v2 är en diffusionsbaserad generativ modell för text-till-bild. Modellen tränades från grunden av forskargruppen vid Lekplats.
Bilder genererade av Playground v2 är favoriserade 2.5 gånger mer än de som producerats av Stable Diffusion XL, enligt Playgrounds användarstudie.
Vi är mycket glada över att kunna släppa mellanliggande kontrollpunkter i olika utbildningsstadier, inklusive utvärderingsmått, till samhället. Vi hoppas att detta kommer att uppmuntra till ytterligare forskning om grundläggande modeller för bildgenerering.
Slutligen introducerar vi ett nytt riktmärke, MJHQ-30K, för automatisk utvärdering av en modells estetiska kvalitet.
Vänligen se vår blogg för mer information.
Modellbeskrivning
- Utvecklad av: Lekplats
- Modell typ: Diffusionsbaserad generativ modell för text-till-bild
- Licens: Playground v2 gemenskapslicens
- Sammanfattning: Denna modell genererar bilder baserat på textmeddelanden. Det är en latent diffusionsmodell som använder två fasta, förtränade textkodare (OpenCLIP-ViT/G och CLIP-ViT/L). Den har samma arkitektur som Stabil diffusion XL.
Använda modellen med 🧨 Diffusorer
Installera diffusers >= 0.24.0 och vissa beroenden:
pip installera transformatorer accelerera safetensorer
För att använda modellen kör du följande utdrag.
Anmärkning: Det rekommenderas att använda vägledning_skala=3.0
.
från diffusorer importera DiffusionsPipeline
importera fackla
pipe = DiffusionPipeline.from_pretrained(
"lekplatsai/lekplats-v2-1024px-estetisk",
fackla_typ=fackla.float16,
använda_safetensorer=True,
add_watermarker=False,
variant="fp16"
)
pipe.to("cuda")
prompt = "Astronaut i en djungel, kall färgpalett, dämpade färger, detaljerad, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]
Använda modellen med Automatic1111/ComfyUI
För att använda modellen med programvara som Automatic1111 eller ComfyUI kan du använda lekplats-v2.fp16.safetensensorer
fil.
Studie av användare
Enligt användarstudier som genomförts av Playground, med över 2 600 uppmaningar och tusentals användare, är de bilder som genereras av Playground v2 att föredra 2.5 gånger mer än de som produceras av Stabil diffusion XL.
Vi rapporterar användarnas preferenser på PartiPrompts, enligt standardpraxis, och på ett internt promptdataset som sammanställts av Playground-teamet. Den interna 1K-datauppsättningen är mångsidig och täcker olika kategorier och uppgifter.
Under användarstudien ger vi användarna instruktioner om att utvärdera bildpar baserat på både (1) deras estetiska preferenser och (2) anpassningen mellan bild och text.
MJHQ-30K riktmärke
Modell | Övergripande FID |
---|---|
SDXL-1-0-refiner | 9.55 |
lekplats-v2-1024px-estetisk | 7.07 |
Vi introducerar ett nytt riktmärke, MJHQ-30K, för automatisk utvärdering av en modells estetiska kvalitet. Riktmärket beräknar FID på en högkvalitativ dataset för att mäta estetisk kvalitet.
Vi har sammanställt ett högkvalitativt dataset från Midjourney, med 10 vanliga kategorier, där varje kategori innehåller 3 000 exempel. Enligt gängse praxis använder vi estetisk poäng och CLIP-poäng för att säkerställa hög bildkvalitet och hög anpassning mellan bild och text. Dessutom är vi extra noga med att göra data mångsidiga inom varje kategori.
För Playground v2 rapporterar vi både det totala FID och FID per kategori. Alla FID-mått beräknas med upplösningen 1024×1024. Våra benchmarkresultat visar att vår modell överträffar SDXL-1-0-refiner i övergripande FID och FID för alla kategorier, särskilt i kategorierna människor och mode. Detta är i linje med resultaten från användarstudien, som indikerar en korrelation mellan mänskliga preferenser och FID-poäng på MJHQ-30K-riktmärket.
Vi släpper detta riktmärke till allmänheten och uppmuntrar samhället att anta det för att benchmarka sina modellers estetiska kvalitet.
Mellanliggande basmodeller
Modell | FID | Clip Score |
---|---|---|
SDXL-1-0-refiner | 13.04 | 32.62 |
playground-v2-256px-base | 9.83 | 31.90 |
playground-v2-512px-base | 9.55 | 32.08 |
Bortsett från lekplats-v2-1024px-estetisksläpper vi mellanliggande kontrollpunkter på olika utbildningsstadier till samhället för att främja grundmodellforskning i pixlar. Här rapporterar vi FID-resultatet och CLIP-resultatet för utvärderingsuppsättningen MSCOCO14 för referensändamål. (Observera att våra rapporterade siffror kan skilja sig från de siffror som rapporteras i SDXL:s publicerade resultat, eftersom vår promptlista kan vara annorlunda).