Playground v2 - Nieuw esthetisch model van 1024px

Dat is interessant! Het Playground v2 - 1024px Aesthetic Model klinkt als een krachtig hulpmiddel voor het genereren van hoogwaardige, esthetisch aantrekkelijke afbeeldingen. Ik ben bekend met zowel Hugging Face als Diffusers, dus ik begrijp de potentiële toepassingen van dit model.

Kun je me meer vertellen over je doelen om dit model te gebruiken? Wil je het gebruiken voor creatieve projecten, persoonlijke kunstwerken of iets heel anders? Als ik meer weet over je specifieke behoeften, kan ik relevantere en nuttigere informatie geven.

  • Technische ondersteuning: Als je niet bekend bent met het gebruik van Hugging Face of Diffusers, kan ik je op weg helpen door de basisprincipes uit te leggen en bronnen aan te reiken om verder te leren.
  • Creatieve inspiratie: Ik kan je helpen ideeën te bedenken voor aanwijzingen en instellingen die je met het model kunt gebruiken om specifieke esthetische beelden te genereren.
  • Vergelijking met andere opties: Als je andere modellen overweegt voor het genereren van afbeeldingen, kan ik ze vergelijken met het Playground v2 model om je te helpen een weloverwogen beslissing te nemen.

Ik ben benieuwd hoe jullie deze spannende technologie gaan gebruiken!

Speelplaats v2 is een op diffusie gebaseerd tekst-naar-beeld generatief model. Het model is vanaf nul getraind door het onderzoeksteam van Speelplaats.

Afbeeldingen gegenereerd door Playground v2 zijn favoriet 2.5 keer meer dan die geproduceerd door Stable Diffusion XL, volgens Playground's gebruikersonderzoek.

We zijn verheugd om tussentijdse controlepunten in verschillende trainingsfasen, inclusief evaluatiemetrieken, aan de gemeenschap. We hopen dat dit verder onderzoek naar basismodellen voor beeldgeneratie zal stimuleren.

Tot slot introduceren we een nieuwe benchmark, MJHQ-30Kvoor automatische evaluatie van de esthetische kwaliteit van een model.

Bekijk onze blog voor meer informatie.

Installeer diffusers >= 0.24.0 en enkele afhankelijkheden:

pip installeer transformatoren versnellen safetensors

Voer het volgende fragment uit om het model te gebruiken.

Opmerking: Het wordt aanbevolen om begeleidingsschaal=3.0.

van diffusors importeer DiffusiePipeline
importeer toorts

pipe = DiffusionPipeline.from_pretrained(
    "speeltuinai/speeltuin-v2-1024px-esthetisch",
    torch_dtype=torch.float16,
    use_safetensors=True,
    add_watermarker=False,
    variant="fp16"
)
pipe.to("cuda")

prompt = "Astronaut in een jungle, koud kleurenpalet, gedempte kleuren, gedetailleerd, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]

Om het model te gebruiken met software zoals Automatic1111 of ComfyUI kun je het volgende gebruiken speeltuin-v2.fp16.veiligheidssensoren bestand.

Volgens gebruikersonderzoeken uitgevoerd door Playground, waarbij meer dan 2.600 prompts en duizenden gebruikers betrokken waren, zijn de afbeeldingen die door Playground v2 worden gegenereerd favoriet 2.5 keer meer dan die geproduceerd door Stabiele verspreiding XL.

We rapporteren statistieken over gebruikersvoorkeuren op PartiPromptsvolgens de standaardpraktijk en op een interne promptdataset die door het Playground-team is samengesteld. De "Interne 1K" prompt dataset is divers en omvat verschillende categorieën en taken.

Tijdens het gebruikersonderzoek geven we gebruikers instructies om afbeeldingsparen te evalueren op basis van zowel (1) hun esthetische voorkeur als (2) de afbeeldings-tekst alignment.

afbeelding/png
ModelAlgemene FID
SDXL-1-0-verfijner9.55
speeltuin-v2-1024px-esthetisch7.07

We introduceren een nieuwe benchmark, MJHQ-30Kvoor automatische evaluatie van de esthetische kwaliteit van een model. De benchmark berekent FID op een dataset van hoge kwaliteit om de esthetische kwaliteit te meten.

We hebben een hoogwaardige dataset samengesteld van Reis halverwegemet 10 algemene categorieën, waarbij elke categorie 3.000 voorbeelden bevat. Zoals gebruikelijk gebruiken we esthetische score en CLIP-score om een hoge beeldkwaliteit en een goede afstemming tussen beeld en tekst te garanderen. Verder besteden we extra aandacht aan de diversiteit van de gegevens binnen elke categorie.

Voor Playground v2 rapporteren we zowel de algemene FID als de FID per categorie. Alle FID-metingen worden berekend met een resolutie van 1024×1024. Onze benchmarkresultaten laten zien dat ons model beter presteert dan SDXL-1-0-refiner in de algemene FID en alle categorie-FID's, vooral in de categorieën mensen en mode. Dit komt overeen met de resultaten van het gebruikersonderzoek, dat een correlatie aangeeft tussen menselijke voorkeur en FID-score op de MJHQ-30K-benchmark.

We geven deze benchmark vrij aan het publiek en moedigen de gemeenschap aan om deze te gebruiken voor het benchmarken van de esthetische kwaliteit van hun modellen.

ModelFIDClip Score
SDXL-1-0-verfijner13.0432.62
playground-v2-256px-base9.8331.90
playground-v2-512px-base9.5532.08

Afgezien van speeltuin-v2-1024px-esthetischgeven we tussentijdse controlepunten in verschillende trainingsfasen vrij aan de gemeenschap om funderingsmodelonderzoek in pixels te stimuleren. Hier rapporteren we de FID-score en CLIP-score op de MSCOCO14 evaluatieset voor referentiedoeleinden. (Merk op dat de door ons gerapporteerde cijfers kunnen afwijken van de cijfers in de gepubliceerde resultaten van SDXL, omdat onze promptlijst anders kan zijn).

nl_NL_formalDutch