Playground v2 - Novo modelo estético de 1024px

Isso é interessante! O Playground v2 - 1024px Aesthetic Model parece ser uma ferramenta poderosa para gerar imagens de alta qualidade e esteticamente agradáveis. Estou familiarizado com Hugging Face e Diffusers, pelo que compreendo as potenciais aplicações deste modelo.

Pode dizer-me mais sobre os seus objectivos para utilizar este modelo? Está interessado em utilizá-lo para projectos criativos, trabalhos artísticos pessoais ou algo completamente diferente? Saber mais sobre as suas necessidades específicas ajudar-me-á a fornecer informações mais relevantes e úteis.

  • Assistência técnica: Se não estiver familiarizado com a utilização do Hugging Face ou dos difusores, posso ajudá-lo a começar, explicando-lhe as bases e fornecendo-lhe recursos para aprender mais.
  • Inspiração criativa: Posso ajudá-lo a ter ideias para sugestões e cenários a utilizar com o modelo para gerar tipos específicos de imagens estéticas.
  • Comparação com outras opções: Se estiver a considerar outros modelos para gerar imagens, posso compará-los e contrastá-los com o modelo Playground v2 para o ajudar a tomar uma decisão informada.

Estou ansioso por saber mais sobre a forma como tencionam utilizar esta tecnologia fantástica!

Parque infantil v2 é um modelo generativo de texto para imagem baseado na difusão. O modelo foi treinado de raiz pela equipa de investigação da Parque infantil.

As imagens geradas pelo Playground v2 são favorecidas 2.5 vezes mais do que os produzidos pelo Stable Diffusion XL, de acordo com a estudo de utilizadores.

É com grande entusiasmo que lançamos pontos de controlo intermédios em diferentes fases de formação, incluindo métricas de avaliação, para a comunidade. Esperamos que isto incentive mais investigação sobre modelos fundamentais para a geração de imagens.

Por último, introduzimos um novo parâmetro de referência, MJHQ-30Kpara a avaliação automática da qualidade estética de um modelo.

Consulte a nossa blogue para mais pormenores.

Instalar o diffusers >= 0.24.0 e algumas dependências:

pip instala transformadores acelera os safetensores

Para utilizar o modelo, execute o seguinte snippet.

Nota: Recomenda-se a utilização de escala_de_orientação=3.0.

from diffusers import DiffusionPipeline
importar tocha

pipe = DiffusionPipeline.from_pretrained(
    "playgroundai/playground-v2-1024px-aesthetic",
    torch_dtype=torch.float16,
    use_safetensors=True,
    add_watermarker=False,
    variant="fp16"
)
pipe.to("cuda")

prompt = "Astronauta numa selva, paleta de cores frias, cores suaves, pormenor, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]

Para utilizar o modelo com software como o Automatic1111 ou o ComfyUI, pode utilizar playground-v2.fp16.safetensors ficheiro.

De acordo com os estudos de utilizadores realizados pelo Playground, que envolveram mais de 2600 prompts e milhares de utilizadores, as imagens geradas pelo Playground v2 são preferidas 2.5 vezes mais do que os produzidos por Difusão estável XL.

Comunicamos as preferências dos utilizadores em PartiPromptsseguindo as práticas habituais, e num conjunto de dados interno de solicitações selecionado pela equipa do Playground. O conjunto de dados "1K interno" é diversificado e abrange várias categorias e tarefas.

Durante o estudo do utilizador, damos-lhe instruções para avaliar os pares de imagens com base (1) na sua preferência estética e (2) no alinhamento imagem-texto.

imagem/png
ModeloFID global
SDXL-1-0-refinador9.55
parque infantil-v2-1024px-estético7.07

Introduzimos um novo parâmetro de referência, MJHQ-30Kpara a avaliação automática da qualidade estética de um modelo. O parâmetro de referência calcula o FID num conjunto de dados de alta qualidade para avaliar a qualidade estética.

Seleccionámos um conjunto de dados de alta qualidade a partir de Meio da viagemcom 10 categorias comuns, contendo cada categoria 3.000 amostras. Seguindo a prática comum, utilizamos a pontuação estética e a pontuação CLIP para garantir uma elevada qualidade de imagem e um elevado alinhamento imagem-texto. Além disso, tomamos um cuidado extra para que os dados sejam diversificados dentro de cada categoria.

Para o Playground v2, comunicamos o FID global e o FID por categoria. Todas as métricas de FID são calculadas com uma resolução de 1024×1024. Os nossos resultados de referência mostram que o nosso modelo tem um desempenho superior ao do refinador SDXL-1-0 no FID global e em todos os FIDs de categoria, especialmente nas categorias de pessoas e moda. Isto está de acordo com os resultados do estudo do utilizador, que indica uma correlação entre a preferência humana e a pontuação do FID no parâmetro de referência MJHQ-30K.

Divulgamos esta referência ao público e incentivamos a comunidade a adoptá-la para avaliar a qualidade estética dos seus modelos.

ModeloFIDPontuação do clip
SDXL-1-0-refinador13.0432.62
playground-v2-256px-base9.8331.90
playground-v2-512px-base9.5532.08

Para além de parque infantil-v2-1024px-estéticoEm conjunto com o MSCOCO14, divulgamos à comunidade pontos de controlo intermédios em diferentes fases de formação, a fim de promover a investigação de modelos de base em pixéis. Aqui, reportamos a pontuação FID e a pontuação CLIP no conjunto de avaliação MSCOCO14 para efeitos de referência. (Note-se que os nossos números reportados podem diferir dos números reportados nos resultados publicados pela SDXL, uma vez que a nossa lista de pedidos pode ser diferente).

pt_PTPortuguese