Playground v2 - Nuevo modelo estético de 1024px

¡Qué interesante! El modelo estético Playground v2 - 1024px suena como una poderosa herramienta para generar imágenes de alta calidad y estéticamente agradables. Estoy familiarizado tanto con Hugging Face como con Diffusers, así que entiendo las aplicaciones potenciales de este modelo.

¿Podrías contarme más sobre tus objetivos al utilizar este modelo? ¿Está interesado en utilizarlo para proyectos creativos, obras de arte personales o algo totalmente distinto? Saber más sobre sus necesidades específicas me ayudaría a proporcionarle información más pertinente y útil.

  • Asistencia técnica: Si no estás familiarizado con el uso de Hugging Face o difusores, puedo ayudarte a empezar explicándote los conceptos básicos y proporcionándote recursos para seguir aprendiendo.
  • Inspiración creativa: Puedo ayudarte a pensar en ideas sobre estímulos y escenarios que puedas utilizar con la modelo para generar determinados tipos de imágenes estéticas.
  • Comparación con otras opciones: Si está considerando otros modelos para generar imágenes, puedo compararlos y contrastarlos con el modelo Playground v2 para ayudarle a tomar una decisión informada.

Estoy impaciente por saber cómo piensa utilizar esta tecnología tan interesante.

Parque infantil v2 es un modelo generativo de texto a imagen basado en la difusión. El modelo fue entrenado desde cero por el equipo de investigación de Parque infantil.

Las imágenes generadas por Playground v2 se ven favorecidas 2.5 veces más que los producidos por Stable Diffusion XL, según la estudio de usuarios.

Estamos encantados de publicar puntos de control intermedios en distintas fases de formación, incluidas las métricas de evaluación, a la comunidad. Esperamos que esto anime a seguir investigando en modelos fundacionales para la generación de imágenes.

Por último, introducimos una nueva referencia, MJHQ-30Kpara la evaluación automática de la calidad estética de un modelo.

Consulte nuestro blog para más detalles.

Instalar difusores >= 0.24.0 y algunas dependencias:

pip instalar transformadores acelerar safetensores

Para utilizar el modelo, ejecute el siguiente fragmento.

Nota: Se recomienda utilizar escala_guia=3.0.

from difusores import DiffusionPipeline
importar antorcha

pipe = DiffusionPipeline.from_pretrained(
    "playgroundai/playground-v2-1024px-estético",
    torch_dtype=torch.float16,
    use_safetensors=True,
    add_watermarker=False,
    variant="fp16"
)
pipe.to("cuda")

prompt = "Astronauta en una jungla, paleta de colores fríos, colores apagados, detallado, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]

Para utilizar el modelo con software como Automatic1111 o ComfyUI puedes utilizar parque infantil-v2.fp16.safetensores archivo.

Según los estudios de usuarios realizados por Playground, con más de 2.600 indicaciones y miles de usuarios, las imágenes generadas por Playground v2 son las favoritas 2.5 veces más que los producidos por Difusión estable XL.

Informamos sobre las preferencias de los usuarios en PartiPromptssiguiendo la práctica habitual, y en un conjunto de datos interno elaborado por el equipo de Playground. El conjunto de datos "Internal 1K" es diverso y abarca varias categorías y tareas.

Durante el estudio de usuarios, les damos instrucciones para que evalúen pares de imágenes basándose tanto en (1) su preferencia estética como en (2) la alineación imagen-texto.

imagen/png
ModeloFID global
SDXL-1-0-refinador9.55
patio-v2-1024px-estética7.07

Introducimos un nuevo punto de referencia, MJHQ-30Kpara evaluar automáticamente la calidad estética de un modelo. La referencia calcula la FID en un conjunto de datos de alta calidad para medir la calidad estética.

Hemos recopilado un conjunto de datos de alta calidad de A mitad de caminocon 10 categorías comunes, cada una de las cuales contiene 3.000 muestras. Siguiendo la práctica habitual, utilizamos la puntuación estética y la puntuación CLIP para garantizar una alta calidad de imagen y una alta alineación imagen-texto. Además, ponemos especial cuidado en que los datos sean diversos dentro de cada categoría.

En el caso de Playground v2, informamos tanto del FID global como del FID por categoría. Todas las métricas FID se calculan con una resolución de 1024×1024. Nuestros resultados de referencia muestran que nuestro modelo supera a SDXL-1-0-refiner en la FID global y en todas las FID por categoría, especialmente en las categorías de personas y moda. Esto concuerda con los resultados del estudio de usuarios, que indica una correlación entre la preferencia humana y la puntuación FID en el benchmark MJHQ-30K.

Ponemos a disposición del público esta referencia y animamos a la comunidad a adoptarla para evaluar la calidad estética de sus modelos.

ModeloFIDClip Score
SDXL-1-0-refinador13.0432.62
playground-v2-256px-base9.8331.90
playground-v2-512px-base9.5532.08

Además de patio-v2-1024px-estéticaAdemás, ponemos a disposición de la comunidad puntos de control intermedios en distintas fases de entrenamiento para fomentar la investigación de modelos de cimentación en píxeles. Aquí, informamos de la puntuación FID y la puntuación CLIP en el conjunto de evaluación MSCOCO14 con fines de referencia. (Tenga en cuenta que nuestros números reportados pueden diferir de los números reportados en los resultados publicados de SDXL, ya que nuestra lista de puntos puede ser diferente).

es_ESSpanish