Это интересно! Эстетическая модель Playground v2 - 1024px звучит как мощный инструмент для создания высококачественных, эстетически приятных изображений. Я знаком и с Hugging Face, и с Diffusers, так что я понимаю потенциальные возможности применения этой модели.
Не могли бы вы рассказать мне подробнее о своих целях использования этой модели? Вы хотите использовать ее для творческих проектов, личных работ или для чего-то другого? Более подробная информация о ваших конкретных потребностях поможет мне предоставить более актуальную и полезную информацию.
Вот некоторые вещи, которые я могу предложить:
- Техническая помощь: Если вы не знакомы с использованием Hugging Face или диффузоров, я могу помочь вам начать, объяснив основы и предоставив ресурсы для дальнейшего обучения.
- Творческое вдохновение: Я могу помочь вам разработать идеи для подсказок и настроек, которые можно использовать с моделью для создания определенных видов эстетических образов.
- Сравнение с другими вариантами: Если вы рассматриваете другие модели для генерации изображений, я могу сравнить и сопоставить их с моделью Playground v2, чтобы помочь вам принять обоснованное решение.
Мне не терпится узнать больше о том, как вы планируете использовать эту захватывающую технологию!
Игровая площадка v2 это генеративная модель преобразования текста в изображение на основе диффузии. Модель была обучена с нуля исследовательской группой в Игровая площадка.
Изображениям, созданным Playground v2, отдается предпочтение 2.5 в несколько раз больше, чем у Stable Diffusion XL, согласно данным Playground. изучение пользователей.
Мы очень рады выпустить промежуточные контрольные точки на различных этапах обучения, включая метрики оценки, для сообщества. Мы надеемся, что это послужит стимулом для дальнейших исследований основополагающих моделей для генерации изображений.
Наконец, мы представляем новый бенчмарк, MJHQ-30KДля автоматической оценки эстетического качества модели.
Пожалуйста, ознакомьтесь с нашим блог для более подробной информации.
Описание модели
- Разработано: Игровая площадка
- Тип модели: Генеративная модель преобразования текста в изображение на основе диффузии
- Лицензия: Playground v2 Community License
- Резюме: Эта модель генерирует изображения на основе текстовых подсказок. Это модель скрытой диффузии, которая использует два фиксированных, предварительно обученных кодировщика текста (OpenCLIP-ViT/G и CLIP-ViT/L). Она имеет ту же архитектуру, что и Стабильная диффузия XL.
Использование модели с 🧨 диффузорами
Установите diffusers >= 0.24.0 и некоторые зависимости:
pip install transformers accelerate safetensors
Чтобы использовать модель, выполните следующий фрагмент.
Примечание: Рекомендуется использовать шкала_руководства=3.0
.
from diffusers import DiffusionPipeline
импортировать факел
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-1024px-aesthetic",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16"
)
pipe.to("cuda")
prompt = "Астронавт в джунглях, холодная цветовая палитра, приглушенные цвета, детализация, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]
Использование модели с Automatic1111/ComfyUI
Для использования модели с таким программным обеспечением, как Automatic1111 или ComfyUI, вы можете использовать playground-v2.fp16.safetensors
файл.
Исследование пользователя
Согласно исследованиям, проведенным компанией Playground, в которых приняли участие более 2 600 подсказок и тысячи пользователей, изображения, созданные Playground v2, являются наиболее предпочтительными 2.5 в несколько раз больше, чем при производстве Стабильная диффузия XL.
Мы сообщаем о предпочтениях пользователей по следующим параметрам PartiPrompts, следуя стандартной практике, и на внутреннем наборе данных подсказок, курируемом командой Playground. Внутренний набор подсказок "1K" разнообразен и охватывает различные категории и задачи.
В ходе исследования мы даем пользователям инструкции по оценке пар изображений на основе (1) их эстетических предпочтений и (2) согласования изображения и текста.
Бенчмарк MJHQ-30K
Модель | Общий FID |
---|---|
SDXL-1-0-рефайнер | 9.55 |
детская площадка-v2-1024px-эстетика | 7.07 |
Мы представляем новый эталон, MJHQ-30Kдля автоматической оценки эстетического качества модели. Эталон вычисляет FID на высококачественном наборе данных для оценки эстетического качества.
Мы собрали высококачественный набор данных из Середина путешествия10 общих категорий, каждая из которых содержит 3 000 образцов. В соответствии с общепринятой практикой мы используем эстетическую оценку и оценку CLIP для обеспечения высокого качества изображений и высокого уровня согласования изображений и текстов. Кроме того, мы тщательно следим за тем, чтобы данные в каждой категории были разнообразными.
Для Playground v2 мы сообщаем как общий FID, так и FID для каждой категории. Все метрики FID вычислены при разрешении 1024×1024. Результаты бенчмарка показывают, что наша модель превосходит SDXL-1-0-refiner по общему FID и FID для всех категорий, особенно в категориях "Люди" и "Мода". Это согласуется с результатами исследования пользователей, которые указывают на корреляцию между предпочтениями людей и показателями FID в бенчмарке MJHQ-30K.
Мы выпустили этот эталон в открытый доступ и призываем сообщество использовать его для оценки эстетического качества своих моделей.
Промежуточные базовые модели
Модель | FID | Оценка клипа |
---|---|---|
SDXL-1-0-рефайнер | 13.04 | 32.62 |
playground-v2-256px-base | 9.83 | 31.90 |
playground-v2-512px-base | 9.55 | 32.08 |
Помимо детская площадка-v2-1024px-эстетикаМы публикуем промежуточные контрольные точки на разных этапах обучения для сообщества, чтобы стимулировать исследования модели фундамента в пикселях. Здесь мы приводим оценки FID и CLIP на оценочном наборе MSCOCO14 для справочных целей. (Обратите внимание, что наши цифры могут отличаться от цифр, представленных в опубликованных результатах SDXL, так как наш список подсказок может быть другим).