Стабильная диффузия

Модельная карта "Стабильная диффузия v1-5

Stable Diffusion - это модель скрытой диффузии текста в изображение, способная генерировать фотореалистичные изображения на основе любого текста. Для получения более подробной информации о работе Stable Diffusion, пожалуйста, посмотрите Блог "Стабильная диффузия" 🤗..

Сайт Stable-Diffusion-v1-5 контрольная точка была инициализирована весами Stable-Diffusion-v1-2 Контрольная точка и последующая тонкая настройка на 595 тыс. шагов при разрешении 512×512 на "laion-aesthetics v2 5+" и 10% отказ от текстового кондиционирования для улучшения выборка наведения без классификатора.

Вы можете использовать его как с Библиотека 🧨Diffusers и Репозиторий RunwayML на GitHub.

Диффузоры

from diffusers import StableDiffusionPipeline
импортировать факел

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "фотография астронавта, едущего на лошади по Марсу"
image = pipe(prompt).images[0]
    
image.save("astronaut_rides_horse.png")

Для получения более подробных инструкций, примеров использования и примеров по JAX следуйте инструкциям здесь

Оригинальный репозиторий GitHub

  1. Скачать весы
    • v1-5-pruned-emaonly.ckpt - 4,27 ГБ, вес только для ema. использует меньше VRAM - подходит для выводов
    • v1-5-pruned.ckpt - 7,7 ГБ, вес ema+non-ema. использует больше VRAM - подходит для тонкой настройки
  2. Следуйте инструкциям здесь.

Детали модели

  • Разработано: Робин Ромбах, Патрик Эссер
  • Тип модели: Модель преобразования текста в изображение на основе диффузии
  • Язык(и): Английский язык
  • Лицензия: Лицензия CreativeML OpenRAIL M это Открытая лицензия RAIL Mадаптирована из работы, которая BigScience и Инициатива RAIL совместно осуществляют деятельность в области ответственного лицензирования ИИ. См. также статья о лицензии BLOOM Open RAIL на котором основана наша лицензия.
  • Описание модели: Это модель, которую можно использовать для создания и изменения изображений на основе текстовых подсказок. Она представляет собой Модель латентной диффузии в котором используется фиксированный, предварительно обученный кодировщик текста (CLIP ViT-L/14), как предлагается в Бумага Imagen.
  • Ресурсы для получения дополнительной информации: Репозиторий GitHubБумага.
  • Цитировать как:@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

Используется

Прямое использование

Модель предназначена только для исследовательских целей. Возможные области и задачи исследования включают

  • Безопасное развертывание моделей, которые потенциально могут генерировать вредный контент.
  • Исследование и понимание ограничений и погрешностей генеративных моделей.
  • Создание произведений искусства и использование их в дизайне и других художественных процессах.
  • Применение в образовательных или творческих инструментах.
  • Исследование генеративных моделей.

Исключенные виды использования описаны ниже.

Злоупотребление, недобросовестное использование и использование не по назначению

Примечание: Этот раздел взят из книги Карточка модели DALLE-MINIно точно так же применяется и к стабильной диффузии v1.

Модель не должна использоваться для намеренного создания или распространения изображений, создающих враждебную или отчуждающую среду для людей. Это включает в себя создание изображений, которые могут показаться людям тревожными, неприятными или оскорбительными, или контента, пропагандирующего исторические или современные стереотипы.

Использование вне области исследования

Модель не была обучена фактическому или правдивому отображению людей или событий, поэтому использование модели для создания такого контента не входит в сферу возможностей данной модели.

Неправильное и злонамеренное использование

Использование модели для создания контента, жестокого по отношению к людям, является неправильным использованием этой модели. Это включает, но не ограничивается:

  • Создание унизительных, дегуманизирующих или иным образом вредных представлений о людях или их окружении, культурах, религиях и т.д.
  • Намеренное продвижение или пропаганда дискриминационного контента или вредных стереотипов.
  • Выдавать себя за людей без их согласия.
  • Сексуальный контент без согласия людей, которые могут его увидеть.
  • Дезинформация и дезинформация
  • Изображение вопиющего насилия и жестокости
  • Совместное использование материалов, защищенных авторским правом или лицензией, в нарушение условий их использования.
  • Обмен контентом, который является изменением материалов, защищенных авторским правом или лицензией, в нарушение условий их использования.

Ограничения и предвзятость

Ограничения

  • Модель не достигает идеальной фотореалистичности
  • Модель не может отобразить разборчивый текст
  • Модель плохо справляется с более сложными задачами, связанными с композицией, такими как рендеринг изображения, соответствующего "Красный куб поверх синего шара".
  • Лица и люди в целом могут быть сгенерированы неправильно.
  • Модель обучалась в основном на английских субтитрах и не будет работать так же хорошо на других языках.
  • Часть модели, связанная с автокодированием, работает с потерями
  • Модель была обучена на большом наборе данных LAION-5B который содержит материалы для взрослых и не подходит для использования в продуктах без дополнительных механизмов и мер безопасности.
  • Для дедупликации набора данных не использовалось никаких дополнительных мер. В результате мы наблюдаем некоторую степень запоминания изображений, которые дублируются в обучающих данных. Учебные данные можно найти по адресу https://rom1504.github.io/clip-retrieval/ чтобы, возможно, помочь в обнаружении запомненных изображений.

Bias

Хотя возможности моделей генерации изображений впечатляют, они также могут усиливать или усугублять социальные предубеждения. Модель Stable Diffusion v1 была обучена на подмножествах LAION-2B(en), состоящий из изображений, которые в основном ограничены английскими описаниями. Тексты и изображения из сообществ и культур, использующих другие языки, скорее всего, не будут учтены в достаточной степени. Это влияет на общий результат модели, поскольку белые и западные культуры часто устанавливаются по умолчанию. Кроме того, способность модели генерировать контент при использовании неанглийских подсказок значительно хуже, чем при использовании англоязычных подсказок.

Модуль безопасности

Данная модель предназначена для использования с Проверка безопасности в разделе Диффузоры. Этот фильтр работает путем проверки результатов модели на соответствие известным жестко закодированным концепциям NSFW. Концепты намеренно скрыты, чтобы уменьшить вероятность обратного проектирования этого фильтра. В частности, проверяющий сравнивает вероятности классов вредных концепций в пространстве встраивания CLIPTextModel поколение за поколением изображений. Концепты передаются в модель вместе со сгенерированным изображением и сравниваются с весом, разработанным вручную для каждого концепта NSFW.

Обучение

Учебные данные Для обучения модели разработчики использовали следующий набор данных:

  • LAION-2B (en) и их подмножества (см. следующий раздел)

Процедура обучения Стабильная Диффузия v1-5 - это латентная диффузионная модель, объединяющая автоэнкодер и диффузионную модель, которая обучается в латентном пространстве автоэнкодера. Во время обучения,

  • Изображения кодируются с помощью кодировщика, который превращает изображения в латентные представления. Автокодировщик использует относительный коэффициент понижения дискретизации 8 и сопоставляет изображения формы H x W x 3 с латентными представлениями формы H/f x W/f x 4
  • Текстовые подсказки кодируются с помощью текстового кодировщика ViT-L/14.
  • Непулированный выход кодировщика текста поступает в UNet-основу модели скрытой диффузии через перекрестное внимание.
  • Потери - это цель реконструкции между шумом, который был добавлен к латенту, и предсказанием, сделанным UNet.

В настоящее время предусмотрено шесть контрольных точек Stable Diffusion, которые были подготовлены следующим образом.

  • stable-diffusion-v1-1: 237 000 шагов при разрешении 256x256 на laion2B-en. 194 000 шагов при разрешении 512x512 на laion-high-resolution (170M примеры из LAION-5B с разрешением >= 1024x1024).
  • stable-diffusion-v1-2: Возобновлено с stable-diffusion-v1-1. 515 000 шагов при разрешении 512x512 на "laion-improved-aesthetics" (подмножество laion2B-en, отфильтрованное для изображений с оригинальным размером >= 512x512, оценка эстетичности > 5.0и предполагаемая вероятность появления водяного знака < 0.5. Оценка водяного знака получена из метаданных LAION-5B, оценка эстетичности - с помощью Оценщик улучшенной эстетики).
  • stable-diffusion-v1-3: Возобновлено с stable-diffusion-v1-2 - 195 000 шагов при разрешении 512x512 на "laion-improved-aesthetics" и 10 % отбрасывание текстового кондиционирования для улучшения выборка наведения без классификатора.
  • stable-diffusion-v1-4 Возобновлено с stable-diffusion-v1-2 - 225 000 шагов при разрешении 512x512 на "laion-aesthetics v2 5+" и 10 % отказ от кондиционирования текста для улучшения выборка наведения без классификатора.
  • stable-diffusion-v1-5 Возобновлено с stable-diffusion-v1-2 - 595 000 шагов при разрешении 512x512 на "laion-aesthetics v2 5+" и 10 % отказ от кондиционирования текста для улучшения выборка наведения без классификатора.
  • стабильная диффузионная раскраска Возобновлено с stable-diffusion-v1-5 - затем 440 000 шагов обучения инпайтингу при разрешении 512×512 на "laion-aesthetics v2 5+" и 10% сброса текстового кондиционирования. Для инпайтинга UNet имеет 5 дополнительных входных каналов (4 для кодированного маскированного изображения и 1 для самой маски), веса которых были обнулены после восстановления контрольной точки без инпайтинга. Во время обучения мы генерируем синтетические маски, а в 25% маскируем все.
  • Оборудование: 32 x 8 x A100 GPU
  • Оптимизатор: AdamW
  • Градиентные накопления: 2
  • Партия: 32 x 8 x 2 x 4 = 2048
  • Скорость обучения: прогрев до 0,0001 в течение 10 000 шагов, а затем поддерживается постоянный уровень

Результаты оценки

Оценки с различными шкалами наведения без классификатора (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) и 50 шагами выборки PNDM/PLMS показывают относительное улучшение контрольных точек:

парето

Оценка проводилась с использованием 50 шагов PLMS и 10000 случайных подсказок из валидационного набора COCO2017, с разрешением 512×512. Не оптимизировано для оценок FID.

Воздействие на окружающую среду

Стабильная диффузия v1 Расчетные выбросы Основываясь на этой информации, мы оцениваем следующие выбросы CO2, используя Калькулятор влияния машинного обучения представленный в Лакост и др. (2019). Для оценки углеродного воздействия использовалось оборудование, время выполнения, облачный провайдер и регион вычислений.

  • Тип оборудования: A100 PCIe 40 ГБ
  • Использованные часы: 150000
  • Облачный провайдер: AWS
  • Вычислительный регион: США-Восток
  • Выброс углерода (потребление электроэнергии x время x углерод, произведенный в зависимости от расположения электросети): 11250 кг CO2 экв.

Цитировать

    @InProceedings{Rombach_2022_CVPR,
        author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
        title = {High-Resolution Image Synthesis With Latent Diffusion Models},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month = {June},
        year = {2022},
        pages = {10684-10695}
    }

Эта модель карты была написана: Робин Ромбах и Патрик Эссер и основана на Карта модели DALL-E Mini.