Стабильная диффузия видео

на Стабильная диффузия видео

Пожалуйста, добавьте нужные вам изображения, перетаскивая их или загружая локальные изображения. Модели будут обработаны быстро,

изображение 21
изображение 20

нажмите на кнопку генерации ниже. Начните генерацию, потому что она работает на видеопамяти A100. Это займет больше времени. Эффект превращения изображения в видео появится уже через 177 секунд после генерации.

изображение 22
изображение 22 1

Стабильная диффузия видео является стабильным видео диффузионная модель высокого разрешения для современной генерации текста в видео и изображения в видео. Недавно латентные диффузионные модели для синтеза двумерных изображений были преобразованы в генеративные видеомодели путем вставки временных слоев и тонкой настройки на небольших высококачественных видеоданных. Однако методы обучения в литературе сильно различаются, и в этой области еще не выработана единая стратегия для видеоданных. В данной работе мы определяем и оцениваем три различных этапа для успешного обучения видеомодели LDM (Latent Diffusion Model): предварительное обучение по принципу "текст-изображение", предварительное обучение по принципу "видео" и тонкая настройка по принципу "высококачественное видео".

Это стабильное видео Диффузионная модель представляет собой новый метод создания высококачественного видео. Она принимает на вход текст или изображения и генерирует реалистичные видеоролики, связанные с исходным контентом. Эта модель имеет широкий потенциал применения в кинопроизводстве, виртуальной реальности, разработке игр и других областях.

Исследование стабильной диффузии видео имеет решающее значение для совершенствования технологии генерации видео. Оно предоставляет исследователям основу для дальнейшего изучения методов обучения и стратегий работы с данными для моделей генерации видео, чтобы повысить качество и достоверность создаваемых видеороликов.

Стабильность AIизвестная компания, занимающаяся рисованием с помощью искусственного интеллекта, наконец-то вошла в индустрию видео, созданного искусственным интеллектом.

изображение 18

Во вторник на этой неделе, Стабильная диффузия видеовышла модель генерации видео, основанная на стабильной диффузии, и сообщество ИИ тут же принялось ее обсуждать.

Стабильная карта моделирования видеоизображения с диффузией

Стабильная диффузия видео (SVD) Изображение в видео Это диффузионная модель, которая принимает неподвижное изображение в качестве исходного кадра и генерирует из него видео.

640
640 1
640 2

(SVD) Image-to-Video - это модель скрытой диффузии, обученная генерировать короткие видеоклипы на основе изображений. Эта модель была обучена генерировать 25 кадров с разрешением 576×1024, учитывая контекстный кадр того же размера, тонко настраиваемый из SVD Image-to-Video [14 кадров]. Мы также настраиваем широко используемые f8-декодер для временной согласованности. Для удобства мы дополнительно снабдили модель стандартным покадровым декодером здесь.

  • Разработано: Стабильность AI
  • Финансируется: Стабильность AI
  • Тип модели: Генеративная модель "изображение-видео
  • Тонкая настройка по сравнению с моделью: SVD Image-to-Video [14 кадров]

Для исследовательских целей мы рекомендуем наш генеративные модели Репозиторий Github (https://github.com/Stability-AI/generative-models), в котором реализованы наиболее популярные диффузионные фреймворки (как для обучения, так и для вывода).

Диаграмма выше оценивает предпочтения пользователей в пользу SVD-Image-to-Video по сравнению с GEN-2 и PikaLabs. SVD-Image-to-Video предпочтительнее с точки зрения качества видео. За подробностями исследования пользователей мы обращаемся к научная статья

Модель предназначена только для исследовательских целей. Возможные области и задачи исследования включают

  • Исследование генеративных моделей.
  • Безопасное развертывание моделей, которые потенциально могут генерировать вредный контент.
  • Исследование и понимание ограничений и погрешностей генеративных моделей.
  • Создание произведений искусства и использование их в дизайне и других художественных процессах.
  • Применение в образовательных или творческих инструментах.

Исключенные виды использования описаны ниже.

Модель не была обучена быть фактическим или правдивым представлением людей или событий, поэтому использование модели для создания такого контента не входит в сферу возможностей данной модели. Модель не должна использоваться каким-либо образом, нарушающим правила Stability AI Политика приемлемого использования.

  • Сгенерированные видеоролики довольно короткие (<= 4 с), и модель не достигает идеальной фотореалистичности.
  • Модель может генерировать видео без движения или очень медленно поворачивать камеру.
  • Моделью нельзя управлять с помощью текста.
  • Модель не может отображать разборчивый текст.
  • Лица и люди в целом могут быть сгенерированы неправильно.
  • Часть модели, связанная с автокодированием, работает с потерями.

Модель предназначена только для исследовательских целей.

Проверьте https://github.com/Stability-AI/generative-models

изображение 18

Генеративные модели от Stability AI

образец1

21 ноября 2023 года

  • Мы выпускаем Stable Video Diffusion, модель преобразования изображения в видео, для исследовательских целей:
    • SVD: Эта модель была обучена генерировать 14 кадров с разрешением 576×1024 при наличии контекстного кадра такого же размера. Мы используем стандартный кодер изображений из SD 2.1, но заменяем декодер на темпорально-ориентированный дешифратор.
    • SVD-XT: Та же архитектура, что и у SVD но настроен на генерацию 25-го кадра.
    • Мы предоставляем демонстрацию с потоковым освещением scripts/demo/video_sampling.py и отдельный скрипт на питоне scripts/sampling/simple_video_sample.py для вывода обеих моделей.
    • Вместе с моделью мы выпустили технический отчёт.

26 июля 2023 года

образец2

4 июля 2023 года

  • Технический отчет по SDXL уже доступен здесь.

22 июня 2023 года

  • Мы выпускаем две новые модели диффузии для исследовательских целей:
    • SDXL-base-0.9: Базовая модель была обучена на различных соотношениях сторон изображений с разрешением 1024^2. Базовая модель использует OpenCLIP-ViT/G и CLIP-ViT/L для кодирования текста, в то время как модель рафинера использует только модель OpenCLIP.
    • SDXL-refiner-0.9: Рафинер был обучен уменьшать небольшие уровни шума в высококачественных данных и поэтому не может работать в качестве модели "текст-изображение"; вместо этого его следует использовать только в качестве модели "изображение-изображение".

Если вы хотите получить доступ к этим моделям для своих исследований, подайте заявку, воспользовавшись одной из следующих ссылок: SDXL-0.9-Базовая модель, и SDXL-0.9-Refiner. Это означает, что вы можете подать заявку на любую из двух ссылок - и если вы получите разрешение, то сможете получить доступ к обеим. Чтобы запросить доступ, войдите в свою учетную запись Hugging Face, указав электронную почту организации. Мы планируем выпустить полный релиз в ближайшее время (июль).

Общая философия

Модульность - это король. В этом репо реализован подход, основанный на конфигурации, где мы создаем и объединяем подмодули, вызывая instantiate_from_config() на объектах, определенных в yaml-конфигурациях. См. конфигурации/ для многих примеров.

Изменения в старом ldm кодовая база

Для обучения мы используем PyTorch Lightningно несложно использовать и другие обучающие обертки вокруг базовых модулей. Основной класс диффузионной модели (ранее LatentDiffusionТеперь DiffusionEngine) был очищен:

  • Больше никаких обширных подклассов! Теперь мы работаем со всеми типами кондиционирующих входов (векторы, последовательности и пространственные кондиционирования, а также все их комбинации) в одном классе: GeneralConditionerсм. sgm/modules/encoders/modules.py.
  • Мы разделяем направляющие (например, направляющие без классификаторов, см. sgm/modules/diffusionmodules/guiders.py) от пробоотборников (sgm/modules/diffusionmodules/sampling.py), и сэмплеры не зависят от модели.
  • Мы принимаем "фреймворк денойзера" как для обучения, так и для вывода (наиболее заметным изменением, вероятно, является возможность обучения моделей с непрерывным временем):
    • Модели (денуазаторы) дискретного времени - это просто частный случай моделей (денуазаторов) непрерывного времени; см. sgm/modules/diffusionmodules/denoiser.py.
    • Теперь независимыми являются следующие характеристики: весовые коэффициенты функции потерь при диффузии (sgm/modules/diffusionmodules/denoiser_weighting.py), предварительное кондиционирование сети (sgm/modules/diffusionmodules/denoiser_scaling.py), и выборка уровней шума во время обучения (sgm/modules/diffusionmodules/sigma_sampling.py).
  • Модели автокодирования также были очищены.

1. Клонируйте репозиторий

git clone [email protected]:Stability-AI/generative-models.git cd generative-models

2. Настройка виртуальной среды

Это при условии, что вы перешли в раздел генеративные модели root после клонирования.

ПРИМЕЧАНИЕ: Это проверяется под python3.10. Для других версий python возможны конфликты версий.

PyTorch 2.0# установите необходимые пакеты из pypi python3 -m venv .pt2 source .pt2/bin/activate pip3 install -r requirements/pt2.txt

3. Установите sgm

pip3 install .

4. Установите sdata для обучения

pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

Упаковка

В этом репозитории используется упаковка, соответствующая стандарту PEP 517, с использованием Люк.

Чтобы собрать распространяемое колесо, установите люк и запустить конструкция люка (уточняя -колесо пропустит сборку sdist, в которой нет необходимости).

pip install hatch
hatch build -t wheel

Вы найдете собранный пакет в дист/. Вы можете установить колесо с pip install dist/*.whl.

Обратите внимание, что пакет не В настоящее время указаны зависимости; вам нужно будет установить необходимые пакеты, в зависимости от вашего сценария использования и версии PyTorch, вручную.

Мы предоставляем streamlit демонстрационный образец для преобразования текста в изображение и изображения в изображение в scripts/demo/sampling.py. Мы предоставляем хэши файлов как для всего файла, так и только для сохраненных тензоров в файле (см. Модельная спецификация для получения скрипта для оценки этого). В настоящее время поддерживаются следующие модели:

  • SDXL-base-1.0Хеш файла (sha256): 31e35c80fc4829d14f90153f4c74cd59c90b779f6afe05a74cd6120b893f7e5b Tensordata Hash (sha256): 0xd7a9105a900fd52748f20725fe52fe52b507fd36bee4fc107b1550a26e6ee1d7
  • SDXL-refiner-1.0Хеш файла (sha256): 7440042bbdc8a24813002c09b6b69b64dc90fded4472613437b7f55f9b7d9c5f Tensordata Hash (sha256): 0x1a77d21bebc4b4de78c474a90cb74dc0d2217caf4061971dbfa75ad406b75d81
  • SDXL-base-0.9
  • SDXL-refiner-0.9
  • SD-2.1-512
  • SD-2.1-768

Вес для SDXL:

SDXL-1.0: Веса SDXL-1.0 доступны (при условии CreativeML Open RAIL++-M лицензия) здесь:

SDXL-0.9: Вес SDXL-0.9 доступен и подлежит лицензия на исследования. Если вы хотите получить доступ к этим моделям для своих исследований, пожалуйста, подайте заявку по одной из следующих ссылок: Модель SDXL-base-0.9, и SDXL-refiner-0.9. Это означает, что вы можете подать заявку на любую из двух ссылок - и если вы получите разрешение, то сможете получить доступ к обеим. Чтобы запросить доступ, войдите в свою учетную запись Hugging Face, указав электронную почту организации.

Получив грузики, поместите их в контрольные пункты/. Затем запустите демонстрацию, используя

streamlit run scripts/demo/sampling.py --server.port

Изображения, созданные с помощью нашего кода, используют Невидимый водяной знак библиотека для встраивания невидимого водяного знака в выходные данные модели. Мы также предоставляем скрипт для легкого обнаружения этого водяного знака. Обратите внимание, что этот водяной знак не такой, как в предыдущих версиях Stable Diffusion 1.x/2.x.

Чтобы запустить скрипт, вам нужно либо иметь рабочую установку, как описано выше, либо попробовать экспериментальный Импорт с использованием минимального количества пакетов:python -m venv .detect source .detect/bin/activate pip install "numpy>=1.17" "PyWavelets>=1.1.1" "opencv-python>=4.1.0.25" pip install -no-deps invisible-watermark

Чтобы запустить скрипт, необходимо иметь рабочую установку, как указано выше. После этого сценарий можно использовать следующим образом (не забудьте предварительно активировать виртуальную среду, например источник .pt1/bin/activate):# проверка одного файла python scripts/demo/detect.py # проверка сразу нескольких файлов python scripts/demo/detect.py ... # проверка всех файлов в определенной папке python scripts/demo/detect.py /*

Мы предоставляем примеры учебных конфигураций в configs/example_training. Чтобы запустить обучение, выполните команду

python main.py --base configs/ configs/

где конфигурации объединяются слева направо (более поздние конфигурации перезаписывают те же значения). Это можно использовать для объединения конфигураций модели, обучения и данных. Однако все они также могут быть определены в одном конфиге. Например, чтобы запустить обучение пиксельной диффузионной модели с классовыми условиями на MNIST, выполните runpython main.py -base configs/example_training/toy/mnist_cond.yaml

ПРИМЕЧАНИЕ 1: Использование конфигураций, не относящихся к игрушечным наборам данных configs/example_training/imagenet-f8_cond.yamlconfigs/example_training/txt2img-clipl.yaml и configs/example_training/txt2img-clipl-legacy-ucg-training.yaml для обучения потребуются изменения в зависимости от используемого набора данных (который, как ожидается, будет храниться в tar-файле в webdataset-format). Чтобы найти части, которые необходимо адаптировать, найдите комментарии, содержащие ПОЛЬЗОВАТЕЛЬ: в соответствующей конфигурации.

ПРИМЕЧАНИЕ 2: Этот репозиторий поддерживает оба pytorch1.13 и питорх2для обучения генеративных моделей. Однако для обучения автоэнкодера, как, например, в configs/example_training/autoencoder/kl-f4/imagenet-attnfree-logvar.yamlтолько pytorch1.13 поддерживается.

ПРИМЕЧАНИЕ 3: Обучение латентных генеративных моделей (как, например, в configs/example_training/imagenet-f8_cond.yaml) требует извлечения контрольной точки из Обнимающееся лицо и заменяя CKPT_PATH заполнитель в эта линия. То же самое нужно сделать и для предоставленных конфигураций преобразования текста в изображение.

Кондиционер

Сайт GeneralConditioner настраивается через кондиционер_config. Его единственным атрибутом является emb_modelsсписок различных встраиваемых устройств (все они наследуются от AbstractEmbModel), которые используются для создания генеративной модели. Все встраиваемые модели должны определять, являются ли они обучаемыми или нет (поддаётся обучению, по умолчанию Ложь), используется показатель отсева без классификатора (ucg_rate, по умолчанию 0), и клавиша ввода (ключ_ввода), например, txt для кондиционирования текста или cls для вычисления классов-условий. При вычислении условий встраиватель получит batch[input_key] в качестве входных данных. В настоящее время мы поддерживаем от двух до четырех мерных условий, и условия разных вкраплений объединяются соответствующим образом. Обратите внимание, что порядок вкраплений в кондиционер_config это важно.

Сеть

Нейронная сеть настраивается с помощью сетевая_конфигурация. Раньше это называлось unet_configчто не является достаточно общим, поскольку мы планируем экспериментировать с диффузионными магистралями на основе трансформаторов.

Потери

Потери настраиваются с помощью loss_config. Для стандартного обучения диффузионной модели необходимо задать sigma_sampler_config.

Как уже говорилось выше, сэмплер не зависит от модели. В sampler_configМы задаем тип численного решателя, количество шагов, тип дискретизации, а также, например, обертки наведения для наведения без классификатора.

Для крупномасштабного обучения мы рекомендуем использовать конвейеры данных из нашего раздела конвейеры данных проект. Проект содержится в требовании и автоматически включается при выполнении шагов из раздела Раздел установки. Небольшие наборы данных в стиле карт должны быть определены здесь, в репозитории (например, MNIST, CIFAR-10, ...), и возвращать дикту ключей/значений данных, например,example = {"jpg": x, # это тензор -1...1 chw "txt": "красивое изображение"}

где мы ожидаем изображения в формате -1...1, первый канал.

ru_RURussian