ru_RURussian

AI Sora:Video Generation with OpenAI Sora

Компания OpenAI представила Sora - сложную модель искусственного интеллекта, способную создавать высококачественные реалистичные видеоролики непосредственно на основе текстовых подсказок. Sora находится на переднем крае понимания и моделирования ИИ физического мира в движении, что очень важно для разработки моделей, эффективно взаимодействующих с динамикой реального мира. Этот скачок в обработке естественного языка и синтезе видео не только обогащает области изобразительного искусства и дизайна, но и открывает новые горизонты для творческих и технических исследований.

изображение 4

Введение:


Модель Sora от OpenAI создана для преобразования подробных текстовых инструкций в минутные видеоролики, визуально привлекательные и строго придерживающиеся описаний. Возможности модели демонстрируются с помощью различных подсказок, каждая из которых генерирует уникальные, контекстуально точные сцены, расширяющие границы интерпретационных и генеративных возможностей ИИ.

изображение 5

Применение и влияние:
Хотя в настоящее время модель Sora доступна для специалистов по выявлению потенциального вреда, ее возможности распространяются и на другие дисциплины. Визуальные художники, дизайнеры и кинематографисты работают с моделью, чтобы уточнить ее полезность в творческих отраслях. OpenAI ожидает широкого спектра применений - от образовательных пособий, автоматизированного производства видеоконтента, развлечений до продвинутых симуляторов для теоретических исследований.

изображение 6

Технологический задел:
Sora построена на основе диффузионной модели - метода, который начинается со статичного шума и тщательно перерабатывает его в связное видеоповествование. Проводя параллели с архитектурой трансформаторов, используемой в моделях GPT, Sora использует аналогичную стратегию масштабирования, которая повышает ее способность обрабатывать огромные массивы визуальных данных. Ее операции схожи с токенизацией в GPT, но применяются к визуальным патчам, что позволяет ей эффективно работать с различными длительностями, разрешениями и соотношениями сторон.

изображение 7

Прогресс в исследованиях:
Используя приемы из DALL-E 3, такие как "рекапча", Сора демонстрирует повышенную точность в выполнении текстовых инструкций в видео. Кроме того, Сора может анимировать неподвижные изображения или расширять существующие видеоролики, демонстрируя внимательное отношение к мельчайшим деталям и преемственности.

изображение 8

Меры безопасности:
В преддверии широкого развертывания внедряются обширные механизмы безопасности. Это включает в себя работу с экспертами для проверки модели на наличие дезинформации, ненавистного контента и предвзятости. Разрабатываются инструменты для выявления контента, созданного ИИ, и обеспечения соблюдения контентной политики, а в будущем планируется включить метаданные C2PA для повышения прозрачности.

изображение 9

Перспективы на будущее:
Заложив основу для создания моделей, способных глубоко понимать реальный мир, Sora знаменует собой важный этап на пути к искусственному интеллекту общего назначения (AGI). Взаимодействуя с политиками, преподавателями и художниками по всему миру, OpenAI стремится понять влияние таких достижений на общество, сохраняя бдительность в отношении возможных злоупотреблений.

Этот технический отчет посвящен (1) нашему методу преобразования визуальных данных всех типов в унифицированное представление, позволяющее проводить масштабное обучение генеративных моделей, и (2) качественной оценке возможностей и ограничений Sora. Детали модели и реализации не включены в этот отчет.

Во многих предыдущих работах изучалось генеративное моделирование видеоданных с помощью различных методов, включая рекуррентные сети,1,2,3 генеративные состязательные сети,4,5,6,7 авторегрессионные трансформаторы,8,9 и диффузионные модели.10,11,12 Эти работы часто фокусируются на узкой категории визуальных данных, на коротких видео или на видео фиксированного размера. Sora является универсальной моделью визуальных данных - она может генерировать видео и изображения различной продолжительности, соотношения сторон и разрешения, вплоть до целой минуты видео высокой четкости.

Превращение визуальных данных в патчи

Мы черпаем вдохновение в больших языковых моделях, которые приобретают обобщенные возможности благодаря обучению на данных интернет-масштаба.13,14 Успех парадигмы LLM отчасти обеспечивается использованием маркеров которые элегантно объединяют различные модальности текста - код, математику и различные естественные языки. В данной работе мы рассматриваем, как генеративные модели визуальных данных могут унаследовать такие преимущества. В то время как LLM имеют текстовые лексемы, Sora имеет визуальные патчи. Ранее было показано, что патчи являются эффективным представлением для моделей визуальных данных.15,16,17,18 Мы обнаружили, что патчи являются высокомасштабируемым и эффективным представлением для обучения генеративных моделей на различных типах видео и изображений.

Рисунок Патчи

На высоком уровне мы превращаем видео в патчи, сначала сжимая видео в низкоразмерное латентное пространство,19 и последующей декомпозиции представления на пространственно-временные участки.

Сеть сжатия видео

Мы обучаем сеть, которая уменьшает размерность визуальных данных.20 Эта сеть принимает на вход исходное видео и выдает латентное представление, сжатое как во временном, так и в пространственном отношении. Sora обучается и впоследствии генерирует видео в этом сжатом латентном пространстве. Мы также обучаем соответствующую модель декодера, которая отображает сгенерированные латенты обратно в пространство пикселей.

Латентные пятна пространства-времени

Из сжатого входного видео мы извлекаем последовательность пространственно-временных пятен, которые выступают в качестве маркеров-трансформеров. Эта схема работает и для изображений, поскольку изображения - это просто видео с одним кадром. Наше представление на основе патчей позволяет Sora обучаться на видео и изображениях с разным разрешением, длительностью и соотношением сторон. Во время вывода мы можем контролировать размер генерируемых видео, располагая случайно инициализированные патчи в сетке соответствующего размера.

Масштабирующие трансформаторы для создания видео

Сора - это диффузионная модель21,22,23,24,25Если на вход подаются зашумленные участки (и обучающая информация, например, текстовые подсказки), она обучается предсказывать исходные "чистые" участки. Важно отметить, что Sora - это диффузионный трансформатор.26 Трансформеры продемонстрировали замечательные свойства масштабирования в различных областях, включая моделирование языка,13,14 компьютерное зрение,15,16,17,18 и создание изображений.27,28,29

Рисунок Диффузия

В данной работе мы обнаружили, что диффузионные трансформаторы эффективно масштабируются и как видеомодели. Ниже мы приводим сравнение образцов видео с фиксированными семплами и входными данными по мере обучения. Качество образцов заметно улучшается по мере увеличения количества обучающих вычислений.

Базовый расчет

4-кратное вычисление

16-кратное вычисление

Переменная продолжительность, разрешение, соотношение сторон

Предыдущие подходы к созданию изображений и видео обычно изменяют размер, обрезают или обрезают видео до стандартного размера - например, 4-секундные видео с разрешением 256×256. Мы обнаружили, что обучение на данных их собственного размера дает ряд преимуществ.

Гибкость выборки

Sora может создавать широкоэкранные видео 1920x1080p, вертикальные видео 1080×1920 и все, что между ними. Это позволяет Sora создавать контент для различных устройств непосредственно с их родным соотношением сторон. Это также позволяет нам быстро создавать прототипы контента в меньших размерах, прежде чем генерировать его в полном разрешении - и все это с помощью одной и той же модели.

Улучшенное кадрирование и композиция

Мы эмпирически обнаружили, что обучение на видео с их родным соотношением сторон улучшает композицию и кадрирование. Мы сравниваем Sora с версией нашей модели, которая обрезает все обучающие видео до квадратного размера, что является обычной практикой при обучении генеративных моделей. Модель, обученная на квадратных кадрах (слева), иногда генерирует видео, на которых объект виден лишь частично. По сравнению с этим видео, полученные с помощью Sora (справа), имеют улучшенное кадрирование.

Понимание языка

Для обучения систем генерации текста в видео требуется большое количество видео с соответствующими текстовыми подписями. Мы применяем технику повторного создания субтитров, представленную в DALL-E 330 к видео. Сначала мы обучаем модель субтитров с высоким уровнем описания, а затем используем ее для создания текстовых субтитров для всех видео в нашем обучающем наборе. Мы обнаружили, что обучение на высокоописательных видеотитрах улучшает точность текста, а также общее качество видео.

Как и в DALL-E 3, мы также используем GPT для превращения коротких подсказок пользователя в длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora генерировать высококачественные видеоролики, которые точно следуют подсказкам пользователя.

старушка манаан старушка мана игрушечный роботан очаровательный кенгуру

носить

Фиолетовый комбинезон и ковбойские сапогисиние джинсы и белая футболказеленое платье и шляпа от солнцафиолетовый комбинезон и ковбойские сапоги

приятная прогулка по

Йоханнесбург, Южная АфрикаМумбай, ИндияЙоханнесбург, Южная АфрикаАнтарктида

во время

красивый закаткрасивый закаткрасивый закаткрасивый закаткрасивый зимний штормкрасивый фестиваль

Подсказки с помощью изображений и видео

Все результаты, приведенные выше и в нашем целевая страница показывают примеры преобразования текста в видео. Но Sora может получать и другие исходные данные, например уже существующие изображения или видео. Эта возможность позволяет Sora выполнять широкий спектр задач по редактированию изображений и видео - создавать идеально зацикленное видео, анимировать статичные изображения, продлевать видео вперед или назад во времени и т. д.

Анимационные изображения DALL-E

Sora способна генерировать видеоролики при наличии изображения и подсказки в качестве входных данных. Ниже мы приводим примеры видеороликов, сгенерированных на основе фильма DALL-E 231 и "ДАЛЛ-И 330 изображения.

подсказка 0

Собака породы сиба-ину в берете и черной водолазке.

подсказка 2

Монстр Иллюстрация в стиле плоского дизайна разнообразной семьи монстров. В группу входят пушистый коричневый монстр, гладкий черный монстр с антеннами, пятнистый зеленый монстр и крошечный монстр в горошек, все они взаимодействуют в игривой обстановке.

подсказка 4

Изображение реалистичного облака с надписью "SORA".

подсказка 6

В богато украшенном историческом зале огромная приливная волна достигает пика и начинает обрушиваться. Два серфингиста, воспользовавшись моментом, ловко перемещаются по волне.

Расширение созданных видеороликов

Sora также способна продлевать видео как вперед, так и назад по времени. Ниже представлены четыре видео, которые были продлены назад во времени, начиная с фрагмента сгенерированного видео. В результате каждое из четырех видео начинается иначе, чем остальные, но все четыре видео приводят к одному и тому же финалу.

00:00

00:20

С помощью этого метода мы можем продлить видео как вперед, так и назад, чтобы создать бесшовный бесконечный цикл.

Видеомонтаж

Диффузионные модели позволили создать множество методов редактирования изображений и видео по текстовым подсказкам. Ниже мы применим один из таких методов, SDEdit,32 в Sora. Эта техника позволяет Sora трансформировать стили и окружение входных видеороликов без лишних усилий.

Входное видео Измените декорации, чтобы они были в пышных джунглях Измените декорации на 1920-е годы с автомобилем старой школы. обязательно сохраните красный цвет Сделайте его под водой Измените декорации видео на другие, чем горы? может быть, дерево Джошуа?поместите видео в космос с радужной дорогой оставляйте видео прежним, но сделайте его зимним сделайте его в стиле анимации claymation воссоздайте в стиле рисунка углем, обязательно черно-белого измените декорации на киберпанк измените видео на средневековые сделайте его с динозаврами перепишите видео в стиле пиксель-арт

Подключение видео

Мы также можем использовать Sora для постепенной интерполяции между двумя входными видео, создавая плавные переходы между видео с совершенно разными сюжетами и композициями сцен. В примерах ниже видео в центре интерполируется между соответствующими видео слева и справа.

Возможности создания изображений

Sora также способна генерировать изображения. Для этого мы размещаем пятна гауссовского шума в пространственной сетке с временной протяженностью в один кадр. Модель может генерировать изображения разного размера - вплоть до разрешения 2048×2048.

изображение 0Портретный снимок женщины осенью крупным планом, высокая детализация, малая глубина резкости

изображение 1Яркий коралловый риф, изобилующий разноцветными рыбами и морскими обитателями

изображение 2Цифровой арт молодого тигра под яблоней в стиле матовой живописи с великолепными деталями

изображение 3Заснеженная горная деревня с уютными домиками и северным сиянием, высокая детализация и фотореалистичность, 50 мм f/1.2

Новые возможности моделирования

Мы обнаружили, что видеомодели демонстрируют ряд интересных эмерджентных возможностей при масштабном обучении. Эти возможности позволяют Sora моделировать некоторые аспекты людей, животных и окружающей среды из физического мира. Эти свойства возникают без явных индуктивных предубеждений относительно 3D, объектов и т. д. - они являются исключительно феноменом масштаба.

Консистенция 3D. Sora может генерировать видео с динамическим движением камеры. При смещении и повороте камеры люди и элементы сцены последовательно перемещаются в трехмерном пространстве.

Дальняя когерентность и постоянство объекта. Значительной проблемой для систем генерации видео является сохранение временной согласованности при выборке длинных видео. Мы обнаружили, что Sora часто, хотя и не всегда, способна эффективно моделировать как ближние, так и дальние зависимости. Например, наша модель может сохранять людей, животных и объекты, даже когда они заслонены или покидают кадр. Аналогично, она может генерировать несколько кадров одного и того же персонажа в одной выборке, сохраняя их внешний вид на протяжении всего видео.

Взаимодействие с миром. Иногда Сора может симулировать действия, которые влияют на состояние мира простыми способами. Например, художник может оставить на холсте новые мазки, которые сохраняются в течение долгого времени, или человек может съесть бургер и оставить следы от укусов.

Моделирование цифровых миров. Sora также способна симулировать искусственные процессы - один из примеров - видеоигры. Sora может одновременно управлять игроком в Minecraft с помощью базовой политики, одновременно отображая мир и его динамику с высокой точностью. Эти возможности можно вызвать в нулевом режиме, предложив Sora ввести надписи с упоминанием "Minecraft".

Эти возможности говорят о том, что дальнейшее масштабирование видеомоделей - это перспективный путь к созданию высокопроизводительных симуляторов физического и цифрового мира, а также объектов, животных и людей, которые в них живут.

Обсуждение

В настоящее время Sora имеет множество ограничений как симулятор. Например, она неточно моделирует физику многих базовых взаимодействий, таких как разбивание стекла. Другие взаимодействия, например поедание пищи, не всегда приводят к корректным изменениям состояния объекта. Мы перечислили и другие распространенные способы отказа модели - например, несогласованность, возникающая в образцах большой длительности, или спонтанное появление объектов - в нашем целевая страница.

Мы считаем, что возможности, которыми сегодня обладает Sora, демонстрируют, что дальнейшее масштабирование видеомоделей - это перспективный путь к созданию способных симуляторов физического и цифрового мира, а также объектов, животных и людей, которые в них живут.

Методы исследования

Sora - это диффузионная модель, которая генерирует видео, начиная с видео, похожего на статический шум, и постепенно преобразует его, удаляя шум в течение многих шагов.

Sora способна генерировать целые видеоролики за один раз или удлинять сгенерированные видео, делая их длиннее. Предоставив модели возможность предвидеть множество кадров за раз, мы решили сложную задачу - сделать так, чтобы объект оставался неизменным, даже если он на время пропадает из поля зрения.

Подобно моделям GPT, Sora использует архитектуру трансформера, обеспечивающую превосходную производительность при масштабировании.

Мы представляем видео и изображения как коллекции более мелких единиц данных, называемых патчами, каждый из которых сродни токену в GPT. Унифицировав способ представления данных, мы можем обучать диффузионные трансформаторы на более широком диапазоне визуальных данных, чем это было возможно ранее, с различной продолжительностью, разрешением и соотношением сторон.

Sora опирается на предыдущие исследования в области моделей DALL-E и GPT. Она использует технику рекапчи из DALL-E 3, которая заключается в создании высокоописательных подписей к визуальным обучающим данным. В результате модель способна более точно следовать текстовым инструкциям пользователя в сгенерированном видео.

Помимо возможности генерировать видео исключительно из текстовых инструкций, модель способна взять существующее неподвижное изображение и сгенерировать из него видео, анимируя содержимое изображения с точностью и вниманием к мелким деталям. Модель также может взять существующее видео и расширить его или заполнить недостающие кадры. Узнайте больше в нашем техническом отчете.

Sora служит основой для создания моделей, способных понимать и моделировать реальный мир, что, по нашему мнению, станет важной вехой на пути к достижению AGI.

Заключение:
Sora представляет собой определенный шаг в синтезе видео, балансируя между творческой свободой и тщательным вниманием к реальности. По мере того как OpenAI продолжает развивать и совершенствовать эти возможности, Sora может переосмыслить наше отношение к визуальному повествованию и роли ИИ в дополнении человеческого творчества.

Оставьте комментарий

ru_RURussian