AI Sora:Video Generation with OpenAI Sora

OpenAI ha presentado Sora, un sofisticado modelo de IA capaz de producir vídeos realistas de alta calidad directamente a partir de instrucciones textuales. Sora se sitúa a la vanguardia de la comprensión y simulación del mundo físico en movimiento por parte de la IA, una labor fundamental para el desarrollo de modelos que interactúen eficazmente con la dinámica del mundo real. Este salto en el procesamiento del lenguaje natural y la síntesis de vídeo no sólo enriquece los campos de las artes visuales y el diseño, sino que abre una nueva frontera para la exploración creativa y técnica.

imagen 4

Introducción:


Centrado en la síntesis de texto a vídeo, Sora, de OpenAI, está diseñado para transformar instrucciones textuales detalladas en vídeos de un minuto visualmente atractivos y rigurosos en el cumplimiento de sus descriptores. Las capacidades del modelo se demuestran a través de varias instrucciones, cada una de las cuales genera escenas únicas y contextualmente precisas que llevan al límite las capacidades interpretativas y generativas de la IA.

imagen 5

Aplicaciones e impacto:
Aunque actualmente está al alcance de los equipos rojos para identificar posibles daños, el potencial de Sora se extiende a otras disciplinas. Artistas visuales, diseñadores y cineastas están trabajando con el modelo para perfeccionar su utilidad en las industrias creativas. OpenAI prevé un amplio abanico de aplicaciones, desde ayudas educativas, producción automatizada de contenidos de vídeo y entretenimiento hasta simulaciones avanzadas para estudios teóricos.

imagen 6

Espina dorsal tecnológica:
Sora se basa en un modelo de difusión, un método que comienza con ruido estático y lo refina meticulosamente hasta convertirlo en una narración de vídeo coherente. Al igual que la arquitectura de transformadores de los modelos GPT, Sora utiliza una estrategia de escalado similar que mejora su capacidad para procesar una amplia gama de datos visuales. Sus operaciones son similares a la tokenización de GPT, pero aplicadas a parches visuales, lo que le permite tratar con eficacia distintas duraciones, resoluciones y relaciones de aspecto.

imagen 7

Avances en la investigación:
Aprovechando técnicas de DALL-E 3, como la "recaptación", Sora muestra una mayor fidelidad a la hora de seguir instrucciones de texto dentro de los vídeos. Además, Sora puede animar imágenes fijas o ampliar vídeos existentes, demostrando un gran ojo para los detalles minúsculos y la continuidad.

imagen 8

Medidas de seguridad:
Antes de generalizar el despliegue, se están aplicando amplios mecanismos de seguridad. Esto incluye la colaboración con expertos para comprobar si el modelo contiene información errónea, contenidos que inciten al odio y sesgos. Se están desarrollando herramientas para identificar los contenidos generados por IA y garantizar el cumplimiento de las políticas de contenidos, con planes futuros para incorporar metadatos C2PA para una mayor transparencia.

imagen 9

Perspectivas de futuro:
Al sentar las bases de modelos capaces de comprender en profundidad el mundo real, Sora marca un hito importante en el camino hacia la Inteligencia Artificial General (IAG). OpenAI, que colabora con responsables políticos, educadores y artistas de todo el mundo, mantiene su compromiso de comprender el impacto social de estos avances, sin perder de vista los posibles usos indebidos.

Este informe técnico se centra en (1) nuestro método para convertir datos visuales de todo tipo en una representación unificada que permite el entrenamiento a gran escala de modelos generativos, y (2) la evaluación cualitativa de las capacidades y limitaciones de Sora. En este informe no se incluyen los detalles del modelo ni de la implementación.

Muchos trabajos anteriores han estudiado el modelado generativo de datos de vídeo utilizando diversos métodos, incluidas las redes recurrentes,1,2,3 redes generativas adversariales,4,5,6,7 transformadores autorregresivos,8,9 y modelos de difusión.10,11,12 Estos trabajos suelen centrarse en una categoría reducida de datos visuales, en vídeos más cortos o en vídeos de un tamaño fijo. Sora es un modelo generalista de datos visuales: puede generar vídeos e imágenes de distintas duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo de vídeo de alta definición.

Convertir datos visuales en parches

Nos inspiramos en los grandes modelos lingüísticos que adquieren capacidades generalistas entrenándose con datos a escala de Internet.13,14 El éxito del paradigma LLM se debe en parte al uso de tokens que unifican con elegancia diversas modalidades de texto-código, matemáticas y varios lenguajes naturales. En este trabajo, estudiamos cómo los modelos generativos de datos visuales pueden heredar tales ventajas. Mientras que los LLM tienen tokens de texto, Sora tiene tokens visuales. parches. Se ha demostrado anteriormente que los parches son una representación eficaz para los modelos de datos visuales.15,16,17,18 Comprobamos que los parches son una representación altamente escalable y eficaz para entrenar modelos generativos en diversos tipos de vídeos e imágenes.

Figura Parches

A alto nivel, convertimos los vídeos en parches comprimiendo primero los vídeos en un espacio latente de menor dimensión,19 y descomponiendo posteriormente la representación en parches de espaciotiempo.

Red de compresión de vídeo

Entrenamos una red que reduce la dimensionalidad de los datos visuales.20 Esta red toma el vídeo en bruto como entrada y genera una representación latente comprimida temporal y espacialmente. Sora se entrena y posteriormente genera vídeos dentro de este espacio latente comprimido. También se entrena un modelo decodificador que vuelve a mapear las latentes generadas al espacio de píxeles.

Parches latentes del espaciotiempo

Dado un vídeo de entrada comprimido, extraemos una secuencia de parches espaciotemporales que actúan como fichas transformadoras. Este esquema también funciona con imágenes, ya que éstas son vídeos de un solo fotograma. Nuestra representación basada en parches permite a Sora entrenarse con vídeos e imágenes de resoluciones, duraciones y relaciones de aspecto variables. En el momento de la inferencia, podemos controlar el tamaño de los vídeos generados colocando parches inicializados aleatoriamente en una cuadrícula del tamaño adecuado.

Transformadores de escala para la generación de vídeo

Sora es un modelo de difusión21,22,23,24,25Si se le dan parches ruidosos de entrada (e información condicionante como mensajes de texto), se le entrena para predecir los parches "limpios" originales. Y lo que es más importante, Sora es un transformador.26 Los transformadores han demostrado notables propiedades de escalado en diversos ámbitos, incluido el modelado del lenguaje,13,14 visión por ordenador,15,16,17,18 y generación de imágenes.27,28,29

Figura Difusión

En este trabajo, descubrimos que los transformadores de difusión también se escalan eficazmente como modelos de vídeo. A continuación, mostramos una comparación de muestras de vídeo con semillas y entradas fijas a medida que avanza el entrenamiento. La calidad de las muestras mejora notablemente a medida que aumenta el cómputo del entrenamiento.

Base de cálculo

4x computación

Computación 16x

Duraciones, resoluciones y relaciones de aspecto variables

Los métodos anteriores de generación de imágenes y vídeos suelen cambiar el tamaño de los vídeos, recortarlos o ajustarlos a un tamaño estándar (por ejemplo, vídeos de 4 segundos con una resolución de 256×256). Hemos comprobado que entrenar con datos en su tamaño original ofrece varias ventajas.

Flexibilidad de muestreo

Sora puede reproducir vídeos panorámicos de 1920x1080p, verticales de 1080×1920 y todos los formatos intermedios. Esto permite a Sora crear contenidos para diferentes dispositivos directamente en sus relaciones de aspecto nativas. También nos permite crear rápidamente prototipos de contenidos a tamaños inferiores antes de generarlos a resolución completa, todo ello con el mismo modelo.

Encuadre y composición mejorados

Hemos comprobado empíricamente que el entrenamiento con vídeos en su relación de aspecto original mejora la composición y el encuadre. Comparamos Sora con una versión de nuestro modelo que recorta todos los vídeos de entrenamiento para que sean cuadrados, práctica habitual en el entrenamiento de modelos generativos. El modelo entrenado con recortes cuadrados (izquierda) genera a veces vídeos en los que el sujeto sólo se ve parcialmente. En comparación, los vídeos de Sora (derecha) tienen un encuadre mejorado.

Comprensión lingüística

El entrenamiento de sistemas de generación de texto a vídeo requiere una gran cantidad de vídeos con sus correspondientes subtítulos de texto. Aplicamos la técnica de retitulado introducida en DALL-E 330 a los vídeos. Primero entrenamos un modelo de subtitulador altamente descriptivo y luego lo utilizamos para producir subtítulos de texto para todos los vídeos de nuestro conjunto de entrenamiento. Comprobamos que el entrenamiento con subtítulos de vídeo muy descriptivos mejora la fidelidad del texto y la calidad general de los vídeos.

Al igual que en DALL-E 3, también aprovechamos GPT para convertir las breves indicaciones del usuario en subtítulos detallados más largos que se envían al modelo de vídeo. Esto permite a Sora generar vídeos de alta calidad que siguen con precisión las instrucciones del usuario.

una anciana manaun robot de juguete manaun adorable canguro

vistiendo

mono morado y botas vaquerasvaqueros azules y camiseta blancavestido verde y sombrero morado y botas vaqueras

dando un agradable paseo por

Johannesburgo, SudáfricaMumbai, IndiaJohannesburgo, SudáfricaAntártida

durante

un bello atardecerun bello atardeceruna tormenta invernalun colorido festival

Prompting con imágenes y vídeos

Todos los resultados anteriores y en nuestro página de aterrizaje muestran ejemplos de conversión de texto en vídeo. Pero Sora también puede recibir otras entradas, como imágenes o vídeos preexistentes. Esta capacidad permite a Sora realizar una amplia gama de tareas de edición de imagen y vídeo: crear vídeos en bucle perfectos, animar imágenes estáticas, extender vídeos hacia delante o hacia atrás en el tiempo, etc.

Animación de imágenes de DALL-E

Sora es capaz de generar vídeos a partir de una imagen y un texto. A continuación se muestran ejemplos de vídeos generados a partir de DALL-E 231 y DALL-E 330 imágenes.

incitación 0

Un perro Shiba Inu con boina y cuello alto negro.

incitación 2

Monstruo Ilustración en estilo de diseño plano de una familia diversa de monstruos. El grupo incluye un monstruo marrón peludo, un elegante monstruo negro con antenas, un monstruo verde moteado y un diminuto monstruo con lunares, todos interactuando en un entorno lúdico.

incitación 4

Una imagen de una nube realista que deletrea "SORA".

incitación 6

En una sala histórica y ornamentada, un enorme maremoto alcanza su punto álgido y comienza a chocar. Dos surfistas, aprovechando el momento, navegan hábilmente por la cara de la ola.

Ampliación de los vídeos generados

Sora también es capaz de ampliar vídeos, ya sea hacia delante o hacia atrás en el tiempo. A continuación se muestran cuatro vídeos que se extendieron hacia atrás en el tiempo a partir de un segmento de un vídeo generado. Como resultado, cada uno de los cuatro vídeos comienza de forma diferente a los demás, aunque los cuatro conducen al mismo final.

00:00

00:20

Podemos utilizar este método para extender un vídeo tanto hacia delante como hacia atrás para producir un bucle infinito sin interrupciones.

Edición de vídeo a vídeo

Los modelos de difusión han hecho posible una plétora de métodos para editar imágenes y vídeos a partir de indicaciones textuales. A continuación aplicamos uno de estos métodos, SDEdit,32 a Sora. Esta técnica permite a Sora transformar los estilos y ambientes de los vídeos de entrada sin necesidad de hacer ningún disparo.

vídeo de entradacambia el escenario para que sea una exuberante selvacambia el escenario a los años 20 con un coche de la vieja escuela. asegúrate de mantener el color rojohaz que sea bajo el aguacambia el escenario del vídeo para que sea diferente a una montaña? ¿quizás el árbol de Joshua?poner el vídeo en el espacio con una carretera arco irismantener el vídeo igual pero que sea inviernohacerlo en estilo de animación claymationrecrear en el estilo de un dibujo a carboncillo, asegurándose de que sea en blanco y negrocambiar el escenario a cyberpunkcambiar el vídeo a un tema medievalhacer que tenga dinosauriosreescribir el vídeo en estilo pixel art

Conexión de vídeos

También podemos utilizar Sora para interpolar gradualmente entre dos vídeos de entrada, creando transiciones fluidas entre vídeos con temas y composiciones de escena totalmente diferentes. En los ejemplos siguientes, los vídeos del centro se interpolan entre los vídeos correspondientes de la izquierda y la derecha.

Capacidad de generación de imágenes

Sora también es capaz de generar imágenes. Para ello, disponemos parches de ruido gaussiano en una cuadrícula espacial con una extensión temporal de un fotograma. El modelo puede generar imágenes de tamaño variable, con una resolución de hasta 2048×2048.

imagen 0Retrato en primer plano de una mujer en otoño, detalle extremo, poca profundidad de campo

imagen 1Vibrante arrecife de coral repleto de coloridos peces y criaturas marinas

imagen 2Arte digital de un joven tigre bajo un manzano en un estilo de pintura mate con magníficos detalles.

imagen 3Un pueblo de montaña nevado con acogedoras cabañas y una aurora boreal, dslr de gran detalle y fotorrealismo, 50mm f/1.2

Nuevas capacidades de simulación

Descubrimos que los modelos de vídeo presentan una serie de capacidades emergentes interesantes cuando se entrenan a escala. Estas capacidades permiten a Sora simular algunos aspectos de personas, animales y entornos del mundo físico. Estas propiedades surgen sin ningún sesgo inductivo explícito para 3D, objetos, etc.: son fenómenos puramente de escala.

Consistencia 3D. Sora puede generar vídeos con movimiento de cámara dinámico. A medida que la cámara se desplaza y gira, las personas y los elementos de la escena se mueven de forma coherente por el espacio tridimensional.

Coherencia de largo alcance y permanencia del objeto. Un reto importante para los sistemas de generación de vídeo ha sido mantener la coherencia temporal al muestrear vídeos largos. Hemos comprobado que Sora suele ser capaz, aunque no siempre, de modelar eficazmente las dependencias de corto y largo alcance. Por ejemplo, nuestro modelo puede mantener personas, animales y objetos incluso cuando están ocluidos o salen del encuadre. Asimismo, puede generar múltiples tomas del mismo personaje en una sola muestra, manteniendo su apariencia a lo largo de todo el vídeo.

Interactuar con el mundo. En ocasiones, Sora puede simular acciones que afectan al estado del mundo de forma sencilla. Por ejemplo, un pintor puede dejar nuevas pinceladas a lo largo de un lienzo que persistan en el tiempo, o un hombre puede comerse una hamburguesa y dejar marcas de mordiscos.

Simulación de mundos digitales. Sora también es capaz de simular procesos artificiales: un ejemplo son los videojuegos. Sora puede controlar al jugador en Minecraft con una política básica y, al mismo tiempo, representar el mundo y su dinámica con gran fidelidad. Estas capacidades pueden obtenerse sin necesidad de disparar a Sora con subtítulos que mencionen "Minecraft".

Estas capacidades sugieren que la ampliación continua de los modelos de vídeo es un camino prometedor hacia el desarrollo de simuladores de gran capacidad del mundo físico y digital, y de los objetos, animales y personas que viven en ellos.

Debate

Actualmente, Sora presenta numerosas limitaciones como simulador. Por ejemplo, no modela con precisión la física de muchas interacciones básicas, como la rotura de cristales. Otras interacciones, como la ingesta de alimentos, no siempre producen cambios correctos en el estado de los objetos. Enumeramos otros fallos comunes del modelo -como las incoherencias que se desarrollan en muestras de larga duración o las apariciones espontáneas de objetos- en nuestra página de aterrizaje.

Creemos que las capacidades actuales de Sora demuestran que el escalado continuo de los modelos de vídeo es un camino prometedor hacia el desarrollo de simuladores capaces del mundo físico y digital, y de los objetos, animales y personas que viven en ellos.

Técnicas de investigación

Sora es un modelo de difusión, que genera un vídeo partiendo de uno que parece ruido estático y lo transforma gradualmente eliminando el ruido a lo largo de muchos pasos.

Sora es capaz de generar vídeos enteros de una sola vez o de ampliar los vídeos generados para hacerlos más largos. Al dar al modelo la previsión de muchos fotogramas a la vez, hemos resuelto el difícil problema de asegurarnos de que un sujeto permanezca igual aunque se pierda de vista temporalmente.

Al igual que los modelos GPT, Sora utiliza una arquitectura de transformadores, lo que proporciona un rendimiento de escalado superior.

Representamos los vídeos y las imágenes como colecciones de unidades de datos más pequeñas denominadas parches, cada una de las cuales es similar a un token en GPT. Al unificar la forma de representar los datos, podemos entrenar transformadores de difusión con una gama de datos visuales más amplia que antes, que abarca diferentes duraciones, resoluciones y relaciones de aspecto.

Sora se basa en investigaciones anteriores sobre los modelos DALL-E y GPT. Utiliza la técnica de recapitulación de DALL-E 3, que consiste en generar subtítulos muy descriptivos para los datos visuales de entrenamiento. Como resultado, el modelo es capaz de seguir más fielmente las instrucciones de texto del usuario en el vídeo generado.

Además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo es capaz de tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención a los pequeños detalles. El modelo también puede tomar un vídeo existente y ampliarlo o rellenar los fotogramas que faltan. Más información en nuestro informe técnico.

Sora sirve de base para modelos capaces de comprender y simular el mundo real, una capacidad que creemos será un hito importante para lograr la AGI.

Conclusión:
Sora representa un paso definitivo en la síntesis de vídeo, con un equilibrio entre la libertad creativa y una intrincada atención a la realidad. A medida que OpenAI siga desarrollando y perfeccionando estas capacidades, Sora podría redefinir la forma en que abordamos la narración visual y el papel de la IA en el aumento de la creatividad humana.

Deja un comentario

es_ESSpanish