AI Sora:Video Generation with OpenAI Sora

OpenAI a présenté Sora, un modèle d'IA sophistiqué capable de produire des vidéos réalistes de haute qualité directement à partir d'invites textuelles. Sora est à la pointe de la compréhension et de la simulation par l'IA du monde physique en mouvement, un effort essentiel pour le développement de modèles qui s'interfacent efficacement avec la dynamique du monde réel. Ce bond en avant dans le traitement du langage naturel et la synthèse vidéo enrichit non seulement les domaines des arts visuels et de la conception, mais ouvre également une nouvelle frontière à l'exploration créative et technique.

image 4

Introduction :


Axé sur la synthèse texte-vidéo, Sora d'OpenAI est conçu pour transformer des instructions textuelles détaillées en vidéos d'une minute qui sont à la fois visuellement attrayantes et rigoureusement conformes à leurs descripteurs. Les capacités du modèle sont démontrées par diverses invites, chacune générant des scènes uniques et contextuelles qui repoussent les limites des capacités d'interprétation et de génération de l'IA.

image 5

Applications et impact :
Bien qu'il soit actuellement accessible aux membres de l'équipe rouge pour l'identification des dommages potentiels, le potentiel de Sora s'étend à d'autres disciplines. Des artistes visuels, des concepteurs et des cinéastes utilisent le modèle pour affiner son utilité dans les industries créatives. OpenAI prévoit un large éventail d'applications allant des aides éducatives à la production automatisée de contenu vidéo, en passant par le divertissement et les simulations avancées pour les études théoriques.

image 6

L'épine dorsale technologique :
Sora est construit sur un modèle de diffusion, une méthode qui part d'un bruit statique et l'affine méticuleusement pour en faire un récit vidéo cohérent. S'inspirant de l'architecture des transformateurs des modèles GPT, Sora utilise une stratégie de mise à l'échelle similaire qui renforce sa capacité à traiter de vastes gammes de données visuelles. Ses opérations s'apparentent à la tokenisation du modèle GPT, mais elles sont appliquées à des patchs visuels, ce qui lui permet de traiter efficacement des durées, des résolutions et des rapports d'aspect variés.

image 7

Progrès de la recherche :
En tirant parti des techniques de DALL-E 3, telles que le "recaptionnement", Sora fait preuve d'une plus grande fidélité dans le suivi des instructions textuelles au sein des vidéos. En outre, Sora peut animer des images fixes ou prolonger des vidéos existantes, en faisant preuve d'un sens aigu du détail et de la continuité.

image 8

Mesures de sécurité :
Avant un déploiement plus large, des mécanismes de sécurité étendus sont mis en œuvre. Il s'agit notamment de travailler avec des experts pour tester le modèle afin de détecter les fausses informations, les contenus haineux et les préjugés. Des outils sont en cours de développement pour identifier les contenus générés par l'IA et pour garantir le respect des politiques de contenu, avec des projets futurs visant à intégrer les métadonnées C2PA pour plus de transparence.

image 9

Perspectives d'avenir :
En jetant les bases de modèles capables de comprendre en profondeur le monde réel, Sora marque une étape importante sur la voie de l'intelligence artificielle générale (AGI). En s'engageant auprès des décideurs politiques, des éducateurs et des artistes du monde entier, l'OpenAI s'attache à comprendre l'impact sociétal de ces avancées tout en restant vigilante quant aux abus potentiels.

Ce rapport technique se concentre sur (1) notre méthode pour transformer les données visuelles de tous types en une représentation unifiée qui permet l'entraînement à grande échelle de modèles génératifs, et (2) l'évaluation qualitative des capacités et des limites de Sora. Les détails du modèle et de la mise en œuvre ne sont pas inclus dans ce rapport.

De nombreux travaux antérieurs ont étudié la modélisation générative des données vidéo à l'aide d'une variété de méthodes, y compris les réseaux récurrents,1,2,3 les réseaux adversaires génératifs,4,5,6,7 transformateurs autorégressifs,8,9 et les modèles de diffusion.10,11,12 Ces travaux se concentrent souvent sur une catégorie étroite de données visuelles, sur des vidéos plus courtes ou sur des vidéos de taille fixe. Sora est un modèle généraliste de données visuelles : il peut générer des vidéos et des images de durées, de formats et de résolutions variés, jusqu'à une minute complète de vidéo haute définition.

Transformer les données visuelles en correctifs

Nous nous inspirons des grands modèles de langage qui acquièrent des capacités généralistes en s'entraînant sur des données à l'échelle de l'internet.13,14 Le succès du paradigme LLM est en partie dû à l'utilisation de jetons (tokens). qui unifient élégamment les diverses modalités du code texte, des mathématiques et de diverses langues naturelles. Dans ce travail, nous examinons comment les modèles génératifs de données visuelles peuvent hériter de ces avantages. Alors que les LLM ont des tokens textuels, Sora a des données visuelles. correctifs. Les patchs se sont déjà révélés être une représentation efficace pour les modèles de données visuelles.15,16,17,18 Nous constatons que les patchs constituent une représentation efficace et à grande échelle pour l'entraînement de modèles génératifs sur divers types de vidéos et d'images.

Figure Patchs

À un niveau élevé, nous transformons les vidéos en patchs en compressant d'abord les vidéos dans un espace latent de dimension inférieure,19 et en décomposant ensuite la représentation en parcelles d'espace-temps.

Réseau de compression vidéo

Nous formons un réseau qui réduit la dimensionnalité des données visuelles.20 Ce réseau prend une vidéo brute en entrée et produit une représentation latente qui est comprimée à la fois dans le temps et dans l'espace. Sora est entraîné sur cet espace latent compressé et génère par la suite des vidéos dans cet espace latent compressé. Nous formons également un modèle de décodeur correspondant qui ramène les latents générés à l'espace des pixels.

Traces latentes dans l'espace-temps

À partir d'une vidéo d'entrée compressée, nous extrayons une séquence de taches spatio-temporelles qui servent de jetons de transformation. Ce schéma fonctionne également pour les images, puisque celles-ci ne sont que des vidéos avec une seule image. Notre représentation basée sur les patchs permet à Sora de s'entraîner sur des vidéos et des images de résolutions, de durées et de rapports d'aspect variables. Au moment de l'inférence, nous pouvons contrôler la taille des vidéos générées en disposant des patchs initialisés de manière aléatoire dans une grille de taille appropriée.

Transformateurs de mise à l'échelle pour la génération vidéo

Sora est un modèle de diffusion21,22,23,24,25Sora est un modèle de diffusion qui permet de prédire les images de l'image originale "propre" à partir d'images bruitées (et d'informations de conditionnement telles que des textes). Il est important de noter que Sora est un système de diffusion transformateur.26 Les transformateurs ont démontré de remarquables propriétés de mise à l'échelle dans une variété de domaines, y compris la modélisation du langage,13,14 vision par ordinateur,15,16,17,18 et la génération d'images.27,28,29

Figure Diffusion

Dans ce travail, nous constatons que les transformateurs de diffusion s'adaptent efficacement aux modèles vidéo. Nous présentons ci-dessous une comparaison d'échantillons vidéo avec des semences et des entrées fixes au fur et à mesure de l'apprentissage. La qualité des échantillons s'améliore nettement au fur et à mesure que le calcul de la formation augmente.

Calcul de base

Calcul 4x

Calculs 16x

Durées, résolutions et rapports d'aspect variables

Les approches antérieures de génération d'images et de vidéos consistent généralement à redimensionner, recadrer ou découper les vidéos à une taille standard - par exemple, des vidéos de 4 secondes à une résolution de 256×256. Nous constatons que l'entraînement sur des données à leur taille d'origine présente plusieurs avantages.

Flexibilité de l'échantillonnage

Sora peut échantillonner des vidéos en écran large 1920x1080p, des vidéos verticales 1080×1920 et tout ce qui se trouve entre les deux. Cela permet à Sora de créer du contenu pour différents appareils directement à leur format d'origine. Cela nous permet également de prototyper rapidement des contenus à des tailles inférieures avant de les générer en pleine résolution, le tout avec le même modèle.

Amélioration du cadrage et de la composition

Nous constatons empiriquement que l'entraînement sur des vidéos à leur format d'origine améliore la composition et le cadrage. Nous comparons Sora à une version de notre modèle qui recadre toutes les vidéos d'entraînement pour qu'elles soient carrées, ce qui est une pratique courante lors de l'entraînement de modèles génératifs. Le modèle entraîné sur des vidéos carrées (à gauche) génère parfois des vidéos dans lesquelles le sujet n'est que partiellement visible. En comparaison, les vidéos issues de Sora (à droite) présentent un meilleur cadrage.

Compréhension de la langue

L'entraînement des systèmes de génération de texte à partir de vidéos nécessite une grande quantité de vidéos avec les légendes correspondantes. Nous appliquons la technique de sous-titrage introduite dans DALL-E 330 aux vidéos. Nous commençons par former un modèle de sous-titreur hautement descriptif, puis nous l'utilisons pour produire des sous-titres textuels pour toutes les vidéos de notre ensemble de formation. Nous constatons que l'entraînement sur des sous-titres vidéo hautement descriptifs améliore la fidélité du texte ainsi que la qualité générale des vidéos.

Comme pour DALL-E 3, nous exploitons également la technologie GPT pour transformer les courtes invites de l'utilisateur en légendes détaillées plus longues qui sont envoyées au modèle vidéo. Cela permet à Sora de générer des vidéos de haute qualité qui suivent avec précision les instructions de l'utilisateur.

une vieille femme manaun vieux robot jouet manaun adorable kangourou

porter

salopette violette et bottes de cow-boy jean bleu et t-shirt blanc robe verte et chapeau de soleil salopette violette et bottes de cow-boy

en se promenant agréablement dans

Johannesburg, Afrique du SudMumbai, IndeJohannesburg, Afrique du SudAntarctique

pendant

un beau coucher de soleilun beau coucher de soleilune tempête hivernaleun festival coloré

Incitation à l'utilisation d'images et de vidéos

Tous les résultats ci-dessus et dans notre page d'atterrissage montrent des exemples de conversion de texte en vidéo. Mais Sora peut également être sollicité par d'autres entrées, telles que des images ou des vidéos préexistantes. Cette capacité permet à Sora d'effectuer un large éventail de tâches d'édition d'images et de vidéos : création de vidéos en boucle parfaite, animation d'images statiques, extension de vidéos vers l'avant ou vers l'arrière dans le temps, etc.

Animer les images de DALL-E

Sora est capable de générer des vidéos à partir d'une image et d'une invite. Nous présentons ci-dessous des exemples de vidéos générées à partir de DALL-E 231 et DALL-E 330 images.

incitation 0

Un chien Shiba Inu portant un béret et un col roulé noir.

incitation 2

Illustration d'une famille de monstres dans le style flat design. Le groupe comprend un monstre brun à fourrure, un monstre noir élégant avec des antennes, un monstre vert tacheté et un minuscule monstre à pois, tous interagissant dans un environnement ludique.

incitation 4

Image d'un nuage réaliste qui écrit "SORA".

incitation 6

Dans une salle historique ornée, un raz-de-marée massif atteint son point culminant et commence à s'écraser. Deux surfeurs, saisissant l'occasion, naviguent habilement sur la face de la vague.

Extension des vidéos générées

Sora est également capable de prolonger des vidéos, que ce soit vers l'avant ou vers l'arrière dans le temps. Vous trouverez ci-dessous quatre vidéos qui ont toutes été prolongées dans le temps à partir d'un segment d'une vidéo générée. Par conséquent, chacune des quatre vidéos commence différemment des autres, mais toutes aboutissent à la même fin.

00:00

00:20

Nous pouvons utiliser cette méthode pour étendre une vidéo à la fois vers l'avant et vers l'arrière afin de produire une boucle infinie transparente.

Montage vidéo à vidéo

Les modèles de diffusion ont permis d'élaborer une pléthore de méthodes d'édition d'images et de vidéos à partir d'invites textuelles. Nous appliquons ci-dessous l'une de ces méthodes, SDEdit,32 à Sora. Cette technique permet à Sora de transformer les styles et les environnements des vidéos d'entrée en un clin d'œil.

Vidéo d'entrée changer le décor pour qu'il soit dans une jungle luxuriante changer le décor pour qu'il soit dans les années 1920 avec une voiture ancienne. veiller à garder la couleur rouge le faire aller sous l'eau changer le décor de la vidéo pour qu'il soit autre chose qu'une montagne ? peut-être un arbre de joshua ?mettre la vidéo dans l'espace avec une route arc-en-ciel garder la vidéo inchangée mais la rendre hivernale la faire dans un style d'animation claymation recréer dans le style d'un dessin au fusain, en s'assurant d'être en noir et blanc changer le décor pour qu'il soit cyberpunk changer la vidéo pour un thème médiéval la faire avec des dinosaures réécrire la vidéo dans un style pixel art.

Connexion des vidéos

Nous pouvons également utiliser Sora pour interpoler progressivement entre deux vidéos d'entrée, en créant des transitions transparentes entre des vidéos dont les sujets et la composition des scènes sont totalement différents. Dans les exemples ci-dessous, les vidéos au centre interpolent les vidéos correspondantes à gauche et à droite.

Capacités de génération d'images

Sora est également capable de générer des images. Pour ce faire, nous disposons des taches de bruit gaussien dans une grille spatiale dont l'étendue temporelle est d'une image. Le modèle peut générer des images de taille variable, jusqu'à une résolution de 2048×2048.

image 0Portrait en gros plan d'une femme en automne, détails extrêmes, faible profondeur de champ

image 1Récif corallien vibrant regorgeant de poissons et de créatures marines colorés

image 2Art numérique d'un jeune tigre sous un pommier dans un style de peinture mate avec de superbes détails

image 3Un village de montagne enneigé avec des cabanes douillettes et une aurore boréale, détail élevé et photoréalisme dslr, 50mm f/1.2

Capacités de simulation émergentes

Nous constatons que les modèles vidéo présentent un certain nombre de capacités émergentes intéressantes lorsqu'ils sont entraînés à grande échelle. Ces capacités permettent à Sora de simuler certains aspects des personnes, des animaux et des environnements du monde physique. Ces propriétés émergent sans aucun biais inductif explicite pour la 3D, les objets, etc. - il s'agit purement de phénomènes d'échelle.

Cohérence 3D. Sora peut générer des vidéos avec des mouvements de caméra dynamiques. Lorsque la caméra se déplace et tourne, les personnes et les éléments de la scène se déplacent de manière cohérente dans l'espace tridimensionnel.

Cohérence à longue distance et permanence de l'objet. Un défi important pour les systèmes de génération vidéo a été de maintenir la cohérence temporelle lors de l'échantillonnage de longues vidéos. Nous avons constaté que Sora est souvent, mais pas toujours, capable de modéliser efficacement les dépendances à court et à long terme. Par exemple, notre modèle peut maintenir les personnes, les animaux et les objets même lorsqu'ils sont occultés ou qu'ils quittent le cadre. De même, il peut générer plusieurs plans d'un même personnage dans un seul échantillon, en conservant leur apparence tout au long de la vidéo.

Interagir avec le monde. Sora peut parfois simuler des actions qui affectent l'état du monde de manière simple. Par exemple, un peintre peut laisser de nouveaux traits sur une toile qui persistent dans le temps, ou un homme peut manger un hamburger et laisser des traces de morsure.

Simuler des mondes numériques. Sora est également capable de simuler des processus artificiels, comme par exemple les jeux vidéo. Sora peut simultanément contrôler le joueur dans Minecraft avec une politique de base tout en restituant le monde et sa dynamique avec une grande fidélité. Ces capacités peuvent être déclenchées en demandant à Sora d'afficher des légendes mentionnant "Minecraft".

Ces capacités suggèrent que la poursuite de la mise à l'échelle des modèles vidéo est une voie prometteuse vers le développement de simulateurs hautement performants du monde physique et numérique, ainsi que des objets, des animaux et des personnes qui y vivent.

Discussion

Sora présente actuellement de nombreuses limites en tant que simulateur. Par exemple, il ne modélise pas avec précision la physique de nombreuses interactions de base, comme le bris de verre. D'autres interactions, comme la consommation de nourriture, n'entraînent pas toujours des changements corrects dans l'état des objets. Nous énumérons d'autres modes de défaillance courants du modèle, tels que les incohérences qui se développent dans les échantillons de longue durée ou les apparitions spontanées d'objets, dans notre page d'atterrissage.

Nous pensons que les capacités dont dispose Sora aujourd'hui démontrent que la mise à l'échelle continue des modèles vidéo est une voie prometteuse vers le développement de simulateurs performants du monde physique et numérique, ainsi que des objets, des animaux et des personnes qui y vivent.

Techniques de recherche

Sora est un modèle de diffusion qui génère une vidéo en commençant par une vidéo qui ressemble à un bruit statique et qui la transforme progressivement en supprimant le bruit sur plusieurs étapes.

Sora est capable de générer des vidéos entières en une seule fois ou de prolonger les vidéos générées pour les rendre plus longues. En donnant au modèle la possibilité de prévoir plusieurs images à la fois, nous avons résolu un problème difficile, à savoir s'assurer qu'un sujet reste le même même même s'il disparaît temporairement de la vue.

À l'instar des modèles GPT, Sora utilise une architecture de transformateur, ce qui permet de débloquer des performances de mise à l'échelle supérieures.

Nous représentons les vidéos et les images comme des collections d'unités de données plus petites appelées "patchs", chacune d'entre elles étant apparentée à un jeton dans GPT. En unifiant la façon dont nous représentons les données, nous pouvons entraîner les transformateurs de diffusion sur une gamme de données visuelles plus large qu'auparavant, couvrant différentes durées, résolutions et rapports d'aspect.

Sora s'appuie sur les recherches antérieures menées sur les modèles DALL-E et GPT. Il utilise la technique de recaptionnement de DALL-E 3, qui consiste à générer des légendes très descriptives pour les données visuelles de formation. Le modèle est ainsi capable de suivre plus fidèlement les instructions textuelles de l'utilisateur dans la vidéo générée.

En plus de pouvoir générer une vidéo uniquement à partir d'instructions textuelles, le modèle est capable de prendre une image fixe existante et de générer une vidéo à partir de celle-ci, en animant le contenu de l'image avec précision et en prêtant attention aux petits détails. Le modèle peut également prendre une vidéo existante et l'étendre ou compléter les images manquantes. Pour en savoir plus, consultez notre rapport technique.

Sora sert de base à des modèles capables de comprendre et de simuler le monde réel, une capacité dont nous pensons qu'elle constituera une étape importante dans la réalisation de l'AGI.

Conclusion :
Sora représente une étape décisive dans la synthèse vidéo, équilibrant la liberté créative et l'attention minutieuse portée à la réalité. Alors que l'OpenAI continue de développer et d'affiner ces capacités, Sora pourrait redéfinir la façon dont nous abordons la narration visuelle et le rôle de l'IA dans l'augmentation de la créativité humaine.

Laisser un commentaire

fr_FRFrench