de_DEGerman

AI Sora:Video Generation with OpenAI Sora

OpenAI hat Sora vorgestellt, ein hochentwickeltes KI-Modell, das in der Lage ist, hochwertige, realistische Videos direkt aus Textanweisungen zu produzieren. Sora steht an der Spitze des KI-Verständnisses und der Simulation der physischen Welt in Bewegung, ein Unterfangen, das für die Entwicklung von Modellen, die effektiv mit der Dynamik der realen Welt zusammenarbeiten, entscheidend ist. Dieser Sprung in der Verarbeitung natürlicher Sprache und der Videosynthese bereichert nicht nur die Bereiche der visuellen Künste und des Designs, sondern eröffnet auch neue Möglichkeiten für die kreative und technische Erforschung.

Bild 4

Einleitung:


Sora von OpenAI basiert auf der Synthese von Text und Video und ist in der Lage, detaillierte Textanweisungen in einminütige Videos umzuwandeln, die sowohl visuell ansprechend sind als auch die Beschreibungen genau einhalten. Die Fähigkeiten des Modells werden durch verschiedene Aufforderungen demonstriert, die jeweils einzigartige, kontextgenaue Szenen erzeugen, die die Grenzen der interpretativen und generativen Fähigkeiten der KI ausreizen.

Bild 5

Anwendungen und Auswirkungen:
Obwohl Sora derzeit für Red-Teamer zur Ermittlung potenzieller Schäden zugänglich ist, erstreckt sich sein Potenzial auch auf andere Disziplinen. Bildende Künstler, Designer und Filmemacher befassen sich mit dem Modell, um seinen Nutzen für die Kreativbranche zu verfeinern. OpenAI rechnet mit einem breiten Anwendungsspektrum, das von Bildungshilfen, automatisierter Produktion von Videoinhalten und Unterhaltung bis hin zu fortgeschrittenen Simulationen für theoretische Studien reicht.

Bild 6

Technologisches Rückgrat:
Sora basiert auf einem Diffusionsmodell, einer Methode, die mit statisch anmutendem Rauschen beginnt und es sorgfältig zu einer kohärenten Videoerzählung verfeinert. Sora verwendet eine ähnliche Skalierungsstrategie, die Parallelen zur Transformer-Architektur der GPT-Modelle aufweist und die Fähigkeit zur Verarbeitung großer Mengen visueller Daten verbessert. Seine Operationen sind mit der Tokenisierung in GPT vergleichbar, werden aber auf visuelle Patches angewandt, so dass es verschiedene Dauern, Auflösungen und Seitenverhältnisse effektiv verarbeiten kann.

Abbildung 7

Fortschritte in der Forschung:
Durch die Nutzung von Techniken aus DALL-E 3, wie z. B. "Recaptioning", zeigt Sora eine verbesserte Genauigkeit beim Verfolgen von Textanweisungen in Videos. Außerdem kann Sora Standbilder animieren oder bestehende Videos erweitern und zeigt dabei ein gutes Auge für winzige Details und Kontinuität.

Bild 8

Sicherheitsmaßnahmen:
Im Vorfeld einer breiteren Einführung werden umfangreiche Sicherheitsmechanismen eingeführt. Dazu gehört die Zusammenarbeit mit Experten, um das Modell auf Fehlinformationen, hasserfüllte Inhalte und Verzerrungen zu testen. Es werden Tools entwickelt, um KI-generierte Inhalte zu identifizieren und die Einhaltung von Inhaltsrichtlinien zu gewährleisten, und es ist geplant, in Zukunft C2PA-Metadaten für zusätzliche Transparenz einzubeziehen.

Bild 9

Zukunftsperspektiven:
Durch die Schaffung der Grundlagen für Modelle, die ein tiefes Verständnis der realen Welt ermöglichen, stellt Sora einen wichtigen Meilenstein auf dem Weg zur allgemeinen künstlichen Intelligenz (AGI) dar. In Zusammenarbeit mit politischen Entscheidungsträgern, Pädagogen und Künstlern auf der ganzen Welt setzt sich OpenAI dafür ein, die gesellschaftlichen Auswirkungen solcher Fortschritte zu verstehen und gleichzeitig wachsam gegenüber möglichem Missbrauch zu sein.

Dieser technische Bericht konzentriert sich auf (1) unsere Methode zur Umwandlung visueller Daten aller Art in eine einheitliche Darstellung, die das Training generativer Modelle in großem Maßstab ermöglicht, und (2) die qualitative Bewertung der Fähigkeiten und Grenzen von Sora. Modell- und Implementierungsdetails sind in diesem Bericht nicht enthalten.

Viele frühere Arbeiten haben sich mit der generativen Modellierung von Videodaten befasst und dabei eine Vielzahl von Methoden verwendet, darunter auch rekurrente Netzwerke,1,2,3 generative kontradiktorische Netze,4,5,6,7 autoregressive Transformatoren,8,9 und Diffusionsmodelle.10,11,12 Diese Arbeiten konzentrieren sich oft auf eine enge Kategorie von visuellen Daten, auf kürzere Videos oder auf Videos mit einer festen Größe. Sora ist ein generalistisches Modell für visuelle Daten - es kann Videos und Bilder mit unterschiedlichen Laufzeiten, Seitenverhältnissen und Auflösungen erzeugen, bis hin zu einer vollen Minute High-Definition-Video.

Umwandlung visueller Daten in Patches

Wir lassen uns von großen Sprachmodellen inspirieren, die durch Training auf Internetdaten generalistische Fähigkeiten erwerben.13,14 Der Erfolg des LLM-Paradigmas wird zum Teil durch die Verwendung von Token ermöglicht die auf elegante Weise verschiedene Modalitäten von Text, Code, Mathematik und verschiedenen natürlichen Sprachen vereinen. In dieser Arbeit untersuchen wir, wie generative Modelle von visuellen Daten solche Vorteile übernehmen können. Während LLMs Text-Token haben, hat Sora visuelle Flicken. Es wurde bereits gezeigt, dass Patches eine effektive Darstellung für Modelle visueller Daten sind.15,16,17,18 Wir haben herausgefunden, dass Patches eine hochskalierbare und effektive Repräsentation für das Training generativer Modelle auf verschiedenen Arten von Videos und Bildern sind.

Abbildung Patches

Auf einer hohen Ebene verwandeln wir Videos in Patches, indem wir sie zunächst in einen niedrigdimensionalen latenten Raum komprimieren,19 und anschließend die Zerlegung der Darstellung in Raum-Zeit-Felder.

Netzwerk für Videokompression

Wir trainieren ein Netzwerk, das die Dimensionalität der visuellen Daten reduziert.20 Dieses Netzwerk nimmt Rohvideo als Eingabe und gibt eine latente Darstellung aus, die sowohl zeitlich als auch räumlich komprimiert ist. Sora wird auf diesem komprimierten latenten Raum trainiert und generiert anschließend Videos in diesem Raum. Wir trainieren auch ein entsprechendes Decodermodell, das die generierten Latenten zurück in den Pixelraum abbildet.

Latente Flecken in der Raumzeit

Aus einem komprimierten Eingangsvideo extrahieren wir eine Folge von Raum-Zeit-Feldern, die als Transformator-Token fungieren. Dieses Schema funktioniert auch für Bilder, da Bilder nur Videos mit einem Einzelbild sind. Unsere Patch-basierte Repräsentation ermöglicht es Sora, auf Videos und Bildern mit unterschiedlichen Auflösungen, Laufzeiten und Seitenverhältnissen zu trainieren. Zur Inferenzzeit können wir die Größe der generierten Videos steuern, indem wir zufällig initialisierte Patches in einem entsprechend großen Raster anordnen.

Skalierungstransformatoren für die Videoerzeugung

Sora ist ein Diffusionsmodell21,22,23,24,25Sora wird darauf trainiert, anhand von verrauschten Eingabefeldern (und konditionierenden Informationen wie Textaufforderungen) die ursprünglichen "sauberen" Felder vorherzusagen. Wichtig ist, dass Sora eine Diffusion ist Transformator.26 Transformatoren haben bemerkenswerte Skalierungseigenschaften in einer Vielzahl von Bereichen, einschließlich der Sprachmodellierung, gezeigt,13,14 Computer Vision,15,16,17,18 und Bilderzeugung.27,28,29

Abbildung Diffusion

In dieser Arbeit stellen wir fest, dass Diffusionstransformatoren auch als Videomodelle effektiv skalieren. Nachfolgend zeigen wir einen Vergleich von Videoproben mit festen Seeds und Inputs bei fortschreitendem Training. Die Qualität der Proben verbessert sich deutlich mit zunehmender Trainingsberechnung.

Basisberechnung

4x Rechnen

16-fache Rechenleistung

Variable Laufzeiten, Auflösungen, Seitenverhältnisse

Bisherige Ansätze zur Bild- und Videogenerierung haben Videos in der Regel auf eine Standardgröße zugeschnitten - z. B. 4-Sekunden-Videos mit einer Auflösung von 256×256. Wir haben festgestellt, dass das Training mit Daten in ihrer ursprünglichen Größe mehrere Vorteile bietet.

Flexibilität bei der Probenahme

Sora kann Widescreen-Videos mit 1920x1080p, vertikale Videos mit 1080×1920 und alles dazwischen abspielen. So kann Sora Inhalte für verschiedene Geräte direkt in deren nativen Seitenverhältnissen erstellen. Außerdem können wir so schnell Prototypen von Inhalten in niedrigeren Größen erstellen, bevor wir sie in voller Auflösung generieren - alles mit demselben Modell.

Verbesserte Rahmung und Komposition

Wir stellen empirisch fest, dass das Training auf Videos mit ihrem ursprünglichen Seitenverhältnis die Komposition und das Framing verbessert. Wir vergleichen Sora mit einer Version unseres Modells, bei der alle Trainingsvideos auf ein quadratisches Format zugeschnitten werden, was beim Training generativer Modelle gängige Praxis ist. Das auf quadratischen Ausschnitten trainierte Modell (links) erzeugt manchmal Videos, bei denen das Motiv nur teilweise zu sehen ist. Im Vergleich dazu haben die Videos von Sora (rechts) einen besseren Bildausschnitt.

Sprachverständnis

Für das Training von Text-zu-Video-Generierungssystemen wird eine große Menge an Videos mit entsprechenden Textuntertiteln benötigt. Wir wenden die in DALL-E 3 eingeführte Technik der Neuuntertitelung an.30 zu Videos. Wir trainieren zunächst ein hochgradig deskriptives Untertitelmodell und verwenden es dann zur Erstellung von Textuntertiteln für alle Videos in unserem Trainingssatz. Wir stellen fest, dass das Training mit hochgradig beschreibenden Videountertiteln sowohl die Texttreue als auch die Gesamtqualität der Videos verbessert.

Ähnlich wie bei DALL-E 3 nutzen wir GPT, um kurze Benutzereingaben in längere, detaillierte Beschriftungen zu verwandeln, die an das Videomodell gesendet werden. Auf diese Weise kann Sora qualitativ hochwertige Videos generieren, die den Benutzereingaben genau folgen.

eine alte Frau aus Manaein alter Spielzeugroboter aus Manaein entzückendes Känguru

mit

lila Latzhose und Cowboystiefelblaue Jeans und weißes T-Shirtgrünes Kleid und Sonnenhutlila Latzhose und Cowboystiefel

einen angenehmen Spaziergang in

Johannesburg, SüdafrikaMumbai, IndienJohannesburg, SüdafrikaAntarktis

während

ein schöner Sonnenuntergangein schöner Sonnenuntergangein Wintersturmein buntes Fest

Prompting mit Bildern und Videos

Alle oben genannten Ergebnisse und in unserem Zielseite zeigen Text-zu-Video-Beispiele. Sora kann aber auch mit anderen Eingaben, wie z. B. bereits vorhandenen Bildern oder Videos, angesteuert werden. Diese Fähigkeit ermöglicht es Sora, eine breite Palette von Bild- und Videobearbeitungsaufgaben auszuführen - die Erstellung von perfekt geloopten Videos, die Animation von statischen Bildern, die Verlängerung von Videos vorwärts oder rückwärts in der Zeit, usw.

Animierte DALL-E-Bilder

Sora ist in der Lage, Videos zu generieren, wenn ein Bild und eine Eingabeaufforderung eingegeben werden. Im Folgenden zeigen wir Beispielvideos, die anhand von DALL-E 2 generiert wurden31 und DALL-E 330 Bilder.

Aufforderung 0

Ein Shiba-Inu-Hund trägt eine Baskenmütze und einen schwarzen Rollkragenpullover.

Soufflieren 2

Monster-Illustration im flachen Design-Stil einer vielfältigen Familie von Monstern. Die Gruppe umfasst ein pelziges braunes Monster, ein schlankes schwarzes Monster mit Antennen, ein geflecktes grünes Monster und ein winziges gepunktetes Monster, die alle in einer spielerischen Umgebung interagieren.

Aufforderung 4

Ein Bild einer realistischen Wolke, die "SORA" buchstabiert.

Aufforderung 6

In einem prunkvollen, historischen Saal erreicht eine gewaltige Flutwelle ihren Höhepunkt und beginnt zu brechen. Zwei Surfer nutzen den Moment und navigieren gekonnt über die Wellenfront.

Erweitern der generierten Videos

Sora ist auch in der Lage, Videos zu verlängern, entweder vorwärts oder rückwärts in der Zeit. Im Folgenden sehen Sie vier Videos, die alle ausgehend von einem Segment eines generierten Videos zeitlich rückwärts verlängert wurden. Daher beginnt jedes der vier Videos anders als die anderen, aber alle vier Videos führen zum gleichen Ende.

00:00

00:20

Mit dieser Methode können wir ein Video sowohl vorwärts als auch rückwärts verlängern und so eine nahtlose Endlosschleife erzeugen.

Video-zu-Video-Bearbeitung

Diffusionsmodelle haben eine Fülle von Methoden zur Bearbeitung von Bildern und Videos anhand von Textanweisungen ermöglicht. Im Folgenden wenden wir eine dieser Methoden, SDEdit, an,32 an Sora. Diese Technik ermöglicht es Sora, die Stile und Umgebungen von Eingangsvideos nullkommanull zu verändern.

Video eingebendas Setting in einen üppigen Dschungel änderndas Setting in die 1920er Jahre mit einem Oldtimer änderndie rote Farbe beibehaltendas Video unter Wasser änderndas Video in ein anderes Setting als einen Berg? vielleicht Joshua Tree?verlege das Video in den Weltraum mit einer Regenbogenstraßebehalte das Video gleich, aber lass es Winter seinerstelle es im Claymation-Animationsstilerstelle es im Stil einer Kohlezeichnung und achte darauf, dass es schwarz-weiß istÄndere das Setting in CyberpunkÄndere das Video in ein mittelalterliches Themaerstelle es mit Dinosauriernumschreibe das Video in einem Pixel-Art-Stil

Verbinden von Videos

Wir können Sora auch verwenden, um schrittweise zwischen zwei Eingabevideos zu interpolieren und so nahtlose Übergänge zwischen Videos mit völlig unterschiedlichen Themen und Szenenkompositionen zu schaffen. In den folgenden Beispielen werden die Videos in der Mitte zwischen den entsprechenden Videos auf der linken und rechten Seite interpoliert.

Fähigkeiten zur Bilderzeugung

Sora ist auch in der Lage, Bilder zu erzeugen. Dazu ordnen wir Gaußsche Rauschfelder in einem räumlichen Gitter mit einer zeitlichen Ausdehnung von einem Bild an. Das Modell kann Bilder unterschiedlicher Größe erzeugen - bis zu einer Auflösung von 2048×2048.

Bild 0Nahaufnahme einer Frau im Herbst, extremes Detail, geringe Schärfentiefe

Bild 1Lebendiges Korallenriff voller bunter Fische und Meeresbewohner

Bild 2Digitale Kunst eines jungen Tigers unter einem Apfelbaum in einer matten Malerei Stil mit herrlichen Details

Bild 3Ein verschneites Bergdorf mit gemütlichen Hütten und Nordlichtern, detailreich und fotorealistisch dslr, 50mm f/1.2

Aufkommende Simulationsmöglichkeiten

Wir haben festgestellt, dass Videomodelle eine Reihe interessanter neuer Fähigkeiten aufweisen, wenn sie in großem Maßstab trainiert werden. Diese Fähigkeiten ermöglichen es Sora, einige Aspekte von Menschen, Tieren und Umgebungen aus der physischen Welt zu simulieren. Diese Eigenschaften entstehen ohne explizite induktive Vorlieben für 3D, Objekte usw. - sie sind reine Phänomene des Maßstabs.

3D-Konsistenz. Sora kann Videos mit dynamischen Kamerabewegungen erzeugen. Wenn sich die Kamera bewegt und dreht, bewegen sich Personen und Szenenelemente gleichmäßig durch den dreidimensionalen Raum.

Langfristige Kohärenz und Objektpermanenz. Eine große Herausforderung für Videogenerierungssysteme ist die Aufrechterhaltung der zeitlichen Konsistenz beim Abtasten langer Videos. Wir haben festgestellt, dass Sora häufig, wenn auch nicht immer, in der Lage ist, sowohl kurz- als auch weitreichende Abhängigkeiten effektiv zu modellieren. So kann unser Modell beispielsweise Personen, Tiere und Objekte auch dann noch verfolgen, wenn sie verdeckt sind oder das Bild verlassen. Ebenso kann es mehrere Aufnahmen desselben Charakters in einem einzigen Sample generieren, wobei ihr Aussehen während des gesamten Videos erhalten bleibt.

Mit der Welt interagieren. Sora kann manchmal Aktionen simulieren, die den Zustand der Welt auf einfache Weise beeinflussen. Zum Beispiel kann ein Maler neue Pinselstriche auf einer Leinwand hinterlassen, die über die Zeit bestehen bleiben, oder ein Mann kann einen Burger essen und Biss-Spuren hinterlassen.

Digitale Welten simulieren. Sora ist auch in der Lage, künstliche Prozesse zu simulieren - ein Beispiel sind Videospiele. Sora ist in der Lage, den Spieler in Minecraft mit einer grundlegenden Strategie zu steuern und gleichzeitig die Welt und ihre Dynamik naturgetreu darzustellen. Diese Fähigkeiten können durch die Eingabe von "Minecraft" in der Bildunterschrift von Sora ohne Vorwarnung ausgelöst werden.

Diese Fähigkeiten deuten darauf hin, dass die fortgesetzte Skalierung von Videomodellen ein vielversprechender Weg zur Entwicklung hochleistungsfähiger Simulatoren der physischen und digitalen Welt und der darin lebenden Objekte, Tiere und Menschen ist.

Diskussion

Sora weist als Simulator derzeit zahlreiche Einschränkungen auf. Zum Beispiel modelliert er die Physik vieler grundlegender Interaktionen, wie das Zerbrechen von Glas, nicht genau. Andere Interaktionen, wie das Essen, führen nicht immer zu korrekten Änderungen des Objektzustands. Weitere häufige Fehler des Modells - wie Inkohärenzen, die sich bei lang andauernden Proben entwickeln, oder spontane Erscheinungen von Objekten - werden in unserem Zielseite.

Wir glauben, dass die Fähigkeiten, über die Sora heute verfügt, zeigen, dass die fortgesetzte Skalierung von Videomodellen ein vielversprechender Weg zur Entwicklung leistungsfähiger Simulatoren der physischen und digitalen Welt und der Objekte, Tiere und Menschen, die darin leben, ist.

Forschungstechniken

Sora ist ein Diffusionsmodell, das ein Video erzeugt, indem es mit einem Video beginnt, das wie statisches Rauschen aussieht, und es allmählich transformiert, indem es das Rauschen in vielen Schritten entfernt.

Sora ist in der Lage, ganze Videos auf einmal zu generieren oder die generierten Videos zu verlängern, um sie länger zu machen. Indem wir dem Modell die Vorausschau auf viele Einzelbilder gleichzeitig ermöglichen, haben wir das schwierige Problem gelöst, sicherzustellen, dass ein Motiv gleich bleibt, auch wenn es vorübergehend aus dem Blickfeld verschwindet.

Ähnlich wie die GPT-Modelle verwendet Sora eine Transformer-Architektur, die eine hervorragende Skalierungsleistung ermöglicht.

Wir stellen Videos und Bilder als Sammlungen kleinerer Dateneinheiten dar, die Patches genannt werden und jeweils einem Token in GPT ähneln. Durch die Vereinheitlichung der Datendarstellung können wir Diffusionstransformatoren auf einer breiteren Palette von visuellen Daten trainieren, als dies bisher möglich war, und zwar über verschiedene Zeiträume, Auflösungen und Seitenverhältnisse hinweg.

Sora baut auf früheren Forschungen zu DALL-E und GPT-Modellen auf. Es verwendet die Recaptioning-Technik aus DALL-E 3, bei der für die visuellen Trainingsdaten sehr aussagekräftige Untertitel erstellt werden. Dadurch ist das Modell in der Lage, den Textanweisungen des Benutzers im generierten Video genauer zu folgen.

Das Modell ist nicht nur in der Lage, ein Video ausschließlich anhand von Textanweisungen zu erstellen, sondern kann auch ein vorhandenes Standbild nehmen und daraus ein Video generieren, wobei der Bildinhalt mit großer Genauigkeit und Liebe zum Detail animiert wird. Das Modell kann auch ein bestehendes Video nehmen und es erweitern oder fehlende Bilder ergänzen. Erfahren Sie mehr in unserem technischen Bericht.

Sora dient als Grundlage für Modelle, die die reale Welt verstehen und simulieren können, eine Fähigkeit, von der wir glauben, dass sie ein wichtiger Meilenstein auf dem Weg zu AGI sein wird.

Schlussfolgerung:
Sora stellt einen entscheidenden Schritt in der Videosynthese dar und schafft den Spagat zwischen kreativer Freiheit und sorgfältiger Beachtung der Realität. Wenn OpenAI diese Fähigkeiten weiter entwickelt und verfeinert, könnte Sora die Art und Weise, wie wir visuelles Storytelling und die Rolle der KI bei der Erweiterung der menschlichen Kreativität angehen, neu definieren.

Schreibe einen Kommentar

de_DEGerman