nl_NL_formalDutch

AI Sora:Video Generation with OpenAI Sora

OpenAI heeft Sora geïntroduceerd, een geavanceerd AI-model dat direct vanuit tekstuele aanwijzingen realistische video's van hoge kwaliteit kan produceren. Sora bevindt zich in de voorhoede van AI's begrip en simulatie van de fysieke wereld in beweging, een inspanning die cruciaal is voor de ontwikkeling van modellen die effectief interfacen met dynamiek in de echte wereld. Deze sprong voorwaarts in natuurlijke taalverwerking en videosynthese verrijkt niet alleen het gebied van beeldende kunst en design, maar opent ook een nieuwe grens voor creatief en technisch onderzoek.

afbeelding 4

Inleiding:


Sora van OpenAI is gericht op tekst-naar-videosynthese en is ontworpen om gedetailleerde tekstuele instructies om te zetten in video's van één minuut die zowel visueel aantrekkelijk zijn als zich strikt houden aan hun beschrijvingen. De capaciteiten van het model worden gedemonstreerd door middel van verschillende aanwijzingen, die elk unieke, contextueel nauwkeurige scènes genereren die de grenzen van de interpretatieve en generatieve capaciteiten van AI verleggen.

afbeelding 5

Toepassingen en impact:
Hoewel Sora momenteel toegankelijk is voor red teamers voor het identificeren van potentiële schade, strekt het potentieel zich uit over alle disciplines. Beeldend kunstenaars, ontwerpers en filmmakers werken met het model om de bruikbaarheid in creatieve industrieën te verfijnen. OpenAI verwacht een breed spectrum aan toepassingen, variërend van educatieve hulpmiddelen, geautomatiseerde productie van video-inhoud, entertainment tot geavanceerde simulaties voor theoretische studies.

afbeelding 6

Technologische ruggengraat:
Sora is gebouwd op een diffusiemodel, een methode die begint met statische ruis en deze nauwgezet verfijnt tot een coherent videoverhaal. Sora, dat parallellen trekt met de transformatorarchitectuur in GPT-modellen, gebruikt een vergelijkbare schaalstrategie die het vermogen om grote hoeveelheden visuele gegevens te verwerken vergroot. De bewerkingen zijn verwant aan de tokenisatie in GPT, maar dan toegepast op visuele patches, waardoor het effectief om kan gaan met verschillende duren, resoluties en beeldverhoudingen.

afbeelding 7

Vooruitgang in onderzoek:
Door gebruik te maken van technieken uit DALL-E 3, zoals "recaptioning", laat Sora een verbeterde getrouwheid zien in het volgen van tekstinstructies binnen video's. Daarnaast kan Sora stilstaande beelden animeren of bestaande video's uitbreiden, wat getuigt van een scherp oog voor minuscule details en continuïteit.

afbeelding 8

Veiligheidsmaatregelen:
Voorafgaand aan een bredere uitrol worden uitgebreide veiligheidsmechanismen geïmplementeerd. Dit omvat het werken met experts om het model te testen op desinformatie, haatdragende inhoud en vooringenomenheid. Er worden tools ontwikkeld om AI-gegenereerde inhoud te identificeren en om ervoor te zorgen dat het inhoudsbeleid wordt nageleefd, met toekomstige plannen om C2PA-metagegevens op te nemen voor extra transparantie.

afbeelding 9

Toekomstperspectieven:
Door de basis te leggen voor modellen die in staat zijn tot diepgaand begrip van de echte wereld, markeert Sora een belangrijke mijlpaal op het pad naar Kunstmatige Algemene Intelligentie (AGI). Samenwerkend met beleidsmakers, onderwijzers en kunstenaars wereldwijd, blijft OpenAI toegewijd aan het begrijpen van de maatschappelijke impact van dergelijke vooruitgang, terwijl het waakzaam blijft voor potentieel misbruik.

Dit technische rapport richt zich op (1) onze methode om visuele data van alle typen om te zetten in een uniforme representatie die grootschalige training van generatieve modellen mogelijk maakt, en (2) kwalitatieve evaluatie van de mogelijkheden en beperkingen van Sora. Model- en implementatiedetails zijn niet opgenomen in dit rapport.

Veel eerder werk heeft generatieve modellering van videodata bestudeerd met behulp van verschillende methoden, waaronder terugkerende netwerken,1,2,3 generatieve tegenstrijdige netwerken,4,5,6,7 autoregressieve transformatoren,8,9 en verspreidingsmodellen.10,11,12 Deze werken richten zich vaak op een smalle categorie van visuele gegevens, op kortere video's of op video's met een vaste grootte. Sora is een generalistisch model van visuele gegevens. Het kan video's en afbeeldingen genereren van verschillende duren, beeldverhoudingen en resoluties, tot een volledige minuut high definition video.

Visuele gegevens omzetten in patches

We laten ons inspireren door grote taalmodellen die generalistische capaciteiten verwerven door te trainen op gegevens op internetschaal.13,14 Het succes van het LLM-paradigma wordt deels mogelijk gemaakt door het gebruik van tokens die op een elegante manier verschillende modaliteiten van tekst-code, wiskunde en verschillende natuurlijke talen verenigen. In dit werk bekijken we hoe generatieve modellen van visuele gegevens dergelijke voordelen kunnen erven. Waar LLM's tekst tokens hebben, heeft Sora visuele patches. Eerder is aangetoond dat patches een effectieve representatie zijn voor modellen van visuele gegevens.15,16,17,18 We vinden dat patches een zeer schaalbare en effectieve representatie zijn voor het trainen van generatieve modellen op verschillende soorten video's en afbeeldingen.

Figuur Patches

Op een hoog niveau zetten we video's om in patches door eerst video's te comprimeren in een lager-dimensionale latente ruimte,19 en vervolgens de representatie ontleden in ruimtetijdpatches.

Videocompressienetwerk

We trainen een netwerk dat de dimensionaliteit van visuele gegevens vermindert.20 Dit netwerk neemt ruwe video als invoer en voert een latente representatie uit die zowel temporeel als ruimtelijk gecomprimeerd is. Sora wordt getraind op en genereert vervolgens video's binnen deze gecomprimeerde latente ruimte. We trainen ook een corresponderend decodermodel dat de gegenereerde latenties terugzet naar pixelruimte.

Ruimtetijd latente patches

Als we een gecomprimeerde video-invoer geven, extraheren we een reeks ruimtetijdpatronen die fungeren als transformator-tokens. Dit schema werkt ook voor afbeeldingen, aangezien afbeeldingen slechts video's zijn met een enkel frame. Met onze patch-gebaseerde representatie kan Sora trainen op video's en afbeeldingen met variabele resoluties, duur en beeldverhoudingen. Bij inferentie kunnen we de grootte van de gegenereerde video's regelen door willekeurig geïnitialiseerde patches te rangschikken in een raster van de juiste grootte.

Schaaltransformatoren voor video-opwekking

Sora is een verspreidingsmodel21,22,23,24,25; gegeven invoer van ruispatches (en conditionerende informatie zoals tekstaanwijzingen), wordt het getraind om de originele "schone" patches te voorspellen. Belangrijk is dat Sora een diffusie transformator.26 Transformers hebben opmerkelijke schaaleigenschappen laten zien in verschillende domeinen, waaronder taalmodellering,13,14 computervisie,15,16,17,18 en beeldgeneratie.27,28,29

Figuur Verspreiding

In dit werk vinden we dat diffusietransformatoren ook effectief schalen als videomodellen. Hieronder laten we een vergelijking zien van videomonsters met vaste seeds en ingangen naarmate de training vordert. De kwaliteit van de monsters verbetert aanzienlijk naarmate de trainingsomvang toeneemt.

Basisberekening

4x rekenen

16x rekenen

Variabele duur, resoluties, beeldverhoudingen

In het verleden werden benaderingen voor het genereren van afbeeldingen en video's meestal gebruikt om video's te verkleinen, bij te snijden of bij te snijden tot een standaardgrootte - bijvoorbeeld video's van 4 seconden met een resolutie van 256×256. Wij vinden dat het trainen van gegevens op ware grootte verschillende voordelen biedt.

Flexibiliteit bij steekproeftrekking

Sora kan breedbeeldvideo's van 1920 x 1080p samplen, verticale video's van 1080 x 1920p en alles daartussenin. Hierdoor kan Sora inhoud maken voor verschillende apparaten, direct in hun eigen beeldverhoudingen. Het stelt ons ook in staat om snel prototypes te maken van inhoud op lagere formaten voordat we het op volledige resolutie genereren - en dat alles met hetzelfde model.

Verbeterde kadrering en compositie

We hebben empirisch vastgesteld dat training op video's met hun eigen beeldverhouding de compositie en kadrering verbetert. We vergelijken Sora met een versie van ons model dat alle trainingsvideo's vierkant bijsnijdt, wat gebruikelijk is bij het trainen van generatieve modellen. Het model dat is getraind op vierkante bewerkingen (links) genereert soms video's waarin het onderwerp slechts gedeeltelijk in beeld is. Ter vergelijking: video's van Sora (rechts) hebben een betere kadrering.

Taalbegrip

Voor het trainen van tekst-naar-video generatie systemen is een grote hoeveelheid video's met bijbehorende tekstbijschriften nodig. We passen de hertitelingstechniek toe die is geïntroduceerd in DALL-E 330 video's. We trainen eerst een zeer beschrijvend bijschriftenmodel en gebruiken het vervolgens om tekstbijschriften te produceren voor alle video's in onze trainingsset. We hebben ontdekt dat training op zeer beschrijvende videobijschriften zowel de getrouwheid van de tekst als de algehele kwaliteit van de video's verbetert.

Net als bij DALL-E 3 maken we ook gebruik van GPT om korte gebruikersprompts om te zetten in langere gedetailleerde bijschriften die naar het videomodel worden gestuurd. Hierdoor kan Sora video's van hoge kwaliteit genereren die nauwkeurig gebruikersprompts volgen.

een oude mana vrouw een oude mana speelgoed robot een schattige kangoeroe

dragen

paarse overall en cowboylaarzenblauwe jeans en een wit t-shirtgroene jurk en een zonnehoedpaarse overall en cowboylaarzen

een aangename wandeling maken in

Johannesburg, Zuid-AfrikaMumbai, IndiaJohannesburg, Zuid-AfrikaAntarctica

tijdens

een mooie zonsondergang een winterstorm een kleurrijk festival

Prompting met afbeeldingen en video's

Alle resultaten hierboven en in onze landingspagina tekst-naar-video voorbeelden laten zien. Maar Sora kan ook gevraagd worden om andere invoer, zoals reeds bestaande afbeeldingen of video. Met deze mogelijkheid kan Sora een breed scala aan beeld- en videobewerkingstaken uitvoeren: perfect looping video maken, statische afbeeldingen animeren, video's vooruit of achteruit in de tijd laten lopen, enzovoort.

Animatiebeelden van DALL-E

Sora kan video's genereren met een afbeelding en een prompt als invoer. Hieronder laten we voorbeeldvideo's zien die zijn gegenereerd op basis van DALL-E 231 en DALL-E 330 beelden.

vragen 0

Een Shiba Inu hond met een baret en zwarte coltrui.

aansporing 2

Monsterillustratie in vlakke ontwerpstijl van een diverse familie monsters. De groep bestaat uit een harig bruin monster, een gestroomlijnd zwart monster met antennes, een gevlekt groen monster en een klein gestippeld monster, die allemaal samenwerken in een speelse omgeving.

aansporing 4

Een afbeelding van een realistische wolk met de tekst "SORA".

aansporing 6

In een sierlijke, historische hal piekt een enorme vloedgolf en begint te beuken. Twee surfers, die het moment aangrijpen, navigeren behendig over het gezicht van de golf.

Gegenereerde video's uitbreiden

Sora kan ook video's verlengen, vooruit of achteruit in de tijd. Hieronder zie je vier video's die allemaal achterwaarts in de tijd zijn verlengd, beginnend bij een segment van een gegenereerde video. Als gevolg hiervan begint elk van de vier video's anders dan de andere, maar toch leiden alle vier video's tot hetzelfde einde.

00:00

00:20

We kunnen deze methode gebruiken om een video zowel voorwaarts als achterwaarts te verlengen om een naadloze oneindige lus te maken.

Video-naar-video bewerken

Diffusiemodellen hebben een overvloed aan methoden mogelijk gemaakt voor het bewerken van afbeeldingen en video's op basis van tekstaanwijzingen. Hieronder passen we een van deze methoden toe, SDEdit,32 naar Sora. Met deze techniek kan Sora de stijlen en omgevingen van ingevoerde video's zero-shot transformeren.

Input videoVerander de setting naar een weelderige jungleVerander de setting naar de jaren 1920 met een old school auto. zorg ervoor dat je de rode kleur behoudtVerander de setting van de video naar een andere dan een berg? misschien joshua tree?Plaats de video in de ruimte met een regenboogwegHoud de video hetzelfde, maar maak er een winter vanMaak er een claymation-animatie vanRecreëer in de stijl van een houtskooltekening en zorg ervoor dat het zwart-wit isVerander de setting in cyberpunkVerander de video in een middeleeuws themaMaak er dinosaurussen in Herschrijf de video in een pixel art-stijl

Video's aansluiten

We kunnen Sora ook gebruiken om geleidelijk te interpoleren tussen twee inputvideo's, waardoor naadloze overgangen ontstaan tussen video's met totaal verschillende onderwerpen en scènecomposities. In de onderstaande voorbeelden interpoleren de video's in het midden tussen de overeenkomstige video's links en rechts.

Mogelijkheden voor het genereren van afbeeldingen

Sora is ook in staat om beelden te genereren. We doen dit door patches van Gaussische ruis te rangschikken in een ruimtelijk raster met een temporele omvang van één frame. Het model kan beelden genereren met een variabele grootte tot een resolutie van 2048×2048.

afbeelding 0Close-up portretopname van een vrouw in de herfst, extreem detail, kleine scherptediepte

afbeelding 1Levendig koraalrif vol kleurrijke vissen en zeedieren

afbeelding 2Digitaal kunstwerk van een jonge tijger onder een appelboom in een matte schilderstijl met prachtige details

afbeelding 3Een besneeuwd bergdorp met gezellige hutten en een noorderlichtshow, zeer gedetailleerd en fotorealistisch dslr, 50mm f/1.2

Opkomende simulatiemogelijkheden

We hebben ontdekt dat videomodellen een aantal interessante eigenschappen vertonen wanneer ze op schaal worden getraind. Deze eigenschappen stellen Sora in staat om bepaalde aspecten van mensen, dieren en omgevingen uit de fysieke wereld te simuleren. Deze eigenschappen ontstaan zonder expliciete inductieve vooroordelen voor 3D, objecten, etc. - het zijn puur schaalverschijnselen.

3D-consistentie. Sora kan video's genereren met dynamische camerabewegingen. Terwijl de camera verschuift en draait, bewegen mensen en scène-elementen consistent door de driedimensionale ruimte.

Lange-afstandscoherentie en objectpermanentie. Een belangrijke uitdaging voor video generatie systemen is het behouden van temporele consistentie bij het samplen van lange video's. We vinden dat Sora vaak, maar niet altijd, in staat is om zowel korte- als langeafstandsafhankelijkheden effectief te modelleren. Ons model kan bijvoorbeeld mensen, dieren en objecten aanhouden, zelfs als ze bedekt zijn of het frame verlaten. Ook kan het meerdere opnames van hetzelfde personage in één sample genereren, waarbij hun uiterlijk gedurende de hele video behouden blijft.

Interactie met de wereld. Sora kan soms acties simuleren die de toestand van de wereld op eenvoudige manieren beïnvloeden. Een schilder kan bijvoorbeeld nieuwe streken op een doek achterlaten die na verloop van tijd blijven bestaan, of een man kan een hamburger eten en bijtwonden achterlaten.

Simuleren van digitale werelden. Sora is ook in staat om kunstmatige processen te simuleren - een voorbeeld hiervan zijn videospellen. Sora kan tegelijkertijd de speler in Minecraft besturen met een basisbeleid en tegelijkertijd de wereld en de dynamiek ervan natuurgetrouw weergeven. Deze mogelijkheden kunnen nul-op-de-meter worden uitgelokt door Sora te vragen om bijschriften waarin "Minecraft" wordt genoemd.

Deze mogelijkheden suggereren dat het verder opschalen van videomodellen een veelbelovende weg is naar de ontwikkeling van zeer capabele simulatoren van de fysieke en digitale wereld en de objecten, dieren en mensen die daarin leven.

Discussie

Sora heeft op dit moment veel beperkingen als simulator. Het modelleert bijvoorbeeld niet nauwkeurig de fysica van veel basisinteracties, zoals het versplinteren van glas. Andere interacties, zoals het eten van voedsel, resulteren niet altijd in correcte veranderingen in de toestand van het object. We geven een opsomming van andere veelvoorkomende faalwijzen van het model, zoals incoherenties die ontstaan in langdurige samples of spontane verschijningen van objecten, in onze landingspagina.

Wij geloven dat de mogelijkheden die Sora nu heeft laten zien dat het verder opschalen van videomodellen een veelbelovende weg is naar de ontwikkeling van capabele simulatoren van de fysieke en digitale wereld, en de objecten, dieren en mensen die daarin leven.

Onderzoekstechnieken

Sora is een diffusiemodel dat een video genereert door te beginnen met een video die eruitziet als statische ruis en deze geleidelijk transformeert door de ruis in vele stappen te verwijderen.

Sora kan hele video's in één keer genereren of gegenereerde video's verlengen om ze langer te maken. Door het model een vooruitblik te geven op vele frames tegelijk, hebben we een uitdagend probleem opgelost, namelijk ervoor zorgen dat een onderwerp hetzelfde blijft, zelfs als het tijdelijk uit beeld gaat.

Net als GPT-modellen gebruikt Sora een transformatorarchitectuur, waardoor superieure schaalprestaties worden ontsloten.

We stellen video's en afbeeldingen voor als verzamelingen van kleinere gegevenseenheden, patches genaamd, die elk verwant zijn aan een token in GPT. Door de manier waarop we gegevens representeren te verenigen, kunnen we diffusietransformatoren trainen op een breder scala aan visuele gegevens dan voorheen mogelijk was, met verschillende duren, resoluties en beeldverhoudingen.

Sora bouwt voort op eerder onderzoek naar DALL-E en GPT-modellen. Het maakt gebruik van de recaptioning-techniek uit DALL-E 3, waarbij zeer beschrijvende bijschriften worden gegenereerd voor de visuele trainingsgegevens. Hierdoor kan het model de tekstinstructies van de gebruiker in de gegenereerde video nauwkeuriger volgen.

Het model kan niet alleen een video genereren op basis van tekstinstructies, maar kan ook een bestaand stilstaand beeld nemen en er een video van maken, waarbij de inhoud van het beeld nauwkeurig en met aandacht voor kleine details wordt geanimeerd. Het model kan ook een bestaande video nemen en deze uitbreiden of ontbrekende frames invullen. Lees meer in ons technisch rapport.

Sora dient als basis voor modellen die de echte wereld kunnen begrijpen en simuleren, een vermogen waarvan wij geloven dat het een belangrijke mijlpaal zal zijn voor het bereiken van AGI.

Conclusie:
Sora vertegenwoordigt een definitieve stap in videosynthese, balancerend tussen creatieve vrijheid en nauwgezette aandacht voor de realiteit. Als OpenAI doorgaat met het ontwikkelen en verfijnen van deze mogelijkheden, zou Sora de manier kunnen herdefiniëren waarop we visuele verhalen en de rol van AI in het vergroten van menselijke creativiteit benaderen.

Laat een reactie achter

nl_NL_formalDutch