AI Sora:Video Generation with OpenAI Sora

OpenAI har introducerat Sora, en sofistikerad AI-modell som kan producera högkvalitativa, realistiska videor direkt från textmeddelanden. Sora ligger i framkant när det gäller AI:s förståelse och simulering av den fysiska världen i rörelse, ett arbete som är avgörande för utvecklingen av modeller som effektivt interagerar med dynamiken i den verkliga världen. Detta språng inom naturlig språkbehandling och videosyntes berikar inte bara områdena bildkonst och design utan öppnar också upp en ny gräns för kreativt och tekniskt utforskande.

bild 4

Inledning:


OpenAI:s Sora är inriktad på text-till-videosyntes och är konstruerad för att omvandla detaljerade textinstruktioner till enminutersvideor som är både visuellt tilltalande och följer sina beskrivningar strikt. Modellens kapacitet demonstreras genom olika uppmaningar, som var och en genererar unika, kontextuellt korrekta scener som tänjer på gränserna för AI:s tolknings- och genereringsförmåga.

Bild 5

Tillämpningar och effekter:
Även om Sora för närvarande är tillgänglig för red teamers för att identifiera potentiella skador, sträcker sig dess potential över olika discipliner. Bildkonstnärer, designers och filmskapare arbetar med modellen för att förfina dess användbarhet inom kreativa branscher. OpenAI förväntar sig ett brett spektrum av tillämpningar, allt från utbildningshjälpmedel, automatiserad produktion av videoinnehåll, underhållning till avancerade simuleringar för teoretiska studier.

Bild 6

Teknologisk ryggrad:
Sora bygger på en diffusionsmodell, en metod som börjar med statiskt brus och noggrant förädlar det till en sammanhängande videoberättelse. Sora drar paralleller till transformatorarkitekturen i GPT-modeller och använder en liknande skalningsstrategi som förbättrar dess förmåga att bearbeta stora mängder visuella data. Dess operationer är besläktade med tokeniseringen i GPT men tillämpas på visuella patchar, vilket gör det möjligt att effektivt hantera olika varaktigheter, upplösningar och bildförhållanden.

bild 7

Framsteg inom forskningen:
Genom att utnyttja tekniker från DALL-E 3, såsom "recaptioning", visar Sora förbättrad förmåga att följa textinstruktioner i videor. Dessutom kan Sora animera stillbilder eller förlänga befintliga videor, vilket visar ett skarpt öga för små detaljer och kontinuitet.

bild 8

Säkerhetsåtgärder:
Inför en bredare lansering implementeras omfattande säkerhetsmekanismer. Detta inkluderar att arbeta med experter för att testa modellen för felinformation, hatiskt innehåll och partiskhet. Verktyg utvecklas för att identifiera AI-genererat innehåll och för att säkerställa efterlevnad av innehållspolicyer, med framtida planer på att införliva C2PA-metadata för ökad transparens.

bild 9

Framtidsutsikter:
Genom att lägga grunden för modeller som kan ge en djup förståelse av den verkliga världen markerar Sora en viktig milstolpe på vägen mot artificiell allmän intelligens (AGI). OpenAI samarbetar med beslutsfattare, utbildare och konstnärer över hela världen och fortsätter att arbeta för att förstå de samhälleliga effekterna av sådana framsteg, samtidigt som vi är vaksamma på potentiella missbruk.

Denna tekniska rapport fokuserar på (1) vår metod för att omvandla visuella data av alla typer till en enhetlig representation som möjliggör storskalig träning av generativa modeller, och (2) kvalitativ utvärdering av Soras möjligheter och begränsningar. Modell- och implementeringsdetaljer ingår inte i denna rapport.

Många tidigare arbeten har studerat generativ modellering av videodata med hjälp av en mängd olika metoder, inklusive återkommande nätverk,1,2,3 generativa kontradiktoriska nätverk,4,5,6,7 autoregressiva transformatorer,8,9 och spridningsmodeller.10,11,12 Dessa verk fokuserar ofta på en smal kategori av visuella data, på kortare videor eller på videor av en bestämd storlek. Sora är en generell modell för visuella data - den kan generera videor och bilder med olika varaktighet, bildförhållande och upplösning, upp till en hel minut högupplöst video.

Förvandla visuella data till patchar

Vi hämtar inspiration från stora språkmodeller som får generella egenskaper genom att tränas på data i internetskala.13,14 LLM-paradigmets framgångar beror delvis på användningen av tokens som på ett elegant sätt förenar olika modaliteter av textkod, matematik och olika naturliga språk. I detta arbete undersöker vi hur generativa modeller av visuella data kan dra nytta av sådana fördelar. Medan LLM har texttoken, har Sora visuella lappar. Patches har tidigare visat sig vara en effektiv representation för modeller av visuella data.15,16,17,18 Vi konstaterar att patchar är en mycket skalbar och effektiv representation för träning av generativa modeller på olika typer av videor och bilder.

Figur Plåster

På en hög nivå förvandlar vi videor till patchar genom att först komprimera videor till ett lägre dimensionellt latent utrymme,19 och därefter sönderdela representationen i rumstidspatchar.

Nätverk för videokomprimering

Vi tränar ett nätverk som minskar dimensionaliteten hos visuella data.20 Detta nätverk tar råvideo som indata och matar ut en latent representation som är komprimerad både tidsmässigt och rumsligt. Sora tränas på och genererar därefter videor inom detta komprimerade latenta utrymme. Vi tränar också en motsvarande avkodningsmodell som mappar genererade latenta bilder tillbaka till pixelutrymme.

Latenta patcher i rumtiden

Med en komprimerad ingångsvideo extraherar vi en sekvens av rymdtidsfläckar som fungerar som transformatortecken. Detta system fungerar även för bilder eftersom bilder bara är videor med en enda bildruta. Vår patchbaserade representation gör det möjligt för Sora att träna på videor och bilder med varierande upplösning, varaktighet och bildförhållande. Vid inferenstidpunkten kan vi kontrollera storleken på genererade videor genom att arrangera slumpmässigt initialiserade patchar i ett rutnät av lämplig storlek.

Skalningstransformatorer för videogenerering

Sora är en diffusionsmodell21,22,23,24,25om den får in brusiga patchar (och konditioneringsinformation som textmeddelanden), tränas den att förutsäga de ursprungliga "rena" patchar. Sora är en diffusionsbaserad transformator.26 Transformers har uppvisat anmärkningsvärda skalningsegenskaper inom en mängd olika områden, inklusive språkmodellering,13,14 datorseende,15,16,17,18 och bildgenerering.27,28,29

Spridning av figurer

I det här arbetet har vi funnit att diffusionstransformatorer också är effektiva som videomodeller. Nedan visar vi en jämförelse av videoprover med fasta frön och ingångar när träningen fortskrider. Provkvaliteten förbättras markant i takt med att träningsberäkningen ökar.

Beräkning av bas

4x beräkna

16x beräkning

Varierande varaktighet, upplösning, bildförhållande

Tidigare metoder för bild- och videogenerering har vanligtvis ändrat storlek, beskurit eller trimmat videor till en standardstorlek - t.ex. 4 sekunders videor med 256×256 upplösning. Vi anser att det finns flera fördelar med att istället träna på data i dess ursprungliga storlek.

Flexibilitet vid provtagning

Sora kan sampla widescreen 1920x1080p-videor, vertikala 1080×1920-videor och allt däremellan. På så sätt kan Sora skapa innehåll för olika enheter direkt i deras ursprungliga bildförhållande. Det gör också att vi snabbt kan skapa prototyper av innehåll i lägre storlekar innan vi genererar i full upplösning - allt med samma modell.

Förbättrad inramning och komposition

Vi har empiriskt funnit att träning på videor med deras ursprungliga bildförhållande förbättrar komposition och inramning. Vi jämför Sora med en version av vår modell som beskär alla träningsvideor så att de blir kvadratiska, vilket är vanlig praxis vid träning av generativa modeller. Modellen som tränats på fyrkantiga grödor (vänster) genererar ibland videor där motivet bara är delvis synligt. I jämförelse har videor från Sora (höger) bättre inramning.

Språkförståelse

För att träna text-till-videogenererande system krävs en stor mängd videor med tillhörande textning. Vi tillämpar den teknik för omtextning som introducerades i DALL-E 330 till videor. Vi tränar först en mycket beskrivande bildtextmodell och använder den sedan för att producera textundertexter för alla videor i vår träningsuppsättning. Vi konstaterar att träning på mycket beskrivande videotexter förbättrar texttroheten såväl som den övergripande kvaliteten på videor.

I likhet med DALL-E 3 använder vi också GPT för att omvandla korta användarmeddelanden till längre detaljerade bildtexter som skickas till videomodellen. Detta gör det möjligt för Sora att generera högkvalitativa videor som exakt följer användarens uppmaningar.

en gammal mana kvinnaen gammal mana leksaksroboten bedårande känguru

bärande

lila overall och cowboystövlarblå jeans och vit t-shirtagrön klänning och solhattlila overall och cowboystövlar

ta en trevlig promenad i

Johannesburg, SydafrikaMumbai, IndienJohannesburg, SydafrikaAntarktis

under

en vacker solnedgången vacker solnedgången vinterstormma färgglad festival

Fråga med bilder och videor

Alla resultat ovan och i vår landningssida visa exempel på text-till-video. Men Sora kan också styras med andra inmatningar, t.ex. redan existerande bilder eller video. Med denna funktion kan Sora utföra en mängd olika bild- och videoredigeringsuppgifter - skapa perfekt loopad video, animera statiska bilder, förlänga videor framåt eller bakåt i tiden osv.

Animering av bilder från DALL-E

Sora kan generera videor med en bild och en uppmaning som indata. Nedan visar vi exempel på videor som genererats baserat på DALL-E 231 och DALL-E 330 bilder.

uppmaning 0

En Shiba Inu-hund med basker och svart polotröja.

uppmaning 2

Monster Illustration i platt designstil av en mångsidig familj av monster. Gruppen består av ett lurvigt brunt monster, ett elegant svart monster med antenner, ett fläckigt grönt monster och ett litet prickigt monster, som alla samspelar i en lekfull miljö.

uppmaning 4

En bild av ett realistiskt moln med texten "SORA".

uppmaning 6

I en utsmyckad, historisk hall når en enorm tidvattenvåg sin topp och börjar slå. Två surfare tar tillfället i akt och navigerar skickligt på vågens yta.

Utökning av genererade videor

Sora kan också förlänga videor, antingen framåt eller bakåt i tiden. Nedan visas fyra videor som alla har förlängts bakåt i tiden med start från ett segment av en genererad video. Som ett resultat börjar var och en av de fyra videorna annorlunda än de andra, men alla fyra videorna leder till samma slut.

00:00

00:20

Vi kan använda denna metod för att förlänga en video både framåt och bakåt för att skapa en sömlös oändlig loop.

Video-till-video-redigering

Diffusionsmodeller har möjliggjort en uppsjö av metoder för att redigera bilder och videor från textmeddelanden. Nedan tillämpar vi en av dessa metoder, SDEdit,32 till Sora. Med den här tekniken kan Sora omvandla stilar och miljöer i inmatningsvideor med en nolltagning.

Inmatningsvideo ändra miljön till att vara i en frodig djungel ändra miljön till 1920-talet med en gammal skolbil. se till att behålla den röda färgen få den att gå under vattnet ändra videomiljön till att vara annorlunda än ett berg? kanske joshua tree?sätt videon i rymden med en regnbågsvägbehåll videon likadan men låt den vara vintergör den i claymation-animationsstilåterskapa i stil med en kolteckning och se till att den är svartvitförändra miljön till cyberpunkförändra videon till ett medeltida tema låt den ha dinosaurierskriv om videon i pixelart-stil

Anslutande videor

Vi kan också använda Sora för att gradvis interpolera mellan två inmatade videor och skapa sömlösa övergångar mellan videor med helt olika ämnen och scenkompositioner. I exemplen nedan interpoleras videoklippen i mitten mellan motsvarande videoklipp till vänster och höger.

Funktioner för bildgenerering

Sora kan också generera bilder. Vi gör detta genom att arrangera fläckar av Gaussiskt brus i ett rumsligt rutnät med en temporal utsträckning på en bildruta. Modellen kan generera bilder av varierande storlek - upp till 2048×2048 upplösning.

bild 0Porträttbild i närbild av en kvinna på hösten, extrema detaljer, grunt skärpedjup

bild 1Livfullt korallrev med färgglada fiskar och havsdjur

bild 2Digital konst av en ung tiger under ett äppelträd i en matt målningsstil med vackra detaljer

bild 3En snöig bergsby med mysiga stugor och norrsken, hög detaljrikedom och fotorealistisk dslr, 50 mm f/1,2

Nya simuleringsmöjligheter

Vi har funnit att videomodeller uppvisar ett antal intressanta framväxande förmågor när de tränas i stor skala. Dessa förmågor gör det möjligt för Sora att simulera vissa aspekter av människor, djur och miljöer från den fysiska världen. Dessa egenskaper framträder utan några uttryckliga induktiva fördomar om 3D, objekt etc. - de är helt och hållet skalfenomen.

3D-konsistens. Sora kan skapa videor med dynamiska kamerarörelser. När kameran flyttas och roteras rör sig personer och scenelement konsekvent genom det tredimensionella rummet.

Långdistanskoherens och objektpermanens. En stor utmaning för videogenererande system har varit att upprätthålla tidsmässig konsistens vid sampling av långa videor. Vi anser att Sora ofta, men inte alltid, effektivt kan modellera både kort- och långdistansberoenden. Till exempel kan vår modell bevara människor, djur och objekt även när de är ockluderade eller lämnar ramen. På samma sätt kan den generera flera bilder av samma karaktär i ett enda prov och bibehålla deras utseende genom hela videon.

Interagera med världen. Sora kan ibland simulera handlingar som påverkar världens tillstånd på enkla sätt. Till exempel kan en målare lämna nya streck längs en duk som består över tid, eller en man kan äta en hamburgare och lämna bitmärken.

Simulering av digitala världar. Sora kan också simulera artificiella processer - ett exempel är videospel. Sora kan samtidigt styra spelaren i Minecraft med en grundläggande policy och samtidigt återge världen och dess dynamik med hög verklighetstrogenhet. Dessa förmågor kan framkallas noll-shot genom att uppmana Sora med bildtexter som nämner "Minecraft".

Dessa funktioner tyder på att fortsatt skalning av videomodeller är en lovande väg mot utvecklingen av mycket kapabla simulatorer av den fysiska och digitala världen, och de föremål, djur och människor som lever i dem.

Diskussion

Sora har för närvarande många begränsningar som simulator. Till exempel modellerar den inte korrekt fysiken för många grundläggande interaktioner, som glas som krossas. Andra interaktioner, som att äta mat, ger inte alltid korrekta förändringar i objektets tillstånd. Vi räknar upp andra vanliga felkällor i modellen - t.ex. inkoherenser som utvecklas i långvariga prover eller spontana uppkomster av objekt - i vår landningssida.

Vi anser att den kapacitet som Sora har idag visar att fortsatt skalning av videomodeller är en lovande väg mot utvecklingen av kapabla simulatorer av den fysiska och digitala världen, och de objekt, djur och människor som lever i dem.

Forskningsteknik

Sora är en diffusionsmodell som genererar en video genom att börja med en video som ser ut som statiskt brus och gradvis omvandla den genom att ta bort bruset i många steg.

Sora kan generera hela videor på en gång eller förlänga genererade videor för att göra dem längre. Genom att ge modellen överblick över många bildrutor åt gången har vi löst ett utmanande problem med att se till att ett motiv förblir detsamma även när det tillfälligt försvinner ur bild.

I likhet med GPT-modeller använder Sora en transformatorarkitektur som ger överlägsen skalningsprestanda.

Vi representerar videor och bilder som samlingar av mindre dataenheter som kallas patchar, där varje enhet kan liknas vid en token i GPT. Genom att förenhetliga hur vi representerar data kan vi träna diffusionstransformatorer på ett bredare spektrum av visuella data än vad som tidigare var möjligt, som spänner över olika varaktigheter, upplösningar och bildförhållande.

Sora bygger på tidigare forskning inom DALL-E- och GPT-modellerna. Den använder recaptioning-tekniken från DALL-E 3, som innebär att mycket beskrivande bildtexter genereras för de visuella träningsdata. Som ett resultat kan modellen följa användarens textinstruktioner i den genererade videon mer troget.

Förutom att modellen kan generera en video enbart från textinstruktioner, kan den ta en befintlig stillbild och generera en video från den, och animera bildens innehåll med noggrannhet och uppmärksamhet på små detaljer. Modellen kan också ta en befintlig video och förlänga den eller fylla i saknade bildrutor. Läs mer i vår tekniska rapport.

Sora fungerar som en grund för modeller som kan förstå och simulera den verkliga världen, en förmåga som vi tror kommer att vara en viktig milstolpe för att uppnå AGI.

Slutsats:
Sora representerar ett avgörande steg inom videosyntes, och balanserar mellan kreativ frihet och noggrann hänsyn till verkligheten. När OpenAI fortsätter att utveckla och förfina dessa funktioner kan Sora omdefiniera hur vi ser på visuellt berättande och AI:s roll i att förstärka mänsklig kreativitet.

Lämna en kommentar

sv_SESwedish