da_DKDanish

AI Sora:Video Generation with OpenAI Sora

OpenAI har introduceret Sora, en sofistikeret AI-model, der er i stand til at producere realistiske videoer i høj kvalitet direkte fra tekstbeskeder. Sora står i spidsen for AI's forståelse og simulering af den fysiske verden i bevægelse, en bestræbelse, der er kritisk for udviklingen af modeller, der effektivt interagerer med dynamikken i den virkelige verden. Dette spring inden for naturlig sprogbehandling og videosyntese beriger ikke kun områderne billedkunst og design, men åbner også op for en ny grænse for kreativ og teknisk udforskning.

billede 4

Introduktion:


OpenAI's Sora er centreret om tekst-til-video-syntese og er konstrueret til at omdanne detaljerede tekstinstruktioner til videoer på et minut, der både er visuelt tiltalende og nøje overholder deres deskriptorer. Modellens evner demonstreres gennem forskellige prompts, der hver især genererer unikke, kontekstuelt nøjagtige scener, der skubber til grænserne for AI's fortolknings- og genereringsevner.

billede 5

Anvendelser og konsekvenser:
I øjeblikket er modellen tilgængelig for red teamers til at identificere potentielle skader, men Soras potentiale strækker sig på tværs af discipliner. Billedkunstnere, designere og filmskabere arbejder med modellen for at forfine dens anvendelighed i kreative brancher. OpenAI forventer et bredt spektrum af anvendelser, der spænder fra uddannelseshjælpemidler, automatiseret produktion af videoindhold, underholdning til avancerede simuleringer til teoretiske studier.

billede 6

Teknologisk rygrad:
Sora er bygget på en diffusionsmodel, en metode, der begynder med statisk støj og omhyggeligt forædler den til en sammenhængende videofortælling. Sora trækker paralleller til transformatorarkitekturen i GPT-modeller og bruger en lignende skaleringsstrategi, der forbedrer dens evne til at behandle store mængder visuelle data. Dens operationer er beslægtet med tokeniseringen i GPT, men anvendes på visuelle patches, hvilket gør det muligt at håndtere forskellige varigheder, opløsninger og billedformater effektivt.

billede 7

Fremskridt inden for forskning:
Ved at udnytte teknikker fra DALL-E 3, såsom "recaptioning", viser Sora forbedret troværdighed i at følge tekstinstruktioner i videoer. Derudover kan Sora animere stillbilleder eller udvide eksisterende videoer, hvilket viser et skarpt øje for små detaljer og kontinuitet.

billede 8

Sikkerhedsforanstaltninger:
Forud for en bredere udrulning er omfattende sikkerhedsmekanismer ved at blive implementeret. Dette inkluderer samarbejde med eksperter for at teste modellen for misinformation, hadefuldt indhold og bias. Der udvikles værktøjer til at identificere AI-genereret indhold og til at sikre overholdelse af indholdspolitikker med fremtidige planer om at inkorporere C2PA-metadata for øget gennemsigtighed.

billede 9

Fremtidsudsigter:
Ved at lægge grunden til modeller, der er i stand til at forstå den virkelige verden i dybden, markerer Sora en vigtig milepæl på vejen mod kunstig generel intelligens (AGI). OpenAI samarbejder med politiske beslutningstagere, undervisere og kunstnere over hele verden og er fortsat engageret i at forstå den samfundsmæssige indvirkning af sådanne fremskridt, samtidig med at vi er opmærksomme på potentielt misbrug.

Denne tekniske rapport fokuserer på (1) vores metode til at omdanne visuelle data af alle typer til en samlet repræsentation, der muliggør træning af generative modeller i stor skala, og (2) kvalitativ evaluering af Soras evner og begrænsninger. Model- og implementeringsdetaljer er ikke inkluderet i denne rapport.

Meget tidligere arbejde har undersøgt generativ modellering af videodata ved hjælp af en række forskellige metoder, herunder tilbagevendende netværk,1,2,3 generative kontradiktoriske netværk,4,5,6,7 autoregressive transformatorer,8,9 og diffusionsmodeller.10,11,12 Disse værker fokuserer ofte på en snæver kategori af visuelle data, på kortere videoer eller på videoer af en fast størrelse. Sora er en generalistmodel for visuelle data - den kan generere videoer og billeder, der spænder over forskellige varigheder, billedformater og opløsninger, op til et helt minuts high definition-video.

Omdannelse af visuelle data til patches

Vi henter inspiration fra store sprogmodeller, som opnår generalistiske evner ved at træne på data i internetskala.13,14 LLM-paradigmets succes er til dels muliggjort af brugen af tokens. der elegant forener forskellige modaliteter af tekstkode, matematik og forskellige naturlige sprog. I dette arbejde overvejer vi, hvordan generative modeller af visuelle data kan arve sådanne fordele. Mens LLM'er har tekst-tokens, har Sora visuelle lapper. Patches har tidligere vist sig at være en effektiv repræsentation for modeller af visuelle data.15,16,17,18 Vi finder ud af, at patches er en meget skalerbar og effektiv repræsentation til træning af generative modeller på forskellige typer af videoer og billeder.

Figur Plastre

På et højt niveau forvandler vi videoer til patches ved først at komprimere videoer til et lavere dimensionelt latent rum,19 og derefter opdele repræsentationen i rumtidsfelter.

Netværk til videokomprimering

Vi træner et netværk, der reducerer dimensionaliteten af visuelle data.20 Dette netværk tager rå video som input og udsender en latent repræsentation, der er komprimeret både tidsmæssigt og rumligt. Sora trænes i og genererer efterfølgende videoer inden for dette komprimerede latente rum. Vi træner også en tilsvarende dekodermodel, der kortlægger genererede latenter tilbage til pixelrummet.

Rumtidens latente pletter

Ud fra en komprimeret inputvideo udtrækker vi en sekvens af rumtidspatches, der fungerer som transformer-tokens. Dette system fungerer også for billeder, da billeder blot er videoer med en enkelt frame. Vores patch-baserede repræsentation gør det muligt for Sora at træne på videoer og billeder med variable opløsninger, varigheder og størrelsesforhold. På inferenstidspunktet kan vi kontrollere størrelsen på de genererede videoer ved at arrangere tilfældigt initialiserede patches i et gitter af passende størrelse.

Skaleringstransformere til videogenerering

Sora er en diffusionsmodel21,22,23,24,25Hvis den får input i form af støjende patches (og konditionerende information som tekstbeskeder), trænes den til at forudsige de originale "rene" patches. Det er vigtigt, at Sora er en diffusions transformer.26 Transformere har vist bemærkelsesværdige skaleringsegenskaber på tværs af en række domæner, herunder sprogmodellering,13,14 computersyn,15,16,17,18 og billedgenerering.27,28,29

Figur Diffusion

I dette arbejde finder vi, at diffusionstransformatorer også skalerer effektivt som videomodeller. Nedenfor viser vi en sammenligning af videoeksempler med faste seeds og input, efterhånden som træningen skrider frem. Prøvekvaliteten forbedres markant, efterhånden som træningsberegningen øges.

Basisberegning

4x beregning

16x beregning

Variable varigheder, opløsninger, billedformater

Tidligere tilgange til billed- og videogenerering ændrer typisk størrelse, beskærer eller trimmer videoer til en standardstørrelse - f.eks. 4 sekunders videoer med en opløsning på 256×256. Vi mener, at det giver flere fordele at træne på data i deres oprindelige størrelse.

Fleksibilitet ved prøveudtagning

Sora kan sample widescreen 1920x1080p-videoer, vertikale 1080×1920-videoer og alt derimellem. Det giver Sora mulighed for at skabe indhold til forskellige enheder direkte i deres oprindelige formatforhold. Det giver os også mulighed for hurtigt at prototype indhold i lavere størrelser, før vi genererer i fuld opløsning - alt sammen med den samme model.

Forbedret indramning og komposition

Vi finder empirisk, at træning på videoer i deres oprindelige formatforhold forbedrer komposition og indramning. Vi sammenligner Sora med en version af vores model, som beskærer alle træningsvideoer til at være kvadratiske, hvilket er almindelig praksis, når man træner generative modeller. Modellen, der er trænet på firkantede afgrøder (til venstre), genererer nogle gange videoer, hvor motivet kun er delvist synligt. Til sammenligning har videoer fra Sora (højre) en bedre indramning.

Sproglig forståelse

Træning af tekst-til-video-genereringssystemer kræver en stor mængde videoer med tilhørende teksttekster. Vi anvender omtekstningsteknikken, der blev introduceret i DALL-E 330 til videoer. Vi træner først en meget beskrivende billedtekstmodel og bruger den derefter til at producere teksttekster til alle videoer i vores træningssæt. Vi finder ud af, at træning på meget beskrivende videotekster forbedrer tekstens troværdighed såvel som den overordnede kvalitet af videoer.

I lighed med DALL-E 3 udnytter vi også GPT til at omdanne korte brugerprompts til længere detaljerede billedtekster, der sendes til videomodellen. Det gør Sora i stand til at generere videoer af høj kvalitet, der præcist følger brugerens instruktioner.

en gammel mana-kvindeen gammel mana-legetøjsroboten yndig kænguru

iført

lilla overalls og cowboystøvlerblå jeans og en hvid t-shirtagrøn kjole og en solhatlilla overalls og cowboystøvler

en hyggelig spadseretur i

Johannesburg, SydafrikaMumbai, IndienJohannesburg, SydafrikaAntarktis

under

en smuk solnedgang en smuk solnedgang en vinterstorm en farverig festival

Prompting med billeder og videoer

Alle resultaterne ovenfor og i vores Landingsside viser eksempler på tekst-til-video. Men Sora kan også få andre input, såsom allerede eksisterende billeder eller video. Denne evne gør det muligt for Sora at udføre en lang række billed- og videoredigeringsopgaver - skabe perfekt loopende video, animere statiske billeder, forlænge videoer frem eller tilbage i tid osv.

Animering af DALL-E-billeder

Sora er i stand til at generere videoer med et billede og en prompt som input. Nedenfor viser vi eksempler på videoer genereret ud fra DALL-E 231 og DALL-E 330 billeder.

Prompting 0

En Shiba Inu-hund iført baret og sort rullekrave.

prompting 2

Monsterillustration i flad designstil af en mangfoldig familie af monstre. Gruppen omfatter et loddent brunt monster, et elegant sort monster med antenner, et plettet grønt monster og et lille polkaprikket monster, som alle interagerer i et legende miljø.

prompting 4

Et billede af en realistisk sky, der staver "SORA".

prompting 6

I en udsmykket, historisk hal topper en massiv flodbølge og begynder at styrte ned. To surfere griber øjeblikket og navigerer behændigt på bølgens overflade.

Udvidelse af genererede videoer

Sora er også i stand til at forlænge videoer, enten fremad eller bagud i tid. Nedenfor ses fire videoer, der alle er forlænget bagud i tid med udgangspunkt i et segment af en genereret video. Som et resultat starter hver af de fire videoer forskelligt fra de andre, men alligevel fører alle fire videoer til den samme slutning.

00:00

00:20

Vi kan bruge denne metode til at forlænge en video både fremad og bagud for at skabe et sømløst uendeligt loop.

Video-til-video-redigering

Diffusionsmodeller har muliggjort et væld af metoder til redigering af billeder og videoer ud fra tekstprompter. Nedenfor anvender vi en af disse metoder, SDEdit,32 til Sora. Denne teknik gør det muligt for Sora at omdanne stilarter og miljøer i inputvideoer uden at tage billeder.

Inputvideo skift omgivelserne til at være i en frodig jungle skift omgivelserne til 1920'erne med en old school bil. sørg for at beholde den røde farve få den til at gå under vandet skift videoens omgivelser til at være anderledes end et bjerg? måske joshua tree?sæt videoen i rummet med en regnbuevejhold videoen den samme, men få den til at være vinterlav den i claymation-animationsstilgenskab i stil med en kultegning, sørg for at være sort og hvidændr omgivelserne til at være cyberpunkændr videoen til et middelalderligt temafå den til at have dinosaureromskriv videoen i pixelkunststil

Tilslutning af videoer

Vi kan også bruge Sora til gradvist at interpolere mellem to inputvideoer og skabe sømløse overgange mellem videoer med helt forskellige motiver og scenekompositioner. I eksemplerne nedenfor interpolerer videoerne i midten mellem de tilsvarende videoer til venstre og højre.

Funktioner til billedgenerering

Sora er også i stand til at generere billeder. Det gør vi ved at arrangere pletter af gaussisk støj i et rumligt gitter med en tidsmæssig udstrækning på ét billede. Modellen kan generere billeder af variabel størrelse - op til 2048×2048 opløsning.

billede 0Nærbillede af en kvinde i efteråret, ekstreme detaljer, lav dybdeskarphed

billede 1Levende koralrev med masser af farverige fisk og havdyr

billede 2Digital kunst af en ung tiger under et æbletræ i en mat malestil med smukke detaljer

billede 3En snedækket bjerglandsby med hyggelige hytter og nordlys, høj detaljegrad og fotorealistisk dslr, 50mm f/1.2

Nye simuleringsmuligheder

Vi finder ud af, at videomodeller udviser en række interessante nye evner, når de trænes i stor skala. Disse evner gør Sora i stand til at simulere nogle aspekter af mennesker, dyr og miljøer fra den fysiske verden. Disse egenskaber opstår uden nogen eksplicit induktiv bias for 3D, objekter, etc. - de er udelukkende skalafænomener.

3D-konsistens. Sora kan generere videoer med dynamiske kamerabevægelser. Når kameraet skifter og roterer, bevæger personer og sceneelementer sig konsekvent gennem det tredimensionelle rum.

Langdistancekohærens og objektpermanens. En stor udfordring for videogenereringssystemer har været at opretholde tidsmæssig konsistens ved sampling af lange videoer. Vi finder, at Sora ofte, men ikke altid, er i stand til effektivt at modellere både kort- og langtrækkende afhængigheder. For eksempel kan vores model fastholde personer, dyr og objekter, selv når de er tildækkede eller forlader billedet. På samme måde kan den generere flere billeder af den samme karakter i en enkelt prøve og bevare deres udseende i hele videoen.

At interagere med verden. Sora kan nogle gange simulere handlinger, der påvirker verdens tilstand på enkle måder. For eksempel kan en maler efterlade nye streger på et lærred, som bliver siddende over tid, eller en mand kan spise en burger og efterlade bidemærker.

Simulering af digitale verdener. Sora er også i stand til at simulere kunstige processer - et eksempel er videospil. Sora kan på samme tid styre spilleren i Minecraft med en grundlæggende politik og samtidig gengive verden og dens dynamik i høj troværdighed. Disse evner kan fremkaldes nul-skudt ved at spørge Sora med billedtekster, der nævner "Minecraft".

Disse evner antyder, at fortsat skalering af videomodeller er en lovende vej mod udviklingen af meget kapable simulatorer af den fysiske og digitale verden og de objekter, dyr og mennesker, der lever i dem.

Diskussion

Sora har i øjeblikket adskillige begrænsninger som simulator. For eksempel modellerer den ikke præcist fysikken i mange grundlæggende interaktioner, såsom glas, der splintres. Andre interaktioner, som at spise mad, giver ikke altid korrekte ændringer i objektets tilstand. Vi opregner andre almindelige fejl i modellen - såsom inkohærenser, der udvikler sig i langvarige prøver eller spontane fremkomster af objekter - i vores Landingsside.

Vi mener, at de muligheder, Sora har i dag, viser, at fortsat skalering af videomodeller er en lovende vej mod udviklingen af dygtige simulatorer af den fysiske og digitale verden og de objekter, dyr og mennesker, der lever i dem.

Forskningsteknikker

Sora er en diffusionsmodel, som genererer en video ved at starte med en, der ligner statisk støj, og gradvist omdanne den ved at fjerne støjen over mange trin.

Sora er i stand til at generere hele videoer på én gang eller forlænge genererede videoer for at gøre dem længere. Ved at give modellen overblik over mange billeder ad gangen har vi løst et udfordrende problem med at sikre, at et motiv forbliver det samme, selv når det midlertidigt forsvinder ud af syne.

I lighed med GPT-modeller bruger Sora en transformer-arkitektur, der giver overlegen skaleringsydelse.

Vi repræsenterer videoer og billeder som samlinger af mindre dataenheder kaldet patches, som hver især svarer til et token i GPT. Ved at forene den måde, vi repræsenterer data på, kan vi træne diffusionstransformatorer på en bredere vifte af visuelle data, end det var muligt før, der spænder over forskellige varigheder, opløsninger og størrelsesforhold.

Sora bygger på tidligere forskning i DALL-E- og GPT-modeller. Den bruger recaptioning-teknikken fra DALL-E 3, som involverer generering af meget beskrivende billedtekster til de visuelle træningsdata. Som et resultat er modellen i stand til at følge brugerens tekstinstruktioner i den genererede video mere trofast.

Ud over at kunne generere en video udelukkende ud fra tekstinstruktioner, er modellen i stand til at tage et eksisterende stillbillede og generere en video ud fra det og animere billedets indhold med nøjagtighed og opmærksomhed på små detaljer. Modellen kan også tage en eksisterende video og udvide den eller udfylde manglende frames. Læs mere i vores tekniske rapport.

Sora fungerer som et fundament for modeller, der kan forstå og simulere den virkelige verden, en evne, vi mener, vil være en vigtig milepæl for at opnå AGI.

Konklusion:
Sora repræsenterer et afgørende skridt inden for videosyntese, der balancerer mellem kreativ frihed og indviklet opmærksomhed på virkeligheden. Når OpenAI fortsætter med at udvikle og forfine disse evner, kan Sora omdefinere den måde, vi tilgår visuel historiefortælling og AI's rolle i at forstærke menneskelig kreativitet.

Skriv en kommentar

da_DKDanish