AI Sora:Video Generation with OpenAI Sora

A OpenAI apresentou o Sora, um modelo sofisticado de IA capaz de produzir vídeos realistas e de alta qualidade diretamente a partir de instruções textuais. O Sora está na vanguarda da compreensão e simulação do mundo físico em movimento por parte da IA, um esforço fundamental para o desenvolvimento de modelos que interajam eficazmente com a dinâmica do mundo real. Este salto no processamento da linguagem natural e na síntese de vídeo não só enriquece os domínios das artes visuais e do design, como também abre uma nova fronteira para a exploração criativa e técnica.

imagem 4

Introdução:


Centrado na síntese de texto para vídeo, o Sora da OpenAI foi concebido para transformar instruções textuais pormenorizadas em vídeos de um minuto, visualmente apelativos e rigorosos no cumprimento dos seus descritores. As capacidades do modelo são demonstradas através de vários pedidos, cada um deles gerando cenas únicas e contextualmente exactas que ultrapassam os limites das capacidades interpretativas e generativas da IA.

imagem 5

Aplicações e impacto:
Embora atualmente acessível aos membros da equipa vermelha para identificar potenciais danos, o potencial do Sora estende-se a outras disciplinas. Artistas visuais, designers e cineastas estão a trabalhar com o modelo para aperfeiçoar a sua utilidade nas indústrias criativas. A OpenAI prevê um vasto espetro de aplicações que vão desde ajudas educativas, produção automatizada de conteúdos de vídeo, entretenimento e simulações avançadas para estudos teóricos.

imagem 6

Espinha dorsal tecnológica:
Sora baseia-se num modelo de difusão, um método que começa com ruído estático e o refina meticulosamente numa narrativa de vídeo coerente. Traçando paralelos com a arquitetura transformadora vista nos modelos GPT, o Sora utiliza uma estratégia de escala semelhante que aumenta a sua capacidade de processar vastas gamas de dados visuais. As suas operações são semelhantes à tokenização do GPT, mas aplicadas a fragmentos visuais, o que lhe permite lidar eficazmente com várias durações, resoluções e rácios de aspeto.

imagem 7

Progresso da investigação:
Aproveitando técnicas do DALL-E 3, como a "recapitulação", Sora mostra maior fidelidade ao seguir instruções de texto em vídeos. Além disso, Sora pode animar imagens fixas ou ampliar vídeos existentes, demonstrando um olho atento a detalhes minúsculos e à continuidade.

imagem 8

Medidas de segurança:
Antes de uma implantação mais alargada, estão a ser implementados mecanismos de segurança abrangentes. Isto inclui trabalhar com especialistas para testar o modelo em termos de desinformação, conteúdo odioso e preconceito. Estão a ser desenvolvidas ferramentas para identificar conteúdos gerados por IA e para garantir a adesão às políticas de conteúdos, com planos futuros para incorporar metadados C2PA para maior transparência.

imagem 9

Perspectivas futuras:
Ao lançar as bases para modelos capazes de compreender profundamente o mundo real, a Sora marca um marco significativo no caminho para a Inteligência Artificial Geral (AGI). Ao colaborar com decisores políticos, educadores e artistas de todo o mundo, a OpenAI continua empenhada em compreender o impacto social destes avanços, mantendo-se vigilante quanto a potenciais utilizações indevidas.

Este relatório técnico centra-se (1) no nosso método para transformar dados visuais de todos os tipos numa representação unificada que permite o treino em grande escala de modelos generativos, e (2) na avaliação qualitativa das capacidades e limitações do Sora. Os pormenores do modelo e da implementação não estão incluídos neste relatório.

Muitos trabalhos anteriores estudaram a modelação generativa de dados de vídeo utilizando uma variedade de métodos, incluindo redes recorrentes,1,2,3 redes adversárias generativas,4,5,6,7 transformadores autoregressivos,8,9 e modelos de difusão.10,11,12 Estes trabalhos centram-se frequentemente numa categoria restrita de dados visuais, em vídeos mais curtos ou em vídeos de um tamanho fixo. O Sora é um modelo generalista de dados visuais - pode gerar vídeos e imagens com diversas durações, proporções e resoluções, até um minuto inteiro de vídeo de alta definição.

Transformar dados visuais em patches

Inspiramo-nos em modelos linguísticos de grande dimensão que adquirem capacidades generalistas através da formação em dados à escala da Internet.13,14 O sucesso do paradigma LLM é possibilitado, em parte, pelo uso de tokens que unificam de forma elegante diversas modalidades de texto-código, matemática e várias linguagens naturais. Neste trabalho, consideramos como os modelos generativos de dados visuais podem herdar esses benefícios. Enquanto os LLMs têm tokens de texto, Sora tem remendos. Os patches já demonstraram ser uma representação eficaz para modelos de dados visuais.15,16,17,18 Descobrimos que os patches são uma representação altamente escalável e eficaz para treinar modelos generativos em diversos tipos de vídeos e imagens.

Figura Patches

A um nível elevado, transformamos os vídeos em patches, comprimindo primeiro os vídeos num espaço latente de dimensão inferior,19 e, subsequentemente, decompondo a representação em manchas de espaço-tempo.

Rede de compressão de vídeo

Treinamos uma rede que reduz a dimensionalidade dos dados visuais.20 Esta rede recebe um vídeo em bruto como entrada e produz uma representação latente que é comprimida temporal e espacialmente. O Sora é treinado e, subsequentemente, gera vídeos dentro deste espaço latente comprimido. Também treinamos um modelo de descodificador correspondente que mapeia as latentes geradas de volta para o espaço de pixéis.

Patches latentes do espaço-tempo

Dado um vídeo comprimido de entrada, extraímos uma sequência de manchas de espaço-tempo que actuam como tokens de transformação. Este esquema também funciona para imagens, uma vez que as imagens são apenas vídeos com um único fotograma. A nossa representação baseada em patches permite ao Sora treinar em vídeos e imagens de resoluções, durações e rácios de aspeto variáveis. No momento da inferência, podemos controlar o tamanho dos vídeos gerados, organizando os patches inicializados aleatoriamente numa grelha de tamanho adequado.

Transformadores de escala para geração de vídeo

Sora é um modelo de difusão21,22,23,24,25Com base nos fragmentos ruidosos de entrada (e em informações condicionantes, como avisos de texto), é treinado para prever os fragmentos originais "limpos". É importante notar que o Sora é um sistema de difusão transformador.26 Os transformadores demonstraram propriedades de escala notáveis numa variedade de domínios, incluindo a modelação da linguagem,13,14 visão computacional,15,16,17,18 e geração de imagens.27,28,29

Figura Difusão

Neste trabalho, descobrimos que os transformadores de difusão também são eficazes como modelos de vídeo. Abaixo, mostramos uma comparação de amostras de vídeo com sementes e entradas fixas à medida que o treino progride. A qualidade das amostras melhora significativamente à medida que o cálculo do treino aumenta.

Computação de base

4x computar

Computação 16x

Durações, resoluções e rácios de aspeto variáveis

As abordagens anteriores à geração de imagens e vídeos normalmente redimensionam, cortam ou recortam vídeos para um tamanho padrão - por exemplo, vídeos de 4 segundos com uma resolução de 256×256. Descobrimos que, em vez disso, o treino em dados com o seu tamanho nativo proporciona várias vantagens.

Flexibilidade de amostragem

Sora pode visualizar vídeos de 1920x1080p em ecrã panorâmico, vídeos verticais de 1080×1920 e tudo o que estiver entre eles. Isto permite à Sora criar conteúdos para diferentes dispositivos diretamente nos seus rácios de aspeto nativos. Também nos permite criar rapidamente protótipos de conteúdos em tamanhos inferiores antes de os gerar em resolução total - tudo com o mesmo modelo.

Enquadramento e composição melhorados

Verificámos empiricamente que o treino em vídeos com os seus rácios de aspeto nativos melhora a composição e o enquadramento. Comparamos o Sora com uma versão do nosso modelo que corta todos os vídeos de treino para serem quadrados, o que é uma prática comum quando se treinam modelos generativos. O modelo treinado em cortes quadrados (à esquerda) gera, por vezes, vídeos em que o objeto está apenas parcialmente visível. Em comparação, os vídeos do Sora (à direita) têm um enquadramento melhorado.

Compreensão da língua

O treino de sistemas de geração de texto para vídeo requer uma grande quantidade de vídeos com as correspondentes legendas de texto. Aplicamos a técnica de recapitulação introduzida em DALL-E 330 para os vídeos. Começamos por treinar um modelo de legendagem altamente descritivo e depois utilizamo-lo para produzir legendas de texto para todos os vídeos do nosso conjunto de treino. Verificamos que a formação em legendas de vídeo altamente descritivas melhora a fidelidade do texto, bem como a qualidade geral dos vídeos.

À semelhança do DALL-E 3, também utilizamos a GPT para transformar as instruções curtas do utilizador em legendas detalhadas mais longas que são enviadas para o modelo de vídeo. Isto permite ao Sora gerar vídeos de alta qualidade que seguem com precisão as instruções do utilizador.

uma mulher idosaum robot de brincar idosoum canguru adorável

de vestir

macacão roxo e botas de cowboycalças de ganga azuis e uma t-shirt brancavestido verde e um chapéu de solmacacão roxo e botas de cowboy

um passeio agradável em

Joanesburgo, África do SulMumbai, ÍndiaJoanesburgo, África do SulAntárctida

durante

um belo pôr-do-solum belo pôr-do-soluma tempestade de Invernoum festival colorido

Prompting com imagens e vídeos

Todos os resultados acima e no nosso página de destino mostram exemplos de texto para vídeo. Mas Sora também pode ser solicitado com outras entradas, tais como imagens ou vídeos pré-existentes. Esta capacidade permite a Sora executar uma vasta gama de tarefas de edição de imagem e vídeo - criar um vídeo em loop perfeito, animar imagens estáticas, prolongar vídeos para a frente ou para trás no tempo, etc.

Imagens de animação do DALL-E

O Sora é capaz de gerar vídeos a partir de uma imagem e de uma mensagem. Abaixo mostramos exemplos de vídeos gerados com base em DALL-E 231 e DALL-E 330 imagens.

solicitação 0

Um cão Shiba Inu com uma boina e uma gola alta preta.

solicitação 2

Ilustração de uma família diversificada de monstros em estilo de desenho plano. O grupo inclui um monstro castanho peludo, um monstro preto elegante com antenas, um monstro verde manchado e um pequeno monstro de bolinhas, todos a interagir num ambiente lúdico.

solicitação 4

Uma imagem de uma nuvem realista que soletra "SORA".

pedido 6

Num salão histórico ornamentado, uma enorme onda gigante atinge o pico e começa a rebentar. Dois surfistas, aproveitando o momento, navegam habilmente na face da onda.

Extensão de vídeos gerados

O Sora também é capaz de prolongar vídeos, tanto para a frente como para trás no tempo. Abaixo estão quatro vídeos que foram todos prolongados para trás no tempo a partir de um segmento de um vídeo gerado. Como resultado, cada um dos quatro vídeos começa de forma diferente dos outros, mas todos os quatro vídeos levam ao mesmo final.

00:00

00:20

Podemos utilizar este método para prolongar um vídeo para a frente e para trás, de modo a produzir um ciclo infinito sem falhas.

Edição de vídeo para vídeo

Os modelos de difusão permitiram uma infinidade de métodos para editar imagens e vídeos a partir de mensagens de texto. De seguida, aplicamos um desses métodos, o SDEdit,32 para Sora. Esta técnica permite que Sora transforme os estilos e os ambientes dos vídeos de entrada sem qualquer intervenção.

vídeo de entrada mudar o cenário para uma selva exuberante mudar o cenário para os anos 20 com um carro da velha escola. certificar-se de que mantém a cor vermelhafazer com que fique debaixo de água mudar o cenário do vídeo para ser diferente de uma montanha? talvez uma árvore joshua?mudar o vídeo para o espaço com uma estrada de arco-íris manter o vídeo igual, mas torná-lo invernalfazer um estilo de animação de claymationrecriar no estilo de um desenho a carvão, certificando-se de que é a preto e brancoalterar o cenário para cyberpunkalterar o vídeo para um tema medievalfazer com que tenha dinossaurosreescrever o vídeo num estilo pixel art

Ligação de vídeos

Também podemos usar o Sora para interpolar gradualmente entre dois vídeos de entrada, criando transições perfeitas entre vídeos com temas e composições de cenas totalmente diferentes. Nos exemplos abaixo, os vídeos no centro interpolam entre os vídeos correspondentes à esquerda e à direita.

Capacidades de geração de imagens

O Sora também é capaz de gerar imagens. Fazemo-lo organizando manchas de ruído gaussiano numa grelha espacial com uma extensão temporal de um fotograma. O modelo pode gerar imagens de tamanhos variáveis - até uma resolução de 2048×2048.

imagem 0Retrato em grande plano de uma mulher no outono, detalhes extremos, profundidade de campo reduzida

imagem 1Vibrante recife de coral repleto de peixes coloridos e criaturas marinhas

imagem 2Arte digital de um jovem tigre debaixo de uma macieira num estilo de pintura mate com pormenores deslumbrantes

imagem 3Uma aldeia de montanha nevada com cabanas acolhedoras e um espetáculo de luzes do norte, dslr de alto detalhe e fotorrealista, 50mm f/1.2

Capacidades de simulação emergentes

Verificamos que os modelos de vídeo apresentam uma série de capacidades emergentes interessantes quando treinados em escala. Estas capacidades permitem ao Sora simular alguns aspectos de pessoas, animais e ambientes do mundo físico. Estas propriedades surgem sem qualquer tendência indutiva explícita para 3D, objectos, etc. - são puramente fenómenos de escala.

Consistência 3D. Sora pode gerar vídeos com movimentos de câmara dinâmicos. À medida que a câmara se desloca e roda, as pessoas e os elementos da cena movem-se de forma consistente no espaço tridimensional.

Coerência de longo alcance e permanência de objectos. Um desafio significativo para os sistemas de geração de vídeo tem sido a manutenção da consistência temporal durante a amostragem de vídeos longos. Verificamos que o Sora é frequentemente, embora nem sempre, capaz de modelar eficazmente as dependências de curto e longo alcance. Por exemplo, o nosso modelo consegue manter pessoas, animais e objectos mesmo quando estes são ocultados ou saem do enquadramento. Da mesma forma, pode gerar várias imagens da mesma personagem numa única amostra, mantendo a sua aparência ao longo do vídeo.

Interagir com o mundo. Por vezes, Sora pode simular acções que afectam o estado do mundo de forma simples. Por exemplo, um pintor pode deixar novas pinceladas ao longo de uma tela que persistem ao longo do tempo, ou um homem pode comer um hambúrguer e deixar marcas de dentadas.

Simulação de mundos digitais. Sora também é capaz de simular processos artificiais - um exemplo são os jogos de vídeo. A Sora pode controlar simultaneamente o jogador no Minecraft com uma política básica, ao mesmo tempo que apresenta o mundo e a sua dinâmica em alta fidelidade. Estas capacidades podem ser obtidas com um disparo zero, solicitando a Sora legendas que mencionem "Minecraft".

Estas capacidades sugerem que a expansão contínua dos modelos de vídeo é um caminho promissor para o desenvolvimento de simuladores altamente capazes do mundo físico e digital, e dos objectos, animais e pessoas que neles vivem.

Discussão

Atualmente, o Sora apresenta inúmeras limitações enquanto simulador. Por exemplo, não modela com precisão a física de muitas interacções básicas, como o estilhaçar de vidros. Outras interacções, como comer comida, nem sempre produzem alterações correctas no estado do objeto. Enumeramos outros modos de falha comuns do modelo - tais como incoerências que se desenvolvem em amostras de longa duração ou aparecimentos espontâneos de objectos - no nosso página de destino.

Acreditamos que as capacidades de que a Sora dispõe atualmente demonstram que a expansão contínua dos modelos de vídeo é um caminho promissor para o desenvolvimento de simuladores capazes do mundo físico e digital, bem como dos objectos, animais e pessoas que neles vivem.

Técnicas de investigação

O Sora é um modelo de difusão, que gera um vídeo começando com um que se assemelha a ruído estático e transforma-o gradualmente, removendo o ruído ao longo de várias etapas.

O Sora é capaz de gerar vídeos inteiros de uma só vez ou de prolongar os vídeos gerados para os tornar mais longos. Ao dar ao modelo a previsão de muitos fotogramas de cada vez, resolvemos um problema difícil de garantir que um objeto permanece o mesmo, mesmo quando fica temporariamente fora de vista.

Semelhante aos modelos GPT, o Sora utiliza uma arquitetura transformadora, desbloqueando um desempenho de escalonamento superior.

Representamos vídeos e imagens como colecções de unidades de dados mais pequenas, denominadas patches, cada uma das quais é semelhante a um token em GPT. Ao unificar a forma como representamos os dados, podemos treinar transformadores de difusão numa gama mais vasta de dados visuais do que era possível anteriormente, abrangendo diferentes durações, resoluções e rácios de aspeto.

Sora baseia-se em pesquisas anteriores nos modelos DALL-E e GPT. Utiliza a técnica de recapitulação do DALL-E 3, que consiste em gerar legendas altamente descritivas para os dados de treino visuais. Como resultado, o modelo é capaz de seguir mais fielmente as instruções de texto do utilizador no vídeo gerado.

Para além de ser capaz de gerar um vídeo apenas a partir de instruções de texto, o modelo é capaz de pegar numa imagem fixa existente e gerar um vídeo a partir dela, animando o conteúdo da imagem com precisão e atenção a pequenos detalhes. O modelo também pode pegar num vídeo existente e ampliá-lo ou preencher os fotogramas em falta. Saiba mais no nosso relatório técnico.

O Sora serve de base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditamos ser um marco importante para alcançar a AGI.

Conclusão:
Sora representa um passo definitivo na síntese de vídeo, equilibrando a liberdade criativa e a atenção intrincada à realidade. À medida que a OpenAI continua a desenvolver e a aperfeiçoar estas capacidades, o Sora poderá redefinir a forma como abordamos a narração de histórias visuais e o papel da IA no aumento da criatividade humana.

Deixe um comentário

pt_PTPortuguese