AI Sora:Video Generation with OpenAI Sora

OpenAIは、テキストプロンプトから直接、高品質でリアルなビデオを作成できる洗練されたAIモデル、Soraを発表しました。Soraは、AIによる物理的世界の動きの理解とシミュレーションの最前線に立つもので、現実世界のダイナミクスと効果的にインターフェースするモデルの開発に不可欠な取り組みです。自然言語処理と映像合成におけるこの飛躍は、ビジュアル・アートとデザインの分野を豊かにするだけでなく、創造的かつ技術的な探求のための新たなフロンティアを切り開く。

イメージ4

はじめに


テキストからビデオへの合成を中心に、OpenAIのSoraは、詳細なテキストの指示を、視覚的に魅力的で、記述に忠実な1分間のビデオに変換するように設計されています。このモデルの能力は様々なプロンプトを通して示され、それぞれがAIの解釈と生成能力の限界を押し広げる、ユニークで文脈に正確なシーンを生成します。

イメージ5

応用と影響:
現在、Soraは潜在的な危害を特定するためのレッドチーマーが利用できるものだが、その可能性は分野を超えて広がっている。ビジュアルアーティスト、デザイナー、映画制作者は、クリエイティブ産業における実用性を高めるために、このモデルに関わっている。OpenAIは、教育補助、自動ビデオコンテンツ制作、エンターテインメント、理論研究のための高度なシミュレーションに至るまで、幅広い用途を想定している。

イメージ6

技術的バックボーン:
Soraは、静止画のようなノイズから始まり、それを首尾一貫した映像物語へと丹念に洗練させる手法である拡散モデルに基づいて構築されている。GPTモデルで見られるトランスフォーマーアーキテクチャと類似しており、Soraは膨大なビジュアルデータを処理する能力を向上させる同様のスケーリング戦略を採用している。その処理はGPTのトークン化に似ているが、ビジュアルパッチに適用されるため、様々な時間、解像度、アスペクト比に効果的に対応できる。

イメージ7

研究の進展:
DALL-E 3で採用された「リキャプション」などのテクニックを活用することで、動画内のテキストの指示に忠実に従うことができるようになりました。また、静止画をアニメーションさせたり、既存の動画を拡張することも可能で、細かなディテールや連続性を見極める目も養われている。

イメージ8

安全対策:
より広範な展開に先立ち、広範な安全メカニズムが導入されている。これには、誤報、憎悪に満ちたコンテンツ、偏向についてモデルをテストするための専門家との協力も含まれる。AIが生成したコンテンツを特定し、コンテンツポリシーの遵守を確認するためのツールが開発されており、将来的には透明性を高めるためにC2PAのメタデータを組み込む計画もある。

イメージ9

将来の展望
実世界を深く理解できるモデルの基礎を築くことで、Soraは人工知能(AGI)への道における重要なマイルポストを示しています。OpenAIは、世界中の政策立案者、教育者、アーティストと協力し、潜在的な悪用への警戒を怠ることなく、このような進歩の社会的影響を理解することに尽力しています。

本テクニカルレポートでは、(1)あらゆる種類のビジュアルデータを、生成モデルの大規模学習を可能にする統一的な表現に変換する手法、および(2)Soraの能力と限界の定性的評価に焦点を当てる。モデルと実装の詳細は本レポートには含まれていない。

多くの先行研究では、リカレントネットワークを含む様々な手法を用いて、ビデオデータの生成的モデリングが研究されてきた、1,2,3 生成的敵対ネットワーク、4,5,6,7 自己回帰変圧器、8,9 と拡散モデル。10,11,12 このような作品は、狭いカテゴリの映像データ、より短い映像、または一定のサイズの映像に焦点を当てることが多い。Soraは映像データのジェネラリスト・モデルであり、多様な時間、アスペクト比、解像度にまたがる動画や画像を生成することができ、最大で1分間の高解像度動画を生成することができる。

ビジュアル・データをパッチに変える

我々は、インターネット規模のデータで学習することで汎化能力を獲得する大規模言語モデルからヒントを得ている。13,14 LLMパラダイムの成功は、トークンの使用によって可能になった部分もある。 テキスト、数学、そして様々な自然言語といった多様なモダリティをエレガントに統合する。この研究では、視覚データの生成モデルが、このような利点をどのように継承できるかを考える。LLMがテキスト・トークンを持つのに対し、Soraはビジュアル・トークンを持つ。 パッチ.パッチは視覚データのモデルにとって効果的な表現であることが以前に示されている。15,16,17,18 我々は、パッチが多様なタイプのビデオや画像で生成モデルを学習するための、拡張性の高い効果的な表現であることを発見した。

フィギュア・パッチ

高度なレベルでは、まず動画を低次元の潜在空間に圧縮することによって、動画をパッチに変換する、19 そしてその表現を時空パッチに分解する。

ビデオ圧縮ネットワーク

視覚データの次元を削減するネットワークを訓練する。20 このネットワークは生の映像を入力とし、時間的にも空間的にも圧縮された潜在表現を出力する。Soraはこの圧縮された潜在空間上で学習され、その後動画を生成する。また、生成された潜像をピクセル空間にマップする対応するデコーダモデルも学習する。

時空間潜在パッチ

圧縮された入力ビデオが与えられると、変換トークンとして機能する時空間パッチのシーケンスを抽出する。画像は1フレームのビデオに過ぎないので、この方式は画像にも有効である。パッチベースの表現により、Soraは様々な解像度、時間、アスペクト比のビデオや画像に対して学習することができる。推論時には、ランダムに初期化されたパッチを適切なサイズのグリッドに配置することで、生成されるビデオのサイズを制御することができる。

映像生成用スケーリング・トランスフォーマー

ソラは拡散モデル21,22,23,24,25入力されたノイジーパッチ(およびテキストプロンプトのような条件付け情報)が、元の「きれいな」パッチを予測するように訓練される。重要なのは、Soraは拡散 変流器.26 トランスフォーマーは、言語モデリングを含むさまざまな領域において、驚くべきスケーリング特性を発揮してきた、13,14 コンピュータビジョン15,16,17,18 そして画像生成。27,28,29

フィギュア拡散

本研究では、拡散変換がビデオモデルとしても効果的にスケールすることを発見した。以下に、シードと入力を固定したビデオサンプルの、トレーニングの進行に伴う比較を示す。トレーニングの計算量が増えるにつれて、サンプルの品質は著しく向上する。

ベース・コンピュート

4倍速演算

16倍演算

可変時間、解像度、アスペクト比

これまでの画像や動画生成のアプローチでは、動画を標準的なサイズにリサイズしたり、切り取ったり、トリミングしたりするのが一般的だ。その代わりに、本来のサイズのデータでトレーニングすることで、いくつかの利点が得られることがわかります。

サンプリングの柔軟性

Soraは、ワイドスクリーンの1920×1080pビデオ、タテの1080×1920ビデオ、そしてその中間のすべてをサンプリングすることができます。これにより、Soraは様々なデバイス向けのコンテンツをネイティブのアスペクト比で直接作成することができます。また、フル解像度でコンテンツを作成する前に、より小さいサイズで素早くプロトタイプを作成することもできます。

フレーミングと構図の改善

我々は経験的に、本来のアスペクト比の動画でトレーニングすることで、構図とフレーミングが改善されることを発見した。Soraを、生成モデルを学習する際によく使われる、すべての学習ビデオを正方形に切り抜くバージョンと比較する。正方形にトリミングされたモデル(左)は、被写体が一部しか映っていない動画を生成することがある。それに比べ、Soraの動画(右)はフレーミングが改善されている。

言語理解

テキスト-ビデオ生成システムのトレーニングには、対応するテキスト・キャプションを持つ大量のビデオが必要である。私たちは、DALL-E 3で導入されたリキャプション技術を適用します。30 を動画に適用する。まず、記述力の高いキャプションモデルを学習し、それを使って学習セットのすべての動画にテキストキャプションを作成する。高度に記述的なビデオキャプションを学習することで、ビデオの全体的な品質だけでなく、テキストの忠実度も向上することがわかります。

また、DALL-E 3と同様に、GPTを活用して、短いユーザープロンプトを長い詳細なキャプションに変換し、ビデオモデルに送信しています。これにより、Soraはユーザーのプロンプトに正確に従った高品質のビデオを生成することができます。

オールド・マナ・ウーマン オールド・マナ・トイ・ロボット 愛らしいカンガルー

着用

紫のオーバーオールとカウボーイブーツ青いジーンズと白いTシャツ緑のドレスと太陽帽子紫のオーバーオールとカウボーイブーツ

を楽しく散歩する。

ヨハネスブルグ(南アフリカ)ムンバイ(インド)ヨハネスブルグ(南アフリカ)南極大陸

期間中

美しい夕日美しい夕日冬の嵐カラフルな祭り

画像とビデオによるプロンプティング

上記の結果、そして我々の ランディングページ テキストからビデオへのサンプルしかし、Soraは既存の画像やビデオなど、他の入力を促すこともできます。この機能により、完璧なループビデオの作成、静止画像のアニメーション化、ビデオの時間的前方または後方への延長など、さまざまな画像やビデオの編集作業を行うことができます。

DALL-Eのアニメーション映像

Soraは画像とプロンプトを入力として動画を生成することができます。以下は、DALL-E 2を元に生成された動画の例です。31 とDALL-E 330 の画像をご覧いただきたい。

プロンプト 0

ベレー帽と黒のタートルネックを着た柴犬。

プロンプト2

フラットデザインで描かれたモンスターのイラスト。毛むくじゃらの茶色のモンスター、アンテナを持ったなめらかな黒いモンスター、斑点のある緑のモンスター、小さな水玉模様のモンスターが、遊び心のある環境の中で交流している。

プロンプティング4

SORA」と書かれたリアルな雲のイメージ。

プロンプト6

豪華絢爛な歴史的ホールで、巨大な高波がピークに達し、砕け始める。その瞬間をとらえた2人のサーファーが、波打ち際を巧みに乗り越えていく。

生成ビデオの拡張

Soraはまた、ビデオを時間的に前後に延長することもできる。下の4つの動画は、生成された動画のセグメントから始まって、すべて時間的に後ろに延長されたものである。その結果、4つの動画はそれぞれ他の動画とは異なる始まり方をしているが、4つの動画はすべて同じ結末を迎えている。

00:00

00:20

この方法を使えば、動画を前方にも後方にも伸ばして、シームレスな無限ループを作ることができる。

ビデオからビデオへの編集

拡散モデルによって、テキストプロンプトから画像や動画を編集するための多くの方法が可能になった。以下では、これらの手法の1つであるSDEditを適用する、32 をSoraに送る。このテクニックにより、Soraは入力映像のスタイルや環境をゼロショットで変換することができる。

入力ビデオ舞台を緑豊かなジャングルに変更する舞台を1920年代に変更し、古いスクールカーを登場させる。赤い色は必ず残して、水中に潜るようにするビデオの舞台を山とは違うものに変更する。ビデオを虹色の道路がある宇宙に置く。ビデオはそのままで、冬にする。クレイメーション・アニメーション風にする。

ビデオの接続

また、Soraを使って2つの入力映像の間を徐々に補間することで、被写体やシーンの構図が全く異なる映像間のシームレスなトランジションを作成することもできる。下の例では、中央の動画が左右の動画の間を補間しています。

画像生成機能

Soraは画像を生成することもできる。これは、ガウシアンノイズのパッチを1フレームの時間的広がりを持つ空間グリッドに配置することで行う。このモデルは、2048×2048の解像度までの様々なサイズの画像を生成することができる。

イメージ0秋の女性のクローズアップ・ポートレート、極端なディテール、浅い被写界深度

イメージ1色とりどりの魚や海の生き物で溢れる鮮やかなサンゴ礁

イメージ2リンゴの木の下に描かれた若い虎のデジタルアート。

イメージ3居心地の良いキャビンとオーロラ・ディスプレイのある雪の山村。

新たなシミュレーション能力

私たちは、ビデオモデルが大規模に訓練されたときに、多くの興味深い出現能力を示すことを発見した。これらの能力により、Soraは物理的な世界の人、動物、環境のいくつかの側面をシミュレートすることができる。これらの特性は、3Dやオブジェクトなどに対する明示的な帰納的バイアスなしに現れる。

3Dの一貫性。 Soraはダイナミックなカメラモーションを持つビデオを生成することができる。カメラが移動したり回転したりすることで、人物やシーンの要素が3次元空間を一貫して移動する。

長距離コヒーレンスとオブジェクト・パーマネンス。 ビデオ生成システムにとって重要な課題は、長いビデオをサンプリングする際に時間的一貫性を維持することである。我々は、Soraが短距離依存性と長距離依存性の両方を効果的にモデル化できることを発見した。例えば、我々のモデルは、人や動物や物体がフレームから外れても、その存在を維持することができる。同様に、1つのサンプルで同じキャラクタの複数のショットを生成し、ビデオ全体を通してその外観を維持することができる。

世界との交流。 ソラは時々、世界の状態に単純な影響を与える行動をシミュレートすることができる。例えば、画家がキャンバスに新たなストロークを残し、それが時間とともに持続したり、人がハンバーガーを食べて噛み跡を残したりすることができる。

デジタル世界のシミュレーション。 Soraは人工的なプロセスをシミュレートすることもできる。SoraはMinecraftのプレイヤーを基本的な方針でコントロールすると同時に、世界とそのダイナミクスを忠実にレンダリングすることができる。このような能力は、"Minecraft "というキャプションでSoraをプロンプトすることで、ゼロショットで引き出すことができる。

これらの能力は、ビデオモデルの継続的な拡張が、物理的・デジタル的世界と、その中で生きる物体、動物、人間の高度な能力を持つシミュレーターの開発に向けた有望な道であることを示唆している。

ディスカッション

Soraは現在、シミュレーターとして多くの限界を見せている。例えば、ガラスが割れるような基本的なインタラクションの多くは、物理を正確にモデル化していない。食べ物を食べるような他の相互作用は、常にオブジェクトの状態を正しく変化させるとは限らない。私たちは、長時間のサンプルで発生する不整合や、物体の突発的な出現など、モデルのその他の一般的な失敗モードを、私たちの ランディングページ.

今日のSoraの能力は、ビデオモデルの継続的なスケーリングが、物理的・デジタル的世界と、その中で生きる物体、動物、人間の有能なシミュレーターの開発への有望な道であることを示していると信じている。

研究手法

Soraは拡散モデルで、静止ノイズのような映像から生成し、何段階にもわたってノイズを除去しながら徐々に変換していく。

Soraは、動画全体を一度に生成することも、生成した動画を延長して長くすることもできます。一度に何フレームもの先読みをモデルに与えることで、被写体が一時的に視界から外れても、被写体が変わらないようにするという難題を解決しました。

GPTモデルと同様に、Soraはトランスフォーマーアーキテクチャを採用しており、優れたスケーリング性能を発揮する。

私たちは、動画や画像をパッチと呼ばれる小さなデータ単位の集まりとして表現しており、各パッチはGPTにおけるトークンのようなものである。データの表現方法を統一することで、異なる時間、解像度、アスペクト比にまたがる、従来よりも幅広い視覚データに対して拡散変換器を学習させることができます。

Sora は、DALL-E と GPT モデルにおける過去の研究をベースにしています。また、DALL-E 3で採用されたリキャプション技術を応用しており、映像学習データに対して非常に説明的なキャプションを生成します。その結果、生成された映像中のユーザのテキスト指示に、より忠実に従うことができるようになりました。

このモデルは、テキストの指示だけで動画を生成できることに加え、既存の静止画から動画を生成し、画像の内容を正確かつ細部まで注意深くアニメーション化することができます。また、既存の動画を拡張したり、欠落したフレームを埋めることもできる。 詳しくはテクニカル・レポートをご覧ください。.

Soraは、現実世界を理解しシミュレートできるモデルの基礎となるもので、AGIを実現するための重要なマイルストーンになると考えている。

結論
Soraは、創造的な自由と現実への緻密な配慮の間でバランスをとりながら、映像合成における決定的な一歩を表している。OpenAIがこれらの機能を開発し、改良を続けるにつれて、Soraは、ビジュアルストーリーテリングへのアプローチ方法と、人間の創造性を補強するAIの役割を再定義する可能性がある。

コメントする

jaJapanese