AI Sora:Video Generation with OpenAI Sora

OpenAI는 텍스트 프롬프트에서 직접 고품질의 사실적인 동영상을 제작할 수 있는 정교한 AI 모델인 Sora를 출시했습니다. Sora는 움직이는 물리적 세계를 이해하고 시뮬레이션하는 AI의 최전선에 서 있으며, 이는 실제 세계의 역학에 효과적으로 인터페이스하는 모델을 개발하는 데 있어 매우 중요한 노력입니다. 자연어 처리와 비디오 합성의 이러한 도약은 시각 예술과 디자인 분야를 풍요롭게 할 뿐만 아니라 창의적이고 기술적인 탐구를 위한 새로운 지평을 열어줍니다.

이미지 4

소개:


텍스트-비디오 합성을 중심으로 하는 OpenAI의 Sora는 상세한 텍스트 지침을 시각적으로 매력적이면서도 설명자를 엄격하게 준수하는 1분 분량의 비디오로 변환하도록 설계되었습니다. 이 모델의 기능은 다양한 프롬프트를 통해 시연되며, 각 프롬프트는 AI의 해석 및 생성 능력의 한계를 뛰어넘는 독특하고 맥락에 맞는 장면을 생성합니다.

이미지 5

애플리케이션 및 영향력:
현재는 잠재적 피해를 식별하기 위해 레드팀원만 이용할 수 있지만, 소라의 잠재력은 여러 분야에 걸쳐 확장되고 있습니다. 시각 예술가, 디자이너, 영화 제작자 등이 이 모델을 활용하여 크리에이티브 산업에서 활용도를 높이고 있습니다. OpenAI는 교육 보조 도구, 자동화된 비디오 콘텐츠 제작, 엔터테인먼트, 이론 연구를 위한 고급 시뮬레이션에 이르기까지 다양한 분야에서 활용될 것으로 예상하고 있습니다.

이미지 6

기술 백본:
Sora는 정적인 노이즈에서 시작하여 일관된 비디오 내러티브로 세심하게 다듬는 방법인 확산 모델을 기반으로 구축되었습니다. GPT 모델에서 볼 수 있는 트랜스포머 아키텍처와 유사한 확장 전략을 사용하여 방대한 시각적 데이터를 처리하는 능력을 향상시킵니다. 이 작업은 GPT의 토큰화와 유사하지만 비주얼 패치에 적용되어 다양한 길이, 해상도 및 종횡비를 효과적으로 처리할 수 있습니다.

이미지 7

연구 진행 상황:
'리캡처링'과 같은 DALL-E 3의 기술을 활용하여 동영상 내 텍스트 지침을 충실히 따르는 모습을 보여줍니다. 또한 Sora는 정지 이미지에 애니메이션을 적용하거나 기존 동영상을 확장할 수 있어 미세한 디테일과 연속성에 대한 예리한 안목을 보여줍니다.

이미지 8

안전 조치:
광범위한 배포에 앞서 광범위한 안전 메커니즘을 구현하고 있습니다. 여기에는 전문가와 협력하여 잘못된 정보, 혐오 콘텐츠 및 편견에 대한 모델을 테스트하는 작업이 포함됩니다. AI가 생성한 콘텐츠를 식별하고 콘텐츠 정책 준수를 보장하기 위한 도구가 개발 중이며, 향후 투명성을 강화하기 위해 C2PA 메타데이터를 통합할 계획입니다.

이미지 9

향후 전망:
실제 세계를 심층적으로 이해할 수 있는 모델의 토대를 마련함으로써 소라는 인공 일반 지능(AGI)으로 가는 길에 중요한 이정표를 세웠습니다. 전 세계의 정책 입안자, 교육자, 예술가들과 협력하는 OpenAI는 이러한 발전의 사회적 영향을 이해하는 동시에 잠재적인 오용에 대한 경계를 늦추지 않고 있습니다.

이 기술 보고서는 (1) 모든 유형의 시각적 데이터를 대규모 생성 모델 학습을 가능하게 하는 통합된 표현으로 변환하는 방법과 (2) Sora의 기능과 한계에 대한 정성적 평가에 초점을 맞추고 있습니다. 모델 및 구현에 대한 자세한 내용은 이 보고서에 포함되지 않았습니다.

많은 선행 연구에서 순환 네트워크를 비롯한 다양한 방법을 사용하여 비디오 데이터의 생성 모델링을 연구했습니다,1,2,3 생성적 적대적 네트워크,4,5,6,7 자동 회귀 변압기,8,9 및 확산 모델.10,11,12 이러한 작업은 주로 좁은 범주의 시각적 데이터, 짧은 동영상 또는 고정된 크기의 동영상에 초점을 맞추는 경우가 많습니다. Sora는 다양한 길이, 종횡비, 해상도, 최대 1분 분량의 고화질 동영상까지 다양한 동영상과 이미지를 생성할 수 있는 범용 시각 데이터 모델입니다.

시각적 데이터를 패치로 전환

인터넷 규모의 데이터에 대한 훈련을 통해 제너럴리스트 역량을 습득하는 대규모 언어 모델에서 영감을 얻었습니다.13,14 LLM 패러다임의 성공은 부분적으로 토큰을 사용함으로써 가능해졌습니다. 텍스트 코드, 수학 및 다양한 자연어의 다양한 양식을 우아하게 통합합니다. 이 작업에서는 시각적 데이터의 생성 모델이 이러한 장점을 어떻게 계승할 수 있는지 살펴봅니다. LLM에는 텍스트 토큰이 있는 반면, Sora에는 시각적 토큰이 있습니다. 패치. 패치는 이전에 시각적 데이터 모델을 효과적으로 표현하는 것으로 나타났습니다.15,16,17,18 패치는 다양한 유형의 동영상과 이미지에 대한 제너레이티브 모델을 훈련하는 데 확장성이 뛰어나고 효과적인 표현 방식이라는 것을 알게 되었습니다.

그림 패치

높은 수준에서는 먼저 동영상을 저차원 잠재 공간으로 압축하여 패치로 변환합니다,19 를 사용하여 표현을 시공간 패치로 분해합니다.

비디오 압축 네트워크

시각적 데이터의 차원을 줄이는 네트워크를 학습시킵니다.20 이 네트워크는 원본 비디오를 입력으로 받아 시간적, 공간적으로 압축된 잠재적 표현을 출력합니다. Sora는 이 압축된 잠재 공간에서 학습을 거쳐 동영상을 생성합니다. 또한 생성된 잠상을 픽셀 공간에 다시 매핑하는 해당 디코더 모델을 학습시킵니다.

시공간 잠재 패치

압축된 입력 비디오가 주어지면, 트랜스포머 토큰 역할을 하는 시공간 패치 시퀀스를 추출합니다. 이미지는 단일 프레임의 비디오에 불과하기 때문에 이 방식은 이미지에서도 작동합니다. 패치 기반 표현을 통해 Sora는 다양한 해상도, 길이, 화면 비율의 비디오와 이미지를 학습할 수 있습니다. 추론 시에는 무작위로 초기화된 패치를 적절한 크기의 그리드에 배열하여 생성된 비디오의 크기를 제어할 수 있습니다.

비디오 생성을 위한 스케일링 트랜스포머

소라는 확산 모델입니다.21,22,23,24,25입력 노이즈 패치(및 텍스트 프롬프트와 같은 컨디셔닝 정보)가 주어지면 원래의 "깨끗한" 패치를 예측하도록 학습됩니다. 중요한 점은, Sora는 확산 변압기.26 트랜스포머는 언어 모델링을 비롯한 다양한 영역에서 놀라운 확장성을 입증했습니다,13,14 컴퓨터 비전,15,16,17,18 및 이미지 생성.27,28,29

그림 확산

이 연구에서는 확산 트랜스포머가 비디오 모델로서도 효과적으로 확장된다는 사실을 발견했습니다. 아래는 훈련이 진행됨에 따라 고정된 시드와 입력이 있는 비디오 샘플을 비교한 것입니다. 훈련 연산이 증가함에 따라 샘플 품질이 현저하게 향상됩니다.

기본 컴퓨팅

4배 컴퓨팅

16배 컴퓨팅

가변 길이, 해상도, 화면 비율

이미지 및 동영상 생성에 대한 과거의 접근 방식은 일반적으로 동영상을 표준 크기(예: 256×256 해상도의 4초 동영상)로 크기를 조정하거나 자르거나 트리밍합니다. 대신 기본 크기로 데이터를 학습하면 몇 가지 이점을 얻을 수 있습니다.

샘플링 유연성

Sora는 와이드스크린 1920x1080p 동영상, 세로 1080×1920 동영상 및 그 사이의 모든 동영상을 샘플링할 수 있습니다. 이를 통해 Sora는 다양한 디바이스의 기본 화면 비율에 맞춰 콘텐츠를 직접 제작할 수 있습니다. 또한 동일한 모델로 전체 해상도로 생성하기 전에 더 작은 크기로 콘텐츠를 빠르게 프로토타입으로 제작할 수 있습니다.

향상된 프레이밍 및 구도

경험적으로 기본 화면 비율로 동영상을 학습하면 구도와 프레임이 개선된다는 사실을 발견했습니다. 모든 훈련 동영상을 정사각형으로 자르는 모델 버전과 제너레이티브 모델을 훈련할 때 일반적으로 사용되는 정사각형으로 자르는 모델 버전과 Sora를 비교해 보았습니다. 정사각형 크롭으로 훈련된 모델(왼쪽)은 피사체가 부분적으로만 보이는 동영상을 생성하는 경우가 있습니다. 이에 비해 소라(오른쪽)의 동영상은 프레임이 개선되었습니다.

언어 이해

텍스트-비디오 생성 시스템을 교육하려면 해당 텍스트 캡션이 포함된 대량의 동영상이 필요합니다. DALL-E 3에 도입된 리캡션 기술을 적용합니다.30 을 동영상에 추가합니다. 먼저 설명력이 높은 캡션 모델을 학습시킨 다음 이를 사용하여 학습 세트의 모든 동영상에 대한 텍스트 캡션을 생성합니다. 설명력이 높은 동영상 캡션을 학습하면 텍스트 충실도는 물론 동영상의 전반적인 품질이 향상된다는 사실을 발견했습니다.

DALL-E 3와 마찬가지로, 짧은 사용자 프롬프트를 더 긴 상세 캡션으로 변환하여 비디오 모델에 전송하는 데에도 GPT를 활용합니다. 이를 통해 Sora는 사용자 프롬프트를 정확하게 따르는 고품질 동영상을 생성할 수 있습니다.

늙은 마나 여자늙은 마나 장난감 로봇사랑스러운 캥거루

착용

보라색 오버롤과 카우보이 부츠파란색 청바지와 흰색 티셔츠녹색 드레스와 선 모자보라색 오버롤과 카우보이 부츠

기분 좋은 산책

남아프리카 공화국 요하네스버그인도 뭄바이 남아프리카 공화국 요하네스버그남극

동안

아름다운 일몰아름다운 일몰아름다운 일몰겨울 폭풍아름다운 축제

이미지 및 동영상으로 프롬프트하기

위의 모든 결과와 랜딩 페이지 텍스트-비디오 샘플을 표시합니다. 하지만 기존 이미지나 동영상과 같은 다른 입력을 통해 Sora에 메시지를 표시할 수도 있습니다. 이 기능을 통해 Sora는 완벽하게 반복되는 비디오 제작, 정적 이미지 애니메이션, 시간 앞뒤로 비디오 확장 등 다양한 이미지 및 비디오 편집 작업을 수행할 수 있습니다.

DALL-E 이미지 애니메이션

Sora는 이미지와 프롬프트를 입력으로 제공하면 동영상을 생성할 수 있습니다. 아래는 DALL-E 2를 기반으로 생성된 동영상 예시입니다.31 및 DALL-E 330 이미지.

프롬프트 0

베레모와 검은색 터틀넥을 입은 시바견.

프롬프트 2

다양한 몬스터 가족의 평면 디자인 스타일의 몬스터 일러스트레이션입니다. 털복숭이 갈색 몬스터, 안테나가 달린 매끈한 검은색 몬스터, 점박이 녹색 몬스터, 작은 물방울무늬 몬스터가 재미있는 환경에서 상호 작용하는 몬스터 군을 포함하고 있습니다.

프롬프트 4

"SORA"라는 철자가 적힌 사실적인 구름 이미지입니다.

프롬프트 6

화려하고 역사적인 홀에서 거대한 파도가 정점을 찍고 부서지기 시작합니다. 순간을 포착한 두 명의 서퍼가 능숙하게 파도를 헤쳐나갑니다.

생성된 동영상 확장하기

Sora는 또한 동영상을 앞뒤로 확장할 수 있습니다. 아래는 생성된 동영상의 한 세그먼트에서 시작하여 모두 시간을 거꾸로 연장한 4개의 동영상입니다. 결과적으로 네 개의 동영상은 각각 시작은 다르지만 네 개의 동영상 모두 동일한 엔딩으로 이어집니다.

00:00

00:20

이 방법을 사용하면 동영상을 앞뒤로 확장하여 끊김 없는 무한 루프를 만들 수 있습니다.

비디오 대 비디오 편집

확산 모델을 통해 텍스트 프롬프트에서 이미지와 동영상을 편집할 수 있는 다양한 방법이 가능해졌습니다. 아래에서는 이러한 방법 중 하나인 SDEdit를 적용합니다,32 를 Sora에 추가했습니다. 이 기술을 통해 Sora는 입력된 영상의 스타일과 환경을 제로 샷으로 변환할 수 있습니다.

비디오 입력무성한 정글로 배경을 변경합니다1920년대로 배경을 변경하고 오래된 학교 자동차로 변경합니다. 붉은 색을 유지하십시오수중으로 이동합니다비디오 설정을 산이 아닌 다른 곳으로 변경합니다. 아마도 조슈아 나무?무지개 도로가 있는 우주에 비디오 넣기비디오를 동일하게 유지하되 겨울로 만들기클레이 애니메이션 스타일로 만들기숯 그림 스타일로 만들기, 흑백으로 만들기 설정을 사이버 펑크로 변경하기비디오를 중세 테마로 변경하기공룡으로 만들기픽셀 아트 스타일로 비디오 작성하기

동영상 연결

또한 Sora를 사용하여 두 입력 비디오 사이를 점진적으로 보간하여 완전히 다른 주제와 장면 구성을 가진 비디오 간에 매끄러운 전환을 만들 수 있습니다. 아래 예시에서 중앙의 동영상은 왼쪽과 오른쪽의 해당 동영상 사이에 보간을 적용합니다.

이미지 생성 기능

Sora는 이미지를 생성할 수도 있습니다. 이를 위해 가우시안 노이즈 패치를 한 프레임의 시간적 범위로 공간 그리드에 배열하는 방식으로 수행합니다. 이 모델은 최대 2048×2048 해상도까지 다양한 크기의 이미지를 생성할 수 있습니다.

이미지 0가을에 여성의 클로즈업 인물 사진, 극도의 디테일, 얕은 피사계 심도

이미지 1다채로운 물고기와 바다 생물로 가득한 생동감 넘치는 산호초

이미지 2사과 나무 아래 어린 호랑이의 디지털 아트와 화려한 디테일의 무광택 페인팅 스타일

이미지 3아늑한 오두막과 오로라가 펼쳐진 눈 덮인 산악 마을, 디테일이 뛰어나고 사실적인 DSLR, 50mm f/1.2

새로운 시뮬레이션 기능

비디오 모델은 대규모로 훈련할 때 여러 가지 흥미로운 새로운 기능을 발휘합니다. 이러한 기능을 통해 Sora는 실제 세계의 사람, 동물, 환경의 일부 측면을 시뮬레이션할 수 있습니다. 이러한 속성은 3D, 객체 등에 대한 명시적인 귀납적 편향 없이 순전히 규모에 따른 현상에서 나타납니다.

3D 일관성. Sora는 역동적인 카메라 움직임으로 동영상을 생성할 수 있습니다. 카메라가 이동하고 회전함에 따라 사람과 장면 요소가 3차원 공간에서 일관되게 움직입니다.

장거리 일관성 및 객체 영속성. 동영상 생성 시스템의 중요한 과제는 긴 동영상을 샘플링할 때 시간적 일관성을 유지하는 것이었습니다. 소라는 항상 그런 것은 아니지만 종종 단거리 및 장거리 종속성을 모두 효과적으로 모델링할 수 있습니다. 예를 들어, 사람, 동물, 사물이 가려지거나 프레임을 벗어난 경우에도 모델링이 지속될 수 있습니다. 또한 단일 샘플에서 동일한 캐릭터의 여러 샷을 생성하여 비디오 전체에 걸쳐 그 모습을 유지할 수 있습니다.

세상과 소통하기 소라는 때때로 간단한 방법으로 세상의 상태에 영향을 미치는 행동을 시뮬레이션할 수 있습니다. 예를 들어 화가는 캔버스에 시간이 지나도 지속되는 새로운 획을 남길 수 있고, 남자는 햄버거를 먹고 물린 자국을 남길 수 있습니다.

디지털 월드 시뮬레이션. Sora는 비디오 게임과 같은 인공적인 프로세스도 시뮬레이션할 수 있습니다. Sora는 Minecraft에서 기본 정책으로 플레이어를 제어하는 동시에 세계와 그 역학을 충실하게 렌더링할 수 있습니다. 이러한 기능은 "Minecraft"라는 캡션으로 Sora에게 메시지를 표시하여 제로 샷을 유도할 수 있습니다.

이러한 기능은 비디오 모델의 지속적인 확장이 물리적 및 디지털 세계와 그 안에 존재하는 사물, 동물, 사람에 대한 고기능 시뮬레이터를 개발하는 데 유망한 경로임을 시사합니다.

토론

현재 소라는 시뮬레이터로서 많은 한계를 드러내고 있습니다. 예를 들어 유리 깨짐과 같은 기본적인 상호작용의 물리학을 정확하게 모델링하지 못합니다. 음식을 먹는 것과 같은 다른 상호작용도 물체 상태에 항상 올바른 변화를 가져오는 것은 아닙니다. 장시간 샘플에서 발생하는 불일치나 물체의 자연스러운 출현과 같은 모델의 다른 일반적인 실패 모드를 열거하면 다음과 같습니다. 랜딩 페이지.

현재 소라가 보유한 역량은 비디오 모델의 지속적인 확장이 물리적 세계와 디지털 세계, 그리고 그 안에 존재하는 사물, 동물, 사람의 유능한 시뮬레이터를 개발하는 데 있어 유망한 길임을 보여줍니다.

연구 기술

소라는 정적 노이즈처럼 보이는 동영상으로 시작하여 여러 단계에 걸쳐 노이즈를 제거하여 점차적으로 변환하는 확산 모델로, 동영상을 생성합니다.

Sora는 전체 동영상을 한 번에 생성하거나 생성된 동영상을 확장하여 더 길게 만들 수 있습니다. 모델에 한 번에 여러 프레임을 예측할 수 있는 기능을 제공함으로써 피사체가 일시적으로 시야에서 사라져도 동일하게 유지되도록 하는 까다로운 문제를 해결했습니다.

GPT 모델과 마찬가지로 Sora는 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 제공합니다.

Facebook은 동영상과 이미지를 패치라고 하는 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사합니다. 데이터를 표현하는 방식을 통합함으로써 다양한 길이, 해상도, 종횡비를 아우르는 이전보다 더 광범위한 시각적 데이터에 대해 확산 변환기를 훈련할 수 있게 되었습니다.

Sora는 DALL-E 및 GPT 모델에 대한 과거 연구를 기반으로 합니다. 시각적 학습 데이터에 대해 설명력이 높은 캡션을 생성하는 DALL-E 3의 리캡션 기법을 사용합니다. 그 결과 모델은 생성된 비디오에서 사용자의 텍스트 지시를 보다 충실히 따를 수 있습니다.

이 모델은 텍스트 지침만으로 동영상을 생성할 수 있을 뿐만 아니라 기존 정지 이미지를 가져와서 동영상을 생성할 수 있으며, 이미지의 내용을 정확하고 세세한 부분까지 애니메이션으로 표현할 수 있습니다. 또한 모델은 기존 비디오를 가져와서 확장하거나 누락된 프레임을 채울 수도 있습니다. 기술 보고서에서 자세히 알아보기.

Sora는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기반이 되며, 이는 AGI를 실현하는 데 중요한 이정표가 될 것으로 믿습니다.

결론:
소라는 비디오 합성의 결정적인 단계로, 창의적인 자유와 현실에 대한 세심한 주의 사이에서 균형을 잡습니다. OpenAI가 이러한 기능을 지속적으로 개발하고 개선함에 따라 Sora는 시각적 스토리텔링에 접근하는 방식과 인간의 창의성을 강화하는 AI의 역할을 재정의할 수 있습니다.

댓글 남기기

ko_KRKorean