안정적인 확산

안정적 확산 v1-5 모델 카드

스테이블 디퓨전은 텍스트 입력이 주어지면 사실적인 이미지를 생성할 수 있는 잠재적인 텍스트-이미지 디퓨전 모델입니다. 안정적 확산의 작동 방식에 대한 자세한 내용은 다음을 참조하세요. 🤗의 안정적인 확산 블로그.

그리고 Stable-Diffusion-v1-5 체크포인트의 가중치로 초기화되었습니다. Stable-Diffusion-v1-2 체크포인트와 이후 "laion-aesthetics v2 5+"에서 해상도 512×512에서 595k 단계로 미세 조정하고 텍스트 컨디셔닝의 10% 드롭을 개선하여 개선했습니다. 분류기 없는 안내 샘플링.

이 기능은 🧨디퓨저 라이브러리 및 RunwayML GitHub 리포지토리.

디퓨저

디퓨저에서 StableDiffusionPipeline을 가져옵니다.
토치 가져오기

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "화성에서 말을 타고 있는 우주 비행사의 사진"
image = pipe(prompt).images[0]
    
image.save("astronaut_rides_horse.png")

JAX의 자세한 지침, 사용 사례 및 예제를 보려면 다음 지침을 따르세요. 여기

원본 GitHub 리포지토리

  1. 가중치 다운로드
    • v1-5-pruned-emaonly.ckpt - 4.27GB, 에마 전용 무게. 적은 VRAM 사용 - 추론에 적합
    • v1-5-pruned.ckpt - 7.7GB, 에마+비-에마 무게. 더 많은 VRAM 사용 - 미세 조정에 적합합니다.
  2. 지침을 따르세요. 여기.

모델 세부 정보

  • 개발사: 로빈 롬바흐, 패트릭 에서
  • 모델 유형: 확산 기반 텍스트-이미지 생성 모델
  • 언어: 영어
  • 라이선스: CreativeML OpenRAIL M 라이선스 는 오픈 RAIL M 라이선스를 각색한 작품으로 BigScience 그리고 RAIL 이니셔티브 는 책임감 있는 AI 라이선스 분야를 공동으로 진행하고 있습니다. 참고 항목 BLOOM 오픈 레일 라이선스에 대한 기사 라이선스의 기반이 됩니다.
  • 모델 설명: 텍스트 프롬프트를 기반으로 이미지를 생성하고 수정하는 데 사용할 수 있는 모델입니다. 이는 잠재 확산 모델 고정된 사전 학습된 텍스트 인코더(CLIP ViT-L/14)에서 제안한 대로 이미지 종이.
  • 자세한 내용은 리소스를 참조하세요: GitHub 리포지토리종이.
  • 인용 출처:@InProceedings{Rombach_2022_CVPR, 저자 = {Rombach, Robin, Blattmann, Andreas, Lorenz, Dominik, Esser, Patrick, Ommer, Bj\"orn}, title = {잠복 확산 모델을 사용한 고해상도 이미지 합성}, booktitle = {프로시딩 오브 더 IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

용도

직접 사용

이 모델은 연구 목적으로만 사용됩니다. 가능한 연구 분야 및 작업은 다음과 같습니다.

  • 유해한 콘텐츠를 생성할 가능성이 있는 모델을 안전하게 배포합니다.
  • 생성 모델의 한계와 편견을 조사하고 이해합니다.
  • 아트웍을 생성하고 디자인 및 기타 예술적 프로세스에서 사용합니다.
  • 교육 또는 크리에이티브 도구의 애플리케이션.
  • 제너레이티브 모델에 대한 연구.

제외된 용도는 아래에 설명되어 있습니다.

오용, 악의적 사용 및 범위 외 사용

참고: 이 섹션은 DALLE-MINI 모델 카드와 같은 방식으로 적용되지만, 안정적 확산 v1에도 동일하게 적용됩니다..

이 모델은 사람들에게 적대적이거나 소외감을 주는 환경을 조성하는 이미지를 의도적으로 만들거나 유포하는 데 사용해서는 안 됩니다. 여기에는 사람들이 불쾌감, 고통 또는 불쾌감을 느낄 수 있는 이미지나 과거 또는 현재의 고정관념을 전파하는 콘텐츠를 생성하는 것이 포함됩니다.

범위 외 사용

이 모델은 사람이나 사건을 사실적으로 표현하도록 학습되지 않았으므로 이러한 콘텐츠를 생성하는 데 모델을 사용하는 것은 이 모델의 능력 범위를 벗어납니다.

오용 및 악의적 사용

이 모델을 사용하여 개인에게 잔인한 콘텐츠를 생성하는 것은 이 모델을 오용하는 것입니다. 여기에는 다음이 포함되지만 이에 국한되지 않습니다:

  • 사람이나 그 환경, 문화, 종교 등을 비하하거나 비인간적이거나 기타 유해한 표현을 생성하는 행위.
  • 차별적인 콘텐츠 또는 유해한 고정관념을 의도적으로 조장하거나 전파하는 행위.
  • 당사자의 동의 없이 개인을 사칭하는 행위.
  • 볼 수 있는 사람의 동의가 없는 성적인 콘텐츠.
  • 잘못된 정보 및 허위 정보
  • 잔혹한 폭력 및 유혈 표현
  • 사용 약관을 위반하여 저작권 또는 라이선스가 있는 자료를 공유하는 행위.
  • 사용 약관을 위반하여 저작권 또는 라이선스가 있는 자료를 변경한 콘텐츠를 공유하는 행위.

제한 및 편견

제한 사항

  • 모델이 완벽한 포토리얼리즘을 구현하지 못합니다.
  • 모델이 읽을 수 있는 텍스트를 렌더링할 수 없습니다.
  • 이 모델은 "파란색 구 위에 빨간색 정육면체"에 해당하는 이미지를 렌더링하는 것과 같이 구성과 관련된 더 어려운 작업에서는 잘 작동하지 않습니다.
  • 일반적으로 얼굴과 사람이 제대로 생성되지 않을 수 있습니다.
  • 이 모델은 주로 영어 자막으로 학습되었기 때문에 다른 언어에서는 잘 작동하지 않습니다.
  • 모델의 자동 인코딩 부분이 손실됩니다.
  • 이 모델은 대규모 데이터 세트에 대해 학습되었습니다. LAION-5B 성인용 콘텐츠가 포함되어 있으며 추가적인 안전 장치 및 고려 사항 없이는 제품 사용에 적합하지 않습니다.
  • 데이터 세트의 중복을 제거하기 위한 추가 조치는 사용되지 않았습니다. 그 결과 학습 데이터에서 중복된 이미지에 대해 어느 정도 암기하는 것을 관찰할 수 있었습니다. 학습 데이터는 다음에서 검색할 수 있습니다. https://rom1504.github.io/clip-retrieval/ 를 사용하여 암기된 이미지를 감지하는 데 도움을 줄 수 있습니다.

편향

이미지 생성 모델의 기능은 인상적이지만, 사회적 편견을 강화하거나 악화시킬 수도 있습니다. Stable Diffusion v1은 다음의 하위 집합에 대해 학습되었습니다. LAION-2B(ko)는 주로 영어 설명으로 제한된 이미지로 구성되어 있습니다. 다른 언어를 사용하는 커뮤니티 및 문화의 텍스트와 이미지는 충분히 설명되지 않을 가능성이 높습니다. 이는 백인 및 서구 문화가 기본값으로 설정되는 경우가 많기 때문에 모델의 전체 출력에 영향을 미칩니다. 또한 영어가 아닌 프롬프트가 포함된 콘텐츠를 생성하는 모델의 능력은 영어 프롬프트가 포함된 경우보다 현저히 떨어집니다.

안전 모듈

이 모델의 용도는 안전 검사기 를 사용할 수 있습니다. 이 검사기는 모델 출력을 알려진 하드코딩된 NSFW 개념과 비교하여 검사하는 방식으로 작동합니다. 이 필터를 리버스 엔지니어링할 가능성을 줄이기 위해 개념은 의도적으로 숨겨져 있습니다. 구체적으로 검사기는 임베딩 공간에서 유해한 개념의 클래스 확률을 비교합니다. CLIPTextModel 세대 이후 이미지의 가중치를 계산합니다. 컨셉은 생성된 이미지와 함께 모델에 전달되고 각 NSFW 컨셉에 대해 수작업으로 엔지니어링된 가중치와 비교됩니다.

교육

학습 데이터 모델 개발자는 모델 학습을 위해 다음 데이터 세트를 사용했습니다:

  • LAION-2B(en) 및 그 하위 집합(다음 섹션 참조)

안정적인 교육 절차 확산 v1-5는 자동 인코더와 자동 인코더의 잠재 공간에서 학습된 확산 모델을 결합한 잠재 확산 모델입니다. 훈련 중

  • 이미지는 인코더를 통해 인코딩되며, 인코더는 이미지를 잠재적 표현으로 변환합니다. 자동 인코더는 상대 다운샘플링 계수 8을 사용하여 H x W x 3 형태의 이미지를 H/f x W/f x 4 형태의 잠재 표현으로 매핑합니다.
  • 텍스트 프롬프트는 ViT-L/14 텍스트 인코더를 통해 인코딩됩니다.
  • 텍스트 인코더의 비풀링 출력은 크로스 어텐션을 통해 잠재 확산 모델의 UNet 백본에 공급됩니다.
  • 손실은 잠복에 추가된 노이즈와 UNet에서 예측한 노이즈 사이의 재구성 목표입니다.

현재 다음과 같이 훈련된 6개의 안정적 확산 체크포인트가 제공됩니다.

  • 안정-확산-v1-1해상도: 237,000 걸음 256x256 on laion2B-en. 194,000 걸음 해상도 512x512 on 라이온 고해상도 (LAION-5B의 1억 7천만 예제, 해상도 포함) >= 1024x1024).
  • 안정-확산-v1-2: 에서 재개됨 안정-확산-v1-1. 515,000 걸음 해상도 512x512 (laion2B-en의 하위 집합으로, 원본 크기의 이미지로 필터링된 >= 512x512예상 미학 점수 > 5.0와 예상 워터마크 확률 < 0.5. 워터마크 추정치는 LAION-5B 메타데이터에서 가져온 것이며, 심미성 점수는 다음을 사용하여 추정합니다. 향상된 미학 추정기).
  • 안정-확산-V1-3: 에서 재개됨 안정-확산-v1-2 - 해상도 195,000보 512x512 "라이온-개선-미학"과 텍스트 컨디셔닝의 10 % 드롭을 개선하기 위해 분류기 없는 안내 샘플링.
  • 안정-확산-V1-4 에서 재개되었습니다. 안정-확산-v1-2 - 해상도 225,000보 512x512 "라이온-미학 v2 5+"에서 텍스트 컨디셔닝을 개선하기 위해 10 %를 삭제했습니다. 분류기 없는 안내 샘플링.
  • 안정-확산-v1-5 에서 재개되었습니다. 안정-확산-v1-2 - 해상도 595,000보 512x512 "라이온-미학 v2 5+"에서 텍스트 컨디셔닝을 개선하기 위해 10 %를 삭제했습니다. 분류기 없는 안내 샘플링.
  • 안정적 확산 페인팅 에서 재개되었습니다. 안정-확산-v1-5 - 에서 512×512 해상도로 440,000단계의 인페인팅 훈련과 10%의 텍스트 컨디셔닝을 수행했습니다. 인페인팅을 위해 UNet에는 5개의 추가 입력 채널(인코딩된 마스크 이미지용 4개, 마스크 자체용 1개)이 있으며, 비인페인팅 체크포인트 복원 후 가중치가 0으로 초기화됩니다. 훈련 중에 합성 마스크를 생성하고 25%에서는 모든 것을 마스킹합니다.
  • 하드웨어: 32 x 8 x A100 GPU
  • 옵티마이저: AdamW
  • 그라데이션 누적: 2
  • 배치: 32 x 8 x 2 x 4 = 2048
  • 학습 속도: 10,000보 동안 0.0001로 워밍업한 후 일정하게 유지합니다.

평가 결과

다양한 분류기 없는 안내 척도(1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0)와 50개의 PNDM/PLMS 샘플링 단계로 평가하면 체크포인트의 상대적인 개선 사항을 확인할 수 있습니다:

파레토

COCO2017 검증 세트의 50개 PLMS 단계와 10000개의 무작위 프롬프트를 사용하여 512×512 해상도에서 평가되었습니다. FID 점수에는 최적화되지 않았습니다.

환경 영향

안정적인 확산 v1 예상 배출량 이 정보를 바탕으로 다음과 같은 CO2 배출량을 추정합니다. 머신러닝 영향력 계산기 에 표시 라코스테 외(2019). 하드웨어, 런타임, 클라우드 제공업체 및 컴퓨팅 지역을 활용하여 탄소 영향을 추정했습니다.

  • 하드웨어 유형: A100 PCIe 40GB
  • 사용 시간: 150000
  • 클라우드 제공업체: AWS
  • 지역 계산: 미국 동부
  • 배출된 탄소(전력 소비량 x 시간 x 전력망 위치에 따른 탄소 발생량): 11250 kg CO2 eq.

인용

    InProceedings{Rombach_2022_CVPR,
        저자 = {롬바흐, 로빈, 블랫만, 안드레아스, 로렌츠, 도미닉, 에서, 패트릭, 오머, 비제이 오른},
        title = {잠재 확산 모델을 사용한 고해상도 이미지 합성},
        책 제목 = {컴퓨터 비전 및 패턴 인식(CVPR)에 관한 IEEE/CVF 컨퍼런스 논문집},
        month = {6월},
        년도 = {2022},
        pages = {10684-10695}, {10684-10695}, {10684-10695}, }
    }

이 모델 카드는 로빈 롬바흐와 패트릭 에서가 작성했으며, 다음을 기반으로 합니다. DALL-E 미니 모델 카드.