Playground v2 - 새로운 1024px 미적 모델

흥미롭네요! Playground v2 - 1024px 미적 모델은 고품질의 미적으로 만족스러운 이미지를 생성할 수 있는 강력한 도구인 것 같습니다. 저는 허깅 페이스와 디퓨저에 모두 익숙하기 때문에 이 모델의 잠재적 활용 가능성을 잘 알고 있습니다.

이 모델을 사용하는 목적에 대해 자세히 말씀해 주시겠어요? 창작 프로젝트, 개인 작품 또는 다른 용도로 사용하고 싶으신가요? 구체적인 요구 사항에 대해 자세히 알면 더 적절하고 유용한 정보를 제공하는 데 도움이 됩니다.

  • 기술 지원: 허깅 페이스 또는 디퓨저 사용에 익숙하지 않은 경우, 기본 사항을 설명하고 추가 학습을 위한 리소스를 제공하여 시작하는 데 도움을 드릴 수 있습니다.
  • 창의적인 영감: 특정 종류의 미적 이미지를 생성하기 위해 모델에 사용할 프롬프트 및 설정에 대한 아이디어를 브레인스토밍하는 데 도움을 드릴 수 있습니다.
  • 다른 옵션과 비교: 이미지 생성을 위해 다른 모델을 고려하고 있다면, 정보에 입각한 결정을 내릴 수 있도록 Playground v2 모델과 비교하고 대조해 드릴 수 있습니다.

이 흥미로운 기술을 어떻게 사용할 계획인지 더 자세히 알아보고 싶습니다!

플레이그라운드 v2 는 확산 기반 텍스트-이미지 생성 모델입니다. 이 모델은 다음 연구팀에 의해 처음부터 학습되었습니다. 놀이터.

Playground v2에서 생성된 이미지가 선호됩니다. 2.5 에 비해 몇 배나 더 많이 생산되는 것으로 나타났습니다. 사용자 연구.

다음을 출시하게 되어 매우 기쁩니다. 중간 체크포인트 평가 지표를 포함한 다양한 교육 단계를 커뮤니티에 공개합니다. 이를 통해 이미지 생성을 위한 기초 모델에 대한 연구가 더욱 활성화되기를 바랍니다.

마지막으로 새로운 벤치마크를 소개합니다, MJHQ-30K를 사용하여 모델의 미적 품질을 자동으로 평가할 수 있습니다.

저희의 블로그 에서 자세한 내용을 확인하세요.

디퓨저 >= 0.24.0 및 일부 종속성을 설치합니다:

PIP 설치 변압기 가속 세이프티 센서

모델을 사용하려면 다음 코드 조각을 실행합니다.

참고: 다음을 사용하는 것이 좋습니다. 안내_규모=3.0.

디퓨저에서 디퓨전 파이프라인을 가져옵니다.
토치 가져오기

pipe = DiffusionPipeline.from_pretrained(
    "playgroundai/playground-v2-1024px-aesthetic",
    torch_dtype=torch.float16,
    use_safetensors=True,
    add_watermarker=False,
    variant="fp16"
)
pipe.to("cuda")

프롬프트 = "정글 속 우주비행사, 차가운 색상 팔레트, 음소거된 색상, 디테일, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]

Automatic1111 또는 ComfyUI와 같은 소프트웨어와 함께 모델을 사용하려면 다음을 사용할 수 있습니다. playground-v2.fp16.safetensors 파일을 만듭니다.

2,600개 이상의 프롬프트와 수천 명의 사용자를 대상으로 Playground에서 실시한 사용자 연구에 따르면, Playground v2에서 생성된 이미지가 가장 선호되는 것으로 나타났습니다. 2.5 에서 생산되는 것보다 안정적인 확산 XL.

다음에서 사용자 선호도 지표를 보고합니다. 파티 프롬프트표준 관행에 따라, 그리고 Playground 팀에서 선별한 내부 프롬프트 데이터 세트를 기반으로 합니다. "내부 1K" 프롬프트 데이터 세트는 다양하며 여러 카테고리와 작업을 포괄합니다.

사용자 연구에서는 사용자에게 (1) 미적 선호도와 (2) 이미지와 텍스트의 정렬을 기준으로 이미지 쌍을 평가하도록 지침을 제공합니다.

이미지/png
모델전체 FID
SDXL-1-0-리파이너9.55
놀이터-v2-1024px-aesthetic7.07

새로운 벤치마크를 소개합니다, MJHQ-30K를 사용하여 모델의 미적 품질을 자동으로 평가합니다. 이 벤치마크는 고품질 데이터 세트에서 FID를 계산하여 미적 품질을 측정합니다.

다음에서 고품질 데이터 세트를 선별했습니다. 중간 여정10개의 공통 카테고리로 구성되어 있으며, 각 카테고리에는 3,000개의 샘플이 포함되어 있습니다. 일반적인 관행에 따라 미적 점수와 클립 점수를 사용하여 높은 이미지 품질과 높은 이미지-텍스트 정렬을 보장합니다. 또한 각 카테고리 내에서 데이터를 다양하게 구성하기 위해 각별한 주의를 기울였습니다.

Playground v2의 경우, 전체 FID와 카테고리별 FID를 모두 보고합니다. 모든 FID 지표는 1024×1024 해상도에서 계산됩니다. 벤치마크 결과에 따르면 우리 모델은 전체 FID와 모든 카테고리 FID, 특히 인물과 패션 카테고리에서 SDXL-1-0-리파이너보다 우수한 성능을 보였습니다. 이는 사용자 연구 결과와 일치하는 것으로, MJHQ-30K 벤치마크에서 사람 선호도와 FID 점수 간의 상관관계를 나타냅니다.

이 벤치마크를 대중에게 공개하고 커뮤니티에서 모델의 미적 품질을 벤치마킹하기 위해 채택하도록 권장합니다.

모델FID클립 점수
SDXL-1-0-리파이너13.0432.62
playground-v2-256px-base9.8331.90
playground-v2-512px-base9.5532.08

이외에도 놀이터-v2-1024px-aesthetic에서는 픽셀 단위의 기초 모델 연구를 촉진하기 위해 다양한 훈련 단계의 중간 체크포인트를 커뮤니티에 공개합니다. 여기에서는 참고용으로 MSCOCO14 평가 세트의 FID 점수와 CLIP 점수를 보고합니다. (프롬프트 목록이 다를 수 있으므로 보고된 수치는 SDXL에서 발표한 결과와 다를 수 있습니다.)

ko_KRKorean