Playground v2 - 新しい1024px美的モデル

それは興味深い!Playground v2 - 1024px Aesthetic Modelは、高品質で美しい画像を生成するための強力なツールのようですね。Hugging FaceもDiffusersもよく知っているので、このモデルの潜在的な用途は理解しています。

このモデルを使う目的について、もう少し詳しく教えてください。クリエイティブなプロジェクトや個人的なアートワーク、あるいはまったく別のことに使用したいのですか?あなたの具体的なニーズをもっと知ることで、より適切で役立つ情報を提供することができます。

  • 技術支援: ハギング・フェイスやディフューザーの使い方に不慣れな方には、基本を説明し、さらに学ぶためのリソースを提供することで、使い始めるお手伝いをします。
  • クリエイティブなインスピレーション: 私は、特定の種類の美的イメージを生み出すためにモデルとともに使用するプロンプトやセッティングのアイデアをブレインストーミングするお手伝いをします。
  • 他の選択肢との比較: もし、画像を生成するために他のモデルを検討されているのであれば、Playground v2モデルと比較対照することで、十分な情報を得た上で決断することができます。

あなたがこのエキサイティングな技術をどのように使うつもりなのか、もっと知りたいと思っています!

プレイグラウンドv2 は拡散ベースのテキスト画像生成モデルである。このモデルは、以下の研究チームによってゼロからトレーニングされた。 遊び場。

プレイグラウンドv2によって生成された画像が好まれる 2.5 プレイグラウンドの発表によると、ステーブル・ディフュージョンXLで製造されたものに比べ、1.5倍も多い。 ユーザースタディ.

をリリースできることに興奮している。 中間チェックポイント 評価指標を含む、さまざまなトレーニング段階でのコミュニティへの提供。これにより、画像生成の基盤となるモデルの研究がさらに進むことを期待している。

最後に、新しいベンチマークを紹介する、 MJHQ-30Kモデルの美的品質を自動的に評価する。

をご覧ください。 ブログ をご覧ください。

diffusers >= 0.24.0といくつかの依存関係をインストールします:

変圧器設置用パイプがセーフセンサーを加速

このモデルを使うには、以下のスニペットを実行する。

:を使用することを推奨する。 guidance_scale=3.0.

from diffusers import ディフュージョンパイプライン
インポートトーチ

pipe = DiffusionPipeline.from_pretrained(
    "playgroundai/playground-v2-1024px-aesthetic"、
    torch_dtype=torch.float16、
    use_safetensors=True、
    add_watermarker=False、
    variant="fp16"
)
pipe.to("cuda")

prompt = "ジャングルの中の宇宙飛行士、寒色パレット、ミュートカラー、詳細、8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0].

Automatic1111やComfyUIのようなソフトウェアでこのモデルを使用するには、次のようにします。 playground-v2.fp16.セーフセンサー ファイル。

2,600以上のプロンプトと数千人のユーザーを対象にプレイグラウンドが実施したユーザー調査によると、プレイグラウンドv2で生成された画像は以下のように好まれている。 2.5 の生産量の1.5倍である。 安定した拡散XL.

ユーザー嗜好の測定基準 パルティプロンプト標準的なプラクティスに従い、Playgroundチームによってキュレーションされた内部プロンプトデータセットを使用する。内部1K "プロンプトデータセットは多様で、様々なカテゴリーやタスクをカバーしている。

ユーザー・スタディでは、(1)美的嗜好と(2)画像とテキストの配置の両方に基づいて画像ペアを評価するようユーザーに指示を与える。

image/png
モデル全体的なFID
SDXL-1-0-リファイナー9.55
遊び場-v2-1024px-美的7.07

新しいベンチマークを紹介する、 MJHQ-30Kこのベンチマークは、モデルの美的品質を自動的に評価するためのものです。このベンチマークは、美的品質を評価するために、高品質のデータセット上でFIDを計算する。

からの高品質なデータセットをキュレーションした。 旅の途中各カテゴリーには3,000のサンプルが含まれる。一般的な手法に従い、美的スコアとCLIPスコアを使用して、高画質と高画像-テキストアライメントを保証する。さらに、各カテゴリー内でデータが多様になるように細心の注意を払っている。

Playground v2では、全体のFIDとカテゴリごとのFIDの両方を報告しています。すべてのFIDメトリクスは解像度1024×1024で計算されている。ベンチマークの結果、我々のモデルは、全体的なFIDとすべてのカテゴリのFIDにおいて、特に人物とファッションカテゴリにおいて、SDXL-1-0-refinerを上回ることが示された。これは,MJHQ-30Kベンチマークにおける人間の好みとFIDスコアの相関を示すユーザ調査の結果と一致する.

私たちはこのベンチマークを一般に公開し、コミュニティが自分たちのモデルの美的品質のベンチマークとして採用することを奨励する。

モデルFIDクリップスコア
SDXL-1-0-リファイナー13.0432.62
playground-v2-256px-base9.8331.90
playground-v2-512px-base9.5532.08

それとは別に 遊び場-v2-1024px-美的MSCOCO14では、ピクセルの基礎モデル研究を促進するために、様々な学習段階における中間チェックポイントをコミュニティに公開している。ここでは、参考のため、MSCOCO14評価セットのFIDスコアとCLIPスコアを報告する。(プロンプトリストが異なる可能性があるため、SDXLが公表している結果と異なる可能性があることに注意してください)。

jaJapanese