安定した拡散

安定拡散v1-5モデルカード

Stable Diffusionは、潜在的なテキストから画像への拡散モデルであり、任意のテキスト入力に対してフォトリアリスティックな画像を生成することができます。Stable Diffusionの機能の詳細については、以下をご覧ください。 🤗安定拡散ブログ.

について 安定拡散-v1-5 のウェイトで初期化された。 安定拡散-v1-2 チェックポイントを通過し、その後「laion-aesthetics v2 5+」で解像度512×512、595kステップで微調整を行い、10%でテキストコンディショニングを落として改善した。 クラシファイア・フリー・ガイダンス・サンプリング.

これは 拡散器ライブラリー そして RunwayML GitHubリポジトリ.

ディフューザー

from diffusers インポート StableDiffusionPipeline
インポートトーチ

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "火星で馬に乗っている宇宙飛行士の写真"
image = pipe(プロンプト).images[0].
    
image.save("astronaut_rides_horse.png")

JAXの詳細な説明、使用例、例については、指示に従ってください。 これ

オリジナルのGitHubリポジトリ

  1. ウエイトのダウンロード
  2. 指示に従ってください これ.

モデル詳細

  • 開発者 ロビン・ロンバック、パトリック・エッサー
  • モデルタイプ 拡散に基づくテキスト画像生成モデル
  • 言語 英語
  • ライセンス CreativeML OpenRAIL Mライセンス は オープン RAIL M ライセンスの作品から引用した。 ビッグサイエンス そして RAIL イニシアチブ は、責任あるAIのライセンス供与の分野で共同歩調をとっている。関連記事 BLOOM Open RAILライセンスに関する記事 私たちのライセンスが基づいている。
  • モデルの説明 これは、テキストプロンプトに基づいて画像を生成し、修正するために使用できるモデルです。これは 潜在拡散モデル これは、固定された事前学習済みのテキスト・エンコーダ (クリップ ViT-L/14)で提案されている。 イメージペーパー.
  • 詳細はこちら: GitHubリポジトリ.
  • 引用この論文では、「CVPR」(Computer Vision and Pattern Recognition:コンピュータビジョンとパターン認識に関するIEEE/CVF会議)、「CVPR」(Computer Vision and Pattern Recognition:コンピュータビジョンとパターン認識に関するIEEE/CVF会議)、「CVPR」(Computer Vision and Pattern Recognition:コンピュータビジョンとパターン認識に関するIEEE/CVF会議)、「CVPR」(Computer Vision and Pattern Recognition:コンピュータビジョンとパターン認識に関するIEEE/CVF会議)、「CVPR」(Computer Vision and Pattern Recognition:コンピュータビジョンとパターン認識に関するIEEE/CVF会議)、「CVPR」(Computer Vision and Pattern Recognition:コンピュータビジョンとパターン認識に関するIEEE/CVF会議)の3つの会議について、その概要を紹介する。}

用途

直接使用

このモデルはあくまで研究用である。想定される研究分野と課題

  • 有害なコンテンツを生成する可能性のあるモデルの安全な展開。
  • 生成モデルの限界と偏りを探り、理解する。
  • アート作品の制作と、デザインやその他の芸術的プロセスでの使用。
  • 教育やクリエイティブなツールへの応用。
  • 生成モデルの研究。

除外される用途は以下の通り。

誤用、悪意のある使用、範囲外の使用

注:このセクションは DALLE-MINIモデルカードしかし、安定拡散v1にも同じように適用される。.

このモデルは、人々にとって敵対的または疎外的な環境を作り出す画像を意図的に作成または流布するために使用されるべきではありません。これには、人々が不穏、苦痛、または攻撃的であると予見できる画像を生成すること、あるいは歴史的または現在のステレオタイプを広めるコンテンツが含まれます。

範囲外の利用

このモデルは、人物や出来事を事実に基づいて、あるいは忠実に表現するように訓練されたものではない。したがって、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外である。

誤用と悪意ある使用

個人にとって残酷なコンテンツを生成するためにこのモデルを使用することは、このモデルの誤用です。これには以下が含まれるが、これらに限定されない:

  • 人やその環境、文化、宗教などを卑下したり、非人間的にしたり、あるいは有害に表現すること。
  • 差別的な内容や有害なステレオタイプを意図的に宣伝または広めること。
  • 同意なしに個人になりすますこと。
  • 性的な内容を、それを見る可能性のある人々の同意なしに。
  • 誤報と偽情報
  • ひどい暴力とグロ描写
  • 著作権または使用許諾を受けた素材を、その使用条件に違反して共有すること。
  • 著作権または使用許諾を受けた素材を改変し、その使用条件に違反するコンテンツを共有すること。

限界と偏見

制限事項

  • モデルは完璧なフォトリアリズムを達成していない
  • モデルが判読可能なテキストをレンダリングできない
  • このモデルは、"青い球体の上に赤い立方体 "に対応する画像をレンダリングするような、合成性を伴うより難しいタスクではうまく機能しない。
  • 顔や人物全般が正しく生成されないことがある。
  • このモデルは主に英語のキャプションでトレーニングされたもので、他の言語ではうまく機能しない。
  • モデルの自動エンコード部分はロッシーである。
  • モデルは大規模なデータセットで学習された。 LAION-5B アダルトコンテンツを含み、追加的な安全機構や配慮がなければ製品使用に適さないもの。
  • データセットを重複排除するための追加手段は用いなかった。その結果、訓練データで重複している画像について、ある程度の記憶化が観察される。トレーニングデータは https://rom1504.github.io/clip-retrieval/ 記憶された画像の検出を支援する可能性がある。

バイアス

画像生成モデルの能力は素晴らしいが、社会的バイアスを強化したり悪化させたりすることもある。Stable Diffusion v1は、以下のサブセットでトレーニングされた。 LAION-2Bこれは、主に英語の記述に限定された画像で構成されている。他の言語を使用するコミュニティや文化からのテキストや画像は、十分に説明されていない可能性が高い。これは、白人や西洋の文化がデフォルトとして設定されることが多いため、モデルの全体的な出力に影響する。さらに、英語以外のプロンプトを使用してコンテンツを生成するモデルの能力は、英語のプロンプトを使用する場合よりも著しく劣る。

安全モジュール

このモデルの使用目的は セーフティ・チェッカー をDiffusersに追加した。このチェッカーは、既知のハードコードされたNSFWコンセプトに対してモデル出力をチェックすることで機能する。この概念は、このフィルタをリバースエンジニアリングする可能性を減らすために意図的に隠されている。具体的には、このチェッカーは有害な概念のクラス確率を CLIPTextModel 世代後 を生成する。コンセプトは、生成された画像とともにモデルに渡され、NSFWコンセプトごとに手作業で設計された重みと比較される。

トレーニング

トレーニングデータ モデルの開発者は、モデルのトレーニングに以下のデータセットを使用した:

  • LAION-2B(en)およびそのサブセット(次項参照)

トレーニング手順 安定 拡散 v1-5は、オートエンコーダと、オートエンコーダの潜在空間で学習される拡散モデルを組み合わせた潜在拡散モデルである。トレーニング中

  • 画像はエンコーダを通して符号化され、エンコーダは画像を潜在表現に変換する。オートエンコーダは8の相対ダウンサンプリング係数を使い、H×W×3の形状の画像をH/f×W/f×4の形状の潜在表現にマッピングする。
  • テキストプロンプトはViT-L/14テキストエンコーダでエンコードされる。
  • テキストエンコーダの非プール出力は、クロスアテンションを介して潜在拡散モデルのUNetバックボーンに供給される。
  • この損失は、潜像に加えられたノイズとUNetによる予測との間の再構成目的である。

現在、6つの安定拡散チェックポイントが用意されており、以下のように訓練された。

  • 安定拡散-v1-1分解能:237,000ステップ 256x256 オン らいおん2B園.194,000歩 512x512 オン らいおんハイレゾ (解像度はLAION-5Bの170Mの例 >= 1024x1024).
  • 安定拡散-v1-2:より再開 安定拡散-v1-1.分解能で515,000ステップ 512x512 laion-improved-aesthetics"(laion2B-enのサブセット。 >= 512x512推定美的スコア > 5.0と推定透かし確率 < 0.5.透かしの推定はLAION-5Bのメタデータから、美観のスコアは 審美性の向上).
  • 安定拡散-v1-3:より再開 安定拡散-v1-2 - 195,000歩 512x512 美学を向上させる "と10 %のテキスト・コンディションの改善について クラシファイア・フリー・ガイダンス・サンプリング.
  • 安定拡散-v1-4 より再開 安定拡散-v1-2 - 解像度22万5000歩 512x512 laion-aesthetics v2 5+」と10 %のテキスト・コンディションを改善するためのドロップについて。 クラシファイア・フリー・ガイダンス・サンプリング.
  • 安定拡散-v1-5 より再開 安定拡散-v1-2 - 分解能で595,000歩 512x512 laion-aesthetics v2 5+」と10 %のテキスト・コンディションを改善するためのドロップについて。 クラシファイア・フリー・ガイダンス・サンプリング.
  • 安定拡散絵画 より再開 安定拡散-v1-5 - その後、"laion-aesthetics v2 5+"の解像度512×512で44万ステップのインペインティング学習を行い、10%のテキスト条件付けを落とした。インペインティングのために、UNetは5つの追加入力チャンネル(4つは符号化されたマスク画像用、1つはマスクそのもの用)を持ち、その重みは非インペインティングチェックポイントを復元した後にゼロ初期化された。トレーニング中、合成マスクを生成し、25%ですべてをマスクする。
  • ハードウェアだ: 32 x 8 x A100 GPU
  • オプティマイザー: アダムW
  • 勾配の蓄積: 2
  • バッチ: 32 x 8 x 2 x 4 = 2048
  • 学習率: 10,000ステップのウォームアップを0.0001にし、その後一定に保つ。

評価結果

異なるクラシファイアフリー・ガイダンス・スケール(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)と50のPNDM/PLMSサンプリング・ステップによる評価は、チェックポイントの相対的な改善を示している:

パレート

COCO2017検証セットから50PLMSステップと10000ランダムプロンプトを使用し、512×512の解像度で評価。FIDスコアには最適化されていない。

環境への影響

安定した拡散 v1 推定排出量 その情報に基づき、以下のCO2排出量を推定する。 機械学習インパクト計算機 で発表された。 ラコステら(2019年).ハードウェア、ランタイム、クラウドプロバイダー、コンピュートリージョンは、カーボンインパクトの見積もりに利用された。

  • ハードウェア・タイプ A100 PCIe 40GB
  • 使用時間 150000
  • クラウド・プロバイダー: AWS
  • 計算領域: 米東部
  • 排出される炭素(電力消費量×時間×送電網の位置に基づいて生成される炭素): 11250 kg CO2 eq.

引用

    InProceedings{Rombach_2022_CVPR、
        author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj "orn}、
        タイトル = {High-Resolution Image Synthesis With Latent Diffusion Models}、
        本書は,IEEE/CVF Conference on Computer Vision and Pattern Recognition(コンピュータビジョンとパターン認識に関するIEEE/CVF会議(CVPR))のプロシーディングスである.
        月 = {6月}、
        年 = {2022}、
        ページ = {10684-10695}.
    }

このモデルカードはロビン・ロンバックとパトリック・エッサーによって書かれた:ロビン・ロンバックとパトリック・エッサーによって書かれた。 DALL-E ミニモデルカード.