メタボイス-1B

MetaVoice-1Bは、TTS(テキスト音声合成)用に10万時間の音声で訓練された1.2Bパラメータのベースモデルです。以下の優先順位で構築されています:

  • 感情的な話し方のリズムとトーン 英語で幻覚はない。
  • アメリカン&ブリティッシュ・ボイスのゼロショット・クローニング30秒のリファレンス・オーディオ付き。
  • サポート(クロスリンガル) 微調整付きボイス・クローニング.
    • インド人スピーカーの場合、わずか1分のトレーニングデータで成功しました。
  • サポート ロングフォーム合成.

我々はMetaVoice-1BをApache 2.0ライセンスでリリースする、 制限なく使用できる.

を試してみよう。 デモ!

インストール

前提条件 Python >=3.10,=24GB RAM.# install ffmpeg wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5 md5sum -c ffmpeg-git-amd64-static.tar.xz.md5 tar xvf ffmpeg-git-amd64-static.tar.xz sudo mv ffmpeg-git-*-static/ffprobe ffmpeg-git-*-static/ffmpeg /usr/local/bin/ rm -rf ffmpeg-git-* pip install -r requirements.txt pip install -e .

使用方法

  1. ダウンロードして、どこでも(ローカルでも)使用できます。 参照実装,

python fam/llm/sample.py -huggingface_repo_id="metavoiceio/metavoice-1B-v0.1″ -spk_cond_path="assets/bria.mp3″

  1. あらゆるクラウド(AWS/GCP/Azure)にデプロイできます。 推論サーバー

python fam/llm/serving.py -huggingface_repo_id="metavoiceio/metavoice-1B-v0.1″.

  1. 経由で使用する ハグする顔

まもなく

  • ロングフォームTTS
  • コードの微調整

建築

テキストと話者の情報からEnCodecトークンを予測します。これを波形レベルまで拡散し、後処理で音声をクリーンアップします。

  • EnCodecトークンの最初の2階層を予測するために因果GPTを使用する。テキストと音声はLLMコンテキストの一部である。話者情報はトークン埋め込み層での条件付けを介して渡される。この話者コンディショニングは、別途訓練された話者検証ネットワークから得られる。
    • 2つの階層は「平坦化されたインターリーブ」方式で予測され、最初の階層の最初のトークンを予測し、次に2番目の階層の最初のトークンを予測し、次に最初の階層の2番目のトークンを予測する、というように繰り返す。
    • モデルのクローニング能力を高めるために、無条件サンプリングを使用する。
    • テキストは、512個のトークンでカスタム学習されたBPEトークナイザーを使ってトークン化される。
    • 他の研究で行われているようなセマンティック・トークンの予測は、厳密には必要ないことがわかったので省略した。
  • 非因果的な(エンコーダスタイルの)変換器を使用して、最初の2つの階層から残りの6つの階層を予測します。これは超小型モデル(~10Mnパラメータ)であり、私たちが試したほとんどの話者に対して広範なゼロショット汎化が可能です。非因果的なので、全てのタイムステップを並行して予測することも可能です。
  • EnCodecトークンから波形を生成するために、マルチバンド拡散を使用しています。オリジナルのRVQデコーダやVOCOSを使用した場合よりも、音声が明瞭になることに気づきました。しかし、波形レベルでの拡散は、耳に不快な背景アーチファクトを残します。次のステップでこれを除去します。
  • DeepFilterNetを使用して、マルチバンド拡散によってもたらされるアーチファクトを除去する。

最適化

このモデルはサポートしている:

  1. フラッシュデコーディングによるKVキャッシング
  2. バッチ処理(異なる長さのテキストを含む)

貢献する

謝辞

Together.aiには、24時間365日体制でクラスタのマーシャリングを手伝ってもらい感謝している。AWS、GCP、Hugging Faceのクラウドプラットフォームのサポートに感謝します。

jaJapanese