MetaVoice-1B

MetaVoice-1B ist ein Basismodell mit 1,2B Parametern, das auf 100.000 Stunden Sprache für TTS (Text-to-Speech) trainiert wurde. Es wurde mit den folgenden Prioritäten erstellt:

  • Emotionaler Sprachrhythmus und Tonfall auf Englisch. Keine Halluzinationen.
  • Zero-Shot-Klonen für amerikanische und britische Stimmen, mit 30s Referenzton.
  • Unterstützung für (sprachenübergreifende) Stimmenklonen mit Feinabstimmung.
    • Bei indischen Sprechern haben wir bereits mit Trainingsdaten von nur 1 Minute Erfolg gehabt.
  • Unterstützung für Langformsynthese.

Wir veröffentlichen MetaVoice-1B unter der Apache 2.0 Lizenz, es kann ohne Einschränkungen verwendet werden.

Probieren Sie die Demo!

Einrichtung

Vorraussetzungen: Python >=3.10,=24GB RAM.# install ffmpeg wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5 md5sum -c ffmpeg-git-amd64-static.tar.xz.md5 tar xvf ffmpeg-git-amd64-static.tar.xz sudo mv ffmpeg-git-*-static/ffprobe ffmpeg-git-*-static/ffmpeg /usr/local/bin/ rm -rf ffmpeg-git-* pip install -r requirements.txt pip install -e .

Verwendung

  1. Laden Sie es herunter und verwenden Sie es überall (auch lokal) mit unserem Referenzimplementierung,

python fam/llm/sample.py -huggingface_repo_id="metavoiceio/metavoice-1B-v0.1″ -spk_cond_path="assets/bria.mp3″

  1. Bereitstellung in einer beliebigen Cloud (AWS/GCP/Azure), mit unserer Inferenzserver

python fam/llm/serving.py -huggingface_repo_id="metavoiceio/metavoice-1B-v0.1″

  1. Verwenden Sie es über Gesicht umarmen

Bald

  • Langform TTS
  • Feinabstimmung des Codes

Architektur

Wir sagen EnCodec-Tokens aus Text und Sprecherinformationen voraus. Dies wird dann bis zur Wellenformebene verbreitet, wobei die Nachbearbeitung zur Bereinigung des Audios angewendet wird.

  • Wir verwenden ein kausales GPT, um die ersten beiden Hierarchien von EnCodec-Tokens vorherzusagen. Text und Audio sind Teil des LLM-Kontextes. Die Sprecherinformationen werden über die Konditionierung in der Token-Einbettungsschicht weitergegeben. Diese Sprecherkonditionierung wird von einem separat trainierten Sprecherverifizierungsnetzwerk erhalten.
    • Die beiden Hierarchien werden in einer "flattened interleaved" Weise vorhergesagt, wir sagen das erste Token der ersten Hierarchie voraus, dann das erste Token der zweiten Hierarchie, dann das zweite Token der ersten Hierarchie, und so weiter.
    • Wir verwenden bedingungsfreies Sampling, um die Klonfähigkeit des Modells zu erhöhen.
    • Der Text wird mit Hilfe eines speziell trainierten BPE-Tokenisers mit 512 Token in Token umgewandelt.
    • Beachten Sie, dass wir die Vorhersage semantischer Token, wie sie in anderen Arbeiten vorgenommen wird, übersprungen haben, da wir festgestellt haben, dass dies nicht unbedingt notwendig ist.
  • Wir verwenden einen nicht-kausalen Transformer (im Stil eines Encoders), um die restlichen 6 Hierarchien aus den ersten beiden Hierarchien vorherzusagen. Es handelt sich um ein sehr kleines Modell (~10Mn Parameter), das für die meisten der von uns untersuchten Sprecher eine umfassende Generalisierung mit Nullschüssen ermöglicht. Da es nicht kausal ist, können wir auch alle Zeitschritte parallel vorhersagen.
  • Wir verwenden Multiband-Diffusion, um Wellenformen aus den EnCodec-Tokens zu erzeugen. Wir haben festgestellt, dass die Sprache klarer ist als mit dem ursprünglichen RVQ-Decoder oder VOCOS. Allerdings hinterlässt die Diffusion auf Wellenformebene einige Hintergrundartefakte, die für das Ohr recht unangenehm sind. Wir bereinigen diese im nächsten Schritt.
  • Wir verwenden DeepFilterNet, um die Artefakte zu beseitigen, die durch die Multiband-Diffusion entstehen.

Optimierungen

Das Modell unterstützt:

  1. KV-Caching über Flash-Decodierung
  2. Batching (einschließlich Texte unterschiedlicher Länge)

Beitragen

Danksagung

Wir danken Together.ai für ihre 24/7-Hilfe bei der Zusammenstellung unseres Clusters. Wir danken den Teams von AWS, GCP und Hugging Face für die Unterstützung durch ihre Cloud-Plattformen.

de_DEGerman