nl_NL_formalDutch

MetaVoice-1B

MetaVoice-1B is een basismodel met 1,2B parameters, getraind op 100K spraakuren voor TTS (tekst-naar-spraak). Het is gebouwd met de volgende prioriteiten:

  • Emotioneel spraakritme en toon in het Engels. Geen hallucinaties.
  • Zero-shot klonen voor Amerikaanse en Britse stemmenmet 30s referentie-audio.
  • Ondersteuning voor (meertalig) stem klonen met finetuning.
    • We hebben succes gehad met slechts 1 minuut trainingsgegevens voor Indiase sprekers.
  • Ondersteuning voor synthese in lange vorm.

We brengen MetaVoice-1B uit onder de Apache 2.0 licentie, het kan zonder beperkingen worden gebruikt.

Probeer de demo!

Installatie

Vereiste voorkennis: Python >=3.10,=24GB RAM.# installeer ffmpeg wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5 md5sum -c ffmpeg-git-amd64-static.tar.xz.md5 tar xvf ffmpeg-git-amd64-static.tar.xz sudo mv ffmpeg-git-*-static/ffprobe ffmpeg-git-*-static/ffmpeg /usr/local/bin/ rm -rf ffmpeg-git-* pip install -r requirements.txt pip install -e .

Gebruik

  1. Download het en gebruik het overal (ook lokaal) met onze referentie-implementatie,

python fam/llm/sample.py -huggingface_repo_id="metavoiceio/metavoice-1B-v0.1″ -spk_cond_path="assets/bria.mp3″

  1. Implementeer het op elke cloud (AWS/GCP/Azure) met behulp van onze inferentieserver

python fam/llm/serving.py -huggingface_repo_id="metavoiceio/metavoice-1B-v0.1″

  1. Gebruik het via Knuffelend Gezicht

Binnenkort

  • Lange vorm TTS
  • Code verfijnen

Architectuur

We voorspellen EnCodec-tokens op basis van tekst en informatie over de spreker. Dit wordt dan verspreid naar het golfvormniveau, waarna nabewerking wordt toegepast om de audio op te schonen.

  • We gebruiken een causale GPT om de eerste twee hiërarchieën van EnCodec-tokens te voorspellen. Tekst en audio maken deel uit van de LLM-context. Informatie over de spreker wordt doorgegeven via conditionering in de token inbeddingslaag. Deze conditionering van de spreker is afkomstig van een apart getraind netwerk voor sprekerverificatie.
    • De twee hiërarchieën worden op een "afgevlakte interleaved" manier voorspeld, we voorspellen het eerste token van de eerste hiërarchie, dan het eerste token van de tweede hiërarchie, dan het tweede token van de eerste hiërarchie, enzovoort.
    • We gebruiken voorwaardelijke steekproeven om het kloonvermogen van het model te vergroten.
    • De tekst is getoken met een speciaal getrainde BPE-tokeniser met 512 tokens.
    • Merk op dat we het voorspellen van semantische tokens zoals in andere werken hebben overgeslagen, omdat we vonden dat dit niet strikt noodzakelijk is.
  • We gebruiken een niet-causale (encoderachtige) transformator om de rest van de 6 hiërarchieën te voorspellen op basis van de eerste twee hiërarchieën. Dit is een superklein model (~10Mn parameters) en heeft een uitgebreide generalisatie op de meeste sprekers die we hebben geprobeerd. Omdat het niet-causaal is, kunnen we ook alle tijdstappen parallel voorspellen.
  • We gebruiken multi-band diffusie om golfvormen te genereren uit de EnCodec tokens. We hebben gemerkt dat de spraak duidelijker is dan met de originele RVQ-decoder of VOCOS. De diffusie op golfvormniveau laat echter wat achtergrondartefacten achter die zeer onaangenaam zijn voor het oor. We ruimen dit op in de volgende stap.
  • We gebruiken DeepFilterNet om de artefacten op te ruimen die worden geïntroduceerd door de multi-band diffusie.

Optimalisaties

Het model ondersteunt:

  1. KV-caching via Flash decodering
  2. Batching (inclusief teksten van verschillende lengtes)

Draag bij

Erkenningen

We zijn Together.ai dankbaar voor hun 24/7 hulp bij het samenstellen van ons cluster. We bedanken de teams van AWS, GCP & Hugging Face voor ondersteuning met hun cloudplatforms.

nl_NL_formalDutch