sv_SESwedish

MetaVoice-1B

MetaVoice-1B är en basmodell med 1,2B parametrar som har tränats på 100 000 timmars tal för TTS (text-till-tal). Den har byggts med följande prioriteringar:

  • Emotionell talrytm och ton på engelska. Inga hallucinationer.
  • Nollpunktskloning för amerikanska och brittiska röster, med 30 sekunders referensljud.
  • Stöd för (tvärspråkligt) röstkloning med finjustering.
    • Vi har haft framgång med så lite som 1 minuts träningsdata för indiska talare.
  • Stöd till Syntes i lång form.

Vi släpper MetaVoice-1B under Apache 2.0-licensen, den kan användas utan begränsningar.

Prova att använda demo!

Installation

Förkunskapskrav: Python >=3.10,=24 GB RAM-minne.# install ffmpeg wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5 md5sum -c ffmpeg-git-amd64-static.tar.xz.md5 tar xvf ffmpeg-git-amd64-static.tar.xz sudo mv ffmpeg-git-*-static/ffprobe ffmpeg-git-*-static/ffmpeg /usr/local/bin/ rm -rf ffmpeg-git-* pip install -r requirements.txt pip install -e .

Användning

  1. Ladda ner den och använd den var som helst (även lokalt) med vår referensimplementering,

python fam/llm/sample.py -huggingface_repo_id="metavoiceio/metavoice-1B-v0.1″ -spk_cond_path="assets/bria.mp3″

  1. Driftsätt den i valfritt moln (AWS/GCP/Azure) med hjälp av vår Inferensserver

python fam/llm/serving.py -huggingface_repo_id="metavoiceio/metavoice-1B-v0.1″

  1. Använd den via Kramande ansikte

Snart

  • Lång form TTS
  • Finjustering av kod

Arkitektur

Vi förutsäger EnCodec-tokens från text och talarinformation. Detta sprids sedan upp till vågformsnivån, med efterbearbetning för att rensa upp ljudet.

  • Vi använder en kausal GPT för att förutsäga de två första hierarkierna av EnCodec-tokens. Text och ljud är en del av LLM-kontexten. Talarinformation överförs via konditionering i inbäddningslagret för token. Denna högtalarkonditionering erhålls från ett separat tränat nätverk för högtalarverifiering.
    • De två hierarkierna förutsägs på ett "flatt interfolierat" sätt, vi förutsäger den första token i den första hierarkin, sedan den första token i den andra hierarkin, sedan den andra token i den första hierarkin, och så vidare.
    • Vi använder villkorsfri sampling för att öka modellens kloningsförmåga.
    • Texten tokeniseras med hjälp av en specialutbildad BPE-tokeniser med 512 tokens.
    • Observera att vi har hoppat över att förutsäga semantiska tokens som görs i andra arbeten, eftersom vi fann att detta inte är absolut nödvändigt.
  • Vi använder en icke-kausal (kodarliknande) transformator för att förutsäga resten av de 6 hierarkierna från de två första hierarkierna. Detta är en super liten modell (~10Mn parametrar), och har omfattande noll-shot generalisering till de flesta högtalare vi har provat. Eftersom den inte är kausal kan vi också förutsäga alla tidssteg parallellt.
  • Vi använder multibanddiffusion för att generera vågformer från EnCodec-tokens. Vi noterade att talet är tydligare än med den ursprungliga RVQ-avkodaren eller VOCOS. Diffusionen på vågformsnivå lämnar dock en del bakgrundsartefakter som är ganska obehagliga för örat. Vi rensar upp detta i nästa steg.
  • Vi använder DeepFilterNet för att rensa bort artefakterna från multibanddiffusionen.

Optimeringar

Modellen stöder:

  1. KV-caching via Flash Decoding
  2. Batchning (inklusive texter av olika längd)

Bidra med

Tack och erkännanden

Vi är tacksamma mot Together.ai för deras 24/7 hjälp med att samla vårt kluster. Vi tackar teamen på AWS, GCP & Hugging Face för stöd med deras molnplattformar.

sv_SESwedish