메타보이스-1B

MetaVoice-1B는 10만 시간의 음성으로 학습된 12억 개의 파라미터를 기반으로 하는 TTS(텍스트 음성 변환) 기본 모델입니다. 다음과 같은 우선순위에 따라 구축되었습니다:

  • 감정적인 말하기 리듬과 어조 영어로. 환각이 없습니다.
  • 미국 및 영국 음성을 위한 제로 샷 복제30년대 레퍼런스 오디오를 제공합니다.
  • (다국어) 지원 미세 조정을 통한 음성 복제.
    • 인도 화자를 위한 1분짜리 트레이닝 데이터로도 성공을 거두었습니다.
  • 지원 대상 긴 형식의 합성.

Apache 2.0 라이선스에 따라 MetaVoice-1B를 출시합니다, 제한 없이 사용할 수 있습니다..

사용해보십시오. 데모!

설치

사전 요구 사항: Python >=3.10,=24GB RAM이 장착된 GPU.# 설치 ffmpeg wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz wget https://johnvansickle.com/ffmpeg/builds/ffmpeg-git-amd64-static.tar.xz.md5 md5sum -c ffmpeg-git-amd64-static.tar.xz.md5 tar xvf ffmpeg-git-amd64-static.tar.xz sudo mv ffmpeg-git-*-static/ffprobe ffmpeg-git-*-static/ffmpeg /usr/local/bin/ rm -rf ffmpeg-git-* pip install -r requirements.txt pip install -e .

사용법

  1. 다운로드하여 어디서나(로컬 포함) 사용할 수 있습니다. 참조 구현,

python fam/llm/sample.py -huggingface_repo_id="metavoiceio/metavoice-1B-v0.1″ -spk_cond_path="assets/bria.mp3″

  1. 모든 클라우드(AWS/GCP/Azure)에 배포할 수 있습니다. 추론 서버

python fam/llm/serving.py -huggingface_repo_id="metavoiceio/metavoice-1B-v0.1″

  1. 다음을 통해 사용하세요. 포옹하는 얼굴

  • 긴 형식의 TTS
  • 코드 미세 조정

아키텍처

텍스트와 화자 정보에서 인코더 토큰을 예측합니다. 그런 다음 파형 수준까지 확산하고 오디오를 정리하기 위해 후처리를 적용합니다.

  • 저희는 인과적 GPT를 사용해 EnCodec 토큰의 처음 두 계층을 예측합니다. 텍스트와 오디오는 LLM 컨텍스트의 일부입니다. 화자 정보는 토큰 임베딩 계층에서 컨디셔닝을 통해 전달됩니다. 이 화자 컨디셔닝은 별도로 훈련된 화자 검증 네트워크에서 얻습니다.
    • 두 계층은 "평평한 인터리브" 방식으로 예측되며, 첫 번째 계층의 첫 번째 토큰을 예측한 다음 두 번째 계층의 첫 번째 토큰, 첫 번째 계층의 두 번째 토큰을 예측하는 방식으로 예측됩니다.
    • 조건 없는 샘플링을 사용하여 모델의 복제 기능을 향상시킵니다.
    • 텍스트는 512개의 토큰으로 사용자 지정 훈련된 BPE 토큰화기를 사용하여 토큰화됩니다.
    • 다른 작업에서 수행한 시맨틱 토큰 예측은 꼭 필요하지 않다는 판단에 따라 생략했습니다.
  • 비인과적(인코더 스타일) 변환기를 사용하여 처음 두 계층에서 나머지 6개 계층을 예측합니다. 이 모델은 초소형 모델(~1,000만 개의 파라미터)로, 지금까지 시도한 대부분의 화자에 대해 광범위한 제로 샷 일반화가 가능합니다. 또한 비인과적이기 때문에 모든 시간대를 동시에 예측할 수 있습니다.
  • 다중 대역 확산을 사용하여 EnCodec 토큰에서 파형을 생성합니다. 원래의 RVQ 디코더나 VOCOS를 사용할 때보다 음성이 더 선명하다는 것을 알 수 있었습니다. 그러나 파형 레벨에서의 확산은 귀에 상당히 불쾌한 배경 아티팩트를 남깁니다. 다음 단계에서 이 문제를 해결합니다.
  • 딥필터넷을 사용하여 다중 대역 확산으로 인한 아티팩트를 제거합니다.

최적화

모델이 지원합니다:

  1. 플래시 디코딩을 통한 KV 캐싱
  2. 일괄 처리(길이가 다른 텍스트 포함)

기여하기

감사

클러스터 마샬링을 위해 24시간 연중무휴로 도움을 주신 Together.ai에 감사드립니다. 클라우드 플랫폼을 지원해준 AWS, GCP 및 Hugging Face 팀에도 감사드립니다.

ko_KRKorean