Mixtral-8x7B용 모델 카드 고품질의 희소 전문가 혼합 모델 카드입니다.

Mixtral-8x7B 대규모 언어 모델(LLM)은 사전 학습된 생성형 희소 전문가 혼합 모델입니다. Mixtral-8x7B는 테스트한 대부분의 벤치마크에서 Llama 2 70B보다 우수한 성능을 보였습니다.

이 모델에 대한 자세한 내용은 릴리스 블로그 게시물.

이미지 15

이 리포지토리에는 다음과 호환되는 가중치가 포함되어 있습니다. vLLM 모델 서빙 및 허깅 페이스 트랜스포머 라이브러리입니다. 원래 Mixtral 토렌트 릴리스와 유사하지만 파일 형식과 매개변수 이름이 다릅니다. 모델은 (아직) HF로 인스턴스화할 수 없다는 점에 유의하세요.

이미지 14

이 형식을 엄격하게 준수해야 하며, 그렇지 않으면 모델이 최적이 아닌 출력을 생성합니다.

Instruct 모델에 대한 프롬프트를 작성하는 데 사용되는 템플릿은 다음과 같이 정의됩니다:

 [INST] 지시어 [/INST] 모범 답안 [INST] 후속 지시어 [/INST]

참고  그리고  는 문자열 시작(BOS)과 문자열 끝(EOS)을 위한 특수 토큰이고 [INST] 및 [/INST]는 일반 문자열입니다.

참고로, 다음은 미세 조정 중에 인스트럭션을 토큰화하는 데 사용되는 의사 코드입니다:

def tokenize(text):
    return tok.encode(text, add_special_tokens=False)

[BOS_ID] +
tokenize("[INST]") + tokenize(USER_MESSAGE_1) + tokenize("[/INST]") +
tokenize(BOT_MESSAGE_1) + [EOS_ID] +
...
tokenize("[INST]") + tokenize(USER_MESSAGE_N) + tokenize("[/INST]") + ...
tokenize(BOT_MESSAGE_N) + [EOS_ID]

위의 의사 코드에서 다음을 참고하십시오. 토큰화 메서드는 BOS 또는 EOS 토큰을 자동으로 추가해서는 안 되며 접두사 공백을 추가해야 합니다.

트랜스포머에서 AutoModelForCausalLM, AutoTokenizer를 가져옵니다.

model_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)

모델 = AutoModelForCausalLM.from_pretrained(model_id)

text = "안녕하세요 내 이름은"
입력 = 토큰화기(텍스트, 반환_텐서="pt")

outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

기본적으로 트랜스포머는 모델을 전체 정밀도로 로드합니다. 따라서 HF 에코시스템에서 제공하는 최적화를 통해 모델을 실행하는 데 필요한 메모리 요구량을 더욱 줄일 수 있습니다:

반정밀

참고 float16 정밀도는 GPU 장치에서만 작동합니다확장하려면 클릭하세요.

(8비트 및 4비트)를 사용하여 낮은 정밀도 사용 비트샌드바이트

클릭하여 확장

플래시 주의 2로 모델 로드

클릭하여 확장

Mixtral-8x7B Instruct 모델은 기본 모델을 쉽게 미세 조정하여 강력한 성능을 달성할 수 있다는 것을 보여줍니다. 이 모델에는 어떠한 조정 메커니즘도 없습니다. 이 모델이 가드레일을 세밀하게 준수하여 적당한 출력이 필요한 환경에 배포할 수 있도록 하는 방법에 대해 커뮤니티와 협력하기를 기대합니다.

미스트랄 AI 팀

알버트 장, 알렉상드르 사블레롤, 아서 멘쉬, 블랑슈 사바리, 크리스 밤포드, 데벤드라 싱 샤플로, 디에고 데 라스 카사스, 엠마 부 한나, 플로리안 브레상, 지아나 렝예엘, 기욤 부르, 기욤 램플, 렐리오 레나르 라보, 루이 테르농, 루실 사울니에, 마리안 라쇼, 피에르 스톡, 티븐 르 스카오, 테오필 게르베, 티보 라브릴, 토마스 왕, 티모테 라크루아, 윌리엄 엘 사예드.

ko_KRKorean