Modelkort til Mixtral-8x7B En Sparse Mixture-of-Experts af høj kvalitet.

Mixtral-8x7B Large Language Model (LLM) er en fortrænet generativ Sparse Mixture af eksperter. Mixtral-8x7B overgår Llama 2 70B på de fleste benchmarks, vi testede.

For alle detaljer om denne model, læs venligst vores udgiv blogindlæg.

billede 15

Dette repo indeholder vægte, der er kompatible med vLLM servering af modellen samt Hugging Face Transformatorer bibliotek. Det er baseret på det originale Mixtral Torrent-udgivelse, men filformatet og parameternavnene er forskellige. Bemærk, at modellen (endnu) ikke kan instantieres med HF.

billede 14

Dette format skal overholdes nøje, ellers vil modellen generere suboptimale output.

Den skabelon, der bruges til at bygge en prompt til Instruct-modellen, er defineret som følger:

 [INST] Instruktion [/INST] Modelsvar [INST] Opfølgningsinstruktion [/INST]

Bemærk, at  og  er særlige tokens for begyndelsen af en streng (BOS) og slutningen af en streng (EOS), mens [INST] og [/INST] er almindelige strenge.

Som reference er her den pseudokode, der bruges til at tokenisere instruktioner under finjustering:

def tokenize(tekst):
    return tok.encode(text, add_special_tokens=False)

[BOS_ID] +
tokenize("[INST]") + tokenize(USER_MESSAGE_1) + tokenize("[/INST]") +
tokenize(BOT_MESSAGE_1) + [EOS_ID] + [EOS_ID] + [EOS_ID
...
tokenize("[INST]") + tokenize(USER_MESSAGE_N) + tokenize("[/INST]") + tokenize(BOT_MESSAGE_1) + [EOS_ID] + ...
tokenize(BOT_MESSAGE_N) + [EOS_ID]

I pseudokoden ovenfor skal du bemærke, at tokenize metoden bør ikke automatisk tilføje et BOS- eller EOS-token, men bør tilføje et præfiks mellemrum.

fra transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)

model = AutoModelForCausalLM.from_pretrained(model_id)

text = "Hej, mit navn er"
inputs = tokenizer(text, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Som standard indlæser transformere modellen med fuld præcision. Derfor kan du være interesseret i yderligere at reducere hukommelseskravene for at køre modellen gennem de optimeringer, vi tilbyder i HF-økosystemet:

I halv præcision

Bemærk float16 præcision virker kun på GPU-enhederKlik for at udvide

Lavere præcision ved hjælp af (8-bit & 4-bit) ved hjælp af bitsogbytes

Klik for at udvide

Indlæs modellen med Flash Attention 2

Klik for at udvide

Mixtral-8x7B Instruct-modellen er en hurtig demonstration af, at basismodellen nemt kan finjusteres til at opnå en overbevisende ydeevne. Den har ikke nogen moderationsmekanismer. Vi ser frem til at samarbejde med fællesskabet om måder, hvorpå modellen fint kan respektere guardrails, så den kan implementeres i miljøer, der kræver modererede output.

Mistral AI-teamet

Albert Jiang, Alexandre Sablayrolles, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Louis Ternon, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed.

da_DKDanish