es_ESSpanish

Tarjeta modelo para Mixtral-8x7B Una mezcla dispersa de expertos de alta calidad.

Mixtral-8x7B Large Language Model (LLM) es una mezcla generativa dispersa de expertos preentrenada. Mixtral-8x7B supera a Llama 2 70B en la mayoría de las pruebas realizadas.

Para más información sobre este modelo, consulte nuestro publicación en el blog.

imagen 15

Este repositorio contiene pesos compatibles con vLLM servicio del modelo, así como Cara de abrazo transformadores biblioteca. Se basa en el original Mixtral liberación de torrentspero el formato del fichero y los nombres de los parámetros son diferentes. Tenga en cuenta que el modelo (todavía) no se puede instanciar con HF.

imagen 14

Este formato debe respetarse estrictamente, de lo contrario el modelo generará resultados subóptimos.

La plantilla utilizada para construir un aviso para el modelo Instruct se define del siguiente modo:

 [INST] Instrucción [/INST] Respuesta modelo [INST] Instrucción de seguimiento [/INST]

Tenga en cuenta que  y  son tokens especiales para principio de cadena (BOS) y final de cadena (EOS), mientras que [INST] y [/INST] son cadenas normales.

Como referencia, aquí está el pseudocódigo utilizado para tokenizar instrucciones durante el ajuste fino:

def tokenize(texto):
    return tok.encode(text, add_special_tokens=False)

[BOS_ID] +
tokenize("[INST]") + tokenize(USER_MESSAGE_1) + tokenize("[/INST]") +
tokenize(BOT_MESSAGE_1) + [EOS_ID] +
...
tokenize("[INST]") + tokenize(USER_MESSAGE_N) + tokenize("[/INST]") +
tokenizar(BOT_MESSAGE_N) + [EOS_ID]

En el pseudocódigo anterior, observe que la opción tokenizar no debe añadir un token BOS o EOS automáticamente, sino que debe añadir un espacio de prefijo.

from transformadores import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)

model = AutoModelForCausalLM.from_pretrained(model_id)

text = "Hola, me llamo"
inputs = tokenizer(text, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Por defecto, los transformadores cargarán el modelo con la máxima precisión. Por lo tanto, puede que te interese reducir aún más los requisitos de memoria para ejecutar el modelo mediante las optimizaciones que ofrecemos en el ecosistema HF:

En semiprecisión

Nota float16 La precisión sólo funciona en dispositivos con GPUClic para ampliar

Menor precisión usando (8 bits y 4 bits) usando bitsandbytes

Pulsa para ampliar

Cargar el modelo con Flash Attention 2

Pulsa para ampliar

El modelo Mixtral-8x7B Instruct es una demostración rápida de que el modelo base puede ajustarse fácilmente para conseguir un rendimiento convincente. No dispone de ningún mecanismo de moderación. Estamos deseando colaborar con la comunidad para que el modelo respete los guardarraíles y pueda utilizarse en entornos que requieran resultados moderados.

El equipo Mistral AI

Albert Jiang, Alexandre Sablayrolles, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Louis Ternon, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed.

es_ESSpanish