Карта модели для Mixtral-8x7B Высококачественная разреженная смесь экспертов.

Большая языковая модель (LLM) Mixtral-8x7B представляет собой предварительно обученную генеративную разреженную смесь экспертов. Mixtral-8x7B превосходит Llama 2 70B в большинстве тестируемых нами бенчмарков.

Для получения подробной информации об этой модели, пожалуйста, ознакомьтесь с нашими публикация в блоге.

изображение 15

Это репо содержит веса, совместимые с vLLM подача модели, а также обнимающееся лицо трансформаторы библиотека. Она основана на оригинальном Mixtral выпуск торрентовно формат файла и имена параметров отличаются. Обратите внимание, что модель не может (пока) быть инстанцирована с помощью HF.

изображение 14

Этот формат должен строго соблюдаться, иначе модель будет генерировать неоптимальные результаты.

Шаблон, используемый для создания подсказки для модели Instruct, определяется следующим образом:

 [INST] Инструкция [/INST] Образцовый ответ [INST] Последующая инструкция [/INST]

Обратите внимание, что  и  это специальные маркеры для начала строки (BOS) и конца строки (EOS), а [INST] и [/INST] - обычные строки.

В качестве справки здесь приведен псевдокод, используемый для токенизации инструкций при тонкой настройке:

def tokenize(text):
    return tok.encode(text, add_special_tokens=False)

[BOS_ID] +
tokenize("[INST]") + tokenize(USER_MESSAGE_1) + tokenize("[/INST]") +
tokenize(BOT_MESSAGE_1) + [EOS_ID] +
...
tokenize("[INST]") + tokenize(USER_MESSAGE_N) + tokenize("[/INST]") +
tokenize(BOT_MESSAGE_N) + [EOS_ID]

В приведенном выше псевдокоде обратите внимание, что tokenize Метод не должен автоматически добавлять маркер BOS или EOS, но должен добавлять префиксный пробел.

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)

модель = AutoModelForCausalLM.from_pretrained(model_id)

text = "Hello my name is"
inputs = tokenizer(text, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

По умолчанию трансформаторы загружают модель с полной точностью. Поэтому вы можете быть заинтересованы в дальнейшем снижении требований к памяти для запуска модели с помощью оптимизаций, которые мы предлагаем в экосистеме HF:

С половинной точностью

Примечание float16 Точность работает только на GPU-устройствахКликните, чтобы увеличить

Использование более низкой точности (8- и 4-битной) биты и байты

Нажмите, чтобы увеличить

Загрузите модель с помощью Flash Attention 2

Нажмите, чтобы увеличить

Модель Mixtral-8x7B Instruct - это быстрая демонстрация того, что базовая модель может быть легко доработана для достижения потрясающих характеристик. В ней нет никаких механизмов модерации. Мы с нетерпением ждем возможности обсудить с сообществом, как сделать так, чтобы модель лучше соблюдала защитные барьеры, что позволит использовать ее в средах, требующих умеренных результатов.

Команда искусственного интеллекта "Мистраль

Альберт Цзян, Александр Саблеролл, Артур Менш, Бланш Савари, Крис Бэмфорд, Девендра Сингх Шапло, Диего де лас Касас, Эмма Бу Ханна, Флориан Брессан, Джанна Ленгиел, Гийом Бур, Гийом Лампле, Лелио Ренар Лаво, Луи Тернон, Люсиль Сольнье, Мари-Анн Лашо, Пьер Сток, Тевен Ле Скао, Теофиль Жерве, Тибо Лавриль, Томас Ванг, Тимоте Лакруа, Уильям Эль Саед.

ru_RURussian