Как стать автором
Обновить

Вышла Llama 3.3 70B с качеством на уровне Llama 3.1 405B. Модель LLM для генерации текста

Время на прочтение1 мин
Количество просмотров17K

Представлена Llama 3.3 размером 70B, которая, по заявлениям создателей, показывает себя на том же уровне ответов как и 405B, но в 5 раз легче.

Размер контекста 128K (реализовано через Yarn, без Yarn 32k), модель обучалась на 15T+ (триллионов) токенов, актуальные знания только на декабрь 2023.

В общем никаких отличий от Llama 3.1, кроме качества. Можно сказать, что это файнтюн 3.1 версии, так как разница только в пост-обучении, где использовались новые подходы и предпочтения ответов.

По многим бенчмаркам модель соответствует уровню 405B версии или даже обходит её, но для запуска модели требует в разы меньше ресурсов, что делает её доступной для запуска на домашнем ПК при использовании квантованной версии.

Карточка модели: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

gguf: https://huggingface.co/lmstudio-community/Llama-3.3-70B-Instruct-GGUF

gguf imatrix: https://huggingface.co/bartowski/Llama-3.3-70B-Instruct-GGUF

Версия от bartowski с imatrix подразумевает использование матрицы важности для всех квантов, не только для I-квантов, но и для статичных K-квантов, кроме Q8_0. Его матрица важности сделана из английской wiki, что повышает качество квантизации для английского использования, но может хуже подходить для русского текста.

Как запускать локально (CPU или CPU + GPU): https://habr.com/ru/articles/831272/

Теги:
Хабы:
Всего голосов 16: ↑16 и ↓0+21
Комментарии34

Другие новости

Ближайшие события