Shannon 6 дек 2024 в 22:44

Вышла Llama 3.3 70B с качеством на уровне Llama 3.1 405B. Модель LLM для генерации текста

1 мин

18K

Представлена Llama 3.3 размером 70B, которая, по заявлениям создателей, показывает себя на том же уровне ответов как и 405B, но в 5 раз легче.

Размер контекста 128K (реализовано через Yarn, без Yarn 32k), модель обучалась на 15T+ (триллионов) токенов, актуальные знания только на декабрь 2023.

В общем никаких отличий от Llama 3.1, кроме качества. Можно сказать, что это файнтюн 3.1 версии, так как разница только в пост-обучении, где использовались новые подходы и предпочтения ответов.

По многим бенчмаркам модель соответствует уровню 405B версии или даже обходит её, но для запуска модели требует в разы меньше ресурсов, что делает её доступной для запуска на домашнем ПК при использовании квантованной версии.

Карточка модели: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

gguf: https://huggingface.co/lmstudio-community/Llama-3.3-70B-Instruct-GGUF

gguf imatrix: https://huggingface.co/bartowski/Llama-3.3-70B-Instruct-GGUF

Версия от bartowski использует матрицу важности для всех квантов, не только для i-квантов, но и для статичных K-квантов, всех кроме Q8_0. Его матрица важности сделана из английской wiki, что повышает качество квантования для английского использования, но может хуже подходить для русского текста.

Как запускать локально (CPU или CPU + GPU): https://habr.com/ru/articles/831272/

Хабы:

Искусственный интеллект

Вышла Llama 3.3 70B с качеством на уровне Llama 3.1 405B. Модель LLM для генерации текста

Другие новости

Ближайшие события