Обновить
9
0
Валентин Мамедов @vltnmmdv

Пользователь

Отправить сообщение

Модель теперь доступна в популярных инструментах!
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)

можно запускать в lm-studio, вот небольшой гайд.

Модель теперь доступна в популярных инструментах!
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)

можно запускать в lm-studio, вот небольшой гайд.

предлагаю вам посмотреть в сторону ollama
Это по сути обертка над llama.cpp (в рамках этого проекта, gguf и был создан), только порог входа ниже

Нужно было подождать некоторое время, пока наши изменения от нашего PR в llama.cpp дойдут до зависимых модулей (ollama / lm studio / ...).

Рады сообщить, что этот момент настал и модели доступы в ollama!
Больше подробней в телеграмм посте с настройкой lm studio и другими вариантами запуска

Нет, для тестирования скорости ограничение в 8k контекста было проставлено исходя из длины средней переписки с пользователям. На большем контексте Mixture of Experts модели показывают еще больший отрыв от dense моделей за счет сильно меньшего kv cache

20B-A3B в A100 с vllm без проблем влезает 32к контекста, с оптимизациями можно его еще сильнее увеличить

Мы обязательно поделимся с сообществом новостью, когда все будет готово

PR уже приняли!

https://github.com/ggerganov/llama.cpp/pull/10827

Неофициальные gguf можно найти пока тут, официальные выпустим чуть позже)

P.S.Пока до llama-cpp-python не доехало
P.S.S. До ollama тоже, но будет в течении пары недель

Исправили, большое спасибо за замечание!

Спасибо за вопрос!

Нет, не по всем тестам.

Модель тренировалась для работы с русским языком. К примеру, ее instruct версия лучше на бенчмарках MERA, Shlepa. Уверен, что этим список не заканчивается.

Про 20b параметров: суть в том, что у gigachat lite другая архитектура — Mixture of Experts. Поэтому хоть ВСЕГО 20b параметов, на генерации из них активны только 3b. За счет этого она быстрее gemma-2 в использовании в 2.5 раза.

Речь про gemma-2-9b, большое спасибо за замечание!

Исправили в тексте и таблице с pretrain метриками

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

ML разработчик
Старший
Python
Docker
CI/CD
Linux
Высоконагруженные системы