Нужно было подождать некоторое время, пока наши изменения от нашего PR в llama.cpp дойдут до зависимых модулей (ollama / lm studio / ...).
Рады сообщить, что этот момент настал и модели доступы в ollama! Больше подробней в телеграмм посте с настройкой lm studio и другими вариантами запуска
Нет, для тестирования скорости ограничение в 8k контекста было проставлено исходя из длины средней переписки с пользователям. На большем контексте Mixture of Experts модели показывают еще больший отрыв от dense моделей за счет сильно меньшего kv cache
20B-A3B в A100 с vllm без проблем влезает 32к контекста, с оптимизациями можно его еще сильнее увеличить
Модель тренировалась для работы с русским языком. К примеру, ее instruct версия лучше на бенчмарках MERA, Shlepa. Уверен, что этим список не заканчивается.
Про 20b параметров: суть в том, что у gigachat lite другая архитектура — Mixture of Experts. Поэтому хоть ВСЕГО 20b параметов, на генерации из них активны только 3b. За счет этого она быстрее gemma-2 в использовании в 2.5 раза.
Модель теперь доступна в популярных инструментах!
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)
можно запускать в lm-studio, вот небольшой гайд.
Модель теперь доступна в популярных инструментах!
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)
можно запускать в lm-studio, вот небольшой гайд.
предлагаю вам посмотреть в сторону ollama
Это по сути обертка над llama.cpp (в рамках этого проекта, gguf и был создан), только порог входа ниже
Нужно было подождать некоторое время, пока наши изменения от нашего PR в llama.cpp дойдут до зависимых модулей (ollama / lm studio / ...).
Рады сообщить, что этот момент настал и модели доступы в ollama!
Больше подробней в телеграмм посте с настройкой lm studio и другими вариантами запуска
Для instruct модели есть!
Можно посмотреть на chat template из transformers tokenizer_config.json
Пример токенизированного диалога из llama cpp тестов
Нет, для тестирования скорости ограничение в 8k контекста было проставлено исходя из длины средней переписки с пользователям. На большем контексте Mixture of Experts модели показывают еще больший отрыв от dense моделей за счет сильно меньшего kv cache
20B-A3B в A100 с vllm без проблем влезает 32к контекста, с оптимизациями можно его еще сильнее увеличить
Мы обязательно поделимся с сообществом новостью, когда все будет готово
PR уже приняли!
https://github.com/ggerganov/llama.cpp/pull/10827
Неофициальные gguf можно найти пока тут, официальные выпустим чуть позже)
P.S.Пока до llama-cpp-python не доехало
P.S.S. До ollama тоже, но будет в течении пары недель
Исправили, большое спасибо за замечание!
Спасибо за вопрос!
Нет, не по всем тестам.
Модель тренировалась для работы с русским языком. К примеру, ее instruct версия лучше на бенчмарках MERA, Shlepa. Уверен, что этим список не заканчивается.
Про 20b параметров: суть в том, что у gigachat lite другая архитектура — Mixture of Experts. Поэтому хоть ВСЕГО 20b параметов, на генерации из них активны только 3b. За счет этого она быстрее gemma-2 в использовании в 2.5 раза.
Речь про gemma-2-9b, большое спасибо за замечание!
Исправили в тексте и таблице с pretrain метриками