Комментарии / Профиль vltnmmdv / Хабр

Валентин Мамедов @vltnmmdv

Пользователь

ПрофильСтатьи1ПостыНовостиКомментарии11

Сбер выкладывает GigaChat Lite в открытый доступ

vltnmmdv 3 фев в 06:30

Модель теперь доступна в популярных инструментах!
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)

можно запускать в lm-studio, вот небольшой гайд.

Сбер выкладывает GigaChat Lite в открытый доступ

vltnmmdv 3 фев в 06:30

Модель теперь доступна в популярных инструментах!
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)

можно запускать в lm-studio, вот небольшой гайд.

Сбер выкладывает GigaChat Lite в открытый доступ

vltnmmdv 3 фев в 06:28

предлагаю вам посмотреть в сторону ollama
Это по сути обертка над llama.cpp (в рамках этого проекта, gguf и был создан), только порог входа ниже

Сбер выкладывает GigaChat Lite в открытый доступ

vltnmmdv 3 фев в 06:25

Нужно было подождать некоторое время, пока наши изменения от нашего PR в llama.cpp дойдут до зависимых модулей (ollama / lm studio / ...).

Рады сообщить, что этот момент настал и модели доступы в ollama!
Больше подробней в телеграмм посте с настройкой lm studio и другими вариантами запуска

Сбер выкладывает GigaChat Lite в открытый доступ

vltnmmdv 17 дек 2024 в 08:03

Для instruct модели есть!

Можно посмотреть на chat template из transformers tokenizer_config.json

Пример токенизированного диалога из llama cpp тестов

Сбер выкладывает GigaChat Lite в открытый доступ

vltnmmdv 17 дек 2024 в 08:00

Нет, для тестирования скорости ограничение в 8k контекста было проставлено исходя из длины средней переписки с пользователям. На большем контексте Mixture of Experts модели показывают еще больший отрыв от dense моделей за счет сильно меньшего kv cache

20B-A3B в A100 с vllm без проблем влезает 32к контекста, с оптимизациями можно его еще сильнее увеличить

Сбер выкладывает GigaChat Lite в открытый доступ

vltnmmdv 17 дек 2024 в 07:55

Мы обязательно поделимся с сообществом новостью, когда все будет готово

Сбер выкладывает GigaChat Lite в открытый доступ

vltnmmdv 17 дек 2024 в 07:47

PR уже приняли!

https://github.com/ggerganov/llama.cpp/pull/10827

Неофициальные gguf можно найти пока тут, официальные выпустим чуть позже)

P.S.Пока до llama-cpp-python не доехало
P.S.S. До ollama тоже, но будет в течении пары недель

Сбер выкладывает GigaChat Lite в открытый доступ

vltnmmdv 13 дек 2024 в 18:15

Исправили, большое спасибо за замечание!

Сбер выкладывает GigaChat Lite в открытый доступ

vltnmmdv 13 дек 2024 в 11:30

Спасибо за вопрос!

Нет, не по всем тестам.

Модель тренировалась для работы с русским языком. К примеру, ее instruct версия лучше на бенчмарках MERA, Shlepa. Уверен, что этим список не заканчивается.

Про 20b параметров: суть в том, что у gigachat lite другая архитектура — Mixture of Experts. Поэтому хоть ВСЕГО 20b параметов, на генерации из них активны только 3b. За счет этого она быстрее gemma-2 в использовании в 2.5 раза.

Сбер выкладывает GigaChat Lite в открытый доступ

vltnmmdv 13 дек 2024 в 11:23

Речь про gemma-2-9b, большое спасибо за замечание!

Исправили в тексте и таблице с pretrain метриками

Информация

Специализация