Комментарии 72
Интересно, а квантованые версии будут чтобы на домашнем оборудовании можно было запустить ну например q4?
700 миллиардов параметров, даже в q4 - мало кто сможет такое запустить.
В последние несколько недель вышли несколько очень неплохих open-source моделей, которые - MoE и количество активных параметров - 10-12B:
MiniMax-M2-230B - 10B активных параметров
GLM4.5-106B-air - 12B активных параметров
Вот такой размер реально запустить у себя с более-менее практичной скоростью. А если ещё и сделать QAT (Quantization-Aware Training), как это сделали для gpt-oss-120B, то будет вообще топчик.
Хотелось бы и поддержку запуска через llama.cpp, там какие-то сложности с размером слоев, надеюсь, что оперативно разрулят.
Иначе, на кого эта большая модель.
если речь про ультра, то вряд ли. А так на hf.co есть hf.co/ai-sage/GigaChat3-10B-A1.8B-GGUF от Q6 до BF16, Q6_K вполне запускается на 12Гб RTX3060. Только на вопросы типа "кто ты?", "который сейчас час?" отвечает ерунду, на некоторых простых вопросах подвисает намертво. Но кое-какую пользу из неё извлечь можно, подробности здесь - https://habr.com/ru/articles/989576/
Добрый день.
Пожалуйста, добавьте модельку 10b Openvino 🙏
Честно, очень круто! Будет интересно поэкспериментировать с этой моделью)
В этой версии мы переработали весь подход к реализации поиска, превратив его из простого API-вызова в самостоятельную подсистему.
А какую поисковую систему используете? Внутренняя разработка для индексации инета или какой-то внешний сервис по API? Вроде как не видел в логах сайта Giga-робота, но может плохо искал.
У меня есть сомнения, что гигачат ultra действительно обучена с нуля. Смотрите
Недавно эти ребята опубликовали статью, где определённой методикой выяснили, что Huawei Pangu использовала веса Qwen-2.5 14B. Я решил методику повторить
Вот код, вот команда uv run main.py --model-a deepseek-ai/DeepSeek-V3.1 --model-b ai-sage/GigaChat3-702B-A36B-preview-bf16 --interpolate min
Результаты
=== Correlations between models ===
Q: 0.7975
K: 0.6938
V: 0.8433
O: 0.8421~ 0.8 это очень много, результат явно намекает на веса deepseek-а в базе.
При этом Q и K значения сильно меняются при смене токенизатора, потому результаты V/O ещё более показательные.
Стоит сказать, что я пока не протестировал другие DeepSeek-V3.*, где корреляция может быть ещё выше.
P.S. Я также своей реализацией запускал и модели из той статьи и воспроизвёл их результаты.
Это будет видно в ответах модели и рассуждениях.
У них же нет обучения с нуля. В свое время на заборе была статья от Сбера, где была ссылка на их репозиторий с моделью. Как раз после того как deepseek выложил в opensource. Они по-моему писали что взяли ее и дообучали. Я смотрел код их модели на том гмтхабе, там косметические изменения были. Так что, эти крупные модели Сбера не обучены с нуля, а используют в своей основе Deepseek.
Важный момент: это не дообучение готовой зарубежной модели, а полноценное обучение с нуля на собственном датасете
Нет, написано обратное. Что использовали deepseek архитектуру это-то ладно
Мы взяли за основу архитектуру, но ни в коем случае не веса. Наша модель отличается от DeepSeek v3 и в количестве параметров, и в процессе тренировки
Все модели тренируются с нуля проходя полный цикл: сбор данных, их очистка, тренировка на кластере и так далее
Спасибо за Ваш анализ! Но это число из статьи — не про «сырые веса совпали». Там сравнивают профиль std по слоям (после нормализации и интерполяции), то есть это скорее “похожий рисунок калибровки attention по глубине”, а не “веса deepseek-а в базе”. Это разные вещи.
Я сделал свой репозиторий https://github.com/Inf1delis/check-model-weight-corr — он сравнивает каждый тензор напрямую: cos/pearson/spearman, ошибки, квантили, и потом отдельно разбивает на LayerNorm/bias и всё остальное.
И вот что видно в CSV, если смотреть тензор-к-тензору:
У “контентных” весов (Q/K/V/O, MLP-матрицы и т.п.) корреляции около нуля, и больших cos sim там нет. Это напрямую говорит о том, что модель была полностью обучена с нуля и ее веса не имеют ничего общего с выложенным DeepSeek V3
Высокая похожесть есть только у LayerNorm и bias.
А LayerNorm/bias как раз часто получаются похожими даже при обучении с нуля. Они отвечают за калибровку/стабилизацию активаций, маленькие по размеру и с сильными инвариантностями — поэтому совпадение там не является признаком переноса весов. Если бы был реальный файнтюн, он бы светился массово в QKV/MLP по слоям — а этого нет.
В своем анализе Вы видите эффект методики и LN/bias, а не совпадение основных матриц. Вывод про дообучение DeepSeek неверный, модель натренирована с нуля.
А ведь пермутации векторов состояний (и всех соответствующих матриц) дадут нулевую корреляцию, несмотря на заимствование весов?
Я не говорю про конкретную модель, интересен сам метод, можем ли мы отследить заимствование весов у чужой модели, если мы не считаем профиль std по слоям (что дает слишком грубый анализ)?
Провел анализ GigaChat и DeepSeek V3.
Для каждого тензора делаю SVD, и дальше сравниваю три вещи:
Спектр сингулярных значений
spec_rel_l2_err— относительная L2-ошибка между (S_a) и (S_b).
Это про “форму/энергию” оператора. Если матрицы одинаковые с точностью до переобучения — спектры будут близки.Схожесть топ-k сингулярных векторов
spec_topk_u_cos_mean/min,spec_topk_v_cos_mean/min— |cos| между соответствующими столбцами U и V.
Берётся модуль, чтобы флип знака не мешал. Это уже проверка совпадения главных направлений.Перекрытие топ-k подпространств
spec_subspace_overlap_u/v =U_a^T U_b_F / k(аналогично для V).
Это самая сильная метрика: она не ломается от перестановок нейронов/голов и смены базиса внутри топ-k. То есть если веса были бы перенесены “с перетасовкой”, overlap всё равно был бы близок к 1.
Что вышло у меня в CSV:
На LayerNorm
spec_topk_u_* ≈ 1иspec_subspace_overlap_u ≈ 1— это ожидаемо и неинформативно для заимствования: LN в разных моделях сходится к похожей структуре.На всех остальных тензорах overlap и top-k cos почти случайное пересечение, а
spec_rel_l2_errогромный. Причём так по всем слоям без “островков” высокой близости.
Вывод простой: спектрально это модели с реально независимыми матрицами весов.
Модель GigaChat тренировалась без опоры на какие-либо веса в open source.
Код и расчёт метрик лежат здесь (добавил новый ноутбук + csv по всей модели):
https://github.com/Inf1delis/check-model-weight-corr/
Мне вот интересно, если захотят внедрить нейросети в госсекторе (а Греф и компания последнее время со своим гигачатом из всех утюгов лезет, вон президенту даже показали) - каким образом ее будут лицензировать для работы со всякими там секретным документами и прочим, сожержащим гостайну?
По сути, ключевое это работа на серверах, расположенных в России
К сожалению только "работа на сервере в России" не устраивает всяких там ФСТЭК, ФСБ и прочих госструктур/военных, там требования гораздо шире
Я не писал что этого достаточно, я писал что ключевое :)
Ну, а остальное примерно также, как у другого софта с доступом к гостайне.
Мне почему-то кажется что с нейросетями это невозможно, там требуют открыть исходный код как я понимаю, в этом проьоем нет, а вот проанализировать 700 гигабайт модели - вот тут будут вопросы.
Веса в принципе очень тяжело интерпретировать, за это anthropic борется. однако они (в формате safetensors) не содержат исполняемого кода. Потому не могут сами отправить секретные документы по интернету куда не надо. Отправить может только код-инференс запуска, а там уже всё стандартно. Да и отрубить лишние доступы тоже можно :)
П. С. На деле и открытого исходного кода не требуется
Это вопрос правоприменительной практики, которая ещё не сформирована. Сложность регулирования тут будет зависеть от того, насколько государству в принципе это надо.
Могут ли сказать "предоставьте нам код от всего, вплоть до кода блокнота, в которым HR делала в телефоне заметки при трудоустройстве программиста на работу"? Могут. И тогда тяжело будет решиться выпустить серьёзную модель, потому что одно дело выкладывать веса, и совсем другое - раскрывать весь датасет и весь код, и ещё окучивать органы с их неадекватными требованиями. Это будет позиция уровня "он нам и ***** не нужОн Интернет ваш!", в таком случае мы не скоро увидим модели сильнее 7B позапрошлого поколения в этой области.
Но точно так же могут распорядиться, что LLM стране очень нужны, а веса моделей являются не исполнительным кодом, всего лишь машинными данными. И тогда требование кода могут ограничить фронтом и бэком для развёртывания моделей в государственном секторе и с высокими требованиями к конфиденциальности. Вес же будет оцениваться не сам по себе, а функционально. Ибо сколько звёздочек товарищу майору ни наобещай, но сырые веса он всё равно не вкурит.
Тогда модель может публиковаться спокойно, а аудит безопасности и лицензирование нужно будет в первую очередь проводить для чего-то вроде православного форка llamacpp. На котором можно будет поднимать почти любые модели, а сами модели и критерии их оценки могут быть описаны через то, как модель отвечает на промты.
При желании, его вполне можно построить так, чтобы "свои" модели легко всё проходили, а чужие не совались, причем даже не по техническим, а чисто процессуальным критериям. И честно говоря, я думаю что именно так оно и будет.
Интересно, а если не анализировать исходный код, а просто запустить модельку на какой-то машинке, где отрубить доступ к внешнем инету после настройки?
Совсем не разбираюсь во ФСТЕК
Черный опломбированный ящик без доступа в Интернет, с бумажной о проверке на закладки - вот вам и ИИ для любого госсектора. Эти локальные модели для этого и делают.
Будут отдельные учетки с доступом по сертификату.
И эта учетка будет привязана к вам и вашему рабочему ПК, на домашнем открыть не сможете.
И обращения к LLM будут через специальный закрытый шлюз.
Не работает tool calling в ваших моделях , что в старой что в этой. В старой некорректно работал зацикливался. А в этой про которую статья вообще ошибку пишет при передаче json с объектом { tools : [ ] }
Помогите разобраться.
По видимому, у сберовского токенизатора нету tool calls в принципе.
https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview/blob/main/tokenizer.json
Исправили чат темплейты во всех моделях, могу попросить Вас перепроверить?
vllm для automatic function calling (параметр --enable-auto-tool-choice) требует указания --tool-call-parser, но ваш формат из chat_template.jinja не похож ни на один из тех что идёт вместе с vllm https://docs.vllm.ai/en/v0.11.2/features/tool_calling/#automatic-function-calling
При всём уважении, но заниматься ручным парсингом под ваш формат tool call или писать плагины к vllm - нет никакого желания, а без automatic function calling модель по сути бесполезна.
Поправили, спасибо за обратную связь! Просьба перекачать модель или обновить данный файл https://huggingface.co/ai-sage/GigaChat3-10B-A1.8B/blob/main/chat_template.jinja
Попробовал
llama-server -m /home/explorer/GITHUB/models/GigaChat3-10B-A1.8B-Q8_0.gguf --port 8080 --n-gpu-layers 25 --jinja --log-verbosity 1 --chat-template-file chat_template.jinja
Теперь при запуске выдает вот такую ошибку
common_chat_templates_init: failed to parse chat template (defaulting to chatml): Expected closing block tag at row 181, column 3:
{%- set DEVSYSTEM =
"""<role_description>
^
Description of the roles available in the dialog.
Модель я использую эту https://huggingface.co/ubergarm/GigaChat3-10B-A1.8B-GGUF а обновили вы вот эту https://huggingface.co/ai-sage/GigaChat3-10B-A1.8B .
https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview/blob/main/chat_template.jinja#L118
Так вот же в chat-template есть парсинг tools , тока он какие-то ошибки выкидывает при попытке передать их в него. Я правда передаю в формате openapi , но его все модели понимаютgemma, qwen, llama, yandex-gpt.
Может у Сбера своя какая то json схема для tool calls .
Ну или баг у них в модели
Интересно, есть какие-то модели в ru сегменте для coding, чтобы можно было подключить в тот же Cursor?
Интересно, а как его в LM Studio добавить и использовать?
Какую LLM для генерации синтетики использовали?
КДПВ похожа на Sora'овскую. Если она в гигачате сделана, дообучите его на реальных фотках Сатурна, а не на гавне, которое кабанчиком на улице баллончиками рисуют, кольца у планеты никогда не будут в стороне от экватора.
С одной стороны - обучить самостоятельно модель класса DeepSeek V3 с нуля - это очень крутая задача. Поздравляю.
Получается отставание на 9 месяцев от китайской лабы, но это все равно прекрасно.
С другой стороны - почему V3 а не R1? По опыту R1 показывает себя сильно лучше там где нужна реально большая LLM, а не просто чат. Ещё вопрос - если уж это не reasoning модель то смысл делать чат на больших весах? Для чата и малых моделей хватает, им важнее умение держать контекст и/или работать с mcp tool call. А тут tool call не завезли.
Куда применять 10 A1.8B тоже не понятно. Сами пишите, что dense модели проще обучать, но в отличи от <10B MOE A1.8B> Qwen3 4B можно хоть на телефоне запускать, базовые требование по памяти сильно меньше. А тут не мелкая MoE модель как её файнтюнить локально? Не понятно.
Ну и отдельный момент - раз обучили модель, значить есть на чем, есть железо, есть инфраструктура, и есть специалисты. Это замечательно.
Вот прям DeepSeek у нас дома. Лишь бы был дальнейший прогресс.
Но с высоты своего дивана не вижу причины перелезать с R1-0528 для кодинга и qwen4b-oblitirated для локального баловства.
R1-0528 очень медленная и плохо с tools работает, лучшее, что сейчас есть для кодинга, это glm 4.6. Если нужен reasoning, то Kimi k2-thinking, были большие надежды на MiniMax m2, но в кодинге не очень себя показывает.
Я глядел все. И платное и бесплатное. Единственная модель с которой мне не приходится спорить по поводу архитектурных решений R1-0528. Я предпочту беду с контекстом чем бесконечные споры с LLM и ежесекундные вычитывания их бредопредложений. Но это в моем стеке. Для всяких html one-shot qwen coder очень хорош. Сейчас вот сижу бодаюсь с gemini 2.5pro пока на openrouter R1 не доступен и это такая трата токенов в никуда.
Сейчас бы сберовский кодер бахнуть, но где его найти за 10 баксов в год.
А что за стек? На моих тестах из бесплатных сейчас лидер по reasoning Kimi k2 thinking, в кодинге glm 4.6, r1 и qwen coder заметно хуже. Пока не было glm и kimi из бесплатных связку Gemini 2.5 pro(планирование, архитектура) +qwen(кодирование) юзал, неплохо вполне
rust + iced или node + fastapi, пару локальных проектов. Что qwen что gemini что glm требовали babysitting'а. Сейчас вот запущен симулятор детского сада с grok-code-fast, но он хотя бы бесплатный. И все они каждый раз после обсуждения плана лезут туда куда их не просят и забывают оригинальный план в три итерации.
Спасибо ребят, очень интересно. Скажите, если не секрет, 5 млн. примеров для SFT это всё или дальше вы будете увеличивать? SFT сложно набрать потому, что оно на русском без заготовок? Или там нужно смотреть на уже последний SFT, а не 1.5 и уже он гораздо больше?
Уважаемый атвор из Сбера, посетуйте пожалуйста искателям-любителям в сфере DS - 1. а на каком оборудовании вы обучали модели.2. где вы это оборудование купили в необходимом количество 3. кто занимался построением серверной архитектуры. Буду признателем за подробный ответ с ссылками, пруфами и названиями. Надеюсь это не будет проблемой NDA
Сбер находится под блокирующими санкциями США. Вы правда рассчитываете услышать ответ?
Коллега, это сарказм) Я конечно понимаю, в целом, зачем сбер тратит на это деньги. Даже зачем сберу дает на эти цели деньги государство (в том или ином виде). Чего я не понимаю - зачем об этом бравировать в технических ресурсах типо хабра?
Знаете, у меня товарищ работал на на одной Российской бирже и периодически публиковал "умные истории в телеге" как они запилили супер-пупер-ии бирживого помощника. Но он публиковал это в телеге, где остальные несведомые люди смотрели и восхищались. Он никогда не лез на хабр или в другие профильные сообщества, т.к. прекрасно понимает что "супер-пупер-ии помощник" это просто опенсорс llm развернутая на собственном оборудования и без дообучения а просто на RAG.
Пожалуйста, не вставляйте в статьи жирные картинки, например первую можно ужать в несколько раз без видимой потери качества, конвертировав в JPG. Это и видимость статьи в поисковиках улучшит.
Странно это... Начну с гига чата.

А теперь Gemini





Вопрос: На что уходят миллионы рублей?
Сколько воды вы потратили и сколько электричества сожрали?
Кто будет отвечать за повышение тарифов и голод в связи с вашими непомерными аппетитами?
Когда вы начнёте вести прозрачную отчётность и заботиться об окружающей среде?
не наследует проблемы и ограничения чужих датасетов
Вместо этого у него своих ограничений что не спроси, а мне было нужно для написания книги. простите я не могу говорить на эти темы..... цензурированный кусок ну понятно в общем что это такое
При запуске модели 10B сообщается:
Some weights of the model checkpoint at ai-sage/GigaChat3-10B-A1.8B-bf16 were not used when initializing DeepseekV3ForCausalLM: ['model.layers.26.eh_proj.weight', 'model.layers.26.embed_tokens.weight', ... ]
This IS expected if you are initializing DeepseekV3ForCausalLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
This IS NOT expected if you are initializing DeepseekV3ForCausalLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Свой комментарий выше я привел, чтобы вы поняли разницу, как другие модели доносят информацию до конечного пользователя. Ведь по факту, людям нужен результат и удобство использования. Что толку для простого юзера (к примеру студента филологического факультета) от того, как обучалась модель и тд? Ему бы информации по-больше да чтобы она была подана максимально понятно. Я именно на это хочу обратить внимание разработчиков гига чата. Ну обучили вы по новым уникальным алгоритмам нейросеть. А она все равно не конкурент другим моделям. Еще раз: я именно на это хочу обратить Ваше внимание!
Есть рабочая версия в gguf формате
https://huggingface.co/ubergarm/GigaChat3-10B-A1.8B-GGUF
там нюанс по количеству слоёв, у автора есть, как запустить на llama.cpp и что нужно поправить.
Q8_0 работает на LMstudio но нужно будет поправить jinja template
как поправить написал тут https://huggingface.co/ubergarm/GigaChat3-10B-A1.8B-GGUF/discussions/2#692aecc9e34f1ce85af4e792
Есть ещё квантованная версия вот здесь:
https://huggingface.co/bartowski/ai-sage_GigaChat3-10B-A1.8B-GGUF/tree/main
Я скачал для теста "ai-sage_GigaChat3-10B-A1.8B-Q4_K_M.gguf". Свежий koboldcpp нормально с ней работает без каких-либо дополнительных действий.
Ура, спасибо, с ним заработало :)
Протестировал модель GigaChat3-10B-A1.8B. Квантованная до q4 работает с приемлемой для домашнего использования скоростью (60 т/c) на ускорителе CMP 50HX (соответственно чего-то подобного или лучше можно ожидать от 2080). Для сравнения YandexGPT-5-Lite-8B квантованная тоже до q4 даёт примерно 20 т/c на том же ускорителе.
Модель по умолчанию не редко даёт ответы на английском. Но если в промпте явно указать насчёт русского языка, тогда всегда на русском. В ответах есть характерные для Qwen и Deepseek маркеры "**" и "##". Но китайские коллеги иногда в русских словах допускают ошибки и неточности, а в этой модели, на тестах этого не выявлено. Я думаю для создания чат-ботов и вопросно-ответных систем, а также агентов с разными моделями, эта разработка Сбера может быть полезной прежде всего по этим причинам - хороший уровень русского языка из коробки и небольшие требования к вычислительной мощности.
Вот как выглядит пример выдачи данной модели:
https://disk.yandex.ru/i/KM0wu4mqW7Nm2g
Модель в GGUF-формате (от bartowski, ai-sage_GigaChat3-10B-A1.8B-Q4_K_M) работает в llama.cpp, но после второго запроса tools начинается зацикливаться.

structured output имеется/планируется/где-то посмотреть пример можно?
А то пример от гигачат2 на модели hf.co/ai-sage/GigaChat3-10B-A1.8B-GGUF:Q8_0 выдал такое...(См скриншот)
Информация
- Сайт
- sberdevices.ru
- Дата регистрации
- Дата основания
- 2019
- Численность
- 501–1 000 человек
- Местоположение
- Россия

GigaChat 3 Ultra Preview — тяжёлый open source