AV_EFLOPS Jun 22 at 12:53

Как мы за неделю подружили DeepSeek-R1 с отечественными процессорами ARM64, NVIDIA A100 в 100% отечественном сервере

Easy

8 min

8.5K

Artificial Intelligence

Case

+11

Comments 27

JDJ Jun 22 at 13:12

Всё, что написано дальше, рассказ Сергея Шишкина от первого лица.

Пришлось гуглить как это называется на самом деле :) "проверка показаний на месте" это называется.
Вот я трогаю стойку, вот достаю модуль. Вот откручиваю болт, вот снимаю с модуля корпус.

Mike_666 Jun 22 at 13:23

Файнтюн Llama-3-70B в 2026 году?
Статья год ждала своего часа?

AV_EFLOPS Jun 22 at 15:18

Нет, статья свежая, указанная модель полностью соответствовала нашим задачам тестирования. Всегда есть модели больше, но в большинстве случаев достаточно более скромных вариантов.

Politura Jun 23 at 04:42

Это древние модели, сейчас есть гораздо меньше размером и при этом лучше. Обычно наличие древних моделей в тексте показывает, что текст полностью сгенерирован и опубликован даже без прочтения после генерации. Ибо ии имеет cutoff по знаниям где-то год и всегда сует устаревшую херню в текст.

kernel128 Jun 23 at 14:14

Предложите свои модели для этой задачи. Те самые, которые меньше и лучше. И сразу опишите, по каким параметрам эти модели лучше

jetnet Jun 23 at 17:46

гемма-4 и квин-3.6. Лучше по всем параметрам. Не путать с параметрами модели )

kernel128 Jun 24 at 09:38

Спасибо. Теперь дождёмся официальных комментариев от представителя компании - соответствуют ли эти модели ТЗ на те работы, которые привели к результатам, которые решили использовать в статье

AV_EFLOPS Jun 23 at 16:26

Присоединяюсь к kernel128, подскажите модели, и нет, текст не сгенерирован ИИ, а написан вручную по итогам проведенной работы, а результаты работы были продемонстрированы на партнерском мероприятии меньше месяца назад.

Politura Jun 24 at 05:48

Что подсказывать? Вы как-будто из анабиоза полуторагодовалого вышли. Сравните сами, DeepSeek-R1-Distill-Llama-70B который вы использовали и более чем в два раза меньшая модель Qwen3.6-27B которая вышла пару месяцев назад.

Там по ссылкам у обеих есть бенчмарки, многие отличаются, ибо те бенчмарки которые использовались для вашей древноты, уже не используются и их заменили другие, но есть и совпадающие, везде мелкая модель выигрывает.
Кроме того, для нее есть MTP, который ускорит генерацию еще раза в два. Кроме того, она понимает картинки, может легко находить объекты, распознавать с них текст, даже рукопистный.

Qwen3.6 модели также довольно хороши в кодинге и вызове тулзов. Но помимо них есть еще упомянутые выше Gemma4 модели, например gemma-4-31B-it, тоже более чем в два раза меньше, тоже есть распознавание картинок и текстов, но мне они кажется в целом умнее, чем Qwen3.6, хотя кодить у них получается похуже. Для текстов, обсуждения чего-нибудь они мне нравятся сильнее. Для них тоже есть аналог MTP ускоряющий в два раза. А еще у них есть QAT версии, это когда 4-х битные версии дотренировали так, что они не уступают неквантованным версиям. Еще, есть любопытный бенчмарк food truck bench, где модели управляют виртуальным бизнесом по продаже еды из микроавтобуса: https://foodtruckbench.com/#leaderboard на нем Gemma4-31b заняла очень высокий результат. DeepSeek-R1 там нет, но есть его улучшенная версия DeepSeek-3.2, который, увы, слил все деньги. Что уж говорить о вашем дистиляте, он наверняка оказался-бы в глубочайшем минусе.

Контекстное окно, что у Qwen3.6, что у Gemma-4 - 256k токенов -в два раза выше. И при этом, сам kv cache у обеих сильно компактнее, чем у DeepSeek-R1-Distill-Llama-70B.

Это только то, что на поверхности. На самом деле современных классных моделей больше. И как вас угораздило вляпаться в древние модели, нет никакого вменяемого объяснения.

Развернуть Qwen3-72B (или даже 110B)

Qwen3-72B и 110B не существует - опять признак генерации.

Может вы, конечно, и не генерировали вообще ничего, просто спросили у условного дипсика, какие локальные модели использовать, а он вам и подложил свинью. В таком случае, мой вам совет: никогда не спрашивайте у моделей ничего по поводу локальных LLM. Все LLM имеют устаревшие на год-полтора знания, а локальные модели очень бурно развиваются и то, что было год назад уже не актуально.

Olegun Jun 22 at 20:04

Ошибку в названии статьи стоит исправить.

AV_EFLOPS Jun 23 at 16:27

Спасибо, исправили. Очепяткии, фингерпринт проблемс(

EvilMan Jun 22 at 20:52

Отвечаем: мы продемонстрировали суверенное программно-аппартаное решение, основанное на суверенной аппаратной платформе, построенной на отечественных процессорах, что гарантирует отсутствие закладок, «килл- переключателя» и т.д., а используемое ПО - модель DeepSeek-R1 относится к категории открытого ПО, веса можно проверить и даже дообучить на своих данных. Нет привязки к вендорам из недружественных стран.
Данное решение обеспечивает информационную безопасность компании, которая использует ИИ в своей деятельности - всё работает в изолированном контуре. Данные не уходят за пределы организации.

Слишком много раз повторяется слово "суверенное". Но как говорится: "Сколько раз не повторяй слово сахар, во рту слаще не станет".

UFO landed and left these words here

jetnet Jun 23 at 10:28

Да… Принтер на линуксе в 90х было проще настроить )

killeralex Jun 23 at 15:30

Не знаю, что хочу больше к себе домой. Руку Сергея Шишкина или Модульный сервер «М1». Вступление директора по развитию очень понравилось

AV_EFLOPS Jun 23 at 16:30

Я понимаю, что здесь принято все стебать, но за себя могу сказать, что вступление написано для того, чтобы не было ощущения присвоенных побед мне под моим аккаунтом)

palyaros02 Jun 24 at 05:23

У вас в заголовке ложь - вы Deepseek R1 не запускали и даже не пробовали. Я попался на ваш кликбейт, было очень интересно, как это вы Deepseek умудрились всего в две A100 запихать, а оказывается никак. Вы запустили Llama 70b, дообученную не относящимися к Deepseek людьми на его ответах. Для Deepseek R1 ваша конфигурация недостаточна.

Второй момент: вы опустили всю обвязку. Каким образом вам удалось получить от модели ответ, что она на двух видеокартах выполняется в стандартном чате llama.cpp, что вы демонстрируете? Если вы подключили какой-то агентский инструментарий - поделитесь же. Гораздо интереснее и ценнее опыт воспитания неагентской llama из прошлого года под современные задачи.

Если нетрудно - приведите итоговый конфиг или строку запуска модели. Одним этим вы повысите ценность статьи с нулевой до минимально полезной. Сейчас же вы вообще не привели никаких железоспецифичных трудностей, из вашей статьи следует, что запуск llama.cpp на отечественном оборудовании не отличается от стандартной процедуры, зато наделали кучу фоток вашего железа, не относящихся к статье.

Отдельно пункт 11 - очень обидно. Есть RuAdapt квена, есть та же llama3, дообученная Тинькофф, есть вихри которые ЛУЧШЕ оригиналов на русском языке, есть ДЕСЯТКИ кастомок на HF, но вы пишете, что отечественных аналогов просто нет. Вы бы сами погугли, посмотрели бенчмарки, чем слепо верить ии, что вам статью нагенерил.

Вы пишете в заключении, что “рассмотрели все грабли”, но ни одной грабли в статье не упомянуто, только кратко упомянули про сборку из репозитория nvidia, но не привели конкретики, как это сделать.

kernel128 Jun 24 at 09:37

https://huggingface.co/deepseek-ai/collections

Конечно же, deepseek-ai/DeepSeek-R1-Distill-Llama-70B легко найти среди моделей deepseek на странице с моделями deepseek. Так что, первый же Ваш довод разбивается без напряжения. Дальше много текста, времени разбирать нет.

tensorprogrammer Jun 24 at 13:10

В любом случае эта модель устаревшая и смысл данного финта непонятен.

palyaros02 Jun 25 at 05:08

А вот стоило бы напрячься и изучить сами репозитории и исторический контекст, а не выдачу поиска. То, что дипсик выложил их себе не значит, что он эти дистиляты и делал, но это в сущности и не важно.

Мой первый довод - статья вводит в заблуждение, DeepSeek R1 тут никто не запускал. Вы его подтвердили, а не “разбили”.

А ваше последнее предложение - чистое хамство. То есть прочитать один абзац (причем как-то выборочно, с середины), погуглить, сделать скриншот и написать “опровержение” вы время нашли, а по существу ответить - уже нет? Зачем тогда вы вообще свое драгоценное время решили потратить на этот ответ? Вы ж даже не автор статьи и к вам никто не обращался.

tensorprogrammer Jun 24 at 12:48

Gigachat — открытая модель. Вы бы хоть погугли, прежде чем писать такое :)

tensorprogrammer Jun 24 at 13:07

Ещё подскажите пожалуйста, как вы считали 100% отечественности сервера. Давно ли в России начали производить серверные центральные и графические процессоры подобного класса?

tensorprogrammer Jun 24 at 13:16

В ту же калитку:

мы продемонстрировали суверенное программно-аппаратное решение, основанное на суверенной аппаратной платформе, построенной на отечественных процессорах, что гарантирует отсутствие закладок

Подскажите каким определением "суверенности" вы пользовались, когда называли Nvidia A100 и llama.cpp "суверенными"

tensorprogrammer Jun 24 at 13:13

NVIDIA Tesla A100 - золотой стандарт для LLM

Золотой стандарт дай бог 2023 года. Вы попробуйте на ней запустить действительно современные модели: GLM-5.2, Kimi-K2.6 или Deepseek-V4. Либо хотя бы Deepseek-R1, но не дистированную версию :)

AV_EFLOPS Jun 25 at 10:09

Уважаемый @tensorprogrammer, постараюсь разом на все ответить.

Запустим в дальнейшем GigaChat 3 Lightning и, возможно, Prview, наверное в анализе моделей сыграли предпочтения нашего коллеги)

100% отечественности сервера...на глаз прикинули) А если серьезно, то серверы полностью разрабатываются и производятся в России (за исключением нескольких компонентов, объективно недоступных российского производства), используют отечественный серверные процессоры (какие не можем упоминать их название в виду обязательств о неразглашении) и до того, как в сервер были установлены GPU-ускорители, он был близок к 100% отечественности.

Nvidia A100 не отечественный ускоритель, это понятно, но мы тестируем отечественные TPU и NPU ускорители и планируем их включить в список совместимости и представить решение для ИИ на базе российских ускорителей.

llama.cpp - это опенсорс (Open Source) ПО

NVIDIA Tesla A100 и по сей день является отличным выбором для реализации инференса, зачастую даже избыточным. Мы понимаем, большинство ИТ специалистом, тем более близких к тематике ИИ ездят на Феррари и Ламборджини, наверное, еще на Порше))), но если подходить к вопросу реализации LLM с коммерческой точки зрения и считать деньги, то выбор Tesla A100, действительно близок к оптимальному.

FemboyEnjoyer Jun 24 at 15:14

>deepseek r1

хуже ничего найти не смогли?

killeralex Jun 29 at 04:02

Воспользовался устаревшими и бесплатными LLM. Предлагаю вот это

1 По существу выбора модели — выбор слабый, и это видно без чужих подсказок. DeepSeek-R1-Distill-Llama-70B был выпущен в январе 2025. На момент публикации статьи (июнь 2026) это модель полуторагодовалой давности, а в темпе развития LLM это огромный срок. Объективные метрики подтверждают слабость выбора для заявленных задач: модель показывает низкие показатели по coding и agentic-задачам, а также слабый instruction-following — именно то, что нужно для "генерации документации, помощи в отладке, ревью кода", заявленных автором как целевые сценарии. То есть даже без сравнения с чем-то более новым — сама модель плохо подходит под заявленные кейсы использования по своим объективным характеристикам, а не только по "возрасту".

Хуже того: скорость генерации этой модели на эталонных провайдерах составляет около 43 токена/с, что делает результат статьи (20-23 токена/с на двух A100 80GB) откровенно слабым показателем для такого объёма заявленного железа — это не озвучено и не объяснено автором как ограничение, а подано как достижение.

2 Структурная проблема статьи — несоответствие объёма "танцев с бубном" реальной сложности задачи.
Если разобрать техническую часть (разделы 4.1–4.4) непредвзято: реальных нетривиальных трудностей там названо ровно две — флаг сборки BUILD_SHARED_LIBS=OFF и NUMA-привязка GPU к разным узлам. Это специфичные, но довольно стандартные проблемы для любого мультипроцессорного non-NVLink сервера, не уникальные для ARM64. При этом громкость заголовка ("за неделю подружили", "нетривиальный квест", "многое сломалось, но мы победили") не соответствует объёму реально описанных трудностей — у читателя создаётся ожидание глубокого инженерного разбора, а получает он две команды cmake и один флаг numa.

3 Внутреннее противоречие в логике статьи.
Раздел 5.4 объясняет разделение модели на два GPU через "сознательное решение" ради параллелизма и NUMA-оптимизации — но в этом же разделе признаётся, что один A100 (80GB) мог бы вместить всю модель целиком (42GB). Это значит, что вся "сложность" с tensor-split и NUMA distribute была добровольно созданной задачей, а не необходимостью, диктуемой железом. Это не лишает текст ценности, но подает решение как вынужденное технологическое преодоление, тогда как по факту это было исследовательское решение "посмотреть, что будет, если делать сложнее, чем нужно".

4 Раздел 9 (про суверенитет) логически нестрогий, независимо от тона.
Тезис "отсутствие закладок и килл-переключателя" обосновывается отечественностью CPU, но ключевой компонент инференса — GPU NVIDIA A100, на котором выполняются все матричные вычисления (это прямо признаётся в разделе 8: "CPU почти не участвуют в генерации"). Получается логический разрыв: главный аргумент про суверенитет строится вокруг компонента, который сам автор в предыдущем разделе назвал второстепенным для самой задачи LLM-инференса. То есть структура аргументации сама себя подрывает на уровне последовательности изложения, без участия чьей-либо критики.

5 Что в статье объективно сильно:
Конкретные численные данные по VRAM, NUMA-топологии и скорости prefill/generation — это проверяемые, полезные цифры.
Честное признание, что GPU не отечественные — редкая для маркетингового текста саморефлексия.
Описание физической архитектуры сервера (раздел 7) — фактурно и конкретно, в отличие от более общих разделов.

Итог
Главная объективная слабость текста — не в возрасте модели как таком, а в том, что выбранная модель плохо подходит под заявленные задачи по своим собственным паспортным характеристикам (слабый coding/agentic), при этом сложность реализации представлена как искусственно завышенная относительно объёма реально описанных трудностей, а ключевой идеологический тезис статьи (суверенитет) содержит внутреннее логическое противоречие с другим разделом той же статьи.