Понятно, что это не pytorch, но для определённых проектов эти карты - очень хорошее решение.
Я вот так смотрел на это дело: сколько $ стоит один GB VRAM?
96GB / RTX 6000 PRO - $111 / GB
32GB / RTX 5090 - $116 / GB
48GB / RTX 4090 - $81 / GB
24GB / RTX 3090 - $42 / GB
32GB / V100 - $18 / GB
Понятно, что память на всех этих устройствах разная по скорости. И производительность вычислений отличается очень сильно. Но для кэйсов, где упирается в размер памяти (а это в основном инференц) - V100 очень хороший вариант.
По моим исследованиям:
скорость генерации токенов на V100 приблизительно такая же как и на RTX 4090. Хотя тут есть ньюанс в котором надо разобраться - это с FlashAttention.
скорость обработка промпта (prompt processing) - на V100 в 3 раза медленнее чем на RTX 4090.
У модели Neumotron 30 есть одна крутая особенность - она из коробки поддерживает контекст на миллион токенов. Другие открытые модели могут поддерживать миллион, но там надо прикручивать YARN...
А насчёт огромного опыта: это на самом деле общеизвестный факт, что любые модели сами по себе плохо справляются с математическими вычислениями. Нужны tools.
И в общем-то он логичен для бизнеса: когда работаем над какой-то задачей, а она "не идёт" (fails) - то не надо долго мучиться (тратить время, инвестиции), а надо побыстрее (fast) решить, что мы занимается не тем, и переключиться на что-то продуктивное.
По отношению к работникам принцип обычно: выжимаем всё что можно. А работники обычно и не против выкладываться.
А нужно не париться, и для себя, как для работника взять такой же принцип: fail fast. Менеджер нагрузил на вас 20 задач и все срочные? Не нужно выпрыгивать из штанов, а нужно завалить половину и нужно чтобы менеджер понял это побыстрей. От этого всем только лучше: работник не пашет до изнеможения, менеджер может планировать эффективней.
Но обычно работает принцип: кто тянет - на того и грузят.
Акции потерять невозможно - они уже твои - компания не может у тебя их забрать, так же как не может забрать выплаченную зарплату. RSU теряешь при увольнении / сокращении практически всегда, если только компания не акселерирует (ускоряет) график вестинга.
Обзор Harness или агентов для программирования с LLM.
Я пользовался CLine, но потом перешёл на модный RooCode. Недавно RooCode написали, что они закрываются, чтобы развивать Roomote.
Народ пишет: все переходим теперь на KiloCode, но им отвечают что KiloCode - это просто обёртка над OpenCode.
Одна из самых популярных открытых моделей - это Qwen 3.6, а у них есть своей агент - QwenCode.
Свои агенты есть и у Google (AntiGravity), OpenAI (Codex), но только про ClaudeCode я вижу, что народ подсовывает туда свои модели их агенту (чтобы не платить за дорогие модели Claude).
Работаю в большой корпорации, есть проекты на Scala и Java.
Создалось впечатление, что в последние пару лет интерес к Scala снижается, для новых проектов Scala уже не выбирают...
Про DGX Spark, народ пишет что для Qwen 3.6 27B Dense, с квантизацией FP8
скорость генерации токенов - 8 t/s
MTP помогает разогнаться до 15 t/s
Слабенько как-то.
https://forums.developer.nvidia.com/t/whats-the-best-speed-we-can-get-with-qwen-3-6-27b-without-quantizing/367561
Я у себя на RTX 4090 получаю 48 t/s (это с MTP):
https://huggingface.co/Qwen/Qwen3.6-27B-FP8/discussions/11
И карточки тоже можно запускать параллельно.
Скорость памяти (bandwidth) у всех карточек в моём сообщении выше: от 900 до 1700 GB/s
DGX Spark: 273 GB/s - как-то не очень. По скорости генерации токенов получается в 3 раза медленнее V100. Хотя за счёт MTP может и не всё так плохо.
Тут один чел поддерживает форк vLLM специально для V100:
https://github.com/1CatAI/1Cat-vLLM
Понятно, что это не pytorch, но для определённых проектов эти карты - очень хорошее решение.
Я вот так смотрел на это дело: сколько $ стоит один GB VRAM?
96GB / RTX 6000 PRO - $111 / GB
32GB / RTX 5090 - $116 / GB
48GB / RTX 4090 - $81 / GB
24GB / RTX 3090 - $42 / GB
32GB / V100 - $18 / GB
Понятно, что память на всех этих устройствах разная по скорости. И производительность вычислений отличается очень сильно. Но для кэйсов, где упирается в размер памяти (а это в основном инференц) - V100 очень хороший вариант.
По моим исследованиям:
скорость генерации токенов на V100 приблизительно такая же как и на RTX 4090. Хотя тут есть ньюанс в котором надо разобраться - это с FlashAttention.
скорость обработка промпта (prompt processing) - на V100 в 3 раза медленнее чем на RTX 4090.
V100 - старая карта (2018), но скорость памяти - весьма достойная: 900 ГБ/с.
Я заказал на Alibaba две карточки, каждая с 32 ГБ, каждая по $550.
У модели Neumotron 30 есть одна крутая особенность - она из коробки поддерживает контекст на миллион токенов. Другие открытые модели могут поддерживать миллион, но там надо прикручивать YARN...
Я это использую для работы с большими логами.
compose:
models.ini:
Это конфиг для моей карточки с 48GB VRAM.
В любой момент времени висит только одна запущенная модель.
Через WebUI можно переключаться между моделями, и при выборе новой - сначала автоматически выгружается предыдущая.
Ну, модель должна уметь пользоваться тулзами.
А насчёт огромного опыта: это на самом деле общеизвестный факт, что любые модели сами по себе плохо справляются с математическими вычислениями. Нужны tools.
Или делаем тоже самое, но позволяем модели вызывать tools:
Это OpenWebUI.
Модель: Qwen3.6-27B
Квант: Q6
параметр "--models-max 1", и ничего в памяти не висит, - только одна модель, которая используется в данный момент времени.
На западе у стартапов популярен девиз Fail Fast:
https://en.wikipedia.org/wiki/Fail_fast_(business)
И в общем-то он логичен для бизнеса: когда работаем над какой-то задачей, а она "не идёт" (fails) - то не надо долго мучиться (тратить время, инвестиции), а надо побыстрее (fast) решить, что мы занимается не тем, и переключиться на что-то продуктивное.
По отношению к работникам принцип обычно: выжимаем всё что можно. А работники обычно и не против выкладываться.
А нужно не париться, и для себя, как для работника взять такой же принцип: fail fast. Менеджер нагрузил на вас 20 задач и все срочные? Не нужно выпрыгивать из штанов, а нужно завалить половину и нужно чтобы менеджер понял это побыстрей. От этого всем только лучше: работник не пашет до изнеможения, менеджер может планировать эффективней.
Но обычно работает принцип: кто тянет - на того и грузят.
But you said that you used JumpCloud for device management. Does that mean, that you migrated to Okta + something else for MDM?
Результаты отличаются всегда, даже если на одной и той же модели два раза подряд сделаете одинаковый запрос - получите разные ответы.
Для VLLM Я использовал FP8.
FP8 на 4ГБ тяжелее UD-Q6: 30 ГБ и 26 ГБ
Я сравнивал у себя на RTX 4090 D (48 Гб памяти VRAM).
Детали и конфиги вот здесь:
https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF/discussions/25
Llama.cpp UD-Q6, без MTP: 31 токен в секунду
Llama.cpp UD-Q6 и MTP: 60 токенов в секунду. Используется дополнительные 2 ГБ VRAM. Prompt processing замедляется на 20%
VLLM и MTP: 40-48 токенов в секунду. В 2 раза быстрее prompt processing.
В последних версиях мульт модальность работает нормально вместе с MTP
Опционы работники обычно не выбирают.
Обычно берут RSU (restricted stock units).
Да, нередко можно выбирать: опцион или RSU.
Акции потерять невозможно - они уже твои - компания не может у тебя их забрать, так же как не может забрать выплаченную зарплату. RSU теряешь при увольнении / сокращении практически всегда, если только компания не акселерирует (ускоряет) график вестинга.
Сказки это.
Не потерял, а не заработал.
У Оракла вестинг стандартный: 4 года, по 25%. "Сотрудник" похоже уже посчитал, что эти деньги у него в кармане, но рано он это губу раскатал...
Так что сказать то хотели?
Направление интересное, предлагаю тему:
Обзор Harness или агентов для программирования с LLM.
Я пользовался CLine, но потом перешёл на модный RooCode. Недавно RooCode написали, что они закрываются, чтобы развивать Roomote.
Народ пишет: все переходим теперь на KiloCode, но им отвечают что KiloCode - это просто обёртка над OpenCode.
Одна из самых популярных открытых моделей - это Qwen 3.6, а у них есть своей агент - QwenCode.
Свои агенты есть и у Google (AntiGravity), OpenAI (Codex), но только про ClaudeCode я вижу, что народ подсовывает туда свои модели их агенту (чтобы не платить за дорогие модели Claude).
Ещё есть https://openhands.dev/ - довольно интересный проект.
В общем, было бы интересно ориентироваться в этом зоопарке.