Post @CIOlogia — IT Infrastructure

May 31 at 11:214.9K

IT Infrastructure * Machine learning * Computer hardwareArtificial Intelligence

Локальный ИИ-сервер на Tesla V100: 200 тысяч рублей против облачных подписок

Собрали сервер на двух Tesla V100 за 200 000 ₽ и прогнали 128 моделей — от LLM до генерации изображений. Разбираемся, когда старые дата-центровые GPU выгоднее новых RTX и облаков.

Tesla V100 — флагманская GPU NVIDIA 2017 года для дата-центров. Сейчас б/у карты стоят 80-100 тысяч рублей за штуку, что в 3-4 раза дешевле современных RTX 4090. Причина простая: массовый вывод из эксплуатации корпоративных серверов и переход на архитектуру Ampere/Hopper. Для локального ИИ это шанс собрать мощную лабораторию без миллионных бюджетов.

Почему V100 всё ещё интересна

V100 даёт 16 ГБ HBM2-памяти на карту с пропускной способностью 900 ГБ/с. Для сравнения: RTX 4090 предлагает 24 ГБ GDDR6X, но её стоимость 200-250 тысяч рублей. Две V100 в SXM2-форм-факторе объединяются через NVLink с общей пропускной способностью 300 ГБ/с между картами — это позволяет распределять большие модели на 32 ГБ без узкого места.

Ключевое ограничение — отсутствие Tensor Cores четвёртого поколения и поддержки FP8. V100 работает в FP16/FP32, что означает в 2 раза меньшую эффективность на токен по сравнению с A100 или H100 при одинаковой памяти. Но для экспериментов, файн-тюнинга малых моделей и локального инференса этого достаточно.

Что показали бенчмарки

Авторы прогнали 128 моделей через llama.cpp, vLLM, Stable Diffusion и VideoGen. Вот ключевые выводы:

LLM до 13B параметров — 40-60 токенов в секунду на одной V100 в FP16, что сравнимо с RTX 3090.
Модели 30-70B — требуют обеих карт через NVLink, скорость падает до 15-25 токенов в секунду из-за ограничений пропускной способности.
Stable Diffusion XL — 6-8 секунд на изображение 1024x1024, приемлемо для прототипирования.
Видеогенерация (CogVideoX, ModelScope) — медленно, 2-3 минуты на 2 секунды видео, здесь V100 уже не конкурент новым картам.

Проблемы выявились на квантизации: GPTQ и AWQ показывают нестабильность на V100 из-за особенностей работы с низкоразрядными операциями. Модели лучше запускать в нативном FP16 или использовать llama.cpp с Q4/Q5 квантизацией, что даёт предсказуемое качество.

Когда это имеет смысл

Локальная лаборатория на V100 оправдана в трёх случаях:

Исследования и обучение — постоянный доступ к GPU без тарификации по времени. Окупается за 6-8 месяцев по сравнению с облачными инстансами p3.2xlarge на AWS.
Файн-тюнинг моделей до 13B — LoRA и QLoRA работают эффективно, 32 ГБ хватает для батчей.
Приватные развёртывания — данные не покидают периметр, что критично для финансовых и медицинских приложений.

Не подходит для продакшн-инференса высоконагруженных сервисов — там нужна энергоэффективность и throughput современных Ampere/Hopper. V100 потребляет 300 Вт на карту, что при промышленной эксплуатации съедает экономию на железе за год.

Вывод: V100 — это компромисс между стоимостью входа и возможностями. Для малых команд и стартапов, которым нужна локальная ИИ-инфраструктура без вендор-локина, это разумный выбор в 2025-2026 годах. Главное понимать ограничения и не ожидать от пятилетних карт производительности новых поколений.

TG @CIOlogia