Как всё началось
Прошлой весной я впервые столкнулся с нейросетью — Гигачат от Сбербанка. До этого я считал такие сервисы «несерьёзной фигнёй». После нескольких экспериментов с Гигачатом моё мнение кардинально изменилось: ответы оказались впечатляющими, и я начал задумываться о применении ИИ в работе.
Однако использовать внешний сервис в коммерческих проектах оказалось дорогим. Я начал искать альтернативу — локальные модели, которые можно запускать на собственном железе без постоянных расходов.
Первый шаг: небольшие модели
Для начала я собрал компьютер с двумя видеокартами RTX 5070 (12 ГБ видеопамяти каждая) и 64 ГБ ОЗУ. На нём удалось запустить небольшие модели (до 20 ГБ), которые работали приемлемо, но всё равно уступали Гигачату по качеству и скорости. Плюс был очевиден: всё происходило локально, без ограничений со стороны провайдера.
Апгрейд железа
Чтобы сравнивать более крупные модели, я вложил поборов свою внутреннюю "жабу" в следующую конфигурацию:
КОМПОНЕНТ | ХАРАКТЕРИСТИКА |
GPU | 2 × RTX 4090 (48 ГБ VRAM каждая) |
Оперативная память DDR5 | 192Гб (4 планки по 48Гб) |
Процессор | Intel i9‑14900K |
Материнская плата | ASUS ROG MAXIMUS Z790 DARK HERO |
Эта система позволяет запускать модели размером до ≈ 100 ГБ, а скорость вычислений выросла в разы.
Тестирование на «Задаче Эйнштейна»
Недавно на Хабре я нашел статью Задача Эйнштейна — большой тест LLM нейросетей на логическое мышление / Хабр. Я решил проверить, как моя локальная модель справится с этим тестом. И вот какие результаты я получил.
Модель | Параметры | Объём VRAM | Время решения | Результат |
gpt‑oss:120b | 120 млрд параметров | ~70Gb | 1 мин | ВЕРНО |
Qwen3‑next:80b | 80 млрд параметров | ~50Gb | 1 мин | ВЕРНО |
DevStral2‑123b | 123 млрд параметров | ~95Gb | 14 мин | НЕ ВЕРНО |
Гигачат (Сбербанк) | неизвестно, но много | очень много | 12 мин | НЕ ВЕРНО |
Что мы видим?
Модели, запущенные локально на мощном железе (gpt‑oss 120b, Qwen3‑next 80b), дают быстрый и правильный результат.
Некоторые крупные модели (DevStral2‑123b) работают медленно и дают ошибку, несмотря на полное использование GPU.
Сервис Гигачат, работающий на «больших серверах», в данном случае решал задачу дольше и выдал неверный ответ.
Выводы:
Локальный запуск может превзойти облачные сервисы – при достаточном оборудовании модель способна быстрее и точнее решать задачи, чем коммерческий API.
Не всякая «большая» модель гарантирует качество – размер параметров не всегда коррелирует с точностью; оптимизация и обучение играют большую роль.
Стоимость vs. контроль – собственный сервер избавляет от расходов на запросы к API и даёт полный контроль над данными и настройками, но требует значительных капитальных вложений в оборудование.
Конечно события с текущими ценами на память и ажиотажем делают сборку такого сервера еще более недоступной, но мне видимо повезло, я его собрал прошлым летом как раз перед бумом.
Если у вас есть аналогичный опыт или идеи по оптимизации локальных ИИ серверов, буду рад обсудить в комментариях!
