Сколько стоит интеллект? Как оптимизировать бюджет AI-проекта в 2025 / Habr

Контекст

AI может помочь снизить затраты, ускорить процессы или увеличить выручку. Однако, чтобы экономика проекта сходилась, нужно не только уметь качественно оценивать потенциальный эффект, но и уметь контролировать затраты.

Цель статьи — показать, как минимизировать расходы на AI-проект.

Дисклеймер: Рынок GenAI очень динамичен, и цены могут быстро меняться. Цены актуальны на момент написания (середина 2025 года) и могут измениться. Для простоты ограничимся только ценами на LLM.

Подходы к развертыванию AI продукта

Существует два основных способа:

Собственное решение — используете open-source модели и запускаете их на собственной или арендованной инфраструктуре.
Модель как сервис (Model-as-Service) — когда вы подключаетесь к готовой модели через API и платите за объем использования.

Вариант 1: Собственное решение

Стоимость, в основном, складывается из стоимости инфраструктуры и ФОТ.

Собственная инфраструктура:

GPU-сервер для инференса моделей средних размеров: ~1-1.2 млн руб.
Высокие начальные затраты, но с учетом амортизации, если взять срок службы в 5 лет, то стоимость сервера — 16 667 - 20 000 руб./мес.

Альтернатива — облако:

Yandex Cloud: ~ 430 тыс. руб./мес.
Google Cloud (g2-standard-24): ~ 131 тыс. руб./мес. при курсе 90 руб. за доллар.
Sber Cloud: ~345 тыс. руб./мес.

Цены без учета трафика, который тоже тарифицируется, так что это минимальная стоимость облачной инфраструктуры.

Команда:

AI Engineer (Senior): 520 000 руб
0.5 Admin (Senior): 208 000 руб.

Выше учтены: зарплата (данные Sense group), налоги и взносы за сотрудника компанией.

Общая стоимость = ФОТ + инфраструктура:

Собственная инфра: ~ 744 тыс. руб./мес.
Google: ~ 859 тыс. руб./мес.
Yandex: ~ 1.13 млн руб./мес.
Sber: ~ 1.07 млн руб./мес.

Способы оптимизации стоимости:

Уменьшение моделей, а следовательно, и требований к инфраструктуре. Это делается либо через подбор более легкой модели, либо уменьшения выбранной (квантизация, обрезка модели)
Для облака - FinOps оптимизации, долгосрочные контракты и скидки от провайдера

Когда подходит своя инфраструктура

Уже есть своя IT-команда и инфраструктура

Важно хранить данные внутри контура, есть персональные или чувствительные данные

Планируется долгосрочная эксплуатация
Подходит на объеме, одного сервера мало для обеспечения стабильности и отказоусточивости

Когда подходит облако

Нет собственной большой IT-команды или нет ресурсов обеспечить высокие SLA
Нужно гибко и быстро масштабировать сервис в зависимости от нагрузки
Защиту данных тоже можно обеспечить

Вариант 2: Модель как сервис (API)

Цена зависит от количества запросов, выбранной модели, количества токенов (слов, частей слов) в запросе и ответе.

Ниже для каждого провайдера приведены диапазоны цен актуальных моделей от дешевой к дорогой. Для западных моделей цены переведены по курсу 90 руб. Для простоты сравнения все цены приведены к единым размерам - 1000 входящих + 1000 исходящих токенов.

Модель	Компания	Вход 1000 токенов, руб	Выход 1000 токенов, руб	Запрос 1000+1000, руб
GPT-4.1 nano	OpenAI	0,009	0,036	0,045
o3	OpenAI	0,18	0,72	0,90
Haiku 3.5	Anthropic	0,072	0,36	0,432
Opus 4	Anthropic	1,35	6,75	8,10
Gemini 2.5 Flash	Google	0,027	0,225	0,252
Gemini 2.5 Pro	Google	0,225	1,35	1,575
GigaChat Lite	Sber	0,2	0,2	0,4
GigaChat Max	Sber	1,95	1,95	3,9
YandexGPT Lite	Yandex	0,2	0,2	0,4
YandexGPT Pro	Yandex	1,2	1,2	2,4

Давайте зафиксируем количество токенов на запрос и посчитаем сколько будет стоить API в месяц в зависимости от количества запросов в день. Сравним полученный результат со стоимостью собственного сервера.

Для дешевых моделей Yandex и Sber пробивают порог стоимости собственного сервера только при более 100 тыс. запросов в день

Большинство флагманских моделей становятся дороже собственного сервера уже при 10 - 50 тыс. запросов в день, Claude уже при 5000.

Таким образом, цена на API сильно варьируется:

При увеличении количества запросов цена растет линейно
При увеличении количес��ва входных токенов, скажем в 10 раз, цена вырастет в 2.5-3 раза на запрос.
Если увеличить выход, также в 10 раз, цена вырастет в примерно 8.2 раза на запрос.
Цена моделей также может отличаться в 6 - 20 раз в рамках одной компании, а также сильно варьироваться между провайдерами моделей.

Команда:

Так как модель уже сделана, нужно просто интегрировать API и написать промпт, то можно существенно сэкономить на команде.

Backend разработчик (0.2 ставки): 93 600 руб./мес.

Выше учтены: зарплата (данные Sense group), налоги и взносы за сотрудника компанией.

Общая стоимость = ФОТ + API:

При объемах в 2000 токенов на запрос и 5000 запросов в день - использование модели по API дешевле собственного сервера, даже при использовании топовых моделей.

Gemini 2.5 Pro: 236 250 руб./мес + 93 600 = 329 850 руб./мес.
YandexGPT Pro: 360 000 + 93 600 = 453 600 руб./мес.
GigaChat Max: 585 000 + 93 600 = 678 600 руб./мес

Однако при росте входного контекста, запросов или выхода моделей - цена быстро переходит порог.

Способы оптимизации стоимости

Подбор более дешевых моделей
Инженерия промптов — писать коротко
Кэширование контекста и идентичных запросов
Асинхронная/пакетная обработка — дешевле
Ограничение выходной части, где это возможно, генерация выходной последовательности - сильно дороже.
Также при наличии в команде AI/ML инженера можно дообучить модель под задачу — снижает количество токенов на входе, а также использовать алгоритмы сжатия промптов.

Когда подходит

Дешевле при маленьких объемах - количество запросов и токенов
Нужно быстро протестировать гипотезу (MVP)
У компании нет своей AI-команды
Важна скорость вывода на рынок

Фреймворк управления затратами

Подобьем резюме, как принимать решение и управлять костами:

Нужна быстрая проверка гипотез? -> берём API и оцениваем ценность идеи
С самого начала следите за метриками: токены, запросы, рубли.
Оптимизируйте API: батчевая обработка, замена моделей, кэш, сокращение токенов и т.д.
Отслеживайте границу масштаба: OPEX API приближается к стоимости кластера? — пора считать варианты on-prem или облако.
Переход к собственному решению: помните, что затраты не исчезают, а перераспределяются: вы больше не платите за модели и токены, но нужно больше вложений в людей и инфраструктуру. Переход требует дополнительных инвестиций, изменения процессов и новых компетенций. Однако при длительной эксплуатации и крупном объёме окупится.