Контекст
AI может помочь снизить затраты, ускорить процессы или увеличить выручку. Однако, чтобы экономика проекта сходилась, нужно не только уметь качественно оценивать потенциальный эффект, но и уметь контролировать затраты.
Цель статьи — показать, как минимизировать расходы на AI-проект.
Дисклеймер: Рынок GenAI очень динамичен, и цены могут быстро меняться. Цены актуальны на момент написания (середина 2025 года) и могут измениться. Для простоты ограничимся только ценами на LLM.
Подходы к развертыванию AI продукта
Существует два основных способа:
Собственное решение — используете open-source модели и запускаете их на собственной или арендованной инфраструктуре.
Модель как сервис (Model-as-Service) — когда вы подключаетесь к готовой модели через API и платите за объем использования.
Вариант 1: Собственное решение
Стоимость, в основном, складывается из стоимости инфраструктуры и ФОТ.
Собственная инфраструктура:
GPU-сервер для инференса моделей средних размеров: ~1-1.2 млн руб.
Высокие начальные затраты, но с учетом амортизации, если взять срок службы в 5 лет, то стоимость сервера — 16 667 - 20 000 руб./мес.
Альтернатива — облако:
Yandex Cloud: ~ 430 тыс. руб./мес.
Google Cloud (g2-standard-24): ~ 131 тыс. руб./мес. при курсе 90 руб. за доллар.
Sber Cloud: ~345 тыс. руб./мес.
Цены без учета трафика, который тоже тарифицируется, так что это минимальная стоимость облачной инфраструктуры.
Команда:
AI Engineer (Senior): 520 000 руб
0.5 Admin (Senior): 208 000 руб.
Выше учтены: зарплата (данные Sense group), налоги и взносы за сотрудника компанией.
Общая стоимость = ФОТ + инфраструктура:
Собственная инфра: ~ 744 тыс. руб./мес.
Google: ~ 859 тыс. руб./мес.
Yandex: ~ 1.13 млн руб./мес.
Sber: ~ 1.07 млн руб./мес.
Способы оптимизации стоимости:
Уменьшение моделей, а следовательно, и требований к инфраструктуре. Это делается либо через подбор более легкой модели, либо уменьшения выбранной (квантизация, обрезка модели)
Для облака - FinOps оптимизации, долгосрочные контракты и скидки от провайдера
Когда подходит своя инфраструктура
Уже есть своя IT-команда и инфраструктура
Важно хранить данные внутри контура, есть персональные или чувствительные данные
Планируется долгосрочная эксплуатация
Подходит на объеме, одного сервера мало для обеспечения стабильности и отказоусточивости
Когда подходит облако
Нет собственной большой IT-команды или нет ресурсов обеспечить высокие SLA
Нужно гибко и быстро масштабировать сервис в зависимости от нагрузки
Защиту данных тоже можно обеспечить
Вариант 2: Модель как сервис (API)
Цена зависит от количества запросов, выбранной модели, количества токенов (слов, частей слов) в запросе и ответе.
Ниже для каждого провайдера приведены диапазоны цен актуальных моделей от дешевой к дорогой. Для западных моделей цены переведены по курсу 90 руб. Для простоты сравнения все цены приведены к единым размерам - 1000 входящих + 1000 исходящих токенов.
Модель | Компания | Вход 1000 токенов, руб | Выход 1000 токенов, руб | Запрос 1000+1000, руб |
GPT-4.1 nano | 0,009 | 0,036 | 0,045 | |
o3 | 0,18 | 0,72 | 0,90 | |
Haiku 3.5 | 0,072 | 0,36 | 0,432 | |
Opus 4 | 1,35 | 6,75 | 8,10 | |
Gemini 2.5 Flash | 0,027 | 0,225 | 0,252 | |
Gemini 2.5 Pro | 0,225 | 1,35 | 1,575 | |
GigaChat Lite | 0,2 | 0,2 | 0,4 | |
GigaChat Max | 1,95 | 1,95 | 3,9 | |
YandexGPT Lite | 0,2 | 0,2 | 0,4 | |
YandexGPT Pro | 1,2 | 1,2 | 2,4 |
Давайте зафиксируем количество токенов на запрос и посчитаем сколько будет стоить API в месяц в зависимости от количества запросов в день. Сравним полученный результат со стоимостью собственного сервера.


Таким образом, цена на API сильно варьируется:
При увеличении количества запросов цена растет линейно
При увеличении количества входных токенов, скажем в 10 раз, цена вырастет в 2.5-3 раза на запрос.
Если увеличить выход, также в 10 раз, цена вырастет в примерно 8.2 раза на запрос.
Цена моделей также может отличаться в 6 - 20 раз в рамках одной компании, а также сильно варьироваться между провайдерами моделей.
Команда:
Так как модель уже сделана, нужно просто интегрировать API и написать промпт, то можно существенно сэкономить на команде.
Backend разработчик (0.2 ставки): 93 600 руб./мес.
Выше учтены: зарплата (данные Sense group), налоги и взносы за сотрудника компанией.
Общая стоимость = ФОТ + API:
При объемах в 2000 токенов на запрос и 5000 запросов в день - использование модели по API дешевле собственного сервера, даже при использовании топовых моделей.
Gemini 2.5 Pro: 236 250 руб./мес + 93 600 = 329 850 руб./мес.
YandexGPT Pro: 360 000 + 93 600 = 453 600 руб./мес.
GigaChat Max: 585 000 + 93 600 = 678 600 руб./мес
Однако при росте входного контекста, запросов или выхода моделей - цена быстро переходит порог.
Способы оптимизации стоимости
Подбор более дешевых моделей
Инженерия промптов — писать коротко
Кэширование контекста и идентичных запросов
Асинхронная/пакетная обработка — дешевле
Ограничение выходной части, где это возможно, генерация выходной последовательности - сильно дороже.
Также при наличии в команде AI/ML инженера можно дообучить модель под задачу — снижает количество токенов на входе, а также использовать алгоритмы сжатия промптов.
Когда подходит
Дешевле при маленьких объемах - количество запросов и токенов
Нужно быстро протестировать гипотезу (MVP)
У компании нет своей AI-команды
Важна скорость вывода на рынок
Фреймворк управления затратами
Подобьем резюме, как принимать решение и управлять костами:
Нужна быстрая проверка гипотез? -> берём API и оцениваем ценность идеи
С самого начала следите за метриками: токены, запросы, рубли.
Оптимизируйте API: батчевая обработка, замена моделей, кэш, сокращение токенов и т.д.
Отслеживайте границу масштаба: OPEX API приближается к стоимости кластера? — пора считать варианты on-prem или облако.
Переход к собственному решению: помните, что затраты не исчезают, а перераспределяются: вы больше не платите за модели и токены, но нужно больше вложений в людей и инфраструктуру. Переход требует дополнительных инвестиций, изменения процессов и новых компетенций. Однако при длительной эксплуатации и крупном объёме окупится.