efreelancer20 июн в 10:46

Почём нынче токен для народа?

Средний

5 мин

11K

Машинное обучение * Искусственный интеллектИсследования и прогнозы в IT *

Аналитика

Комментарии 11

morginalium8 20 июн в 11:43

А почему именно 5 лет? Общий стандарт или догадки?
Ты считал с batch=1? Вроде как в том-же neuraldeep.ru довольно большой батч и несколько одновременных запросов, потому кол-во токенов в секунду в общем больше. А значит, и цена ниже?
Недавно на хабре вышла похожая статья - https://habr.com/ru/articles/1035446/. Там автор считает стоимость 1М токенов через размер модели, стоимость аренды (куда уже заложено электричество, амортизация и маржа) и MFU (Model FLOPS Utilization). Пробовал перенести свои цифры с домашнего расчета на более промышленную формулу? Есть ли вообще смысл в таком переносе?

efreelancer 20 июн в 12:07

Привет!

В разных нормативных документах обычно от 3 до 10 лет, взял 5 лет для удобства, но можно подставить любое значение, эффект на финальную цену линейный.
Да, считал для batch=1 в синхронном режиме, но по факту на серваках у нас там batch=8 и чем больше запросов тем выше скорость, всё верно, просто я выбрла batch=1 для удоства расчёта.
Пост ранее не читал, но прочёл, вижу что мысли автора очень похожи на мои, формула похожа, пересчитал по ней получилось примерно от 28 до 66 рублей за 1m токенов на gpt-oss-120b, но у меня это self-hosted модельки на своих серверах, поэтому стоимость в случае описанном у меня скорее про стоимость электричества.

anshdo 20 июн в 19:18

Ну вроде как есть уже некоторая статистика на сей счет, что видеокарты в дата-центрах на обучении живут 1-3 года, на инференсе 5-6 лет в среднем. Ссылки лень сейчас искать.

Nikita-prog-art 21 июн в 11:41

Думаю cache read/write может поменять что-то в цене

efreelancer 21 июн в 12:21

Скорее всего так оно и будет, не зря у крупных вендоров cache hit идёт по отдельному ценнику.

MountainGoat 21 июн в 12:25

"По отдельному ценнику", это мягко сказано.

1M INPUT TOKENS (CACHE HIT) $0.0028 $0.003625
1M INPUT TOKENS (CACHE MISS) $0.14 $0.435

Когда некоторые перекупы кэширование клиенту не предоставляют - это былинное кидалово.

ngelik 21 июн в 13:01

Все большие западные тек компании используют InferenceX бенчмарк от SemiAnalisys.

Если посмотрите туда внимательно, то становиться понятно, что даже при текущих ценах как на OpenRouter , провайдеры остаются в очень большом плюсе если используют последние поколения GPU железа от Nvidia или AMD, которое рвет в клочья по эффективности любую настольную видеокарту из поколений 4ххх, 5ххх и даже 6хххх

ngelik 21 июн в 13:12

Грубо говоря, если у inference-провайдера нет оборудования уровня NVIDIA GB300 или B300, то все эти полуподвальные inference-хостинги на потребительских видеокартах по определению не смогут конкурировать по цене. Экономика здесь определяется не только стоимостью железа, но и его эффективностью: современные ускорители вроде GB300 обеспечивают существенно более высокую производительность и лучшую энергоэффективность на единицу инференса, что даёт крупным игрокам структурное преимущество по себестоимости.

efreelancer 22 июн в 08:56

Согласен, я тут намедни посчитал стоимость запуска kimi k2.7 на сервере h200, b100 и b300, не смотря на заоблачную цену сервера b300 цена 1м токено у него по моей формуле ниже чем на b100 и h200.

edisson_89 8 июл в 05:46

Цены OpenRouter ниже вашей амортизации это не про эффективное железо, это про инвесторские деньги, которые однажды кончатся и токен резко подорожает.

efreelancer 8 июл в 07:23

Всё верно, именно об этом я и написал:

Из этой таблицы можно сделать предположение, что поставщики OpenRouter либо используют более эффективное железо, либо каким-то образом субсидируют разницу

Плюс нюансик, OR это посредник, они берут 5% сверху коммиссии за токены, а сами по сути модели не поставляют, только проксируют до поставщиков.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий