
Комментарии 7
А почему именно 5 лет? Общий стандарт или догадки?
Ты считал с batch=1? Вроде как в том-же neuraldeep.ru довольно большой батч и несколько одновременных запросов, потому кол-во токенов в секунду в общем больше. А значит, и цена ниже?
Недавно на хабре вышла похожая статья - https://habr.com/ru/articles/1035446/. Там автор считает стоимость 1М токенов через размер модели, стоимость аренды (куда уже заложено электричество, амортизация и маржа) и MFU (Model FLOPS Utilization). Пробовал перенести свои цифры с домашнего расчета на более промышленную формулу? Есть ли вообще смысл в таком переносе?
Привет!
В разных нормативных документах обычно от 3 до 10 лет, взял 5 лет для удобства, но можно подставить любое значение, эффект на финальную цену линейный.
Да, считал для batch=1 в синхронном режиме, но по факту на серваках у нас там batch=8 и чем больше запросов тем выше скорость, всё верно, просто я выбрла batch=1 для удоства расчёта.
Пост ранее не читал, но прочёл, вижу что мысли автора очень похожи на мои, формула похожа, пересчитал по ней получилось примерно от 28 до 66 рублей за 1m токенов на gpt-oss-120b, но у меня это self-hosted модельки на своих серверах, поэтому стоимость в случае описанном у меня скорее про стоимость электричества.
Ну вроде как есть уже некоторая статистика на сей счет, что видеокарты в дата-центрах на обучении живут 1-3 года, на инференсе 5-6 лет в среднем. Ссылки лень сейчас искать.
Думаю cache read/write может поменять что-то в цене
Скорее всего так оно и будет, не зря у крупных вендоров cache hit идёт по отдельному ценнику.
Все большие западные тек компании используют InferenceX бенчмарк от SemiAnalisys.
Если посмотрите туда внимательно, то становиться понятно, что даже при текущих ценах как на OpenRouter , провайдеры остаются в очень большом плюсе если используют последние поколения GPU железа от Nvidia или AMD, которое рвет в клочья по эффективности любую настольную видеокарту из поколений 4ххх, 5ххх и даже 6хххх
Почём нынче токен для народа?