datamafia23 апр в 06:10

Конец эпохи халявного ИИ или когда подписки станут стоить как аренда квартиры

Простой

3 мин

7.1K

Искусственный интеллект

Мнение

Перевод

Комментарии 19

panzerfaust 23 апр в 06:31

Для кого-то внезапно зима наступает в декабре. А для кого-то внезапно на рынке начинают действовать законы рынка.

shovdmi 23 апр в 06:47

Все рассуждения в статье из расчета что цена 1 токена убыточна для Anthropic. Но что если это не так и цена в разы завышена?

Если подписка за $1000 в месяц заменяет часть работы младшего разработчика

Заменяет или нет, ещё нет четкого ответа ни со стороны бизнеса ни со стороны разработчиков

DooKoo2 23 апр в 07:41

На самом деле если заморочиться можно прикинуть "плюс-минус локоть" по стоимости инференса для Claude. Используемые ими ускорители известны, скорость инференса одного ускорителя можно прикинуть через vast.ai запустив локально относительно большую модель и экстраполировав данные, сколько жрет токенов за 1 агентскую сессию ну тоже +/- понятно, количество пользователей - вроде есть статистика, энергопотребление ускорителя также есть в спеках.
Ну то есть очень-очень приблизительно можно прикинуть.

akod67 23 апр в 08:32

Какой джун напишет с нуля за неделю CRMку с парой десятков крудов, генерацией доков, аналитикой, CI и мониторингом и красивым дизайном? Никакой. Личный опыт.

Annsky 23 апр в 06:50

И все дружно запустят китайские модели или локальный inference. Потому что купить mac mini M4 это 500$. И запустить на нем что-то адекватное - уже реально. Qwen 3.6/Gemma 4.

Рынок может быть и поднимет тарифы в разы - только деньги инвесторов тогда сгорят в простаивающих дата центрах. Они копают себе яму.

Упрощая мою мысль - это фронтиры убыточны, а не AI. Это 100b+ модели убыточны, а не AI.

positroid 23 апр в 07:20

С посылом согласен, с чем-то адекватным на mac за $500 (да даже на Pro за $3к) - нет. Если считать адекватным хоть какой то похожий на осмысленный текст ответ - это можно и на мобилке запустить.

Чтобы получить приемлемое качество с приемлемой скоростью и контекстом хотя бы в 128к токенов - нужны совсем другие ресурсы. Для супер лайтовых задач или задач, не требующих контекста - сгодится. Для нормальных задач - нет.

P.S. да и не убыточны ни фронтиры ни другой инференс облачных моделей, у OpenAi маржа в иксах от себестоимости. Убыточны исследования и обучение новых моделей.

DaneSoul 23 апр в 08:10

Чтобы получить приемлемое качество с приемлемой скоростью и контекстом хотя бы в 128к токенов - нужны совсем другие ресурсы.

С другой стороны, если ИИ компании начнут через чур задирать цену, то такие ресурсы можно взять в аренду у их конкурентов - аренда сервера / облака с GPU давно доступна у многих крупных хостинговых компаний.

x4team_only 23 апр в 08:58

Привет. Вроде бы эта железка может выдавать 5-10т/c на пике контекста > 100k для moe моделей, к примеру qwen3.6-35b. При старте минимального контекста > 50 т/с

positroid 23 апр в 11:58

Да, есть и железо и модели открытые, благо не все сосредоточено в проприетарщине.

Но тут совсем не 500$ за железо и модель сильно отстающая от "топа". В топ 50 есть куча опенсорса, но там либо ~300b moe, либо ~30b dense модели, даже на таком железе их использовать будет больно.

Я это в целом к чему - предел повышения цен и урезания лимитов на подписки еще очень далеко от того, чтобы экономически целесообразнее было свою ферму собирать. И я очень сомневаюсь, что этот предел будет преодолен (правда, отчасти из-за роста цен на железо).

MAT-POC 23 апр в 21:32

5-10 т/с- очень мало, необходимо 40-50 т/с. qwen3.6-35b их выдаёт даёт RTX3090 24Gb -купленная у майнеров, вставленная в любой офисный ПК. Скорость проца и память не играют роли на фоне видеокарты. У МоЕ моделей есть возможность загружать в VRAM только голову MoE-LLM, а остальное хранить в памяти. тоже даёт 40-50 т./с. + видеокарты можно разогнать на 5-20%

Annsky 23 апр в 10:05

Я просто переключаюсь между MiniMax 2.7 highspeed, Mistral, Qwen 3.5 9b, (вот тут внимательно, Qwen! 3.5! 9b!!!), Kimi 2.6 max и все модели все делают хорошо. Я чувствую разницу только на очень сложных задачах. Вы считаете Qwen 3.5 9b / Gemma 4 неадекватным, но мой опыт с вами не согласен. Все решают хорошие настройки. Я даже из Qwen 4b выжимала отличную работу по программированию, вот так.

Почему я вообще продолжаю говорить на эту тему, а не покупаю себе 4090 чтобы радоваться скорости и уму модели?

Я сопереживаю разработчикам, у которых есть деньги ровно на Mac Mini M4. Им - придется выкручиваться.

DooKoo2 23 апр в 07:52

Если прикинуть какой-то базис для замера, например "условный интеллект на параметр" то мы еще далеко от насыщения. Мы видим что год к году модели с одинаковым количеством параметров "умнеют".

Так что будущее это не только frontier в облаках, а локальный инференс. И я бы даже поставил локальный инференс выше в приоритетах развития ИИ, чем облачные гиганты.

Потому:

Frontier облака - будут дорожать 100%. На сколько - вопрос, но агенты жрут миллионы и меньше их не становится, OpenClaw/Claude code/Codex - с каждым днем пользователей все больше, токенов улетает триллионы. Так что ценники скакнут в разы.
Local LLM - будет все популярнее, прознозирую также ПЛАТНЫЕ модели для локального инференса, то есть не OpenSource Huggingface модели, а именно "заплати 10 баксов - получишь веса" условной Qwen5.
Развитие Edge AI в носимых устройствах через ternary LLM.

Сам потихоньку перехожу на локальный инференс, Qwen3.6-31b-a3b через QwenCode работает неплохо. Купил себе GPU даже на 24GB VRAM.

MAT-POC 23 апр в 21:27

нафиг этот мак. Будьте проще обычный офисный AMD Razan 7/9 +32/64GB RAM + RTX3090/4090 -24Gb - это новый стандарт, будет теперь в каждой компании вместе с сервером 1C.

Annsky 25 апр в 06:27

Дороже, шумит, греется, износ видеокарты.

Bardakan 24 апр в 20:28

там скорость будет никакая в сравнении с видеокартами

Annsky 25 апр в 06:28

Наоборот, там unified memory на 16gb с видеокартой. Это не CPU - это GPU подход.

Bardakan 25 апр в 15:44

а с чего вы это решили, что cpu+unified memory будет работать наравне с дискретными видеокартами? Не верите мне - посмотрите тесты в интернете.

flancer 23 апр в 08:32

Сжигать агентом миллиарды токенов по простому запросу “А ну-ка переведи мне этот legacy код на современные рельсы” немудрено. И это нормально, что за такую работу Компании будут драть деньги. Но им самим выгодно стимулировать тех, кто сможет выжимать максимум из “лёгких” моделей.

Так что, нам всем лучше уже прямо сейчас начать привыкать запускать своих агентов в мини-режиме и искать пути их оптимального использования на малых рабочих контекстах.

gaal_dev 28 апр в 12:03

Ну и что. Абсолютно фиолетово - погромисты будут писать как всегда это делали - без LLM

Зарегистрируйтесь на Хабре, чтобы оставить комментарий