Если прикинуть какой-то базис для замера, например "условный интеллект на параметр" то мы еще далеко от насыщения. Мы видим что год к году модели с одинаковым количеством параметров "умнеют".
Так что будущее это не только frontier в облаках, а локальный инференс. И я бы даже поставил локальный инференс выше в приоритетах развития ИИ, чем облачные гиганты.
Потому:
Frontier облака - будут дорожать 100%. На сколько - вопрос, но агенты жрут миллионы и меньше их не становится, OpenClaw/Claude code/Codex - с каждым днем пользователей все больше, токенов улетает триллионы. Так что ценники скакнут в разы.
Local LLM - будет все популярнее, прознозирую также ПЛАТНЫЕ модели для локального инференса, то есть не OpenSource Huggingface модели, а именно "заплати 10 баксов - получишь веса" условной Qwen5.
Развитие Edge AI в носимых устройствах через ternary LLM.
Сам потихоньку перехожу на локальный инференс, Qwen3.6-31b-a3b через QwenCode работает неплохо. Купил себе GPU даже на 24GB VRAM.
На самом деле если заморочиться можно прикинуть "плюс-минус локоть" по стоимости инференса для Claude. Используемые ими ускорители известны, скорость инференса одного ускорителя можно прикинуть через vast.ai запустив локально относительно большую модель и экстраполировав данные, сколько жрет токенов за 1 агентскую сессию ну тоже +/- понятно, количество пользователей - вроде есть статистика, энергопотребление ускорителя также есть в спеках. Ну то есть очень-очень приблизительно можно прикинуть.
Ты tps показал на чистом контексте, когда заполнения контекста дойдет до 50-60 тысяч токенов скорость катастрофически упадет, будет 15-20 токенов максимум.
Sum += BytesToBlock((uint8_t*)Data + Pos, Block); [cite: 89]
Это шутка чтоли? А если я поменяю пару битов в разных блоках, чтобы их итоговая разницы компенсировалась, то все? Контрольная сумма сойдется, вот тебе раз уязвимость.
Далее у тебя там пипец кривой паддинг, если у тебя пакет не кратен 16 байтам, то он добивается нулями, а если пакет заканчивается на 0 или пару нолей? Ты добьешь нулями до 16 байт, а как расшифровать? Ты PKCS#7 не используешь.
Окукливание сегмента Интернет в РФ, цель полный загон скота под капот слежки и полностью прозрачный трафик
Министерство цифровой деградации берет под козырек, внешние каналы связи как-то начинают деградировать (ну емана, фотонов стало слишком мало, они несертифицированные, оптика мутнеет, с той стороны трансиверы дохнут, DWDM путает лямбды)
Ну ка, расскажи мне про "цепи Маркова". Что знаешь, что это такое, как использовать?
Так, понятно, а напиши-ка мне вот тут математическое обоснование их работы.
Ага, понятно, а теперь давай другой домен, что ты знаешь про проект SHAterred, кто его делал, что делали? Сможешь воспроизвести код вот тут на листочке.
Ну чтоже вы, голубчик, вот тут и тут ошибка. Так, надо дополнительно проверить. Вот тебе GPU, ну ка расскажи что такое register, shared memory, local memory? Почему GDDR6x греется, а GDDR7 нет?
Так, хорошо, а расскажи что такое SPECTRE, MELTDOWN уязвимости? Как их обходят в Intel, чтобы не переделывать сам кристалл процессора?
Так, хорошо. Почему nft лучше чем iptables, в чем главное отличие?
Ну чтож, примерный спект твоих знаний понятен, ты принят. Вот бери швабру, сортиры мыть с 12 до 15, ведро возьмешь после проверки АХО, робу купишь сам.
Ну и про "уникальную технологию" зависимых дверей, которая нигде в мире больше не встречается.
Это же так удобно! Чтобы открыть пассажиру такси (а это именно такси в первую очередь) дверь, надо сначала открыть переднюю и уже потом заднюю. А если человек вообще не в курсе про эту, уникальную технологию, то тут целый веер разных вариантов такого привычного действия, как открытие дверей.
немного вбок вопрос, но если MoE использует ограниченную часть параметров для ответа на вопрос, то так-ли необходимо грузить в VRAM все веса? По мне так это очень важный аспект, ответ на который может на порядок (именно что в 10 раз, а то и больше) ускорить вычисления.
На текущий момент ответ на этот вопрос однозначен - да нужно, так как "загрузка/выгрузка" экспертов MoE занимает много времени из RAM в VRAM да через не всегда широкую PCIe шину, если мы говорим про условно-гражданские GPU.
Но уже есть много исследований на эту тему, чтобы внутренний router мог предсказывать какие эксперты будут задействованы и грузить только их.
В MoE моделях отлично работает закон парето: 20% экспертов делают 80% работы, остальные прохлаждаются.
Надо попробовать тоже так сделать, я просто через консольный Codex (через npm install поставил) и контекст он ОЧЕНЬ любит, но умеет его сам суммаризовать в процессе работы, что также очень помогает.
Вот и я по подписке Plus, и карту проекта перед работой, если новый, тоже прошу составить первым промптом. Буквально вчера, один файл, 1473 строки C++ кода, код плотный, сложный. Контекста он оставил свободного около 30% после анализа. Вот я и думаю, что маловато на «огромный проект» контекста Codex.
А вообще агент просто сумасшедший, ощущается порой как магия.
Ты в Codex всю базу целиком скармливаешь? C++ для современных токенизаторов очень сложный язык, любая скобка, спецсимвол - отдельный токен. Я к тому, что в 256k токенов контекста Codex прям обьем не влезет. Или ты через API?
Так стоп, что значит впервые? Google TPU в подах передают данные между pod как раз светом, лазером. Я недавно общался с LLM на эту тему, очень много интересного узнал:)
Если прикинуть какой-то базис для замера, например "условный интеллект на параметр" то мы еще далеко от насыщения. Мы видим что год к году модели с одинаковым количеством параметров "умнеют".
Так что будущее это не только frontier в облаках, а локальный инференс. И я бы даже поставил локальный инференс выше в приоритетах развития ИИ, чем облачные гиганты.
Потому:
Frontier облака - будут дорожать 100%. На сколько - вопрос, но агенты жрут миллионы и меньше их не становится, OpenClaw/Claude code/Codex - с каждым днем пользователей все больше, токенов улетает триллионы. Так что ценники скакнут в разы.
Local LLM - будет все популярнее, прознозирую также ПЛАТНЫЕ модели для локального инференса, то есть не OpenSource Huggingface модели, а именно "заплати 10 баксов - получишь веса" условной Qwen5.
Развитие Edge AI в носимых устройствах через ternary LLM.
Сам потихоньку перехожу на локальный инференс, Qwen3.6-31b-a3b через QwenCode работает неплохо. Купил себе GPU даже на 24GB VRAM.
На самом деле если заморочиться можно прикинуть "плюс-минус локоть" по стоимости инференса для Claude. Используемые ими ускорители известны, скорость инференса одного ускорителя можно прикинуть через vast.ai запустив локально относительно большую модель и экстраполировав данные, сколько жрет токенов за 1 агентскую сессию ну тоже +/- понятно, количество пользователей - вроде есть статистика, энергопотребление ускорителя также есть в спеках.
Ну то есть очень-очень приблизительно можно прикинуть.
Ты tps показал на чистом контексте, когда заполнения контекста дойдет до 50-60 тысяч токенов скорость катастрофически упадет, будет 15-20 токенов максимум.
Это шутка чтоли? А если я поменяю пару битов в разных блоках, чтобы их итоговая разницы компенсировалась, то все? Контрольная сумма сойдется, вот тебе раз уязвимость.
Далее у тебя там пипец кривой паддинг, если у тебя пакет не кратен 16 байтам, то он добивается нулями, а если пакет заканчивается на 0 или пару нолей? Ты добьешь нулями до 16 байт, а как расшифровать? Ты PKCS#7 не используешь.
Еще года 3-4 и привет Чебурнет! Все к тому идет.
Ограничение западных сервисов
Ограничение VPN
Окукливание сегмента Интернет в РФ, цель полный загон скота под капот слежки и полностью прозрачный трафик
Министерство цифровой деградации берет под козырек, внешние каналы связи как-то начинают деградировать (ну емана, фотонов стало слишком мало, они несертифицированные, оптика мутнеет, с той стороны трансиверы дохнут, DWDM путает лямбды)
Шалом Чебурнет! Тебя я видел в мечтах.
Если тебе дверь Федор снесет молодецким ударом (ну потому что шаговые двигатели так настроили), то ты сам ему свои продукты отдашь:)
Ну ка, расскажи мне про "цепи Маркова". Что знаешь, что это такое, как использовать?
Так, понятно, а напиши-ка мне вот тут математическое обоснование их работы.
Ага, понятно, а теперь давай другой домен, что ты знаешь про проект SHAterred, кто его делал, что делали? Сможешь воспроизвести код вот тут на листочке.
Ну чтоже вы, голубчик, вот тут и тут ошибка. Так, надо дополнительно проверить. Вот тебе GPU, ну ка расскажи что такое register, shared memory, local memory? Почему GDDR6x греется, а GDDR7 нет?
Так, хорошо, а расскажи что такое SPECTRE, MELTDOWN уязвимости? Как их обходят в Intel, чтобы не переделывать сам кристалл процессора?
Так, хорошо. Почему nft лучше чем iptables, в чем главное отличие?
Ну чтож, примерный спект твоих знаний понятен, ты принят. Вот бери швабру, сортиры мыть с 12 до 15, ведро возьмешь после проверки АХО, робу купишь сам.
системный промпт </no think>
Молодцы конечно, нет, правда молодцы. Но про 4G/5G в статье ни слова. Настораживает, не так ли?
Ну да, он есть, но вот недавно «сломался», пока новый релиз не выкатили. Теперь опять работает нормально.
Ты чего наделал!:) Я сам пишу себе такого агента, Омни, который делает точь в точь, что ты описал.
И в тоже время, огромное спасибо!
Уж тебе ли про лимиты говорить, OpenClaw юзер. Это поделие сожрет миллион токенов и не подавится даже, stateless чудовище)
Уж я лучше по старинке, через Codex приснопамятный.
Как? Там ФАР, она сама выбирает азимут куда светить (на спутник). Это не wi-fi ведь, который в 90% случаев светит "куполом".
Новояз шагает по России. Не «незаконная блокировка под надуманным предлогом», а «сетевой сбой».
Тогда уже не «сетевой сбой» пишите, а «выросла отрицательная доступность»!
Ну и про "уникальную технологию" зависимых дверей, которая нигде в мире больше не встречается.
Это же так удобно! Чтобы открыть пассажиру такси (а это именно такси в первую очередь) дверь, надо сначала открыть переднюю и уже потом заднюю. А если человек вообще не в курсе про эту, уникальную технологию, то тут целый веер разных вариантов такого привычного действия, как открытие дверей.
немного вбок вопрос, но если MoE использует ограниченную часть параметров для ответа на вопрос, то так-ли необходимо грузить в VRAM все веса? По мне так это очень важный аспект, ответ на который может на порядок (именно что в 10 раз, а то и больше) ускорить вычисления.
На текущий момент ответ на этот вопрос однозначен - да нужно, так как "загрузка/выгрузка" экспертов MoE занимает много времени из RAM в VRAM да через не всегда широкую PCIe шину, если мы говорим про условно-гражданские GPU.
Но уже есть много исследований на эту тему, чтобы внутренний router мог предсказывать какие эксперты будут задействованы и грузить только их.
В MoE моделях отлично работает закон парето: 20% экспертов делают 80% работы, остальные прохлаждаются.
Надо попробовать тоже так сделать, я просто через консольный Codex (через npm install поставил) и контекст он ОЧЕНЬ любит, но умеет его сам суммаризовать в процессе работы, что также очень помогает.
Вот и я по подписке Plus, и карту проекта перед работой, если новый, тоже прошу составить первым промптом. Буквально вчера, один файл, 1473 строки C++ кода, код плотный, сложный. Контекста он оставил свободного около 30% после анализа. Вот я и думаю, что маловато на «огромный проект» контекста Codex.
А вообще агент просто сумасшедший, ощущается порой как магия.
Ты в Codex всю базу целиком скармливаешь? C++ для современных токенизаторов очень сложный язык, любая скобка, спецсимвол - отдельный токен. Я к тому, что в 256k токенов контекста Codex прям обьем не влезет. Или ты через API?
Так стоп, что значит впервые? Google TPU в подах передают данные между pod как раз светом, лазером. Я недавно общался с LLM на эту тему, очень много интересного узнал:)