Комментарии / Профиль DooKoo2 / Хабр

@DooKoo2

Пользователь

0,3

Рейтинг

Подписчики

ПрофильСтатьиПостыНовостиКомментарии87

Конец эпохи халявного ИИ или когда подписки станут стоить как аренда квартиры

DooKoo2 23 апр в 07:52

Если прикинуть какой-то базис для замера, например "условный интеллект на параметр" то мы еще далеко от насыщения. Мы видим что год к году модели с одинаковым количеством параметров "умнеют".

Так что будущее это не только frontier в облаках, а локальный инференс. И я бы даже поставил локальный инференс выше в приоритетах развития ИИ, чем облачные гиганты.

Потому:

Frontier облака - будут дорожать 100%. На сколько - вопрос, но агенты жрут миллионы и меньше их не становится, OpenClaw/Claude code/Codex - с каждым днем пользователей все больше, токенов улетает триллионы. Так что ценники скакнут в разы.
Local LLM - будет все популярнее, прознозирую также ПЛАТНЫЕ модели для локального инференса, то есть не OpenSource Huggingface модели, а именно "заплати 10 баксов - получишь веса" условной Qwen5.
Развитие Edge AI в носимых устройствах через ternary LLM.

Сам потихоньку перехожу на локальный инференс, Qwen3.6-31b-a3b через QwenCode работает неплохо. Купил себе GPU даже на 24GB VRAM.

Конец эпохи халявного ИИ или когда подписки станут стоить как аренда квартиры

DooKoo2 23 апр в 07:41

На самом деле если заморочиться можно прикинуть "плюс-минус локоть" по стоимости инференса для Claude. Используемые ими ускорители известны, скорость инференса одного ускорителя можно прикинуть через vast.ai запустив локально относительно большую модель и экстраполировав данные, сколько жрет токенов за 1 агентскую сессию ну тоже +/- понятно, количество пользователей - вроде есть статистика, энергопотребление ускорителя также есть в спеках.
Ну то есть очень-очень приблизительно можно прикинуть.

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

DooKoo2 22 апр в 10:49

Ты tps показал на чистом контексте, когда заполнения контекста дойдет до 50-60 тысяч токенов скорость катастрофически упадет, будет 15-20 токенов максимум.

Личный опыт: Два собственных блочных шифра (описание и код на C++)

DooKoo2 22 апр в 10:27

Sum += BytesToBlock((uint8_t*)Data + Pos, Block); [cite: 89]

Это шутка чтоли? А если я поменяю пару битов в разных блоках, чтобы их итоговая разницы компенсировалась, то все? Контрольная сумма сойдется, вот тебе раз уязвимость.

Далее у тебя там пипец кривой паддинг, если у тебя пакет не кратен 16 байтам, то он добивается нулями, а если пакет заканчивается на 0 или пару нолей? Ты добьешь нулями до 16 байт, а как расшифровать? Ты PKCS#7 не используешь.

СМИ: около 20 компаний, владеющих зарубежными каналами связи в РФ, подписали мораторий на их расширение

DooKoo2 16 апр в 08:14

Еще года 3-4 и привет Чебурнет! Все к тому идет.

Ограничение западных сервисов

Ограничение VPN

Окукливание сегмента Интернет в РФ, цель полный загон скота под капот слежки и полностью прозрачный трафик

Министерство цифровой деградации берет под козырек, внешние каналы связи как-то начинают деградировать (ну емана, фотонов стало слишком мало, они несертифицированные, оптика мутнеет, с той стороны трансиверы дохнут, DWDM путает лямбды)

Шалом Чебурнет! Тебя я видел в мечтах.

+11

В Москве в 2026 году начнут испытания человекоподобного робота-курьера «Аркус»

DooKoo2 16 апр в 08:00

Если тебе дверь Федор снесет молодецким ударом (ну потому что шаговые двигатели так настроили), то ты сам ему свои продукты отдашь:)

Что российский рынок труда хочет от тебя в 2026 году: анализ более 100 тысяч вакансий hh.ru за первый квартал

DooKoo2 15 апр в 09:15

Ну ка, расскажи мне про "цепи Маркова". Что знаешь, что это такое, как использовать?

Так, понятно, а напиши-ка мне вот тут математическое обоснование их работы.

Ага, понятно, а теперь давай другой домен, что ты знаешь про проект SHAterred, кто его делал, что делали? Сможешь воспроизвести код вот тут на листочке.

Ну чтоже вы, голубчик, вот тут и тут ошибка. Так, надо дополнительно проверить. Вот тебе GPU, ну ка расскажи что такое register, shared memory, local memory? Почему GDDR6x греется, а GDDR7 нет?

Так, хорошо, а расскажи что такое SPECTRE, MELTDOWN уязвимости? Как их обходят в Intel, чтобы не переделывать сам кристалл процессора?

Так, хорошо. Почему nft лучше чем iptables, в чем главное отличие?

Ну чтож, примерный спект твоих знаний понятен, ты принят. Вот бери швабру, сортиры мыть с 12 до 15, ведро возьмешь после проверки АХО, робу купишь сам.

Как отключить reasoning у локального DeepSeek-R1 и не сойти...

DooKoo2 15 апр в 09:05

системный промпт </no think>

Операторы «большой четвёрки» установят 8,6 тысячи российских базовых станций к 2027 году

DooKoo2 7 апр в 18:25

Молодцы конечно, нет, правда молодцы. Но про 4G/5G в статье ни слова. Настораживает, не так ли?

Топ локальных нейросетей 2026: полный суверенитет без интернета

DooKoo2 5 апр в 19:40

Ну да, он есть, но вот недавно «сломался», пока новый релиз не выкатили. Теперь опять работает нормально.

Ботинок — локальный консольный AI-агент для тех, у кого мало VRAM

DooKoo2 27 мар в 18:02

Ты чего наделал!:) Я сам пишу себе такого агента, Омни, который делает точь в точь, что ты описал.

И в тоже время, огромное спасибо!

Anthropic урезает лимиты Claude в пиковые часы — это затронет 7% подписчиков Pro

DooKoo2 27 мар в 11:52

Уж тебе ли про лимиты говорить, OpenClaw юзер. Это поделие сожрет миллион токенов и не подавится даже, stateless чудовище)

Уж я лучше по старинке, через Codex приснопамятный.

Минцифры планирует увеличить пропускную способность ТСПУ до 954 Тбит/с к 2030 году

DooKoo2 25 мар в 08:38

Как? Там ФАР, она сама выбирает азимут куда светить (на спутник). Это не wi-fi ведь, который в 90% случаев светит "куполом".

20 марта: значительно усилился сетевой сбой в работе Telegram в РФ

DooKoo2 20 мар в 05:33

Новояз шагает по России. Не «незаконная блокировка под надуманным предлогом», а «сетевой сбой».

Тогда уже не «сетевой сбой» пишите, а «выросла отрицательная доступность»!

+48

Электромобиль Атом: реальный опыт эксплуатации — от столичных пробок до суровых морозов

DooKoo2 19 мар в 12:32

Ну и про "уникальную технологию" зависимых дверей, которая нигде в мире больше не встречается.

Это же так удобно! Чтобы открыть пассажиру такси (а это именно такси в первую очередь) дверь, надо сначала открыть переднюю и уже потом заднюю. А если человек вообще не в курсе про эту, уникальную технологию, то тут целый веер разных вариантов такого привычного действия, как открытие дверей.

+12

Как работает трансформер (LLM)

DooKoo2 19 мар в 10:28

немного вбок вопрос, но если MoE использует ограниченную часть параметров для ответа на вопрос, то так-ли необходимо грузить в VRAM все веса? По мне так это очень важный аспект, ответ на который может на порядок (именно что в 10 раз, а то и больше) ускорить вычисления.

На текущий момент ответ на этот вопрос однозначен - да нужно, так как "загрузка/выгрузка" экспертов MoE занимает много времени из RAM в VRAM да через не всегда широкую PCIe шину, если мы говорим про условно-гражданские GPU.

Но уже есть много исследований на эту тему, чтобы внутренний router мог предсказывать какие эксперты будут задействованы и грузить только их.

В MoE моделях отлично работает закон парето: 20% экспертов делают 80% работы, остальные прохлаждаются.

ChatGPT 5.4 Pro: обзор, бенчмарки, сравнение

DooKoo2 17 мар в 11:48

Надо попробовать тоже так сделать, я просто через консольный Codex (через npm install поставил) и контекст он ОЧЕНЬ любит, но умеет его сам суммаризовать в процессе работы, что также очень помогает.

ChatGPT 5.4 Pro: обзор, бенчмарки, сравнение

DooKoo2 17 мар в 11:40

Вот и я по подписке Plus, и карту проекта перед работой, если новый, тоже прошу составить первым промптом. Буквально вчера, один файл, 1473 строки C++ кода, код плотный, сложный. Контекста он оставил свободного около 30% после анализа. Вот я и думаю, что маловато на «огромный проект» контекста Codex.

А вообще агент просто сумасшедший, ощущается порой как магия.

ChatGPT 5.4 Pro: обзор, бенчмарки, сравнение

DooKoo2 17 мар в 05:09

Ты в Codex всю базу целиком скармливаешь? C++ для современных токенизаторов очень сложный язык, любая скобка, спецсимвол - отдельный токен. Я к тому, что в 256k токенов контекста Codex прям обьем не влезет. Или ты через API?

Nvidia прогнозирует до $1 трлн заказов на Vera Rubin — и уже анонсирует Feynman с кремниевой фотоникой

DooKoo2 17 мар в 05:05

Так стоп, что значит впервые? Google TPU в подах передают данные между pod как раз светом, лазером. Я недавно общался с LLM на эту тему, очень много интересного узнал:)

-1

2 3 4 5

Информация

Специализация