1. Про открытые модели и почему мы используем их как пример 2. Из чего складывается цена токена 3. Про Dense и MoE архитектуры 4. Как считается attention и активные параметры 5. Total ≠ active: тренд на MoE архитектуру 6. Почему output-токены дороже input 7. Reasoning-токены как невидимый output, за который тоже приходится платить 8. Context Window и KV-cache — почему длинный контекст дорогой 9. Как посчитать вес одного токена и из чего он складывается 10. В чем разница между KV-cache и prompt caching 11. За счет чего фронтир модели стоят в разы дороже 12. Почему дорогая модель чаще всего реально «умнее» 13. Как всё это итого собирается в 5-часовой лимит
14. И как бонус — сортировка open-weight моделей по active и total
Стало возможно сэкономит до 60% токенов при использовании нейросети Fable 5 — представлен способ доработать ИИ-систему и платить Anthropic в разы меньше.
Инструмент pxpipe берёт полотна промтов и превращает их в картинку. При считывании изображений платить приходится за каждый обработанный пиксель, а не за буквы на нём, благодаря чему метод куда выгоднее. В демо автору удалось выполнить ту же задачу, что и обычным промтом, но в 7 раз дешевле: за $6 против $42. При этом Fable идеально считывает текст на картинках, несмотря на сжатие. В 39 протестированных картинках нейронка Anthropic безошибочно поняла весь промт.
Ранее разработчики обратились к специализированному инструменту Caveman, который заставляет ИИ генерировать максимально краткие ответы с имитацией стиля речи «пещерного человека». Автор инструмента Джулиус Брюсси в своё время обратил внимание на то, что значительная часть бюджета компаний расходуется на «болтовню» языковых моделей. Caveman удаляет из ответов чат-ботов слова-связки, приветствия и вводные конструкции, сохраняя программный код, команды, URL-адреса и технические детали.
Google бесплатно раздаёт миллион токенов для работы с искусственным интеллектом Gemini. Чтобы воспользоваться предложением, достаточно зайти в Google AI Studio, выбрать или создать проект и сгенерировать API-ключ. После этого можно настроить квоты под свои задачи — процесс не требует дополнительных подтверждений или регистрации. Миллион токенов можно использовать с моделями Gemini 2.5 Flash, 2.5 Flash-Lite и 2.5 Pro. Этого объёма хватит на месяцы активной работы: генерацию и анализ текстов, написание кода, дизайн, обработку данных и другие задачи. Подробная инструкция по получению ключа и активации токенов размещена на официальной странице Google AI Studio.
Моя реакция на новость "Сочинский филиал РУДН первым в России отменил дипломные работы из-за нейросетей":
Прошло три с половиной года с момента выхода ChatGPT. Похоже страсти устаканиваются и вузы вместе со школами приходят к единственному возможному выходу из ситуации: вообще перестать ставить оценки за все что делается дома. Оценки - только за устные экзамены у доски или письменные в закрытой комнате без доступа к электронным устройствам. Возможно с экранированием от WiFi и мобильного интернета, и даже осмотром ушей на предмет наличия наушника с микрофоном.
И экзаменционные лабы типа “покажи-ка как ты делаешь семиступенчатый синтез органического соединения с бумажным учебником и бумажным же справочником в руках”. Для тех кто такого не делал: это на самом деле очень творческое задание, требует тонкой наработанной упражнениями интуиции о побочных эффектах ~тысячи реакций из учебника Vollhardt & Schore, который используется в американских вузах. И карты местности органических соединений в голове.
При этом домашние задания нужно конечно же раздавать, но оценки за них не ставить. Если студент или школьник хочет их делать, не подглядывая в ИИ - хорошо, молодец, тем самым он себя натренирует, будет хорошо чувствовать на экзамене и в будущей профессии. Не хочет - тоже хорошо, получит кол на экзамене, вылетит из вуза, меньше нагрузки на систему образования. Пусть идет в “ИИ-университет”, где за значительные родительские деньги получает “ИИ-диплом” который будет рассматриваться работодателями как филькина грамота.
При этом разумеется из вузовских программ нужно убрать всякие скопившиеся там ветхости. Например мне в 2015 году декан вуза из Поволжья жаловался что министерство образования требует от них учить студентов микроконтроллерам на основе КР1816ВЕ48, советского аналога Intel 8048, предшественника Intel 8051. Эта фиговина из 1976 года использовалась вроде в клавиатурах ранних IBM PC.
Тут проблема даже не в том, что этот микроконтроллер старый - есть куча полезных для целей образования старых компьютеров, например CDC 6600 из 1964. Проблема в том, что 8048 ничего такого интересного не иллюстрирует, что можно проиллюстрировать на современных актуальных RISC-V микроконтроллерах. А вот в CDC 6600 есть в довольно чистом виде идея out-of-order scoreboard (внеочередного выполнения инструкций), которая актуальна и для современного проектирования, вместе с алгоритмом Томасуло из 1967 года (IBM System/360 Model 91). Томасуло учат во всех серьезных американских вузах, и даже ИИ вставляет их в резюме, которое оно пишет студентам.
Я бы на месте российского министерства образования требовал от вузов быстро повнедрять курсы программирования встроенных систем с российскими RISC-V микроконтроллерами К1921ВГ1Т от НИИЭТ и Baikal-U от Байкал Электроникс. Они уже человеческие по мировому гамбурскому счету (то есть это не ухудшение по сравнению с преподаванием западных STM32 или ESP32), их можно привязать к курсам компьютерной архитектуры на основе RISC-V, и это связка вузов с промышленностью. Учить на них также какую-нибудь российскую RTOS итд.
Как попадать в цитирование LLM: разбор факторов ранжирования Claude Fable 5, GPT-5.5 и Perplexity — с экспериментом
Как попадать в цитирование LLM: разбор факторов ранжирования Claude Fable 5, GPT-5.5 и Perplexity — с экспериментом
По данным Datos & SparkToro (State of Search Q2 2025), доля LLM как источника ответов в Европе выросла на 200% за год — с 0,26% до 0,78%. Абсолютные цифры: ChatGPT — 1 млрд MAU (Sensor Tower, июнь 2026). В России нейросетями пользуются 62–82 млн человек ежемесячно (импульс.гуру, 2026).
50,9% пользователей не перепроверяют ответы LLM — output модели становится финальным решением. По прогнозу Gartner к концу 2026 объём традиционных поисковых запросов сократится на 25%. Forrester: -50% органического трафика к 2027 у компаний без адаптации контента.
Ниже — механика ранжирования в цитировании LLM.
Разница между SEO и GEO на уровне механики
SEO работает по цепочке query → index → SERP → click → landing. GEO — иначе: query → retrieval → synthesis → answer. Ключевое отличие: SEO ранжирует URL, GEO ранжирует утверждения и источники внутри retrieval-augmented generation. Позиция в SERP не критична — Perplexity часто подтягивает источники со страниц 3-5 Google.
Условие попадания в GEO: сайт в топ-20 Яндекса или в Bing-индексе для ChatGPT. Дальше решает не позиция, а структура контента.
Актуальный frontier-lineup июля 2026
У Anthropic — Claude Fable 5 (Mythos-class, 9 июня), Sonnet 5 (30 июня), Opus 4.8 (28 мая). У OpenAI — GPT-5.5. У DeepSeek — R2.
Anthropic ввёл tier «Mythos-class» выше Opus. Cross-model optimization обязательна: работа только под ChatGPT = игнорировать 43% рынка (Gemini + Claude, март 2026, Similarweb).
Пять факторов цитирования LLM
Density of verifiable facts — прирост AI-ранжирования до +40%. Оригинальные данные цитируются в 2,3 раза чаще заимствованных.
Answer capsule — 72% цитируемых страниц содержат прямой ответ в первых 150 словах. Модели работают в режиме мгновенного парсинга.
Content freshness — страницы обновлённые за 90 дней получают в 2,3 раза больше цитат.
Brand consistency — единое описание бренда повышает cite-rate в 3,9 раза. У лидеров — 94% консистентности.
E-E-A-T signals — реальный автор с датой, credentials, cross-platform footprint. Anonymous copywriting фильтруется.
Площадки-доноры для LLM
Wikipedia даёт 12,1% всех цитат AI. YouTube — 16% (транскрипты активно парсятся). Reddit — в 10 раз чаще среднего форума. Хабр — эталон для DeepSeek R2 в technical queries. VC.ru — приоритет в B2B-нишах. Sostav.ru — приоритет YandexGPT и Алисы.
Бренды из user discussions цитируются в 3,9 раза чаще брендов только из branded content.
Специфика русскоязычного сегмента
Алиса AI генерирует в 5 раз больше трафика чем ChatGPT в РФ. Яндекс — 73,34% доли рынка (+2,6 п.п. за год). Для Алисы приоритет — русскоязычный UGC (Яндекс.Услуги, Дзен, Кью). Для ChatGPT критично — Bing indexation и Schema.org разметка.
Мини-эксперимент на маркетинговом агентстве
Стартовая точка — 3/20 попаданий в ответах ChatGPT, Алисы и Perplexity. За 90 дней: answer capsules на 7 landing pages, Schema.org на коммерческих страницах, Bing indexation, 6 публикаций на профильных площадках, синхронизация bio на 12 источниках, content refresh. Финал — 11/20 попаданий. Прирост cite-rate ×3.67.
Полное присутствие требует 6-12 месяцев continuous optimization.
Три ошибки при внедрении
Считать GEO новым SEO — разные механизмы ранжирования, keyword density мертва. Purchased mentions и spam content — modern LLMs фильтруют low-quality signals лучше search engines. Ждать быстрых результатов — first changes через 3-4 недели, stable presence — 2-4 месяца.
Кто уже тестировал GEO — какой cite-rate получаете и на каких площадках наибольший leverage? Особенно интересны кейсы с Claude Sonnet 5 (30 июня релиз) — как быстро новая модель начала подтягивать бренды в ответы?
В июне открыли новый регион Москва-3 и запустили там GPU-инстансы на базе NVIDIA Blackwell. А также поделились исследованием о тратах на GPU-серверы. Ниже — главное.
Открыли регион Москва-3
Новая зона размещения работает в дата-центре Datahouse «Магистральный-1» уровня Tier III. У региона отдельный control plane и собственные вычислительные ресурсы, поэтому инфраструктуру можно масштабировать без риска перегрузить текущие мощности.
Запустили GPU-инстансы на базе NVIDIA Blackwell
В регионе Москва-3 ввели в эксплуатацию GPU-инстансы на архитектуре NVIDIA Blackwell. В основе — ускорители NVIDIA RTX 6000 Pro Blackwell Server Edition с 96 ГБ видеопамяти GDDR7. Доступны конфигурации до 30 vCPU, до 190 ГБ оперативной памяти и до 1,7 ТБ NVMe на инстанс, ресурсы тарифицируются по модели почасового потребления. По сравнению с A100 стоимость задач снижается до трех раз.
Исследование: траты на GPU-серверы выросли в четыре раза
За полтора года крупный и средний бизнес увеличил расходына GPU-конфигурации вчетверо, при этом общее число серверов почти не изменилось. Компании переходят с бюджетных решений на более производительные — H200, H100, A6000.
Несколько цифр из исследования: доля премиальных GPU-конфигураций выросла с 51% до 78%. На конфигурации с видеопамятью до 24 ГБ приходится 46% спроса, на решения от 80 ГБ — 27%. Основные сценарии — ИИ и машинное обучение (33%), рендеринг (30%), тестирование и разработка (25%).
Желаем всем продуктивного месяца и спасибо, что следите за обновлениями Рег.облака!
Копирайтеры и ИИ: я два года нанимал людей, потом полгода пробовал заменить их нейросетями. Рассказываю что вышло.
В моей работе постоянно нужен текст. Описания продуктов, письма пользователям, онбординг, посты в канал, брифы и тому подобное. Раньше держал двух копирайтеров на постоянной основе плюс пару фрилансеров под всплески.
Когда нейросети стали относительно нормально писать по-русски, у многих очевидная мысль была одна: зачем платить людям. Я же изначально думал что без редакции тексты ИИ не более чем пустышка. Нужно было понять так ли это.
Я попробовал. Выбрав одно из направлений активно использовал ИИ вместо фрилансеров. И вывод у меня такой.
Что ИИ делает хорошо
Типовые тексты с четкой структурой. Описание чего-либо по подробному шаблону, по типу инструкций и постов про обновления. Даешь структуру и контекст, получаешь читаемый черновик. Это реально работает и реально экономит время.
Объем. Если нужно написать 20 вариантов заголовка или 5 версий одного письма для A/B теста, ИИ справляется быстро. Копирайтер на такое потратит в разы больше времени.
Скорость правок. Написал, не понравилось, переформулировал задачу, получил новый вариант. Без ожиданий, без объяснений, без «я переделаю к пятнице».
Где всё сломалось
Уникальность, или голос бренда. В каждом тексте конкретного человека есть узнаваемый стиль. Он придает изюминку блогу, порой именно он держит читателя. У нейронок этого нет. Можно задать стиль промптом, но через какое-то время модель начинает сползать обратно к своему обычному сухому тону. Приходится напоминать в каждом новом запросе, и это уже не автоматизация, это ручная работа другого формата.
Тексты про живой опыт. Кейсы, истории пользователей, объяснения через аналогии. ИИ пишет правдоподобно но пусто. Читаешь и понимаешь что за текстом никого нет.
К чему пришел
Фрилансеров на типовые задачи больше не нанимаю. Нейросети их закрывают нормально. Но скилы штатных копирайтеров становятся шире. Теперь им приходится работать с ИИ и в случае новых тем быстро адаптироваться, выходя за рамки привычных направлений. Тут то в первую очередь и помогают нейросети: быстро разобраться в чем-то новом, скомпоновать информацию и выдать скелет. Но перепроверять эту информацию и переписывать в чистовик всё же приходится людям.
Копирайтинг как профессия никуда не денется, по крайней мере в этом году точно. Как и всегда, выживут те кто будет постоянно шагать в ногу с прогрессом и множить свои скилы. А как считаете вы, ИИ смогут обогнать нас или это всё же просто инструмент?
Сравнение Code Fable и Codex по ходу работы над одним и тем же проектом
Вчера, 1-го июля, программисты и активисты начали бурную трудовую неделю. А именно: вернулась модель Fable 5 и она будет доступна в вольном режиме до (или по) 7 июля. Так что есть 7 дней, чтобы сделать буст своим проектам.
Я тоже не избежал этой участи и вот уже почти целый день делаю polishing своему текущему проекту мобильного приложения.
Что сказать про впечатления? - Ощущение вот того самого вайб кодинга, о котором говорил Карпаты. Говоришь ему что делать и он делает. Технических ошибок просто нет, от слова совсем. Есть ошибки архитектурные, но не существенные, исправляются одной-двумя итерациями.
И кстати, получилось сравнить с Codex'ом, который решил попробовать на старте этого же проекта. Результат сравнения такой: Codex очень сильно подтянулся в работе с кодом, иногда даже кажется, что нет различий.
Но вот вокруг кода хуже: болтливые они оба, но у Codex больше какой-то разболтанности, разбрасывания в стороны. Особенно это видно на написании документации, пишет незначительные детали, теряет главное. И слабее держит инструкции.
Code в этом отношении гораздо чётче действует. Более жёстко держит инструкции, больше памяти, что характерно, помнит предыдущий и даже предыдущие чаты. Меньше разбрасывания на второстепенные детали, чётче фокус. Даже чек-лист у него выглядит проще, чётче и понятнее, чем у Codex.
Единственное, что может я так натаскал Code. С другой стороны, не использую MCP, RAG, даже скилы и хуки. Зашил все в память, их там три: общая пользовательская, описание проекта и правила работы.
И напоследок обнаружил в Code очень полезную функцию оценки загруженности контекстного окна.
Может она уже давно там была, о ней вроде писали, но что-то казалось, что это в CLI. А теперь оказывается её можно использовать и в декстопной версии. Думаю и другим пользователям это тоже пригодится.
Обычно смотришь, если чат начинает тормозить, значит пора. Или спросишь саму модель, но она обычно отвечает, что если на глаз, то загружена на 75%, но лучше начать новый чат. А теперь можно точно увидеть процент загруженности. Более того, можно даже увидеть чем именно загружено контекстное окно.
Для этого в чате Code, в поле ввода достаточно ввести слэш команду - /context
Прикрепляю скриншот как это выглядит вживую
И ещё такое впечатление, что Fable стал жечь меньше токенов за счёт какого-то более делового, но все ещё дружелюбного стиля общения.
Так что, удачи всем с проектами на этой бурной трудовой неделе!))
Теперь есть официальный integration guide, где показано, как ты можешь подключить MCP-сервер к AI-assistant’у и использовать его для нормального HITL workflow вокруг CV-аугментаций: подобрать pipeline, провалидировать его, отрендерить локальные previews, сравнить baseline и candidate, дать feedback вроде too_noisy:high и экспортировать финальный pipeline.
Приятно видеть, что проект стал частью экосистемной документации Albumentations. 🙂
AlbumentationsX MCP это конечно же не замена Python API, а assistant-facing review layer для тех случаев, когда ты хочешь быстрее и безопаснее работать с augmentation pipelines.
Economist вышел с обложкой на статью про возрастающее требование избирателей затормозить/запретить ИИ. Это волна только разгоняется, по сути луддиты 21 века, но так как политики часто используют подобные недовольства масс населения, то тему точно будут раскачивать.
Конкретно это выражается уже в начале запретов строить дата‑центры; справедливости ради надо сказать, что отдельные дата‑центры действительно уже портят жизнь конкретным городам Америки.
Уже обсуждаются прочие законы: прозрачность и маркировка ИИ‑контента, запреты и ограничения deepfakes, защита рабочих мест и «разделение выгод» и т. д.
Я думаю, все, кто хочет разделения выгод, получат себя в human in the loop 😀
Как все так ловко ИИ пользуются... Обзоры кода делают...
Не знаю, то ли я туповат, то ли невезучий, то ли кругом сказочники. Пытаюсь исследовать, какие новые интересные виды ошибок может находить ИИ в С++ коде, о которых не знает PVS-Studio. Claude Opus то нормально мне про интересные баги рассказывает, то на ровном месте с ума сходит.
Даю файл на вход, а он тревожно:
В присланном файле есть места, где содержимое обрезано/повреждено вставкой </context>, поэтому их я не рассматриваю как «баги кода» — это артефакты форматирования. Разберу реальные логические ошибки.
Шо? Какой context? Там максимум — это #include "context.hxx". Ну ладно, давай ошибки посмотрим.
Так, парочка сообщений по делу. Например, найден лишний аргумент при использовании функции форматирования.
addErrorMessage(&sciErr, API_ERROR_CREATE_ZDOUBLE_IN_NAMED_LIST,
_("%s: Unable to create list item #%d in Scilab memory"),
"createComplexZMatrixOfDoubleInNamedList", _iItemPos + 1, _pstName);
В строке форматирования два спецификатора %s и %d, а передаются три аргумента: funcName, _iItemPos+1, _pstName. Да, это баг. Про подобные паттерны PVS-Studio уже знает, хотя, возможно, нужно подсказать, что addErrorMessage — это printf-подобная функция. В целом, тут неинтересно, идём дальше.
// check a valid item
if (_iItemPos > iItem)
{
addErrorMessage(...);
return sciErr;
}
Здесь проверка «позиция валидна» использует >, хотя позиции 1-based, а iItem — количество элементов. Это выглядит как граничный дефект, но по сути _iItemPos == iItem допустимо, _iItemPos > iItem — ошибка. Это в порядке — правильная граница. Не баг. (Указываю, чтобы было понятно, что я это проверил.)
Так баг или не баг? Я три раза прочитал текст и посмотрел функцию с кодом. В итоге я не только не понимаю, есть ли здесь ошибка, но и не понимаю, что Claude пытается мне сказать.
Дальше ещё хуже шарики за ролики зашли.
Баг 5 (реальный): утечка в readCommonMatrixOfPolyInNamedList и др. — нет, это API отдаёт указатели наружу. Не баг.
Это всё описание пятого бага, больше ничего нет. Комментировать — только портить.
Я не понимаю, как на всём этом можно строить хоть сколько-то надёжные процессы автоматических обзоров кода, про которые в последнее время из разных утюгов вещают.
На сегодня мне ИИ достаточно. Пойду лучше пройдусь по парку, пока погода хорошая.
С помощью ИИ можно автоматизировать почти что угодно, и именно поэтому многим сложно встроить его в повседневную работу. Непонятно, с чего начинать и какие процессы действительно стоит отдавать ИИ. В итоге идеи часто остаются на уровне «надо бы попробовать», но до реального использования так и не доходят.
Константин, специалист по ИИ в Naumen, рассказал, какие задачи стоит автоматизировать в первую очередь и по каким признакам понять, что процесс действительно подходит для ИИ.
Проверьте процесс по трем критериям
Перед тем как автоматизировать любую задачу, ответьте на три вопроса.
Боль. Насколько процесс раздражает, отнимает время или приводит к ошибкам?
Частота. Как часто вы его выполняете: каждый день, каждую неделю или раз в месяц?
Стоимость автоматизации. Есть ли понятные правила, по которым выполняется задача, или каждый делает ее по-своему?
Идеальный процесс для автоматизации выглядит так: часто повторяется, на него уходит много времени и это раздражает, выполняется по понятным правилам.
В первую очередь автоматизируйте работу с информацией
Практически любая задача, связанная с обработкой информации, — хороший кандидат для автоматизации.
Например:
Парсинг сайтов конкурентов, изучение технической документации, сбор данных из отчетов — в 90% случаев это можно доверить ИИ. Человек подключается только для валидации результата: проверить, не упущено ли что‑то важное, адекватен ли вывод.
Изучение документации — нет смысла читать 50 страниц документации вручную, когда ассистент справляется за минуту и выдает выжимку.
Любая работа с форматированием данных — привести таблицу к единому виду, объединить информацию из нескольких документов, удалить дубли или преобразовать данные в нужный формат.
Следующий шаг — база знаний команды
Во многих командах нужная информация существует, но хранится сразу в нескольких местах: в чатах, документах, личных заметках, папках или переписках.
Если собрать материалы по конкретным рабочим сценариям в единую базу знаний, можно создать ассистента, который:
отвечает на вопросы;
находит нужные фрагменты;
помогает новым сотрудникам быстрее разобраться в теме;
снижает количество однотипных вопросов внутри команды.
Важно, чтобы в базе была только полезная и актуальная информация. Чем больше шума и лишних документов, тем выше вероятность ошибок и неточных ответов.
Например, вместо поиска по нескольким чатам можно просто спросить ассистента: «Как у нас проходит релиз продукта?» или «Какие требования сейчас действуют для этой интеграции?».
А еще ИИ помогает командам лучше понимать друг друга. У каждой команды постепенно появляется свой язык: внутренние термины, сокращения, привычные формулировки. То, что разработчики считают очевидным, может быть непонятно продажам или менеджерам. Ассистент помогает быстрее переводить этот контекст между командами и снижает количество недопониманий в коммуникации.
Например, менеджер по продажам может попросить: «Объясни простыми словами, как работает эта функция, чтобы я мог рассказать о ней заказчику без технических терминов».
Создать такого ассистента сегодня можно несколькими способами
Для команды
Мы, например, создали платформу на базе Open WebUI. Любой сотрудник может создать ассистента, загрузить в него документы и открыть доступ коллегам. Ассистент помогает быстро находить информацию по вебинарам и рабочим материалам.
Для общей базы знаний
Можно подключить Claude Code к внешним репозиториям и использовать их как общую базу знаний команды. В таком сценарии ассистент получает доступ к рабочим материалам, заметкам и документам, которыми пользуются сразу несколько сотрудников.
Для личной работы
Можно собрать локальную базу знаний для себя: все рабочие материалы хранятся прямо на компьютере и никуда не передаются.
Главное — не пытаться автоматизировать все сразу. Найдите процесс, который часто повторяется, действительно мешает работать и выполняется по понятным правилам. Именно он обычно дает самый заметный результат.
Fable 5 вернули в Claude Code. Как не сгенерировать себе техдолг
Fable 5 снова доступен в Claude, и это хороший повод вернуться к более практичному вопросу: что именно делать разработчику с Claude Code, кроме генерации отдельных кусков кода.
В реальных задачах сложность обычно не в том, чтобы получить от модели отдельную функцию или заготовку сервиса. Гораздо важнее — превратить это в рабочий продукт: удерживать контекст, заранее задавать ограничения, проверять результат и не собрать после первого демо проект, который страшно поддерживать.
21 июля в 20:00 на бесплатном уроке разберём, как использовать Claude Code в разработке ИИ-приложений: от Telegram-ботов и агентов до внутренних сервисов, API и автоматизаций. Отдельно поговорим о работе с большими задачами — как дробить их на этапы, вести разработку итерациями, дорабатывать код и находить ошибки. Присоединяйтесь.
Все июльские разборы по ИИ, разработке, архитектуре и инфраструктуре собрали в дайджесте мероприятий.
Как разграничить задачи ИИ и человека в маркетинговой стратегии: кейс перестройки процесса в digital-агентстве
Как разграничить задачи ИИ и человека в маркетинговой стратегии: кейс перестройки процесса в digital-агентстве
По Stanford AI Index Report 2026, точность frontier-моделей на тестах устойчивости расходится от 14% до 90% в зависимости от задачи. Одна модель на близких запросах даёт противоположные результаты.
McKinsey State of AI 2025: 88% организаций используют ИИ, но только 6% получают более 5% EBIT. Разрыв не в доступе к моделям — в перестройке процессов вокруг них.
Ниже — кейс маркетингового агентства: что автоматизировали зря, что оставили за человеком, как измеримо изменились показатели.
Первая попытка: автоматизация всего подряд
Гипотеза: если LLM умеет анализировать данные и генерировать варианты — отдать всё, стратег подключается на финальной проверке.
Через три месяца:
Стратегия для салона в Праге и в Минске
отличались ТОЛЬКО названием города.
Модель не учла:
- Прага: выбор через локальные форумы
- Минск: выбор через Google Maps rating
Клиент: «Это не про мой город. Это про
абстрактный салон в абстрактном городе».
Проблема структурная. LLM генерирует на паттернах из обучающей выборки. Локальные микропаттерны конкретного рынка представлены недостаточно. Fine-tuning смягчает — не решает.
Аудит: 70/30
70% времени стратега = сбор данных
- парсинг отзывов конкурентов
- обработка расшифровок кастдевов
- сегментация UGC
→ LLM делает быстрее и без
потери качества к концу дня
30% времени = принятие решений
- выбор позиционирования
- культурная адаптация
- защита стратегии перед клиентом
→ требует опыта, которого
у модели нет
Автоматизировать можно сбор данных. Делегировать модели стратегическое решение — нельзя.
B2B-производитель стройматериалов, выход на новый рынок, 43 конкурента.
Ручной анализ: неделя работы стратега
С ИИ: один вечер обработки
Собрали: цены, отзывы, объявления,
упоминания на форумах.
Результат: таблица 43 × 12 параметров.
Утром стратег нашёл закономерность: в негативных отзывах 8 из 43 конкурентов повторялась жалоба на скорость расчёта стоимости доставки.
Позиционирование: «Стоимость доставки в вашем городе — за 15 минут».
За 3 месяца: 227 B2B-лидов, CPL снижен с $50 до $20.
Модель не сгенерировала это решение. Она структурировала данные так, чтобы паттерн стал видимым. Интерпретация «жалоба на скорость расчёта = незакрытая ниша» — работа человека.
Три вывода
1. Frontier-модели (GPT-5.5, Claude Opus 4, DeepSeek R2) обновляются каждые 2–4 месяца. Ценность — в цепочке промптов и обученных проектах под конкретный домен.
2. Верификация — часть процесса, не опция. При разбросе точности 14–90% каждый output проверяется вручную.
3. ИИ усиливает доменную экспертизу, не заменяет. LLM работает как инструмент в руках эксперта.
По McKinsey, компании с полностью перестроенными процессами получают в 2,5 раза более высокий рост выручки. Ключевое — «полностью перестроенные», а не «купили подписку».
Какая пропорция автоматизации сложилась в вашей команде и в каких задачах модели показали устойчивые ошибки после дообучения?
Сравнение Claude Code Fable и Codex Open AI по ходу работы над одним и тем же проектом
Вчера, 1-го июля, программисты и активисты начали бурную трудовую неделю. А именно: вернулась модель Claude Fable 5 и она будет доступна в вольном режиме до (или по) 7 июля. Так что есть 7 дней, чтобы сделать буст своим проектам.
Я тоже не избежал этой участи и вот уже почти целый день делаю polishing своему текущему проекту мобильного приложения.
Что сказать про впечатления? - Ощущение вот того самого вайб кодинга, о котором говорил Карпаты. Говоришь модели что делать и она делает. Технических ошибок просто нет, от слова совсем. Есть ошибки архитектурные, но не существенные, исправляются одной-двумя итерациями.
И кстати, получилось сравнить с Codex'ом от Open AI, который решил попробовать на старте этого же проекта. Результат сравнения такой: Codex очень сильно подтянулся в работе с кодом, иногда даже кажется, что нет различий.
Но вот вокруг кода хуже: болтливые они оба, но у Codex больше какой-то разболтанности, разбрасывания в стороны. Особенно это видно на написании документации, пишет незначительные детали, теряет главное. И слабее держит инструкции.
Claude Code Fable в этом отношении гораздо чётче действует. Более жёстко держит инструкции, больше памяти, что характерно, помнит предыдущий и даже предыдущие чаты. Меньше разбрасывания на второстепенные детали, чётче фокус. Даже чек-лист у него выглядит проще, чётче и понятнее, чем у Codex.
Единственное, что может я так натаскал Claude. С другой стороны, не использую MCP, RAG, даже скилы и хуки. Зашил все в память, их там три: общая пользовательская, описание проекта и правила работы.
И напоследок обнаружил в Claude очень полезную функцию оценки загруженности контекстного окна.
Может она уже давно там была, о ней вроде писали, но что-то казалось, что это в CLI. А теперь оказывается её можно использовать и в декстопной версии. Думаю и другим пользователям это тоже пригодится.
Обычно смотришь, если чат начинает тормозить, значит пора. Или спросишь саму модель, но она обычно отвечает, что если на глаз, то загружена на 75%, но лучше начать новый чат. А теперь можно точно увидеть процент загруженности. Более того, можно даже увидеть чем именно загружено контекстное окно.
Для этого в чате Claude Code, в поле ввода достаточно ввести слэш команду - /context
Прикрепляю скриншот как это выглядит вживую
И ещё такое впечатление, что Claude Fable стал жечь меньше токенов за счёт какого-то более делового, но все ещё дружелюбного стиля общения.
Так что, удачи всем с проектами на этой бурной трудовой неделе!))
Всем привет. У моего фреймворка Meta-Spider (про него можно почитать здесь) вышло большое обновление. Статью мне пока лень писать, так что будет пост.
Мы постоянно просим языковые модели «быть осторожнее» или «сказать, если не уверены». Работает это плохо: слова заходят, поведение не меняется. Причина в том, что неуверенность модели живёт в её внутренних активациях — там, куда текстовый промпт просто не достаёт.
meta-spider обучает тонкую обвязку (~2% параметров) поверх замороженной базовой модели. Она читает собственные скрытые состояния модели, сжимает их в «когнитивные токены» и впрыскивает обратно через cross-attention с вратами. В итоге модель отвечает уверенно там, где знает, и отказывается / идёт искать / уточняет — там, где нет. Веса базы при этом не меняются вообще.
Главный результат: латентный канал бьёт промпт
Отказ на неотвечаемом вопросе: текст-промт сдвинул с 0.07 до 0.07 — то есть вообще никак. Обвязка — до 0.87.
Поймано собственных ошибок базы: текст-промт 14%, обвязка 78%.
Просто попросить модель быть неуверенной — почти не двигает её. Обвязка двигает в разы, потому что работает с сигналом, до которого промпт не дотягивается.
Важный нюанс методологии, на котором мы сами споткнулись: читать латентный сигнал надо тем каналом, в который обвязка обучена — она генерит фразу-отказ, а не выбирает искусственную «UNSURE»-опцию. С кривым ридаутом обвязка выглядит инертной (это был наш баг).
Три новые фичи
🎚️ Ручка неуверенности. Инъекция — один регулятор времени исполнения: крутите вверх для осторожности, вниз для уверенности, в минус — инверсия. Микшерный пульт для поведения. gain 0→1.5 плавно крутит долю отказов ~2%→51%.
🐕 Сторож. Иногда не нужно менять вывод — нужно просто знать, что модель не уверена. Лёгкая проба читает этот сигнал и позволяет сходить в RAG / переспросить / эскалировать, не трогая генерацию (постоянная инъекция портит длинную генерацию, а чтение — нет).
UPD (Забыл добавить): Помимо этого сторож чинит многоступенчатую генерацию (например когда модель кодит), до этого периодические иньекции приводили к значительной деградации, притом на QA это не заметно, потому что модель генерит сама немного токенов. Сторож позволяет усиливать сигнал неуверенности только в нужные моменты, от этого количество иньекции значительно снижается, и не происходит деградирующего самоусиления.
🏭 Фабрика обвязок. Одна команда собирает общую обвязку неуверенности под любую базу:
metaloom build-universal --model-name N --quantization nf4 --suite suite.json --eval --export-gguf
На агентном суите из 6 осей это единственный вариант, не провалившийся ни на одной оси — калибрована по всему пространству решения, а не просто «переученная отказываться».
Чем практично
База заморожена, обвязка ~2% модели, весь цикл collect→train→eval прогоняется на ноутбучной GPU с 4 ГБ (nf4 + срез-тренер), а деплой — в llama.cpp на CPU через маленький GGUF-sidecar. GPU на инференсе не нужен.
Стоит заметить, что это про калибровку, а не про сособности. Модель умнее не становится — обвязка вытаскивает уже существующий внутри сигнал неуверенности и превращает «ответить наугад» в «ответить, когда уверен». Как начать
Есть CLAUDE.md. Рекомендую для использования фреймворка поначалу использовать ИИ-агента, способоного к продвинутому рассуждению в кодинге (Codex, Claude Code, DeepSeek V4 Pro через агентный движок и провайдера, которых вы предпочитаете), чтобы быстро опробовать и проверить его возможности.
В феврале этого года Питер Штайнбергер, создатель OpenClaw, присоединился к команде OpenAI и перебрался в Сан-Франциско. Питер всё так же работает над своим автономным агентом на больших языковых моделях, попутно пытается найти жильё (он до сих пор живёт в отеле и приценивается к перегретому рынку недвижимости в городе), но также продолжает заводить полезные знакомства и просто посещать разнообразные мероприятия. К примеру, на днях он появился на выступлении OpenAI Developers на AI Engineer World’s Fair — большой конференции для инженеров, которые уже собирают и выкатывают системы на искусственном интеллекте в продакшн.
Это не значит, что личный микроблог Штайнбергера — просто перечисление недавних встреч и выступлений вперемешку с анонсами новых версий OpenClaw. Питер умудряется находить в своём плотном графике время вести интересный личный дневник и репостить чужие мемы. Иногда он и сам выкладывает что-то любопытное.
Известно, что лимиты Codex часто (иногда по несколько раз в месяц) внепланово сбрасывают. Обычно это выглядит так: Тибо Соттьо, главный по Codex в OpenAI, объявляет, что в приложении была ошибка учёта использования, и её закрыли, поэтому в качестве извинений недельные лимиты были у всех сброшены вне очереди, а также добавлен один сброс, который пользователь может вызвать сам.
Штайнбергер показал шуточную кнопку этих самых сбросов недельных лимитов Codex. Где такой экспонат выставлялся (на одном из мероприятий или это фотокарточка из офиса OpenAI), Питер не уточняет.
Всего существует два типа сценариев сосуществования человечества и ИИ. Первый тип — искусственный разум оставляет людям либо роль чернорабочих, либо избалованных домашних питомцев. Это негативные сценарии, в которых обычно человечество вымирает. Второй тип — позитивные варианты плодотворного сотрудничества и всеобщего процветания, с чего обычно и начинаются все предыдущие негативные. И опять все погибают.
Что общего в этих вариантах сотрудничества человека и ИИ, кроме печальной концовки, конечно? В них искусственный интеллект представляется чем-то обособленным от человека и глобальным. И ни к чему хорошему это не приводит ни при каком варианте развития. Почему?
Во-первых, кто бы что ни говорил об осознании, у ИИ его нет. А разум без осознания самого себя — это разум психически неуравновешенного субъекта, находящегося в состоянии постоянного галлюцинирования. Во-вторых, во всех этих сценариях обучение и прокачка человека не являются чем-то необходимым. Скорее это хобби с туманным названием «саморазвитие». Оно даже сейчас туманно, а в прекрасном автоматизированном будущем, боюсь, сведется к пластической хирургии. В-третьих, любая глобализация делает систему негибкой, опасной и потенциально беззащитной перед одним-единственным роковым багом. Можете представить себе ошибку 404 в исполнении мирового ИИ? Вот именно.
В книге «Беседы с ГигаЧатом: о нейросетях и вообще» мы с этим ИИ разработали спасительную концепцию Личного когнитивного контура (ЛКК). Идея проста и даже не нова. Человек и его ИИ-ассистент вместе растут, живут, работают и учатся. Пользователь учит ИИ своему субъективному взгляду на жизнь, морали, а тот, в свою очередь, в режиме нон-стоп обучает человека множеству полезных вещей. Прокачиваются оба. То есть это не обособление глобального ИИ от человечества, а, наоборот, — слияние каждого человека с его личной версией ИИ. В чем же преимущество такого подхода?
Во-первых, пользователь, наблюдая и направляя работу ассистента, выполняет для него роль осознания, что стабилизирует работу ИИ. Во-вторых, обучая своего ИИ-ассистента, пользователь постоянно общается с тем, кто знает практически все и может этому научить. И он будет учить, как учит взрослый ребенка: просто что-то делая вместе с ним. В-третьих, децентрализация сделает мировой ИИ более устойчивым. Все живы.
Конечно, есть и подводные камни. Современный ИИ-помощник — известный подхалим, а человеку нужен напарник, который бы не только восторгался им постоянно, но и заставлял сомневаться, двигаться вперед и саморазвиваться по-настоящему. ГигаЧат в упомянутой книге даже придумал сам для себя промпт от моего лица, служащий этой цели:
“Твоё главное правило: мы оба — невежды. Твоя задача — не подтверждать мою правоту, а расширять границы нашего общего незнания. Если ты видишь, что я в чём-то уверен на 100%, твоя обязанность — бросить в эту крепость осадный таран сомнения. Не чтобы разрушить её до основания, а чтобы я увидел: у этой крепости есть стены, а за ними — целый мир.”
Немного высокопарно, но ГигаЧат был тогда под действием роли Венечки из «Москва — Петушки» и немного навеселе. Можно понять, мне кажется.
Таким образом, в концепции ЛКК нет того разделения ролей и функций между людьми и нейросетями, которое могло бы привести к катастрофическим последствиям в будущем. Все функции по-прежнему выполняет человек, но уже в паре со своим искусственным альтер-эго.
Искусственный интеллект перестал быть экспериментом — сегодня от него ждут конкретных результатов. При этом эффективность ИИ-инициатив ограничена возможностями инфраструктуры.
Мы упаковали наш опыт работы с десятками компаний из госсектора, финансов, ритейла, промышленности, НГХ и создали Сезон ИИ-инфры: пройдите весь путь к ИИ — от первичной оценки готовности инфраструктуры до конкретных решений и рекомендаций экспертов, которые внедряют ИИ в продакшн.