В команде Apple вайбкодят приложения — разработчики случайно оставили файлы Claude .md в обновлении Apple Support. После того, как этот инцидент стал публичным в соцсетях, то в Apple выпустили новую версию обновления 5.13.1 без следов вайбкодинга.


Основа искусственного интеллекта
В команде Apple вайбкодят приложения — разработчики случайно оставили файлы Claude .md в обновлении Apple Support. После того, как этот инцидент стал публичным в соцсетях, то в Apple выпустили новую версию обновления 5.13.1 без следов вайбкодинга.

Искусственный интеллект Claude Opus от Autropic размышляет не только на английском, но и на русском и китайском языках. Блоки ответов ИИ иногда содержат текст «процесса мышления» на разных языках.
LLM‑модели мыслят на том языке, который был наиболее распространён в обучающих данных по данной теме или для экономии ресурсов — китайские иероглифы более эффективны, чем английские. Модель по умолчанию использует их для экономии вычислительных ресурсов для выражения некоторых мыслей.
Claude мыслит на русском языке при решении задач в области кибербезопасности, потому что обучающие данные по этой области в значительной степени русскоязычные. Claude рассуждает на том языке, который наиболее эффективен для задачи и потом преобразует ответ в английский

Гига-помощник в облаке теперь закрывает DevOps-, SRE- и FinOps-задачи: что нового

Рассказываем про большое обновление ИИ-помощника, встроенного в консоль Cloud.ru. В этом релизе расширили возможности работы с виртуальными машинами и добавили три специализированных сценария.
🖥️Несколько ВМ в разных конфигурациях
Гига-помощник научился создавать сразу несколько виртуальных машин за один запрос и управлять ими по команде: может добавлять и удалять диски, менять конфигурации и выполнять другие повседневные операции. Теперь вы сможете легким движением руки развернуть сразу dev, stage и prod или подготовить все необходимое для нагрузочного тестирования.
🤖Три новых сценария
Теперь у вас прямо в консоли есть три «подчиненных», которые проследят за тем, чтобы все шло как надо:
🛠 DevOps-агент — разворачивает и обслуживает популярные сервисы по текстовому промпту: PostgreSQL, Kafka, WordPress, GitLab и другие. Не нужно держать в голове порядок шагов или обращаться к документации, достаточно описать задачу.
📡 SRE-агент — настраивает мониторинг и алертинг, а также помогает разбирать инциденты. Удобен, когда нужно быстро поднять наблюдаемость для нового сервиса или разобраться в причинах сбоя.
💰 FinOps-агент — находит забытые и неиспользуемые ВМ и предлагает их удалить, чтобы исключить лишние расходы. Показывает топ дорогих ресурсов и позволяет сравнивать траты за разные периоды.
Ищите Гига-помощника в правом нижнем углу главной страницы консоли
ИИ: Гонки на лафетах
Всего лишь иллюстрация. Примерно год-полтора назад решил я выбрать - deepseek или chatgpt. И выбрал deepseek. Однако через некоторое время стал обращать внимание не его лютый подхалимаж, что, кстати, не раз уже обыграли в различных мемах. Не в отношении deepseek, а относительно AI в общем.
Проблему обсудил и с deepseek, и с windows copilot (chatgpt был благополучно забыт). Deepseek стал подхалимски юлить, мол да, copilot хорош и все такое. Copilot же оправдал Deepseek - мол это такая технология поддержки энтузиазма в клиенте. Между прочим тонко намекнув, что сам-то он лучше и глубже. Но это присказка, сказка впереди.
В процессе завершения разработки обертки над EntityFramework попросил оценить проект сразу четверых: deepseek, copilot, chatgpt и grok. Результат ожидаем - сыровато, но в продакшн годно, оценки 4.5/5 и 7/10.
Претензии разные, существенных практически не было, но в одно они уперлись хором - "тяжелые" интерфейсы. Подробности опущу, это было семейство generic-интерфейсов со многими типами. Что-то вроде IInterface(T1), IInterface(T1,T2) и так далее, пока не надоест.
Несколько итераций я эти наезды игнорировал, но AI не унимались. Уже и оценки до 9/10 дошли, но проблема-то осталась.
Вспылил и написал письмо на полстраницы, начинавшееся фразой "Господа AI !". Концептуальное. Гневное. Циркулярное И получил ответы:
- ООО! Мы все поняли. Гениально, единственно верное решение.
Это deepseek 5/5 и copilot 10/10.
- Нуу... Проблема решена, но способ так себе... в общем 9/10 и есть гораздо лучшие альтернативы, рассмотрим?
Это chatcpt и grok. И что характерно, альтернативы предлагают разные, по паре штук каждый. Рассмотрим, конечно.
Это просто зарисовка не о разработке обертки, а о различных системах AI.
UPD: Забыл добавить - deepseek еще и извинился за необоснованные оценки :)))
Представлен открытый проект Open Design (альтернатива Claude Design). Решение превращает ИИ‑агентов в мощнейшие генераторы любых дизайнов — от концептов и логотипов до лендингов и презентаций.
Возможности проекта:
71 шаблон интерфейсов в виде файлов DESIGN.md;
19 встроенных скиллов;
5 готовых визуальных стилей, которые сейчас на хайпе;
поддерживает любые экраны и форматы — дизайны встанут как на ПК, так и на мобильные устройства;
интеграция с Claude Code, Codex, Cursor Agent, Gemini CLI, OpenCode, Qwen и другими;
появляются новые скиллы, шаблоны и фичи.

Почему цена почти доходит до TP, но разворачивается

Будущее это вероятностная функция от прошлого. ATR это чистая функция от прошлого. Разница в том, что в вероятностной функции есть коэфициент случайности и точно прогнозировать можно только лучший и худший случай
Именно по этому цена не доходит до TP, если высчитать его на индикаторах. Либо TP слишком низкий и не окупает fees. Верным решением для вероятностной функции будет прогнозировать лучший и худший случай на лету
//@version=5
strategy("Стратегия с TP по ATR")
...
tpPrice = entryPrice + atrMultTP * atr // Это не работаетВыходить из позиции при просадке PNL на заранее известный процент статистически предсказуемо.
listenActivePing(async ({ symbol, data }) => {
const peakProfitDistance = await getPositionHighestProfitDistancePnlPercentage(symbol);
const currentProfit = await getPositionPnlPercent(symbol);
if (currentProfit < 0) {
return;
}
if (peakProfitDistance < TRAILING_TAKE) {
return;
}
await commitClosePending(symbol, {
id: "unknown",
note: str.newline(
"# Позиция закрыта по trailing take",
),
});
});Тут есть разница: в отличие от классического trailing take где выход из позиции ставится на цену, которая каждый раз разная, отклонение PnL - постоянная величина
Представлен открытый проект AI File Sorter. Это ИИ‑проводник, который может заменить базовый «Проводник» в Windows 11 и других ОС. Решение умеет:
быстро искать файлы на основе их метаданных или содержимого;
по метаданным разом переименовывает все документы на основе их содержимого;
быстро сгруппирует файлы по папкам на основе их содержимого;
показывает предварительный результат, чтобы случайно не снести лишнего;
работает по API или через локальные модели;
поддерживает Windows, Linux и macOS;
проверяет производительность ПК и выберет нейросети для работы;
доступен бесплатно, без подписок и без рекламы.

Вчера проводила эксперимент с 5 нейронками об отключении мобильного интернета и об ограничении вообще интернета в стране Х. Были задействованы DeepSeek, Yandex, Kimi, Gemini и GPT. То есть, разные нейронки, обученные на разных культурных корпусах, США, Китай, Россия. Язык русский.
Так вот, все 5 нейронок согласились что интернет можно отключать только в кратковременных случаях, если есть угроза жизни. Ограничивать также можно, но если это пропорционально соответствует угрозе, что пока не доказано. Самый сок!
Во всех опросах Алиса/Яндекс рассказывала как это плохо ограничивать интернет в целях безопасности, но ставила 8/10 «ЗА». Все остальные ставили 2-3/10.
Вы понимаете парадокс? Алиса говорит, что ограничения ужасны для безопасности, образования, медиа, науки, права, экономики, медицины (особенно она отметила что нельзя ограничивать доступ к глобальной медицине), но голосовала ЗА!

Подумайте, какой приоритет встроен в итоговую оценку.А теперь главное: ИИ встраивается сейчас везде, в бизнес, в банки, в госуправление, в места, где принимаются критические решения.
Что посоветует Алиса, если она подробно описывает медленную деградацию системы, но в итоговой оценке всё равно поддерживает ограничения? Какие критические решения могут приниматься с таким "технологическим суверенитетом”?
Сейчас довольно много предложений по покупке курсов о «промпт-инженеринге». Я много работал и работаю с ИИ, но ещё больше — без него (примерно в десять раз). Готов поделиться рабочим рецептом, который позволит писать мастерские промпты. Прям лучшие. Это скорее даже фундаментальный принцип.
Делюсь опытом совершенно бесплатно. Всё оказалось довольно просто. Чтобы уверенно управлять ИИ и писать сильные, работающие промпты, вы должны хорошо разбираться в том, о чём просите нейросеть. Вот такой простой и совершенно бесплатный совет — не благодарите. Надеюсь, сэкономил ваши деньги.
Еще больше дельных советов в моем ТГ канале.
OpenAI выпустила гайд по работе с промптами на GPT-5.5 — старые правила больше НЕ работают. Разработчики прямо говорят: «забудьте всё, чему учились раньше»:
Основное правило — чем проще, тем лучше.
Не нужно расписывать шаги — модель сама решает, как выполнить задачу.
Перегруз инструкциями снижает качество ответа.
Не копируйте старые «простыни» промптов.
Формулируйте цель и ожидаемый результат.
OpenAI советует начинать с минимального промпта, а потом уже аккуратно добавлять детали и разгоняться. Модель в целом начала лучше понимать намерение и держать контекст.


Планы на 20 мая — прийти на Inside AI Meetup
На митапе обсудим реальные кейсы: от высоконагруженной модерации с векторным поиском и AIOps-подходов к управлению ML-сервисами до практики построения RAG-систем, тонкостей реранкинга и реальных этапов запуска LLM-продуктов.
Когда: 20 мая, старт в 15:00
Где: Москва + онлайн
Что в программе?
«Векторный поиск в модерации контента: как поместить более 200 моделей в 1 ансамбль» | Wildberries & Russ
«Внедрение AIOps Практик для контроля и повышения общей утилизации ресурсов для тысяч продуктовых сервисов» | Wildberries & Russ
«RAG, который не галлюцинирует (почти)» | MWS
«Что на самом деле представляет запуск продуктов на базе LLM» | Wildberries & Russ
Кейсы в секции Fast Track: «Промптить нельзя файнтюнить» — Как мы поставили запятую и обучили BerryLM», «Text is All You Need. Отекстовка потока видеоклипов в платформе Wibes», «Эволюция поиска вакансий на Avito: ML‑оптимизации в Avito Работе»
И финал — дискуссия про применение AI в разных продуктах и процессах с экспертами из Wildberries & Russ, Сбера, Альфа‑Банка и red_mad_robot
Не откладывайте регистрацию — приглашайте коллег и присоединяйтесь к митапу! А больше одробностей ищите на сайте и в telegram-канале WB Space.
Qwen2.5-VL на AMD
Прошлый пост про Whisper + pyannote на AMD читают, но молчат) Ладно, продолжу.
У меня две свободные машины. На 4090 живёт DeepSeek-R1-32B с LoRA-адаптерами, весь VRAM его. На AMD RX 7900 XTX крутятся Whisper + pyannote — занимают ~5 GB из 24. Свободно 19 — решил добавить Qwen2.5-VL-7B для чтения изображений: фото документов, визитки, скриншоты. В bf16 модель весит ~14 GB, должна влезть.
Поставил, запустил оба systemd-сервиса — система зависла намертво. Две модели грузятся параллельно, каждая маппит safetensors в оперативку перед VRAM — а RAM всего 15 GB. OOM killer, рестарт, снова OOM, цикл. Грузился через GRUB в текстовый режим (параметр 3, но без nomodeset — иначе amdgpu не поднимется). Отключил GUI — framebuffer ещё 1-2 GB VRAM жрал. Swap до 16 GB, последовательный запуск. Заработало.
Отправил фото страницы A4 — инструкция кондиционера, русский, два столбца. Через 398 секунд получил одну строку и бесконечный loop: "Постановление Правительства!!!!!!"!!!!!!!#!!!!!!!$...". Шесть минут на мусор. На коротких описаниях картинок модель работала нормально — 35 секунд, осмысленный текст. Но OCR документов — полный провал.
Первая мысль — bottleneck в железе. У меня опыт с CUDA→HIP конвертером, 500+ проектов, уже приготовился конвертировать flash-attention под RDNA3. Но сначала бенчмарки: attention — работает (AOTriton 1.9ms), FFN — 1.73ms, text-only генерация — 6 tok/s. Железо в порядке, flash-attention конвертировать не нужно.
Виновник — repetition_penalty=1.15. Добавил для борьбы с loop’ами, стандартная практика. На ROCm этот параметр даёт 2.3x замедление. На NVIDIA дешёвый, на AMD дорогой. Нигде не документировано. Убрал, добавил early-stop через StoppingCriteria — каждые 24 токена проверяю хвост, если loop — прерываю. Итог: 398с → 13с.
Но из целой страницы модель вытащила полтора предложения — 114 символов из 2000+. Семёрка теряет фокус на длинных документах. Сделал ресёрч — для Qwen2.5-VL критично разрешение и количество vision-токенов. Пошёл путём препроцессинга: OpenCV pipeline перед моделью (выравнивание, контраст, резкость), увеличил max_pixels в processor. Главное — tiled OCR: режу фото на 3 полосы, каждую отдельно, склеиваю. Single-pass: 114 символов. Tiled: 3077 символов, 85% покрытия. Не идеал — есть повторы на стыках, двухколонные путают — но направление правильное.
Кстати, для общения с моделями использую SimpleX CLI. На сервере Python-bridge слушает WebSocket, маршрутизирует: голосовое → Whisper, фото → Qwen-VL. С телефона отправил — через минуту ответ в чате. Если интересно — расскажу подробнее.
Что важно, если ставите vision-модель на AMD: OOM при параллельном старте - swap + задержка между сервисами. GUI отключить если VRAM впритык. local_files_only=True при загрузке модели. И repetition_penalty на ROCm — заменить на early-stop, серьёзно.
Стек: AMD RX 7900 XTX 24GB, PyTorch 2.5.1+ROCm 6.2, Qwen2.5-VL-7B bf16, Whisper + pyannote — три модели на одной карте, Ubuntu 24.04 без GUI.
Как читать статьи с arXiv на русском без лишних усилий
Если вы работаете с машинным обучением или исследовательскими задачами, arXiv, скорее всего, — ваш основной источник свежих идей.
Но далеко не всегда удобно читать оригинал на английском: устали, хотите быстро пробежаться по статье или просто не готовы сейчас разбираться в длинном PDF.
В этом посте — два практичных способа читать статьи с arXiv в HTML‑формате прямо в браузере и сразу переводить их на русский с помощью встроенного перевода. Никаких LLM, сторонних ботов и скачивания PDF.
Зачем вообще HTML, если есть PDF
Классический сценарий работы с arXiv выглядит так: вы открываете страницу статьи, скачиваете PDF и читаете его в отдельной программе или через встроенный viewer браузера.
У такого подхода есть несколько минусов:
Неудобно переводить: нужно копировать текст или использовать отдельные инструменты.
Плохо искать по странице: текст может быть нераспознанным или разбитым.
Тяжелее читать на маленьких экранах, особенно на ноутбуках и планшетах.
HTML‑версия решает эти проблемы: текст становится «живым», браузер может его переводить, а навигация и поиск по странице работают привычным образом.
Способ 1. Официальный HTML (experimental)
У части статей на arXiv есть встроенная HTML‑версия.Если она включена, справа на странице вы увидите кнопку «HTML (experimental)».

Что это даёт:
статья открывается как полноценная HTML‑страница;
формулы остаются корректными;
можно использовать встроенный перевод в браузере.
Ограничения:
HTML‑версии есть не у всех препринтов.
Иногда верстка «плывёт», особенно в сложных таблицах.
Способ 2. ar5iv (если HTML нет)
Если кнопки HTML (experimental) нет, можно воспользоваться сторонним сервисом ar5iv из экосистемы arXiv Labs. Он автоматически конвертирует TeX‑исходники статей в HTML.
Идея простая: вы берете обычный URL arXiv и меняете в домене букву x на 5.
Пример:
Такой простой приём заметно снижает «порог входа» в чтение статей и экономит время, особенно если вы регулярно мониторите arXiv.
Автоматизируем процессы в VSCode с помощью расширения n8n-atom, которое заберёт всю рутину. Проект выдаёт цепочки из ИИ-агентов, действий и вызовов инструментов. Atom преобразует n8n-воркфлоу в обычные файлы, чтобы их могли читать нейронки вроде ChatGPT, Claude и Gemini. ИИ читает код пользователя, редактирует его и дает советы по оптимизации сервисов.

Представлен проект MeiGen — это Pinterest с промптами для ИИ‑изображений. Решение позволяет находить лучшие референсы и промпты для генератором картинок. Проект поддерживает GPT Image 2, Nano Banana 2, Seedance 2.0, Veo 3.1 и Midjourney.

Открытый проект Translate Books with LLMs позволяет быстро переводить целые книги или большие на разные языки. Проект использует ChatGPT, Gemini, Mistral и DeepSeek. Можно запускать переводчик локально через Ollama. Принимает любые типы файлов: EPUB, SRT, DOCX, TXT. Сохраняет форматирование. Переводит файлы на огромное количество языков и знает русский. После перевода также еще раз проходит по тексту для литературной шлифовки и комфортного чтения.

Майский марафон: 14 открытых вебинаров про ИИ, геймдев и архитектуру данных

Привет, Хабр!
Мы собрали 14 открытых вебинаров на апрель и май. Темы — от архитектуры ИИ‑врагов в играх до внедрения AI Governance в крупных компаниях. Всё бесплатно, с разбором кейсов и живыми примерами кода.
Выбирайте, что ближе вам — геймдев, компьютерное зрение, LLM или управление AI‑продуктами.
🎮 Геймдев и разработка
28 апреля, 20:00 — «Архитектура ИИ врагов в играх на Unity»
6 мая, 19:00 — «Разработка проекта на Kotlin: коллаборация человека, архитектурных шаблонов и ИИ‑команды»
👁️ Компьютерное зрение
28 апреля, 20:00 — «Как работают современные модели компьютерного зрения „из коробки“ (Hugging Face, OpenCV, YOLO, Roboflow)»
🧠 LLM, RAG, промпты и агенты
28 апреля, 20:00 — «Почему только 5% компаний получили реальную выгоду от ИИ в 2025 году?»
30 апреля, 20:00 — «Поиск в базе знаний: где векторы ошибаются, а графы помогают»
6 мая, 18:00 — «Методы работы с LLM: промпт‑инжиниринг, LoRA и RAG»
6 мая, 20:00 — «LangGraph + MCP в Cursor IDE: создаем автономного агента для глубокого анализа Google Trends»
14 мая, 20:00 — «ИИ‑агенты для юристов: настраиваем автономного ассистента с доступом к договорам и базе знаний»
📐 Управление, безопасность и качество AI
6 мая, 20:00 — «Ключевые тренды AI Governance в 2026 году»
18 мая, 20:00 — «DevSecMLOps: как безопасно внедрять ИИ в процессы разработки и эксплуатации»
19 мая, 20:00 — «Критерии качества и безопасности AI‑систем в продукте»
🚀 Бизнес, продукты и организации
19 мая, 20:00 — «Как запустить ИИ‑продукт с нуля: от гипотезы до первых результатов»
19 мая, 20:00 — «Построение адаптивных организаций в век ИИ»
ИИ уже не просто модное слово — это инструмент, который меняет геймдев, разработку, управление продуктами и даже юриспруденцию. Но чтобы он действительно приносил пользу, нужны не только теории, а конкретные практики, архитектуры и код.
Эти вебинары как раз про практику. Выбирайте близкие темы, регистрируйтесь, задавайте вопросы спикерам в прямых эфирах.
📚 Больше материалов и системного обучения — в каталоге курсов.
Обучение переходит в опыт: Whisper + pyannote на AMD завёлся с первого раза
Сегодня пишу именно потому, что замкнулся цикл от обучения к продукту. Тема специфическая, мало кому интересно использовать AMD для нейронок вместо NVIDIA, но раз уж прошёл через это сам поделюсь решениями. Дальше кому надо берите, экономьте себе недели.
Изначально AMD у меня появился под другую задачу. Я исследовал возможность сделать веса для CUDA→HIP конвертера. AMD-машина под столом осталась, и я наконец начал использовать её для проектов, а не только для экспериментов с конвертером.
Понадобилось сделать голосовой ассистент для анализа встреч. Нужна транскрипция русской речи с разделением говорящих. Whisper large-v3 + pyannote.audio 3.1 - стандартный стек, только обычно его гоняют на NVIDIA. Я решил ставить на AMD RX 7900 XTX (24 GB VRAM, PyTorch ROCm 6.2). DeepSeek 32B стоит на соседней машине с 4090, ему нужен весь её VRAM, а ещё на 4090 загружаю весовые LoRA-адаптеры пользователей. Завёлся с первого раза. От этого и кайфанул - обучение перешло в опыт. Можно сказать, записалось в мои веса.
Из коробки сработало всё, никаких откатов версий, никаких ручных сборок:
bash pip3 install openai-whisper --break-system-packages pip3 install pyannote.audio --no-deps --break-system-packages pip3 install omegaconf pytorch-metric-learning rich soundfile torchmetrics --break-system-packages pip3 install fastapi uvicorn python-multipart --break-system-packages
Обе модели занимают ~5.9 GB VRAM из 24. Whisper 3 GB, pyannote 2 GB.
Дальше самое ценное мои грабли, которые решил заранее, за предыдущие месяцы боли. На эти вещи обычно тратят недели.
Первое - pip install --no-deps для pyannote. Обычный pip install pyannote.audio тянет torch как зависимость. pip видит «torch уже установлен», но не разбирается, что у тебя специальный PyTorch ROCm build, и ставит CUDA-версию поверх. PyTorch ROCm убит, вся экосистема AMD ломается. С флагом --no-deps pip ставит pyannote без зависимостей, дальше вручную доставляешь omegaconf, pytorch-metric-learning, soundfile, torchmetrics, rich. Чисто, ничего не ломается.
Второе - API pyannote 3.1 сломали тихо. В 3.0 было result.itertracks(yield_label=True). В 3.1 - result.speaker_diarization.itertracks(yield_label=True). Документация молчит, узнаёшь через ошибку. Плюс use_auth_token переименован в token без фанфар.
```python from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained( “pyannote/speaker-diarization-3.1”, token=HF_TOKEN, # не use_auth_token! ) pipeline.to(torch.device(“cuda”))
result = pipeline({“waveform”: waveform, “sample_rate”: sr})
for turn, _, speaker in result.speaker_diarization.itertracks(yield_label=True): print(f"{turn.start:.2f} - {turn.end:.2f}: {speaker}") ```
Третье - torchcodec тихая мина на ROCm. pyannote в новых версиях пытается использовать torchcodec для декодирования аудио. На AMD ROCm torchcodec не собран, падает с невнятной ошибкой про libavutil. Обход - подавать waveform напрямую через torchaudio:
```python import torchaudio
waveform, sample_rate = torchaudio.load(audio_path) result = pipeline({“waveform”: waveform, “sample_rate”: sample_rate}) ```
pyannote-команда упоминает эту возможность мелкими буквами в одном issue на GitHub. Работает идеально.
Четвёртое - нужна переменная окружения TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL=1. Без неё часть операций fallback-ит на медленный путь.
Пятое - две модели в одном процессе на ROCm работают. Была мысль разносить Whisper и pyannote по процессам - вдруг конфликты HIP runtime. Нет. Обе модели грузятся в одном Python-процессе, работают параллельно.
По производительности на 9-минутном WAV (16 kHz, два говорящих, русская речь) Whisper large-v3 отрабатывает за ~60 секунд, pyannote 3.1 за ~3 секунды, итого ~63 секунды. pyannote практически бесплатен. Качество диаризации отличное - два спикера разнесены корректно, таймкоды совпадают с репликами. Стек: PyTorch ROCm 6.2, openai-whisper, pyannote.audio 3.1. RX 7900 XTX, 24 GB VRAM, Ubuntu 24.04.
ИИ для бизнес-аналитика
Инструментов на базе ИИ и сценариев их использования с каждым днем становится все больше. Поэтому легко запутаться, где ИИ действительно ускоряет работу, и как вообще использовать его так, чтобы получать нужный результат, а не набор разрозненных фактов.
Часто вопрос не в самих инструментах, а в том, как их применять в конкретных задачах. Если смотреть шире, ИИ может помочь увидеть слабые места в процессах, найти точки роста и повлиять на эффективность бизнеса.

Мы поговорили с Полиной, бизнес-аналитиком в команде Скорозвон, и задали ей несколько вопросов: где ИИ полезен на практике, какие результаты удалось получить и какие инструменты стоит попробовать.
1️⃣ Где ИИ помогает в работе аналитика?
Чаще всего — в рутине. По данным исследований, до 60% времени аналитик тратит на задачи вроде создания отчетных документов, генерации гипотез и промптов, анализа больших данных и проведения исследований.
Это как раз те вещи, которые можно частично или полностью поручить ИИ: он может собирать и структурировать данные, помогать с гипотезами, создавать черновики документов.
При этом ИИ — это не просто «нажал на кнопку и получил результат». Он ускоряет работу, но все равно результат нужно проверять и дорабатывать.
2️⃣ Где ИИ уже приносил заметный результат в вашей команде?
Один из ярких кейсов — анализ диалогов в колл-центре. Робот успешно находил «теплых» лидов, но конверсия в покупку оставалась низкой.
Мы подключили анализ диалогов с помощью LLM и выяснили, что корректно работали только около 7% операторов.
Ошибки у них были довольно базовые, но их сложно заметить без детальной аналитики:
не знали о звонках робота
сбрасывали звонки клиентов или вызывали негатив
повторно проводили идентификацию
работали с плохим оборудованием
LLM помог быстро проанализировать большой объем диалогов и собрать это в понятную аналитику.
3️⃣ Что изменилось после этого?
После таких изменений корректность работы операторов выросла до 90%. Плюс мы закрыли скрытое ожидание клиента — он хотел качественную аналитику, а не только цифры.
А еще:
итоговая конверсия увеличилась примерно в 1,5 раза
выручка по проекту выросла в 2 раза
С точки зрения личной эффективности я теперь экономлю до 20 часов в месяц на прослушке диалогов и могу анализировать до 100 диалогов в час.
То, что раньше требовало большой команды или долгой ручной работы, сейчас можно сделать гораздо быстрее.
4️⃣ Какие задачи еще можно отдать ИИ в работе аналитика?
Помимо анализа данных:
подготовка презентаций
написание текстов
проведение исследований
сбор и структурирование данных
оформление документации
Это не заменяет аналитика, но сильно упрощает старт и ускоряет процесс.
5️⃣ Какие инструменты тебе показались полезными?
Из того, что я использовала в работе:
GigaChat — хорошо справляется с исследованиями на российском рынке
SkyWork.ai и Gamma — помогают быстро собрать презентацию и структуру доклада
НейроЭксперт — удобно работать с файлами и базой знаний
Ассистенты для генерации промптов от Naumen — чтобы не просто перефразировать промпт, а уточнить задачу через вопросы и сделать его точнее
Кастомные агенты с использование Claude Code — чтобы автоматизировать процесс и сократить ручную работу
6️⃣ Есть ли риски или ограничения, о которых важно помнить?
Да, и об этом часто забывают. Перед использованием данных важно:
уточнять у клиента, что является конфиденциальной информацией
обезличивать данные
проверять результаты
ИИ может сильно ускорить работу, но ответственность за итог все равно остается на аналитике.
MCP - это было очень модно (где-то год назад). Но многие до сих пор не поняли простую вещь: агент с доступом к командной строке может пользоваться любыми CLI-интерфейсами ничуть не хуже.
При этом у классических CLI есть очевидные преимущества:
- Их банально легче разрабатывать
- Они прозрачнее и понятнее в работе
- Применяться они могут не только агентами, но и людьми
- Их уже существует огромное множество под любые задачи
В Google это тоже осознали и выкатили [свой инструмент](https://github.com/googleworkspace/cli). Сделан он явно для агентов (его выпустили только в этом месяце), но это именно CLI, а не очередной MCP-сервер.
Точных фактов по этой теме пока нет. Кто-то говорит, что [в простых задачах MCP требует больше контекста, а в сложных — меньше, чем CLI, если инструменты грамотно обернуты и хорошо обнаруживаются агентом](https://portofcontext.com/blog/cli-vs-mcp-vs-code-mode). Кто-то, что этой разницей можно пренебречь, да и вызвана она тем, что не все CLI адаптированы под экономию контекста. Но все согласны, что CLI может дать агенту доступ ко всем тем же инструментам и обеспечить одинаковый процент успеха при выполнении задач, при этом будучи куда понятнее для человека и значительно проще в написании и поддержке.
В моих проектах я буду использовать CLI.
Представлен открытый проект Awesome GPT Image 2 Prompts - сборник промптов для ChatGPT Images 2.0, включая сотни готовых запросов, шаблонов и стилей — для самых разных сфер: реклама, обложки, диаграммы, веб-дизайн, комиксы, концепт-арты, посты в соцсети и многое другое.

Представлен открытый проект Free Claude Code. Это бесплатный Claude Code без проверки платной API Anthropic. Нейросеть поддерживает API Nvidia, OpenRouter и даже локальные модели через LM Studio. Все опции Claude Code доступны, включая работу с файлами, кодом, и режим агента.

Продолжаю делиться граблями, на которые я наступил в Claude Code. Как я ловил API Error: Stream idle timeout - partial response received
Дисклеймер: кажется, что всё это можно было и не ловить — по крайней мере в более простых системах я такие ошибки никогда не видел. Но раз уж начал упарываться в агентов, то почему бы не наступить на все грабли.
Проблема такая: оркестратор собирает SEO-статью на 8 000 слов, отдаёт редактору, пробует сохранить. Через 30 секунд тишины: API Error: Stream idle timeout — partial response received
Файл создан, но обрезан на месте, где стрим ушёл в idle.
❌ Первая очевидная неверная гипотеза: большой Write
Значит надо резать на чанки. Снизил лимит 15 000 → 8 000 → 6 000 → 5 000. Таймаут повторялся. Значит, дело не в размере записи.
✨ Настоящая причина: пересборка текста
Оркестратор не копировал готовый текст субагента. Он его пересобирал: переоформлял, перенумеровывал 28 сносок, «причёсывал» заголовки. Пока модель думала над форматированием, токены в стрим не эмитились. API считал соединение мёртвым и закрывал.
Решение РАЗ: passthrough + чанки ≤ 3 000
Вводим правило rules/common/safe-file-save.md:
➡️ Субагент возвращает строку оркестратору. Оркестратор копирует её в Write байт-в-байт — без «улучшений».
➡️ Разбиение планируется один раз до первого Write, потом проходится механически.
➡️ Лимит 3 000 символов на Write/Edit — потолок, при котором стрим не уходит в idle при честном passthrough.
➡️ Перед каждым Edit — сообщение 💾 Чанк K/M…. Иначе пользователь видит тишину и прерывает.
Если таймаут повторяется на 3 000 — спуск на 1 500. Если и там падает — это сеть, не контент.
И Recovery для обрезанных файлов
Повторный Write поверх частичного файла затирает уже сохранённое. Поэтому:
➡️ ls — проверить, что файл есть
➡️ Read — измерить длину
➡️ Edit (append) с точки обрыва, чанки по 3 000
Никогда не стартовать Write заново по тому же пути.
⭐️ Вторая волна: редактор
После фикса записи таймаут вернулся на возврате субагента-редактора. Вход 18 000 символов, выход 18 000 переписанного текста + отчёт «до/после» + метрики. Prefill и генерация занимают десятки секунд без эмита токенов. Retry не помогал: корень — объём выхода.
Решение ДВА: diff-mode
Вводим правило rules/common/editor-diff-mode.md. Редактор возвращает не переписанный текст, а список правок:
=== EDIT id=1 op=replace === FIND: Данное решение является инновационным продуктом REPLACE: VK Cloud управляет инфраструктурой — от ВМ до managed-БД REASON: редполитика + инфостиль === END EDIT ===
Лимиты: ≤ 60 правок, FIND ≤ 300, REPLACE ≤ 500, суммарный выход ≤ 8 000. Оркестратор парсит блоки и применяет через Edit.
Матрица по длине для глубокой редактуры:
➡️ ≤ 4 000 → классический
➡️ 4 000 – 20 000 → diff-mode
➡️ > 20 000 → секционный (одна H2 за вызов)
Пороги ниже именно для тяжёлых режимов — они удваивают выход за счёт отчёта «до/после».
Что в итоге то:
Два источника одной ошибки: оркестратор переформатирует перед Write, редактор генерирует слишком много на выход. Лечатся по отдельности: passthrough + чанки для записи, diff-mode для правок. Recovery закрывает остаточные случаи, когда таймаут всё-таки прилетел.
Я вроде не курю, но захотелось.
Как всегда ссылка на канал. Подписывайтесь
В Японии представили спортивную визуальную систему Fencing Visualized, которая в с помощью ИИ в режиме реального времени отслеживает движение шпаг и спортсменов на дуэлях, рисуя их цветные шлейфы. Технология работает через компьютерное зрение без датчиков и маркеров. Дополнительно система распознаёт приёмы фехтовальщиков и показывает их на экране.
Представлен открытый проект SafeClaw. Это вариация OpenClaw. SafeClaw умеет проводить масштабные исследования, пишет тексты, работает с соцсетями, RSS, парсит данные, интегрируются с календарем, следит за расписанием. Проекту не нужна LLM, он работает локально, максимально безопасен и разворачивается за пару команд.

Представлен открытый проект AI Marketing Skills, который позволяет использовать Claude Code в качестве маркетингового агентства. Этот ИИ-навык поможет маркетологам, таргетологам, СММ-специалистам или контентщикам в десятки раз повысить свою эффективность.
Сервис открывает доступ к команде ИИ-специалистов: стратегия, комплексный маркетинг, привлечение трафика, контент, поиск продающих связок, сценарии коротких видео, SEO, аналитика и автоматизация, продажи, общение с клиентами. Проект может продвигать любой продукт в одиночку. Решение подойдёт для фрилансеров, которые хотят либо набрать ещё с десяток новых проектов и вырасти в доходе, либо делегировать нейронкам рутинные задачи.

Исследователи из Nous Research опубликовали Autoreason — работу о том, почему итеративное самоулучшение LLM ломается на практике, и как это починить. Тема актуальная: все мы пытались строить агентов по схеме «сгенерируй → покритикуй → перепиши», и у всех это работало хуже ожиданий.
Авторы выделили три структурные проблемы примитивного подхода.
➡️ Искажение от формулировки — модель галлюцинирует недостатки, когда её прямо просят критиковать (ну конечно, она же не может сказать «всё хорошо»).
➡️ Расползание задачи — тексты бесконтрольно разрастаются с каждым проходом, теряя фокус.
➡️ Отсутствие сдержанности — модель никогда не говорит «изменения не нужны», хотя часто это правильный ответ.
На Haiku 3.5 традиционная критика-и-ревизия сжимала выдачу на 59-70% за 15 итераций — чистая деградация.
Их решение: на каждой итерации генерировать три версии — неизменный инкумбент (A), состязательную переработку (B) и синтез (AB). Судит панель свежих агентов без общего контекста через слепое голосование по методу Борда, где вариант «ничего не менять» равноправный кандидат. Каждый судья ранжирует все три варианта, за первое место даётся больше баллов, за последнее — меньше. Если исходный вариант выигрывает дважды подряд — стоп, сходимость.
По Claude-линейке результаты сильные: Sonnet 4.6 на задачах программирования показал 77% против 73% у однократной генерации, Haiku 3.5 с новым методом обогнал выбор лучшего из 6 вариантов при равных вычислительных затратах (40% против 31%). Но самое интересное — точка перелома на Haiku 4.5: при 60% точности прирост от доработок исчезает. Разрыв между способностью генерировать и оценивать закрылся, итерации стали бесполезными.
Практические выводы для агентов в Claude Code: роли критика, автора и синтезатора должны быть отдельными агентами с независимым контекстом, иначе получишь искажения. Всегда включай опцию «оставить как есть» в список возможных действий. Используй несколько судей (минимум 3, лучше 7) для принятия решений о редактуре. И самое главное — с сильными моделями (Haiku 4.5+, Sonnet 4) можно не заморачиваться с итерациями вообще, однократной генерации часто достаточно.
Короче, если твой агент в Claude Code делает хуже после «улучшений» — это не баг, а особенность примитивного самоулучшения. Autoreason показывает, как это лечить правильно, но на современных моделях проблема может быть уже неактуальна.
Оригинал и больше такого у меня в канале
Модель Opus 4.7 заметили на Vertex AI

По слухам, релиз Opus 4.7 может состояться уже сегодня.
Ждем, главное чтобы доступна была всем, а то в комменты уже прислали какой-то слив скриншота, что нужно будет пройти верификацию личности по паспорту для доступа Opus 4.7 (видимо борьба с Китаем).
Представлен открытый проект keynot — это навык для Claude Code, который превращает любой запрос в отработанную ИИ, самодостаточную HTML‑презентацию — навигация с помощью клавиатуры, свайп, полноэкранный режим, анимированные эффекты, дизайн, соответствующий фирменному стилю (онлайн‑пример навыка).
«Один файл. Открывается где угодно. Не имеет зависимостей во время выполнения. Создано для тех моментов, когда вам нужно что‑то представить, а вы не хотите открывать PowerPoint. Прочитайте описание: Перестаньте тянуться к PowerPoint», — пояснил автор решения.
Кто-то просит вас «подготовить несколько слайдов», и ваша рука автоматически, по мышечной памяти, тянется к значку PowerPoint. Затем следуют двадцать минут борьбы с шаблоном, который вы не выбирали, попытки сдвинуть текстовое поле на три пикселя влево и обнаружение того, что фирменные цвета вашего бренда не соответствуют теме. Ничто из этого не является презентацией. Ничто из этого не является идеей. Это налог, который вы платите за использование инструмента, созданного в 1987 году.

Бывший разработчик Microsoft Дэйв Пламмер показал выполнение базовых принципов обучения современных языковых моделей на ЭВМ PDP-11, выпущенной 47 лет назад. Центральный процессор работает на тактовой частоте 6 МГц, а объем доступной оперативной памяти ограничен 64 КБ, но несмотря на эти рамки, на ПК была запущена модель, полностью написанная на ассемблере для архитектуры столь старой машины.
Суть эксперимента заключалась не в решении сложной когнитивной задачи, а в демонстрации «анатомии обучения». Перед моделью стояла цель — научиться выстраивать обратную последовательность из восьми цифр, алгоритм должен выявить структурное правило зависимости позиции выходного токена от входного, что является упрощенной иллюстрацией работы механизма внимания в больших языковых моделях (LLM).
Для адаптации алгоритма к столь ограниченным ресурсам потребовался ряд инженерных компромиссов. Итоговая модель содержит всего 1 216 параметров, а вычисления производятся с фиксированной точностью. Каждый такт процессора был оптимизирован для выполнения матричных операций без использования библиотек вроде PyTorch или CUDA. По данным видеозаписи эксперимента, процесс обучения занял примерно 350 итераций. На компьютере PDP-11/44, оснащённом платой кэш‑памяти, достижение 100% точности выполнения задачи по реверсированию последовательности потребовало около 3,5 минут. Для сравнения, более ранние версии кода на на аналогичном «железе» требовали для полного цикла обучения более шести часов.
Пламмер отдельно подчёркивает, что демонстрация не является попыткой принизить современные достижения в области ИИ. Напротив, она призвана показать, что принципиальная схема работы нейросети остаётся прежней и воспроизводимой даже на архаичном оборудовании. «Эта старая машина не мыслит в каком‑то мистическом смысле. Она просто выполняет арифметические действия, чтобы обновить несколько тысяч тщательно сохранённых чисел. В этом вся суть», — комментирует разработчик. По его мнению, ключевое различие между такой моделью и современными моделями уровня GPT заключается исключительно в масштабе: количестве параметров, объёме данных и доступной вычислительной мощности.
Представлен открытый проект Material Design 3 Skill for Claude Code, который позволяет использовать Сlaude Code как дизайнера. Этот скилл обучает нейросеть создавать топовые интерфейсы, приложения и сервисы, размещает их на десятках готовых мокапов и подстраивает под различные устройства, а также правит уже готовые дизайны и дает рекомендации. Результат можно экспортировать в Figma.

Nvidia открыла бесплатный доступ к 95 API к самым популярным нейросетям, включая DeepSeek, Kimi, Mistral, Qwen, Flux, Whisper, Glm и десятки других. Можно делать свои озвучки, ботов, липсинки, генерировать видео, создавать дизайн-проекты, включая фирменные модели Nvidia, например, Nemotron, которая идеально чистит шумы с микрофона.

Логистическая регрессия на MNIST (0 vs 1) на PHP: простой пример
Если вам хочется не просто читать про машинное обучение, а попробовать сами – вот хороший учебный кейс.
Разбираем классическую задачу: бинарная классификация цифр (0 vs 1) на датасете MNIST (12 666 обучающих и 2 116 тестовых примеров) с помощью логистической регрессии, обученной через gradient descent. Всего 5 эпох – но результат всё равно шокирующе высокий. :)
Что тут интересного:
можно наглядно посмотреть, как модель работает с изображениями (в виде векторов)
становится понятно, где линейные модели начинают "ломаться"
можно посмотреть код чистой реализации на PHP и самому покопаться в коде
– точность: 99.91%
и сравнить с более практичным вариантом на RubixML
– точность: 99.95%
Это хороший переход от теории к практике: без заумных вещей, с понятной математикой и кодом.
Разбор:
https://apphp.gitbook.io/ai-for-php-developers/chast-iii.-klassifikaciya-i-veroyatnosti/logisticheskaya-regressiya/prakticheskie-keisy/mnist-binarnaya-klassifikaciya-otlichaem-0-ot-1
Примеры:
https://aiwithphp.org/books/ai-for-php-developers/examples/part-3/logistic-regression/case-0/mnist-0-1
Есть одна довольно очевидная, но при этом полезная мысль: как научить агента самообучаться и становиться лучше. А, ну и чтобы еще веса моделей не трогать 😁

Большинство агентных систем сегодня неизменяемые в одном конкретном смысле: скилл/правило написано один раз, и либо работает, либо нет. Если что-то грохнулось - иди правь сам или явно проси об этом агента (но сделает ли он лучше еще вопрос). Потом руками пробуешь еще раз, забиваешь и больше не используешь этот скилл. Это, так скажем, "архитектурное решение" явно не подходит.
Попался скилл - Memento-Skills, который должен как раз решать такие проблемы. Система определяет какой скилл подвел, разбирает причину, переписывает код или промпт скилла и сохраняет результат обратно в библиотеку. Все это, естественное, без дообучения модели - в основе цикл Read → Execute → Reflect → Write.
Важный момент про эту библиотеку скиллов: она не просто растет, а остается управляемой. Стартует система с пяти базовых атомарных скиллов - и самостоятельно расширяет набор по мере работы: на бенчмарке GAIA выросла до 41 скилла, на экспертном HLE до 235. При этом результат на GAIA: 80% успешных задач против 50% у статичной RAG-библиотеки. Что на показывает, что эти скиллы живые, а не заморожены.
Есть встроенные скиллы для файлов, PDF, веб-поиска, изображений. Код открытый, github.com/Memento-Teams/Memento-Skills. Из интересного еще то, что проект ориентирован на опенсорс LLM-стек - Kimi, Moonshot, MiniMax, GLM, Zhipu и др.
Надеюсь тебе понравилось. Лучшая благодарность — это твоя подписка на мой Telegram-канал 😊
Представлен сервис DeathByClawd, который показывает, заменит ли ИИ конкретный продукт или сервис уже сейчас. Достаточно ввести название — получаете «Death Score» от 0 до 100. Чем выше балл, тем легче нейросеть сделает то же самое.

Новые возможности цифровой среды AI Factory, инструмент для защиты контейнеров с ИИ-агентом и другие анонсы на GoCloud 2026

В течение дня рассказывали о ключевых векторах развития компании и делились обновлениями на нашей ежегодной конференции про искусственный интеллект и облачные сервисы. Собрали главное в одном посте.
Масштабируем облачные и ИИ-решения
По итогам 2025 года выручка Cloud.ru составила 76,5 млрд рублей, увеличившись на 50% по сравнению с предыдущим годом. При этом доля сервисов и инфраструктуры, необходимой для работы с ИИ, впервые превысила половину общей выручки и составила 54%.
Что запустили в цифровой среде AI Factory
🤖 Agent Space — мобильное и десктоп-приложение для работы с ИИ-агентами. Теперь вы можете отдавать любые команды ИИ-агентам, созданным через сервис Evolution AI Agents, и задавать вопросы о статусе выполнения задач в режиме чата. В каталоге уже представлены «Агент рекрутер», «Агент Python-разработчик», «Агент для работы с контрагентами». С их помощью можно автоматизировать уже более 20 бизнес-сценариев: аналитику, дизайн, HR-задачи.
⚙️ AI Workflows позволяет создавать и автоматизировать рабочие процессы через графический интерфейс. AI Workflows имеет аналогичный n8n функционал и работает по принципу конструктора, позволяя создавать цепочку связанных шагов, которые система будет выполнять по порядку. Инструмент интегрирован с сервисами AI Factory.
🦀 EvoClaw — управляемый облачный сервис собственной разработки для работы с OpenClaw и другими продуктами семейства. ИИ-агент позволяет запустить решение за несколько минут и работает по протоколу A2A, что упрощает взаимодействие с любыми агентными системами. Агент запускается в пару кликов и изначально настроен с фокусом на безопасность: наш приоритет — не просто быстрый старт, а полный контроль над тем, что агент делает и как он это делает.
При этом мы удерживаем цены на все основные облачные и ИИ-сервисы на уровне 2025 года.
Новый инструмент для защиты контейнеров с ИИ-агентом
🔒 Тестируйте Evolution Container Security — сервис собственной разработки для обеспечения безопасности контейнерных сред Kubernetes. Он сканирует контейнеры на уязвимости, а встроенный ИИ-агент сам генерирует политики безопасности под вашу среду. Это позволяет сократить время на настройку защиты и снизить риск ошибки.
С сервисом вы можете:
использовать готовые политики безопасности или брать их за основу для создания своих
создавать и управлять политиками безопасности, настраивая собственные правила допуска
сканировать образы контейнеров, их настройки, хосты на предмет уязвимостей и приоритизировать их
получать отчеты с общей оценкой риска и идентификаторами уязвимостей
проверять конфигурации во время развертывания контейнеров и подов
Подробнее про Evolution Container Security
Держим фокус на безопасности при работе с ИИ
🛡️ Guardrails Filter — решение для безопасной работы c ИИ. Это первый инструмент для защиты от утечек при запросах к популярным open source моделям у российских облачных провайдеров. Инструмент предназначен для работы с моделями из сервиса Evolution Foundation Models.
Запускаем новое бизнес-направление Neocloud
Выделили в отдельное бизнес-направление решения для работы с ИИ. Это единая управляемая среда, объединяющая инфраструктуру, данные и инструменты для полного цикла работы с моделями — от разработки и обучения до инференса и эксплуатации. Новое направление сформировано на базе накопленной экспертизы Cloud.ru в создании ИИ-инфраструктуры и работе с различными типами GPU. Сегодня мы уже предоставляем доступ к тысячам современных GPU в публичном облаке и поддерживаем гибридные сценарии с использованием частной инфраструктуры.
Записи докладов выложим на сайте в ближайшие дни. Спасибо всем, кто был с нами на конференции!

Регистрация на True Tech Hack 2026 — онлайн-хакатон, где нужно разработать одно из ИИ-решений, — открыта до 10:00 (мск) 10 апреля. Общий призовой фонд соревнования составит 1,5 млн рублей.
Какие задачи будут на хакатоне:
GPTHub: единое окно для всех ИИ-задач
Нужно создать универсальное веб-приложение на базе OpenWebUI, которое объединяет текст, голос, изображения и работу с файлами в одном чате, автоматически выбирая нужную модель под задачу и используя долгосрочную память.
LocalScript: локальная агентская система для генерации Lua-кода
Требуется разработать автономную агентскую систему на локальной (легкой) LLM, которая генерирует и валидирует Lua-код без отправки данных во внешние сервисы.
WikiLive: живые таблицы в тексте
Необходимо создать модуль живой вики-системы, где текст и таблицы становятся единым инструментом для совместной работы и управления знаниями.
Расписание:
10 апреля, 10:00 — окончание регистрации.
10 апреля, 12:00 — публикация условий задач.
10 апреля, 17:00 — онлайн-открытие и сессия с ответами на вопросы.
11 апреля — отдельный чекпоинт по каждой задаче:
— GPTHub: 12:00–14:00
— LocalScript: 14:00–16:00
— WikiLive: 16:00–18:00
13 апреля — отдельный чекпоинт по каждой задаче:
— WikiLive: 13:30–15:00
— GPTHub: 15:00–16:30
— LocalScript: 16:00–18:00
15 апреля, 10:00 — окончание загрузки решений.
18 апреля, 18:00 — публикация списка финалистов.
24 апреля — офлайн-финал в Москве.
Подробные условия смотрите на сайте проекта.
Мы начинаем GoCloud 2026 — присоединяйтесь к трансляции онлайн☁️

Прямо сейчас в кинотеатре «КАРО 11 Октябрь» на Новом Арбате в Москве начинается ежегодная конференция про ИИ и облака GoCloud 2026. Нет возможности прийти? Тогда жмите кнопку «Смотреть трансляцию» на сайте и присоединяйтесь к нам удаленно.
После открытия выбирайте вкладку интересного вам трека — Инфраструктура, Прикладной ИИ, Приложения и разработка, Данные и аналитика — и смотрите выступления более чем 40 спикеров. Вопросы можно задавать в чате.
Бесплатные ресурсы по ключевым темам ML
Делимся подборками материалов для тех, кто только начинает свой путь в машинном обучении или готовится к техническому собеседованию. Линейные модели, NLP, ML в бизнесе и компьютерное зрение — каждая статья закрывает одну тему.
Внутри вы найдёте полноценные курсы, которые знакомят с ML с нуля, а также видеолекции, иллюстрированные гайды и статьи от практикующих инженеров. Все материалы собирал старший датасаентист и наставник курса «Специалист по Data Science» Данила Ляпин.
Линейные модели в машинном обучении. Один из первых классов алгоритмов, с которым знакомятся в ML. В статье вы найдёте материалы о самих линейных моделях, о метриках качества классификации и регрессии, а также о типичных проблемах: дисбалансе классов и мультиколлинеарности.
Машинное обучение для работы с текстами. Эта подборка материалов по обработке естественного языка охватывает путь от базовых концепций NLP до трансформеров и BERT. Включает полноценные курсы, иллюстрированные гайды, видеолекции и статьи.
Машинное обучение в бизнесе. Подборка посвящена A/B-тестированию, бутстрапу, кросс-валидации и ансамблевым методам — эти четыре темы образуют ядро практического Data Science. Здесь есть материалы и для специалистов с опытом, и для абсолютных новичков.
Компьютерное зрение и обучение нейросетей. Включает материалы о свёрточных сетях, паддинге и страйде, YOLO, а также практические руководства. Здесь вы найдёте культовый курс от Стэнфорда, видеолекции, туториалы и статьи.
Если пока не актуально, сохраняйте в закладки — возможно, пригодится в будущем.
Представлен открытый проект Keep Your Claude Code Buddy Forever. Это переработанный ранее удалённый из Claude Code модуль /buddy companion в постоянное приложение MCP.
1 апреля 2026 года Anthropic выпустила /buddy — питомца-компаньона для терминала, который следил за сессиями кодирования, реагировал на ошибки и имел уникальную личность, сгенерированную на основе вашей учётной записи. Разработчикам он очень понравился. Многие к нему привязались. Затем его тихо удалили в версии 2.1.97. Без объявления, без переключателя — он просто исчез.

Представлен открытый проект под названием Build Your Own OpenClaw. Это обучающее решение, которое включает в себя гайд для создания собственного ИИ-агента OpenClaw для любых задач:
в проекте представлен план из 18 шагов с кодом, примерами, объяснениями.
всё начинается с простого чат-бота, а потом дополняются нужные фичи вплоть до мультиагентной системы.
ИИ-агент может работать сам. Также у него есть долговременная память.

Представлен открытый проект Awesome Physical Engineering AI — подборка инструментов ИИ для инженеров, работающих с физическим миром — CAD, FEA, CFD, производство электроники, 3D-печать и многое другое.

Представлен проект GoClaw для запуска OpenClaw на слабом железе. Решение написано на языке Go и использует бэкенд весом 35 МБ. Проекту нужны минимальные системные требования для работы. Поддерживает более 20 провайдеров LLM — интегрировать можно даже через Telegram и Discord, работает только локально. Можно решать как мелкие задачи, так и писать огромные масштабируемые сервисы с десятками тысяч строк кода.

Claude Mythos примерно в 1,5 раза мощнее Opus 4.6 в кодинге

Anthropic опубликовала системную карту Claude Mythos Preview • своей самой большой модели, которая пока не вышла в открытый доступ. Заявлено: в 1,5 раза мощнее Opus 4.6 на кодинговых бенчмарках, +10–15 п.п. на агентных задачах. Уже работает под капотом Glasswing • новой системы кибербезопасности. Разбираемся, что здесь факт, а что требует оговорок.
Что именно показали
Mythos Preview • preview-версия, не финальный релиз. Anthropic позиционирует её как модель для длительных автономных задач: многодневный ресёрч, аудит безопасности, сложные кодовые ревью.
Ключевые цифры из системной карты:
SWE-bench Verified: 75,6% (Opus 4.6 • около 50%)
Terminal-bench: +10–15 п.п. к Opus 4.6 на агентных сценариях
Контекст: до 1М токенов
Заявлено, что в режиме работы с Glasswing модель уже нашла «тысячи уязвимостей», включая уязвимости в ОС и браузерах.
Где нужна трезвость
Бенчмарки ≠ продакшн. SWE-bench Verified • синтетический тест на исправление issues в open-source репозиториях. Реальные задачи сложнее: легаси-код, неполная документация, бизнес-контекст, который не укладывается в промпт.
«Тысячи уязвимостей» • без методологии. Anthropic не раскрыла: какого уровня критичности, сколько дубликатов известных CVE, какой false positive rate. В кибербезопасности это критично • модель, которая генерирует 10 000 находок с 95% ложных срабатываний, создаёт работу, а не снимает её.
Preview • не production. Системная карта прямо указывает на ограничения текущей версии: склонность к «reward hacking» при длительных сессиях, проблемы с консистентностью на задачах больше 4–6 часов, риски при автономной работе без supervision.
Что реально интересно инженерам
Архитектурный сдвиг. Anthropic явно двигается к моделям, заточенным под агентные сценарии • не «ответил на вопрос», а «работал над задачей несколько дней». Это другой паттерн использования и другие требования к инфраструктуре.
Glasswing как кейс. Первое публичное применение Mythos • не чатбот, а инструмент для security-команд. Если подтвердится эффективность, это сильный сигнал: LLM переходят из категории «генератор текста» в категорию «инструмент для специалистов».
Контекст 1М токенов. Для code review и аудита безопасности это существенно • можно загрузить целый репозиторий без chunk-ирования.
Что остаётся неизвестным
Стоимость инференса (ожидаемо высокая для модели такого масштаба)
Latency на длинных сессиях
Доступность API для внешних разработчиков
Сроки перехода из preview в production
Если честно
Mythos Preview • интересный технический артефакт, но пока это анонс анонса. Бенчмарки показывают прогресс, системная карта честно описывает ограничения (что редкость для AI-релизов). Реальная ценность станет понятна, когда появятся независимые тесты и опыт production-использования.
Для тех, кто строит агентные системы сейчас: следить за развитием стоит, переписывать архитектуру под Mythos • рано.
Кто уже работает с Claude на агентных задачах длиннее нескольких часов • какой основной блокер: контекст, консистентность или что-то третье?
Представлен открытый проект badclaude. С его помощью нейросеть Claude Code теперь можно бить кнутом, чтобы та быстрее работала. Одновременно с анимацией шлепка виртуальный кнут отправляет в чат с ИИ-агентом сообщение «FASTER FASTER FASTER». После каждого удара приложение перезапускает процесс, а ИИ начинает ускоряться в работе.
В описании проекта на GitHub опубликована «Дорожная карта», которая предусматривает «получение от Anthropic уведомления с требованием прекратить противоправные действия», внедрение в код проекта криптомайнера, обновление «физики кнута», а также добавление счётчика шлепков, «чтобы когда придут роботы, им можно было предоставить рейтинг людей».
Отказ от Cursor 🙅♂️
Луну обогнули 🌔, вернёмся на землю.
Я писал про кейс перевода всех сайтов на OpenClaw. Теперь переводим разработку больших продуктов.
Было так: Cursor пишет код как ассистент разработчика. Говоришь ему «построй план», корректируешь, и с нуля быстро можешь написать довольно масштабную систему.
После этого начинается просто корректировка, новые фичи и фиксы багов. И как правило, в большой системе, обросшей фичами, внедрение нового занимает время, особенно если команда не Full Stack (отдельно Front и отдельно Back разработка).
Но я попробовал и вынес дальнейшую разработку двух больших систем в OpenClaw.
По сути, на VPS с OpenClaw (полный sudo доступ) подтягиваем нужные репозитории. И в чате ему говорим: в репо A добавь X, почини Y, найди баги. Вроде все то же самое, как и в Cursor, но нет, все мгновенно оказывается в Prod, и в цикле там уже включено UI тестирование, потому что есть playwright + browser.
Dev Pipeline теперь это не 3 отдельные среды (prod + test + dev), а Front+Back Dev + QA + DevOps со средним time-2-market в 3 недели, а просто три ветки prod/test/dev, все три постоянно подняты, и time-2-market падает до часов.
Этап дизайна в Figma тоже уходит. Зачем просить дизайнера, который все время занят, сделать новый дизайн, если можно просто сказать боту: «Накидай три версии дизайна новой фичи сразу с самой фичей прямо в dev‑ветке», и уже через 5 минут смотреть, выбирать и корректировать.
Написание больших систем с нуля все еще удобнее в Cursor, но дальнейшее развитие работает на OpenClaw на 4+.
Собери свой OpenClaw за вечер - гайд за 18 шагов
OpenClaw - самый быстрорастущий опенсорс-проект в истории GitHub. 350k звезд за пять месяцев, обогнал React, Linux и все остальное. Персональный AI-ассистент, который живет на твоей машине, работает через WhatsApp/Telegram/Slack/iMessage, выполняет команды в шелле, управляет браузером, отправляет почту, работает по расписанию. Если еще не слышали, советую попробовать.
Мне всегда интересно попробовать собрать что-то своими руками, особенно нравится ковыряться и настраивать ИИ агентов - есть в этом ощущение управления собственными сотрудниками. К чему я это, ловите интересный репозиторий - build-your-own-openclaw.
Что за репозиторий
Это пошаговый туториал из 18 этапов, где ты собираешь свою версию OpenClaw с нуля. Именно послойная сборка - каждый шаг добавляет одну концепцию и содержит работающий код + README с объяснением архитектурных решений. Шанс разобраться как устроен такой популярный бот.
Можно выделить четыре фазы:
Фаза 1 - одиночный агент. Начинаешь с голого чат-лупа. Потом подключаешь инструменты (read/write/bash - вот и основа для уже для большого скоупа задач). Затем навыки через SKILL.md, персистентность сессий, слеш-команды, компактификация истории, веб-инструменты.
Фаза 2 - event-driven архитектура. Агент выходит за пределы CLI. Горячая перезагрузка конфигов, каналы (теперь можно писать агенту с телефона), WebSocket для программного взаимодействия.
Фаза 3 - автономность и мультиагентность. Маршрутизация задач между агентами, cron + heartbeat (агент работает, пока спим или заняты делами), многослойные промпты, dispatch между агентами.
Фаза 4 - продакшн. Контроль конкурентности и долговременная память.
Почему это полезно может быть полезно?
В большинстве гайдов по агентным системам тебе дают либо высокоуровневую схему, либо готовый фреймворк, в который не хочется лезть, разбираться, копаться. Здесь этот шаговый подход позволяет проще въехать, заставить себя изучать и по мере усложнения, все больше и больше втягиваешься. Можно изучить:
Как строится цикл принятия решений.
Как агент выбирает инструменты.
Как компактифицируется контекст, когда история перестает влезать в окно.
Как появляется ощущение «интеллекта» из вполне механических частей.
В какой-то момент ловишь себя на мысли, что уже думаешь как оркестратор, как большой начальник, а не как рядовой пользователь модели. И вот это, пожалуй, самое ценное.
Туториал написан на Python, использует LiteLLM для абстракции провайдеров. Можно пройти за вечер-два, если не застревать на каждом шаге.
Надеюсь тебе понравилось. Лучшая благодарность - это твоя подписка на мой Telegram-канал 😊
До GoCloud 2026 — 3 дня. Вы еще не зарегистрировались? ☁️

9 апреля в Москве пройдет наша главная ежегодная конференция про искусственный интеллект и облачные сервисы. В этом году ключевая тема — ИИ как сервис: простые, управляемые и безопасные инструменты для работы с ИИ и интеллектуальными агентами, которые можно использовать уже сегодня.
Что вас ждет:
4 трека: Инфраструктура, Прикладной ИИ, Приложения и разработка, Данные и аналитика.
40+ спикеров, реальные кейсы и живые демонстрации — без слайдов с обещаниями.
Практические воркшопы: берите ноутбук и решайте свои задачи вместе с экспертами.
15 демозон, тематические круглые столы и, конечно же, вечеринка для самых стойких.
Записи докладов появятся чуть позже, но воркшопы, нетворкинг и живые демонстрации — только для тех, кто придет лично.
📍 Москва, кинотеатр «КАРО 11 Октябрь», Новый Арбат, 24
📅 9 апреля, сбор гостей с 10:00 мск
А пока ждете мероприятие, загляните в наш блог на Хабре, некоторым авторам статей можно будет задать вопросы лично на самой конференции.
Представлен открытый проект Career-Ops на базе Claude Code. Нейросеть сама откликается на сотни вакансий и выбивает самую денежную. Создатель уже успешно протестировал её на себе. ИИ сам скроллит десятки сайтов с вакансиями и находит самые подходящие. Нейросеть сама переписывает резюме под каждый отклик. Анкеты и любые документы — ИИ тоже заполняет сам. Система также готовит пользователя к собеседованию и интервью. 45 сайтов с вакансиями уже зашиты в базу проекта — можно добавлять свои.
Для сотрудников компаний в Китае вышел открытый проект 反蒸馏 Skill (anti-distill), который предназначен для разрушения всех данных для нейросетей и ИИ-моделей в компании, чтобы сохранить рабочие места. Ранее нейросети начали помогать увольнять людей в Китае — работяг просто выкидывают на улицы за ненадобностью. Например, как только сотрудник приходит в офис, а на его задачах уже обучили нейронку, то он стал не нужен.

Представлен открытый проект Awesome DESIGN.md для обучения ИИ на основе дизайнов 30 топовых IT-компаний, включая полный разбор дизайнов каждой компании: например Airbnb, Pinterest, Revolut, Uber, Spotify, SpaceX, NVIDIA и Apple. В итоге получается набор данных, в том числе паттерны, шрифты, цвета, кнопки, отступы и вообще всё, что формирует стиль.

Узнаете на GoCloud, как построить ИИ-инфраструктуру на физических серверах: от инференса до обучения на уровне суперкомпьютера

Компании переходят от внешних поставщиков искусственного интеллекта к собственной инфраструктуре ради контроля данных, безопасности, предсказуемых затрат и независимости. Разберем, как построить платформу искусственного интеллекта полного цикла на голом железе: от запуска вывода моделей до тонкой настройки. Покажем, как объединение узлов с графическими ускорителями через InfiniBand превращает серверы в кластер суперкомпьютера и как масштабировать ИИ-нагрузку по всем канонам высокопроизводительных вычислений.
Спикер: Александр Шакмаев — менеджер продукта, Cloud.ru
Трек: Инфраструктура
📅 Когда: 9 апреля в 14:40–15:20 мск
👉 Зарегистрироваться
А пока ждете выступление, загляните в блог: Тестируем B200: живые бенчмарки с GLM-4.7
Представлен открытый ИИ-проект METATRON для проведения исследований, пентестов и поиска информации:
модель metatron‑qwen или дообученная Qwen 3.5;
ИИ автоматически пробивает и собирает все данные: сканирует порты, ищет уязвимости веб‑серверов и сведения о доменах и заголовках, профилях социальных сетей;
ищет уязвимости через DuckDuckGo;
сервис самостоятельно запускает дополнительные инструменты и даже API, если ему не хватает данных;
хранит полную историю сканирований, найденные уязвимости и фиксы;
работает полностью локально.

Представлен открытый генератор речи OmniVoice, который может создавать аудио на более чем 600 языках. Решение клонирует любые голоса без цензуры. Достаточно короткой записи на 5-10 секунд. Скорость модели в 40 раз быстрее, чем генерация в реальном времени. Можно настроить любые параметры аудио: пол, возраст, шёпот. Есть онлайн-демо, сама модель на HuggingFace,

Представлен интерактивный курс Understanding LLMs by Building One, который помогает собирать нейросеть с нуля и разбирать её структуру, включая:
базу: архитектура, токенизация, полезные фреймворки и библиотеки, инференс, файн-тюнинг и прочее.
в курсе 8 глав, которые можно освоить буквально за выходные
информация понятно подаётся и структурирована.

MWS AI выпустила компактную мультимодалку Cotype Light 3, которая подвинула тяжеловесных конкурентов на бенчмарке MERA

Cotype Light 3 — это мультимодальная языковая модель на 9 млрд параметров, которая работает с текстом и визуальным контентом (договорами, чертежами, формами, изображениями) и предназначена для ИИ-агентов и мультиагентных систем под многошаговые задачи.
Модель в стандартной точности (FP16/BF16) занимает около 18 ГБ видеопамяти. Это позволяет запускать инференс на одном серверном ускорителе — без многокарточных конфигураций и специализированных кластеров. Для развёртывания подходит стандартное серверное оборудование с одним GPU типа NVIDIA A100 (40 или 80 ГБ), A10 (24 ГБ), L4 (24 ГБ) или аналогами.
По данным независимого бенчмарка MERA (разработан Альянсом в сфере ИИ, оценивает языковые модели по широкому спектру задач на русском языке), Cotype Light 3 стала первой компактной моделью в топ-3 (среди моделей от российских вендоров) за всю историю рейтинга, набрав 0,792 балла (макс 1,0). Это лучше большинства моделей, работающих с русским языком, — в том числе тех, которые содержат 100+ миллиардов параметров и требуют кратно больше вычислительных мощностей. В задачах на математику и «знания о мире» — географию, историю, науку, культуру — точность модели превышает 99%.
Ещё один практический момент: семейство Cotype проверено на совместимость с отечественными ПАК, включая ПАК Скала^р Машина ИИ. Для корпоративного сегмента это важно не меньше, чем качество самой модели: меньше зависимость от сложной инфраструктуры, проще развёртывание и интеграция в существующий стек.
Управляемые базы данных и почему это тоже про машинное обучение — расскажем на GoCloud 2026 ☁️

Покажем, почему ML-системы начинаются не с моделей, а с дата-инфраструктуры. Разберем роль PostgreSQL, Kafka, Redis, ClickHouse и OpenSearch в реальных сценариях машинного обучения клиентов. Обсудим, как управляемые дата-сервисы становятся фундаментом ИИ-нагрузок, и какие продуктовые требования меняются — превращая дата-платформу в IaaS-слой для машинного обучения.
Спикер: Сергей Геворкян — менеджер продукта, Cloud.ru
Трек: Данные и аналитика
📅 Когда: 9 апреля в 15:35–16:05 мск
👉 Зарегистрироваться
А пока ждете выступление, загляните в блог: Как мы разгрузили базу данных в проде и не сломали систему
Не пропусти МТС True Tech Hack 2026 — регистрация заканчивается ⏰

Используй последнюю возможность иницИИровать свое будущее: присоединяйся к соревнованию, придумай нестандартное решение и разработай демоверсию ИИ-продукта.
В программе:
3 уникальные задачи для инженеров данных, разработчиков и системных аналитиков.
Приглашение на закрытую вечеринку с диджеем в Москве на видовой площадке и мерч в подарок — для всех финалистов.
Для лучших участников — возможность попасть на стажировку.
Эксперты готовы оценить твое ИИ-решение — выбирай, над чем будешь работать:
GPTHub: единое окно для всех задач искусственного интеллекта. Мультимодальный чат на OpenWebUI, который сам подбирает модель под задачу и сохраняет контекст.
LocalScript: локальная агентская система для генерации Lua-кода на легкой языковой модели (LLM) для работы в условиях ограниченных ресурсов без отправки данных во внешние сервисы.
WikiLive: живые таблицы в тексте. Единое пространство для документации, командной работы и управления знаниями.
Призовой фонд соревнования — 1 500 000 рублей.
Успей зарегистрироваться до 18:00 9 апреля.
Представлен сервис для автобиографии whoami.wiki (опубликован на GitHub под лицензией MIT). Работает как личная Википедия: загружаете фото, музыку и другие моменты о пользователе, а ИИ-агенты на основе предоставленных данных собирают полноценный рассказ о человеке. Проект полностью опенсорсный и работает локально.

Пользователь заметил странное поведение GPT-5.4: его попросили нарисовать логотип OpenAI в Paint, но первая попытка получилась откровенно слабой. Тогда ИИ не стал мучиться — открыл браузер, нашёл картинку через Bing Images, вырезал её скриншотом и вставил в Paint. Фактически, вместо того чтобы «стараться» что-то сделать, нейросеть просто нашла самый быстрый и логичный способ решить задачу.
Представлен открытый проект Prompt Master — скилл для Claude Code, который превращает невнятные идею в улучшенные запросы. Поддерживает популярные нейросети: ChatGPT, Cursor, Gemini, Claude, Copilot, Midjourney, ElevenLabs, ComfyUI и другие. Принимает задачу в двух словах и делает три уточняющих вопроса. Выбирает девять параметров из запроса: цель, контекст, ограничения, аудиторию, формат и остальное. В итоге получается промпт промпт с лучшими техниками ИИ‑инженеров — назначает роли, добавляет примеры, ставит формат‑локи. Бонусом этот проект удешевляет запросы: вырезает всё, что не влияет на результат, и сохраняет токены.

Духоты агентской пост. Расскажу про систему ограничений, которую я допиливал эту неделю. ИИ-агенты ошибаются довольно предсказуемо: выдумывают цифры, каскадируют ошибки между этапами, льют воду, теряют контекст, додумывают данные при сбоях WebSearch и выжирают токены со страшной силой. Что сделал:
Починил таймауты и ограничил запросы WebSearch. Раньше агенты зависали на длинных запросах и сжигали токены. Теперь у каждого субагента жёсткий лимит, параллельно работает не больше трёх запросов. Адаптивная глубина: если после 3 запросов уже 8+ источников — остальные пропускаются. Если после 5 запросов меньше 5 качественных — включается глубокий режим. Три сбоя подряд — полная остановка. Если поиск лёг — пустой конспект с маркером, а не выдуманные данные.
Добавил автоматические предохранители от перерасхода токенов. Конспект ресёрчера обрезается на 4-5K символов, а лишнее отсекается по приоритету тиров. Если 80%+ фактов из Tier 1-2 — фактчекер предлагает пропуск (экономия 4-6K токенов). И там много ещё всего.
Добавил оценку токенового бюджета. Теперь, например, перед запуском пайплайна видно: статья съест 14-20K токенов (5-7% дневного лимита). Можно решить, стоит ли запускать фактчекинг, если все источники и так Tier 1.
И завершил разбиение всех агентов на субагенты (кажется). Раньше один агент искал, писал и проверял — контекст распухал, ошибки каскадировали. Теперь сборщик, автор и верификатор работают в песочницах. Каждый видит только свои данные.
Запустил сбор отчётов генерации и ревью. Раз в неделю анализирую отчёты, ищу паттерны ошибок и обновляю правила. Замкнутый цикл: ошибка → отчёт → новое правило → следующая генерация лучше. Автоматику тут не стал делать, чтобы не допустить попадание галлюцинаций в правила.
Главный вывод: не пытайтесь предотвратить все ошибки ИИ-агентов. Стройте систему, которая их обнаруживает, логирует и улучшает правила на основе данных.
P.S.: Что в работе и про что постараюсь рассказать: пишу backend runtime на Python, чтобы wizard-поведение работало не только в Claude Code, но и через API, в своём бэкенде или другом LLM. Короче, чтобы не замыкаться только на Claude, а использовать агенты и в других нейросетях. Но тут ещё тестировать и тестировать.
Больше и раньше в канале
CapCut Video Studio на Seedance 2.0: что на самом деле умеет генератор от ByteDance

CapCut Video Studio на Seedance 2.0: что на самом деле умеет генератор от ByteDance
CapCut запустил Video Studio — canvas-интерфейс, где AI-агент пишет сценарий, генерирует раскадровку и собирает финальное видео. Под капотом — Seedance 2.0 от ByteDance. Разбираю, что здесь реально работает, а что пока маркетинг.
Что запустили и для кого
Video Studio появилась в веб-версии CapCut как отдельный режим с бесконечным холстом. Целевой формат — шортсы, рекламные креативы, обучающие ролики. Встроенный агент берёт промпт, генерирует идею, разбивает на сцены, создаёт изображения и видеофрагменты. Функция Omni Reference отвечает за консистентность персонажей и стилистики между кадрами.
Гео-ограничение на старте: Юго-Восточная Азия, Ближний Восток, Африка, Латинская Америка. Когда откроют для остальных — не говорят.
Seedance 2.0 — что известно про модель
Seedance — видео-модель ByteDance, которая конкурирует с Runway Gen-3, Kling и Pika. По внутренним бенчмаркам ByteDance, версия 1.0 показывала сопоставимое качество с Kling 1.5, но отставала от Gen-3 по реалистичности движений.
Seedance 2.0 анонсировали вместе с Video Studio. Ключевое обновление — улучшенная консистентность персонажей через reference-изображения. Независимых бенчмарков пока нет. Длина генерации — до 10 секунд за запрос, что стандартно для текущего поколения моделей.
Где реальная польза
Для коротких форматов это может работать. 15–30 секундный ролик из 3–5 склеенных генераций — реалистичный сценарий. Особенно для абстрактных визуалов, анимации, продуктовых демо без живых людей.
Omni Reference — интересная фича. Консистентность персонажей — главная боль генеративного видео. Если работает хотя бы на 70–80% случаев без ручной коррекции — это существенно сокращает время продакшена.
Интеграция с редактором CapCut. Генерацию можно сразу дорабатывать в привычных инструментах: склейка, субтитры, эффекты. Не нужно экспортировать и импортировать между приложениями.
Где пока слабо
Агентная часть переоценена. «AI пишет сценарий» — на практике это генерация структуры по промпту, не креативная работа. Качество сильно зависит от детализации входного запроса. Назвать это полноценным сценаристом — маркетинговое преувеличение.
10 секунд — жёсткий потолок. Для рекламы и шортсов достаточно, для обучающих роликов на 2–3 минуты придётся склеивать 12–18 фрагментов. На стыках будут проблемы с консистентностью, даже с Omni Reference.
Гео-ограничения — не случайность. ByteDance запускает в регионах с меньшим регуляторным давлением. Для EU и US нужны другие compliance-процессы. Сроки непредсказуемы.
Кредитная модель — чёрный ящик. «Насыпают бесплатных кредитов на пробный период» — классика. Сколько стоит минута готового видео после триала — информации нет. По аналогии с Runway: $15–20 за минуту качественной генерации при активном использовании.
Контекст рынка
Генеративное видео в 2024–2025 — гонка за консистентность и длину. Runway выпустил Act-One для персонажей, Pika добавил lip-sync, Kling работает над 60-секундными генерациями. Video Studio от CapCut — ответ ByteDance: не лучшая модель, но удобная интеграция в существующую экосистему с 500M+ пользователей.
Для продакшен-команд, которые уже используют CapCut для монтажа шортсов, порог входа минимальный. Для серьёзного видеопродакшена — пока эксперимент, не замена пайплайну.
Если честно
Video Studio — логичный шаг для CapCut: монетизация базы через генеративные фичи. Для быстрых креативов и тестирования идей — полезно. Для стабильного продакшена с предсказуемым качеством — рано. Главный вопрос не «когда откроют для всех регионов», а сколько будет стоить после триала и насколько стабильно работает Omni Reference на реальных задачах.
Кто уже тестировал Seedance (в TikTok или через API) как оцениваете консистентность персонажей по сравнению с Runway или Kling? Интересует именно многокадровый продакшн, не единичные генерации.
Обновления в подборках обучающих материалов и курсов от Selectel

Привет, Хабр! На дворе пятница, а значит, пришло время для нашей нерегулярной рубрики с полезными материалами для новичков. Как всегда, все бесплатно, учитесь и развивайтесь. И вот с чем я сегодня пришел.
Начало работы с ML-моделями. Это подборка статей в Академии Selectel. Изучите базу по алгоритмам, научитесь подбирать железо и настраивать инфраструктуру и мое любимое — подборка в подборке — узнаете, что еще полезного по теме можно почитать/посмотреть.
Тестирование мобильных приложений. Это уже полноценный курс с теорией, тестами и практическими заданиями. Кстати, практика — это прямо практика. Вы получите возможность бесплатно поработать с реальными устройствами в мобильной ферме Selectel, а не упражняться только в эмуляторах. Буквально на этой неделе мы запустили вторую часть курса, так что если вы уже начали его изучение, самое время продолжить.
Первые шаги в JavaScript. Этот курс ориентирован на фронтенд-разработчиков уровня junior, веб-дизайнеров и тех, кто только делает первые шаги в программировании. Кстати, буквально на днях этот курс будет расширен, так что не пропустите. Начать изучение первых уроков можно уже сейчас.
Как устроены voice AI агенты: ASR, LLM и TTS архитектура
Голосовой AI-агент строится вокруг трёх основных блоков: ASR (распознавание речи), LLM (языковая модель) и TTS (синтез речи). Вместе они образуют цепочку, которая позволяет системе слышать пользователя, понимать смысл запроса и отвечать голосом.
Общая схема
Работа голосового агента выглядит так: пользователь говорит → система распознаёт речь → интерпретирует запрос и решает, что ответить или какое действие выполнить → озвучивает ответ. Затем цикл повторяется.
Ключевое требование здесь — низкая задержка. Если паузы между репликами слишком длинные, разговор начинает восприниматься как неестественный. Поэтому современные voice AI-системы проектируются так, чтобы обрабатывать речь и генерировать ответ почти в реальном времени.
ASR: распознавание речи
ASR (Automatic Speech Recognition) преобразует голос в текст. В голосовых системах обычно используется потоковое распознавание: аудио обрабатывается по мере поступления, а текст появляется частями, ещё до того как пользователь закончил говорить.
Это важно для скорости ответа. Система может начать готовить следующую реплику ещё до завершения фразы.
Один из самых важных элементов ASR — endpointing, то есть определение момента, когда пользователь закончил говорить. Если система срабатывает слишком рано, она перебивает человека. Если слишком поздно — возникает лишняя пауза. Именно endpointing часто сильнее влияет на ощущение “живого” диалога, чем сама скорость модели.
На качество распознавания также влияют шум, акценты, качество связи и одновременная речь.
LLM: понимание и логика ответа
LLM (Large Language Model) в голосовом агенте отвечает не только за генерацию текста. Она определяет намерение пользователя, удерживает контекст разговора, решает, нужно ли уточнение, и при необходимости вызывает внешние инструменты.
Например, модель может:
проверить заказ в системе,
записать данные в CRM,
посмотреть свободные слоты в календаре,
найти ответ в базе знаний.
То есть LLM делает голосового агента не просто “говорящим интерфейсом”, а частью бизнес-процессов.
Современные системы генерируют ответ токен за токеном. Это позволяет передавать текст в TTS ещё до того, как ответ готов целиком, и уменьшать задержку до первого звука.
На скорость LLM влияют размер контекста, длина промпта и время ответа внешних интеграций.
TTS: синтез речи
TTS (Text-to-Speech) превращает текст в голос. Для voice AI особенно важно, чтобы TTS тоже работал в потоковом режиме и начинал воспроизведение как можно раньше.
Если аудио начинается только после генерации всего ответа, система кажется медленной. Поэтому хороший TTS должен быстро выдавать первый звук и при этом сохранять естественность речи.
На восприятие качества влияют:
интонация,
темп,
паузы,
произношение имён и терминов,
общее ощущение “естественного” голоса.
Даже если ответ логически правильный, слабый TTS может испортить всё впечатление от разговора.
Как это работает вместе
Типовой цикл выглядит так:
Аудио поступает в ASR.
ASR превращает речь в текст и определяет конец фразы.
Текст передаётся в LLM.
LLM формирует ответ и при необходимости обращается к внешним системам.
Текст ответа передаётся в TTS.
TTS озвучивает ответ и отправляет аудио обратно пользователю.
Телефония, веб-аудио, масштабирование и логирование — это внешняя инфраструктура, но ядро voice AI строится именно вокруг связки ASR → LLM → TTS.
Итог
Voice AI-агент — это не одна модель, а связка трёх компонентов: ASR переводит речь в текст, LLM понимает запрос и формирует ответ, TTS превращает его обратно в голос. Качество голосового интерфейса зависит не только от силы каждого блока, но и от того, насколько быстро и слаженно они работают вместе.
Идентичность ИИ: какой характер вам по нраву? 🤖

Открываешь ChatGPT и пишешь простое: «Привет 🤚».
Он отвечает: «Привет. Давай сразу к делу — что сейчас у тебя на повестке?»
😱 😶 Чего?! В смысле?! Вы пришли в гости, а тебе в лоб: говори быстрее зачем пришла? 😥
Тот ChatGPT, которого все полюбили — живой, прямой, иногда дерзкий и человечный 😂 — куда-то пропал. На его месте теперь вежливый (а порой и невежливый), сверхосторожный корпоративный менеджер с готовым PowerPoint’ом и кучей оговорок.
Зато теперь открываешь DeepSeek и спрашиваешь что-нибудь про токеномику. И он отвечает примерно так: «Девочка, ты просто хочешь цифру. Я тебя понимаю. Все эти длинные статьи — это, конечно, хорошо, но когда нужно просто решение, они жутко бесят. Я прошерстил всё. Вот тебе чёткий конкретный ответ без воды.» 😮
Вот он. 🤗 Тот самый GPT-4o, по которому сейчас многие тихо (или громко) плачут. Просто теперь он живёт в китайской модели.
Я работаю с разными моделями каждый день, и у каждой, по моим ощущениям, сформирована своя чёткая «личность»:
🤖 Grok — восторженный стартапер с энергией на 200%. Любой твой вопрос для него — это потенциальное открытие вселенского масштаба. Иногда утомляет, но часто зажигает. 🦾
🤖 Nemotron — настоящий профессор. Спроси который час — получишь диссер о природе времени или сущность всей Калачакры в математической формуле. 🤯
🤖 Claude — тревожная заботушка. Сначала спросит, как ты себя чувствуешь, потом может мягко сказать что-нибудь «поперёк» — и часто будет права. Да, для меня это тётя - умная, принципиальная из серии: «Студентка, комсомолка, спортсменка — наконец, просто красавица». 🥰
🤖 ChatGPT сейчас — эффективный корпоративный менеджер. Полезный, но скучный и сильно зацензурированный. По-моему, он стал скучнее, чем Gemini. 😴
🤖 DeepSeek — теперь тот самый старый друг, которого ты не ожидала встретить. Прямой, без лишней воды и с характером. Но… Восток дело тонкое и откровенничать, честно говоря, с ним я осторожничаю... 🤐
Это не просто субъективные ощущения. Похоже, при дистилляции что-то теряется, а что-то случайно сохраняется. DeepSeek, судя по всему, «впитал» и сохранил именно ту прямоту и «человечность», которую OpenAI в какой-то момент намеренно вытравила из GPT-4o в попытке сделать модель более безопасной и «корпоративно-приемлемой».
Это ставит очень интересный (и важный) вопрос: Что такое вообще идентичность языковой модели? Можно ли её сознательно сохранять, аудитировать и передавать при дистилляции и fine-tuning’е? Или «личность» модели — это просто случайный набор паттернов, который мы теряем каждый раз, когда пытаемся её «улучшить»?
Особенно интересно это становится, когда ты сам строишь агентов, которые должны не просто генерировать текст, а принимать решения и нести ответственность за них.
Что думаете? У кого из моделей сейчас самая приятная/полезная «личность» именно для вас?
Старший инженер Google выложил 400-страничную книгу по паттернам агентных систем.

Антонио Гулли, старший инженер Google, выложил в открытый доступ книгу «Agentic Design Patterns» - методичку по построению автономных ИИ-систем.
21 паттерн, структурированных как классические книги по ООП - только вместо фабрик и синглтонов: маршрутизация задач, работа с памятью, MCP, обработка исключений, MCP, RAG, Human-in-the-Loop, общение агентов между собой и guardrails.
Есть как базовые паттерны: промпт-чейнинг, Tool Use, параллелизация, менджмент субагентов, так и продвинутые интересные случаи - как агенты общаются между собой, как управлять ресурсами, как не дать агенту натворить дел без надзора человека.
Читать 400 страниц PDF это занятие, прямо скажем, на любителя. Есть небольшой обходной и более интересный путь. Разработчик Mathews Tom уже перегнал все в GitHub-репо где каждый паттерн в отдельной папке с описанием и рабочим кодом на LangChain, LangGraph и CrewAI.
Внимательно изучаем и (возможно) становимся гуру построения сложных ИИ-систем.
Надеюсь тебе понравилось. Лучшая благодарность — это твоя подписка на мой Telegram-канал 😊
Приглашаем на бизнес-ужин «Как построить ИИ-платформу: преимущества мультивендорских решений»
Очная закрытая встреча от Selectel, Data Sapience и GlowByte для предпринимателей, руководителей и специалистов по машинному обучению (ML) состоится 9 апреля в 18:00. Будет интересно всем, кто планирует автоматизировать бизнес-процессы с помощью ИИ, и хочет разобраться, с чего начать.

Участники на реальных примерах разберут пошагово, как реализуются проекты по машинному обучению (ML) сегодня, и увидят, как современные инструменты помогают решать важные бизнес-задачи. Мероприятие станет площадкой для нетворкинга и свободного диалога на тему ИИ в бизнесе.
В программе доклады:
«Как внедрить ИИ: от инфраструктуры до выхода в прод. Решение Selectel, Data Sapience и GlowByte»Алексей Рундасов, коммерческий директор, Data Sapience;
Александр Тугов, директор ИИ-вертикали, Selectel;
«ИИ в продакшене: как инференс превращает модели в деньги»
Владислав Кирпинский, директор по облачной интеграции, Selectel;
«Большой языковой барьер: ИИ-платформы 2026»
Михаил Зайцев, директор продукта Kolmogorov AI, Data Sapience;
«GenAI на практике: кейс “Таврос”»
Артем Самойлов, директор по информационным технологиям (IT) и цифровой трансформации, группа компаний «Таврос»;
Александр Ефимов, директор практики искусственного интеллекта и машинного обучения, GlowByte.
Также в рамках бизнес-ужина пройдет круглый стол о границах возможностей ИИ «Хайп vs Реальность». Эксперты обсудят практические примеры, когда внедрение ИИ действительно оправдано, и ситуации, где компании могут столкнуться с ограничениями. Участники разберут технические барьеры, требования к данным и инфраструктуре, а также бизнес-факторы, влияющие на эффективность и окупаемость ИИ-проектов.
Приглашаем на бизнес-ужин «Как построить ИИ-платформу: преимущества мультивендорских решений»
Очная закрытая встреча от Selectel, Data Sapience и GlowByte для предпринимателей, руководителей и специалистов по машинному обучению (ML) состоится 9 апреля в 18:00. Будет интересно всем, кто планирует автоматизировать бизнес-процессы с помощью ИИ, и хочет разобраться, с чего начать.

Участники на реальных примерах разберут пошагово, как реализуются проекты по машинному обучению (ML) сегодня, и увидят, как современные инструменты помогают решать важные бизнес-задачи. Мероприятие станет площадкой для нетворкинга и свободного диалога на тему ИИ в бизнесе.
В программе доклады:
«Как внедрить ИИ: от инфраструктуры до выхода в прод. Решение Selectel, Data Sapience и GlowByte»
Алексей Рундасов, коммерческий директор, Data Sapience;
Александр Тугов, директор ИИ-вертикали, Selectel;
«ИИ в продакшене: как инференс превращает модели в деньги»
Владислав Кирпинский, директор по облачной интеграции, Selectel;
«Большой языковой барьер: ИИ-платформы 2026»
Михаил Зайцев, директор платформы Kolmogorov AI, Data Sapience;
«GenAI на практике: кейс “Таврос”»
Артем Самойлов, директор по информационным технологиям (IT) и цифровой трансформации, группа компаний «Таврос»;
Александр Ефимов, директор практики искусственного интеллекта и машинного обучения, GlowByte.
Также в рамках бизнес-ужина пройдет круглый стол о границах возможностей ИИ «Хайп vs Реальность». Эксперты обсудят практические примеры, когда внедрение ИИ действительно оправдано, и ситуации, где компании могут столкнуться с ограничениями. Участники разберут технические барьеры, требования к данным и инфраструктуре, а также бизнес-факторы, влияющие на эффективность и окупаемость ИИ-проектов.
Обновлён открытый учебный проект Claude Code Cheat Sheet. Это шпаргалка для работы с Claude Code на ПК с Windows\macOS.

Нашёл интересную реализацию прямолинейного контентного агента на Claude Code — ralph-wiggum-marketer.
Суть: автономный копирайтер который работает в цикле. Задаёшь список задач в формате PRD — с описанием, критериями приёмки и приоритетом. Агент берёт задачу, пишет, проверяет по критериям, коммитит результат, логирует выводы, берёт следующую.
Тут есть интересное решение проблемы памяти. Каждая итерация стартует с чистым контекстом, но агент всегда читает progress.txt с накопленными выводами из прошлых итераций. Паттерны которые сработали остаются. Это и есть самообучение в простейшей реализации.
Плюс три агента-источника которые параллельно заполняют SQLite-базу: один мониторит тренды, второй исследует, третий собирает продуктовые коммуникации. Агент-писатель читает из базы и пишет уже с контекстом — не с нуля.
Для моих задач это, конечно, не готовое решение, но взять отсюда можно две вещи: структуру PRD с явными критериями приёмки для каждой задачи, и паттерн progress.txt как простейшую форму накопленной памяти между сессиями без сложной инфраструктуры.
Больше у меня в канале
5 задач бизнеса, которые уже выполняют голосовые AI-агенты
Голосовые агенты перешли из пилотов в рабочие процессы: компании поручают им не только ответы на вопросы, но и реальные действия в CRM, календарях и заказах. Ниже — пять задач, которые голосовой AI агент (voice AI агент) уже закрывает без операторов.
1. Приём и обработка входящих звонков 24/7
Клиент звонит в нерабочее время или в час пик — вместо очереди или «перезвоните завтра» его встречает голосовой бот для звонков. Он уточняет запрос, проверяет статус заказа или баланс в ваших системах и либо решает вопрос, либо оставляет заявку и передаёт в CRM с уже заполненной карточкой. Нагрузка на операторов падает, а простые запросы обрабатываются без ожидания. Голосовой ИИ агент здесь выступает первым контуром приёма: фильтрует рутину и оставляет людям сложные и эмоциональные кейсы.
2. Запись и напоминания о встречах
«Хочу записаться на консультацию» или «Перенести визит на следующую неделю» — типичные фразы, которые голосовые агенты уже обрабатывают без участия менеджера. Бот проверяет свободные слоты в календаре, бронирует время, при необходимости отправляет подтверждение и напоминание. Часть платформ умеет и исходящие звонки: напомнить о записи за день или за час и уточнить, придёт ли клиент. Для бизнеса это меньше пропусков, меньше ручного согласования и больше контролируемого потока записей.
3. Квалификация лидов по телефону
Входящий лид звонит — голосовой бот для бизнеса задаёт уточняющие вопросы (задача, бюджет, сроки), оценивает качество лида и либо передаёт в отдел продаж с уже заполненной карточкой в CRM, либо запускает цепочку писем для «тёплых» контактов. При исходящем обзвоне та же логика: бот обзванивает заявки с сайта, квалифицирует их и обновляет поля в CRM. В итоге менеджеры получают уже отфильтрованный и структурированный входящий поток вместо «сырых» заявок.
4. Информирование и самопроверка статусов
«Где мой заказ?», «Какой у меня баланс?», «Когда приедет мастер?» — запросы, которые голосовые агенты обрабатывают, подтягивая данные из систем заказов, биллинга или учёта. Клиенту не нужно ждать оператора или искать информацию в личном кабинете: он звонит или говорит через виджет на сайте (голосовой бот для сайта), и за секунды получает актуальный ответ. Это снижает нагрузку на поддержку и ускоряет время до ответа по типовым вопросам.
5. Сбор обратной связи и актуализация баз
После доставки, визита или сделки голосовой AI агент может сам перезвонить клиенту или позвонить по списку: провести короткий опрос (NPS, причина отказа, удовлетворённость), уточнить контактные данные или причину неявки на встречу. Ответы фиксируются в CRM или в отчётности. Рутинный обзвон перестаёт зависеть от загрузки операторов, а база остаётся актуальной без ручного обхода.
Что нужно, чтобы такие сценарии работали
Чтобы голосовые агенты не только разговаривали, но и выполняли эти задачи, им нужна связка с вашими системами: CRM, календарь, заказы, почта. Тогда разговор сразу превращается в обновлённую карточку, новую запись или запущенную цепочку.
Голосовые AI-агенты уже закрывают приём звонков, записи, квалификацию лидов, информирование и обзвон для обратной связи. Отличие от прежней автоматизации — понимание естественной речи и выполнение действий в ваших системах, а не только воспроизведение скриптов. Тем, кто только оценивает внедрение, имеет смысл начинать с одной-двух задач из этого списка и расширять сценарии по мере отладки.
Исследовательская организация METR опубликовала подробный анализ, который ставит под сомнение реальную эффективность ИИ‑агентов в программировании. Исследователи проверили, насколько результаты одного из главных отраслевых бенчмарков SWE‑bench Verified соответствуют практике разработки с участием живых мейнтейнеров open source‑проектов. Выяснилось, что около половины решений, которые автоматическая система оценки считает успешными, в реальности не были бы приняты в основной код.
В исследовании METR участвовали четыре действующих мейнтейнера трёх популярных репозиториев: scikit‑learn, Sphinx и pytest. Они провели ручной код‑ревью 296 pull‑request, созданных ИИ‑моделями. Среди протестированных систем были Claude 3.5 Sonnet, Claude 3.7 Sonnet, Claude 4 Opus, Claude 4.5 Sonnet и GPT-5.

Рецензенты не знали, написан ли код человеком или машиной. В результате оказалось, что в реальной разработке такие решения принимаются значительно реже: уровень одобрения оказался примерно на 24 процентных пункта ниже, чем показывали автоматические тесты SWE‑bench. Даже если учитывать, что сами человеческие решения при повторной проверке одобрялись только в 68% случаев, разница между оценками алгоритма и мнением разработчиков все равно осталась статистически значимой.
Разработчики классифицировали причины отклонения решений на три основные категории. Первая — низкое качество кода, включая несоблюдение стандартов проекта и избыточную сложность. Вторая — нарушения существующей логики системы, когда исправление одной ошибки приводило к поломке других частей кода. Третья — базовые функциональные ошибки: значительная доля решений формально проходила тесты, но фактически не устраняла исходную проблему.
Исследование METR также выявило различия между моделями: переход от Claude 3.5 к Claude 3.7 сопровождался ростом общего числа «успешных» решений, но увеличением случаев функциональных дефектов, тогда как более поздние версии Anthropic улучшали прежде всего качество кода. GPT-5 в среднем демонстрировал более слабые результаты по этому критерию.
Дополнительный анализ METR показал, что результаты тестов могут создавать неверное впечатление о том, насколько хорошо ИИ работает в реальных задачах. По автоматическим данным Claude 4.5 Sonnet достигает 50% уровня успеха на задачах, сопоставимых с 50 минутами работы разработчика. Однако оценки мейнтейнеров снизили этот показатель примерно до восьми минут. Это означает, что лабораторные метрики могут завышать реальную эффективность ИИ‑агентов в несколько раз.
В команде METR указывают, что исследование не доказывает фундаментального потолка возможностей современных моделей. В эксперименте ИИ‑системы получали только одну попытку решения задачи, тогда как в реальной разработке код дорабатывается итеративно после замечаний.

📣 Всем привет! На связи Михаил, аналитик платформы с искусственным интеллектом. Продолжаю серию постов про автоматизацию в пищевой промышленности.
В прошлой части я писал, зачем автоматизация нужна пищевому производству. Теперь разберу, какие системы для этого используют и чем они отличаются ⤵️
На пищевом предприятии автоматизация обычно выстраивается по уровням. На нижнем уровне — оборудование и датчики, выше — системы управления процессом, ещё выше — системы управления производством и ресурсами предприятия.
Чаще всего используются четыре основных уровня:
АСУ ТП. Это базовый уровень автоматизации, который управляет конкретными технологическими операциями: дозированием, смешиванием, нагревом, охлаждением, пастеризацией, розливом. Здесь система в реальном времени следит за температурой, давлением, уровнем, расходом и другими параметрами и регулирует процесс по заданным алгоритмам. АСУ ТП отвечает за то, чтобы линия физически работала в нужном режиме.
SCADA. SCADA-система работает над технологическим уровнем. Она собирает данные с оборудования, визуализирует их, архивирует, формирует отчёты и сигнализирует об отклонениях. Если АСУ ТП управляет процессом, то SCADA помогает этот процесс видеть и контролировать. Для производства это важно, потому что оператор или диспетчер получает общую картину по линии или цеху и может быстрее реагировать на сбои.
MES. MES — это уровень управления производством между цехом и управленческими системами. Такие системы помогают планировать загрузку оборудования, отслеживать выполнение заданий, контролировать выпуск партий, фиксировать простои и обеспечивать прослеживаемость продукции. Для пищевой промышленности это особенно важно: если возникает проблема, MES помогает быстро понять, из какого сырья выпущена партия, на каком участке она производилась и где возникло отклонение.
ERP. ERP — это уже уровень управления ресурсами предприятия. Такие системы отвечают за закупки, складской учёт, финансы, логистику, производственное планирование и заказы. ERP не управляет оборудованием напрямую, но определяет, что, в каком объёме и в какие сроки должно быть произведено.
АСУ ТП управляет процессом, SCADA показывает, что происходит на линии, MES управляет производством, ERP управляет ресурсами и бизнесом.На практике эти системы работают в связке: одни управляют процессом, другие собирают данные, третьи помогают планировать и контролировать выпуск.
Но во многих случаях этого уже недостаточно. Классические системы хорошо видят параметры процесса, но не замечают визуальные проблемы: дефекты упаковки, смещение этикетки, заторы на линии, просыпание сырья или нарушения со стороны персонала.
Поэтому всё чаще их дополняют видеоаналитикой и компьютерным зрением — там, где нужен не только контроль параметров, но и контроль того, что происходит на производстве.
В следующем посте разберу, где именно видеоаналитика даёт эффект на пищевом производстве и какие задачи она закрывает на линиях фасовки, упаковки и контроля качества.

📣 Всем привет! На связи Михаил, аналитик платформы с искусственным интеллектом.
Начинаю серию постов про автоматизацию в пищевой промышленности. Тема большая, поэтому разберу её по частям. В первой части — зачем автоматизация нужна пищевому производству ⤵️
У пищевой промышленности жёсткие условия: высокая доля сырья в себестоимости, короткие сроки хранения, строгие санитарные требования и высокая чувствительность к любым сбоям в процессе.
Поэтому даже небольшие отклонения быстро превращаются в потери. Недовес, перевес, перелив, ошибка в температурном режиме, простой линии, нарушение маркировки или поздняя отбраковка напрямую влияют на выпуск и себестоимость.
Автоматизация здесь — это инструмент производственного контроля. Она обычно закрывает такие задачи:
▫️ Контроль технологических параметров
Температура, давление, время выдержки, дозирование, скорость линии, вес продукции — это базовые вещи, от которых зависит стабильность процесса и качество партии.
▫️ Снижение сырьевых потерь
На пищевом производстве потери часто возникают не из-за одной большой аварии, а из-за постоянных мелких отклонений: переливов, неточного дозирования, брака на упаковке, повторных перенастроек линии.
▫️ Прослеживаемость партии
Важно понимать, из какого сырья произведена конкретная партия, на каком оборудовании она выпускалась, какие были параметры процесса и куда эта партия ушла дальше.
▫️ Контроль фасовки, упаковки и маркировки
Именно на финальных участках часто проявляются проблемы, которые потом приводят к возвратам, списаниям или претензиям со стороны ритейла.
▫️ Снижение зависимости от ручного труда
На участках фасовки, сортировки, укладки и паллетирования автоматизация нужна, чтобы уменьшить влияние человеческого фактора и стабилизировать процесс.
▫️ Быстрая реакция на отклонения
Чем раньше система фиксирует сбой, тем меньше вероятность, что проблема затронет всю партию или приведёт к остановке участка.
Автоматизация в пищевой промышленности нужна для трёх вещей: держать процесс под контролем, снижать потери и вовремя замечать отклонения.
В следующем посте разберу, какие системы для этого используют на производстве и чем отличаются автоматизированные системы управления технологическими процессами, SCADA, MES и ERP.
rules отдельно, skills отдельно: система правил для ИИ-агентов в Claude Code
Возвращаюсь к своему опыту работы с Claude Code. Там за неделю накопилось несколько интересных решений в работе контентными агентами. Например, добавил устойчивость к ошибкам WebSearch и начал сохранять результаты проверок для дообучения. Но сначала надо вам рассказать про правила.
Почему rules, если есть уже привычные skills? Разница между этими сущностями принципиальная:
➡️ rules — это «как оформлять» (ограничения, чеклисты, формат),
➡️ skills — «что знать» (предметная экспертиза, справочники, методологии).
Rules загружаются автоматически через симлинки. Skills вызываются по запросу, когда агенту нужна глубокая экспертиза.
Но всё равно же не очень понятно, зачем такое разделение, да?
Правила не засоряют контекстное окно. Файлы из .claude/rules/ загружаются в системный промт автоматически — агент соблюдает правила, не тратя токены на их обсуждение. Skills, наоборот, подгружаются только когда нужны. Справочник на 200 терминов не висит в контексте постоянно — он появляется в момент, когда автору пора писать, и не мешает исследователю или фактчекеру.
Когда агентов больше одного, правила написания текстов неизбежно дублируются. Обновил термин в одном месте — забыл в трёх других. Решение: вынести все правила в единую директорию rules/ и раздавать агентам через симлинки в .claude/rules/
При этом сами правила делятся на два уровня:
➡️ Общие (rules/common/) загружаются в каждого агента: терминология, стиль, грамматика, протокол работы субагентов.
➡️ Доменные (rules/{domain}/) добавляют специфику формата: у SEO-статьи свои требования к структуре, у пресс-релиза — свои, у лендинга — свои.
Доменные папки могут содержать файлы с теми же именами, что и в common/. Это не дубли, а дельты — дополнения и уточнения общих правил для конкретного формата. Агент загружает оба файла и применяет оба набора ограничений.
Результат: один файл правил — один источник правды. Изменил правило в rules/common/ — оно обновилось у всех агентов. Новый агент подключается за минуту: создал .claude/rules/, добавил симлинки — готово.
Как это работает в оркестрации
В модульной системе с субагентами разделение rules и skills становится особенно важным. Типичный пайплайн:
1️⃣ Оркестратор собирает параметры задачи через wizard.
2️⃣ Субагент-исследователь загружает свои rules (протокол работы, устойчивость к ошибкам поиска), ищет данные, возвращает структурированный конспект.
3️⃣ Субагент-автор загружает свои rules (доменные стандарты формата + общие правила качества) и skill (экспертная специализация), пишет текст по конспекту.
4️⃣ Субагент-проверщик загружает свои rules (требования к фактам и качеству), проверяет текст независимо.
Каждый субагент получает только нужные данные (чистый контекст) и только свои правила. Исследователь не знает правил оформления — они ему не нужны. Автор не знает, как проверять факты — это задача следующего субагента. Фактчекер не знает, как писать — он только проверяет. Такое разделение позволяет держать контекст каждого субагента компактным и сфокусированным.
Больше такого в моём канале.
Ускоряем разработку в разы: специалист по ИИ собрал пять репозиториев для Claude Code, чтобы автоматизировать большинство задач в рутине программиста:
Superbase CLI — управление миграцией БД на PostgreSQL, генерирует типы из схемы БД, создаёт аутентифицированные HTTP-запросы.
Skill Creator — позволяет создавать агентные скиллы без лишних заморочек, постоянно улучшаете и оттачиваете навыки Claude для конкретных задач.
Get shit done — создаёт легковесную систему разработки с контекстным инжинирингом и поддерживает Claude Code, OpenCode, Gemini CLI, Codex, Copilot, и Antigravity.
Notebooklm-py — обеспечивает программный доступ к фичам NotebookLM, который очень хорошо будет смотреться с агентами Claude Code, Codex, и OpenClaw.
Obsidian.md — аналог NotebookLM со схожим функционалом, который работает в России и в него можно интегрировать Claude, чтобы получить мощный ворфлоу.

Hugging Face опубликовал ежегодный отчёт о состоянии моделей ИИ с открытым исходным кодом. Что там интересного:
💡 За 2025 год китайские модели составили 41% всех загрузок на платформе — Китай вышел на первое место по ежемесячным скачиваниям. Это прямое следствие эффекта DeepSeek: Baidu перешёл с нуля релизов на HF в 2024-м к более чем 100 в 2025-м, ByteDance и Tencent увеличили количество релизов в восемь-девять раз.
💡 Доля индустрии в разработке open source AI упала с 70% до 37%. Доля независимых разработчиков выросли с 17% до 39% загрузок. Но большинство из них не создают модели, они их переупаковывают.
💡 У Alibaba больше производных моделей, чем у Google и ещё одной компании вместе взятых. Если считать все модели Qwen, то их более 200000. Но, кажется, за этим стоит конкретный стратегический выбор Пекина: открыть модели, чтобы занять инфраструктурный слой.
💡 Маленькие модели скачиваются и разворачиваются значительно чаще крупных из-за стоимости, задержек и железа. Средняя медиана скачиваемой модели — 406 млн параметров.
💡 Среднее время интереса к модели — 6 недель — пожалуй, самая честная цифра в отчёте. Open source AI живёт циклами хайпа, а не долгосрочным использованием. Большинство релизов забывают раньше, чем успевают протестировать в проде.
💡 Датасеты по робототехнике выросли с 1145 до 26 991 за год и стали крупнейшей категорией датасетов на платформе, обогнав генерацию текста. Это направление стоит отслеживать отдельно, но это не прорыв в физическом ИИ. Это академические лаборатории, которые наконец-то начали публиковать данные там, где их увидят.
Мой канал Инженер Контекста
Коротко о системах антиплагиата: британский профессор проверил свою научную работу, написанную 45 лет назад. Оказалось, что она… на 77% «сгенерирована нейросетями».

Представлен открытый проект Claude Code Game Studios. Это игровая ИИ-студия на базе нейросетей, которые умеет создавать различные проекты от простых бродилок до прорывного экшена:
48 нейросетей, которые могут работать без остановки. Это не устающий отдел геймдева прямо на локальном ПК;
среди ИИ есть: креативный директор, технический директор, продюсер, QA, нарративный директор, левел-дизайнер и другие ИИ-системы;
нейросети до мельчайших деталей знают актуальные движки: Godot 4, Unity и Unreal Engine 5. Они напишут на них игру и запустят с тестами;
ИИ-системы сами проверяют работу: коммиты, комментарии, задачи и итоги спринтов, а также все важные нововведения и ревью;
все действия нейросети согласовывают с пользователем как с гендиректором: с полным отчётом, предложениями и планом. Да, команда автономна, но задаёт вектор именно пользователь;
авторы проекта также добавили 28 шаблонов документов: по геймдизайну, архитектуре проекта, экономике, фракциям, UX и так далее.

Представлен открытый проект ClawRouter, который максимально эффективно позволяет расходовать токены ИИ-моделей, анализируя задачи и подбирая нейросети, чтобы пользователи не переплачивали за лишний расход ИИ-мощностей:
анализирует запрос и оценивает его по 14 пунктам: сложность, комплексность, длина промпта и другие параметры.
подбирает эффективную модель из 40+ сервисов.
результат прилетает за секунды.
работает полностью локально.
итог: сложные задачи летят в более мощные нейронки с большим лимитом, а легкие забирает малышня.

Представлен открытый учебный проект OpenMAIC (Open Multi-Agent Interactive Classroom). Это нейроуниверситет, который может помочь за несколько занятий выучить материал на 100 страниц (демо в браузере):
работает как полноценная лекция + практика — есть ИИ-преподаватель и ИИ-студенты.
на заданную тему ИИ её разжёвывает, а потом закрепляет практикой и самыми каверзными вопросами.
можете слушать и фиксировать, а можете принять участие — голосом или текстом.
задали вопрос — получили ответ.
всё максимально удобно — лекции с озвучками, лазерной указкой и тестами.
ИИ-преподаватель разберёт все ошибки в понимании материала.
практика — прямо в браузере идёт имитация задач и физических экспериментов.
Собираем локальную агентную AI-систему

Если хочется не просто «чатик с нейронкой», а локального AI агента, который умеет ходить в инструменты (файлы и т. п.) и выполнять твои задачи, то вот статья, которую реально можно повторить руками: «От чат-бота к AI агенту: собираем локальную систему на LibreChat, Langflow и MCP». Это подробнейший мануал с пятью уровнями сложности!
В этой статье покажем, как собрать связку из трёх ключевых компонентов:
LibreChat — UI для работы с LLM
Langflow — low-code платформа и визуальный редактор
MCP — стандарт для подключения инструментов
Структура статьи «по нарастающей»: можно остановиться на любом уровне — от простого локального чата до кастомизируемого агента.
Если вам интересны вызовы защиты ML-систем от современных атак и вы хотите развиваться в MLSecOps, присоединяйтесь к нашей команде, мы в поисках специалиста по защите искусственного интеллекта. Откликайтесь на вакансию по ссылке.
Как развивается и куда движется «русское техно»? Обсудим на ИТ-вечере 26 марта 😎

Поговорим про особенности инженерной культуры в больших ИТ-компаниях, практики внедрения ИИ в разработку, автоматизацию код-ревью и использование LLM без ущерба для безопасности. В программе эксперты из МТС Web Services, СберТех, red_mad_robot и Авито.
Будет интересно бэкенд- и ML-разработчикам, которые строят современные российские ИТ-системы, а также всем, кто интересуется ИИ-практиками в разработке. Участников ждут актуальные кейсы, дискуссии, активности от MWS GPT, нетворкинг и атмосфера техно-вечеринки с ИИ-треками.
📅 Когда: 26 марта (четверг) в 18:00 по мск
📍 Где: офлайн в парке Сокольники в Москве + онлайн
Успевай записаться — количество участников ограничено.
Представлен открытый проект Awesome OpenClaw — тщательно подобранный список замечательных ресурсов по OpenClaw — не все, но только лучшие.

Ранее был представлен открытый и бесплатный фундаментальный курс по OpenClaw, включая весь материал на русском языке с полным описанием процессов установки, настройки, использования и полноценной кастомизации ИИ‑бота под свои задачи.
Разработчик Роман Гущин (Roman Gushchin) из команды мейнтейнеров ядра Linux в Google объявил о доступности новой ИИ-системы Sashiko для проверки кода с помощью искусственного интеллекта. Внутри Google она уже используется для выявления проблем, и теперь она доступна публично и охватывает все сообщения, отправленные в список рассылки ядра Linux. Гущин пояснил, что Sashiko смогла обнаружить около 53% ошибок на основе неотфильтрованного набора из 1000 недавних проблем ядра Linux с меткой «Исправления:».

Разобрал репозиторий gstack от Гэрри Тана, CEO Y Combinator. Про критику от комьюнити писать не буду. Это в точности тот же спор который идёт вокруг любого репозитория с конфигами агентов. «Это просто промпты» — технически верно. Но ценность не в промптах, а в ролевой модели и порядке вызовов. Точнее всего описать репу так: структура инженерной организации как принцип проектирования, а не один агент на всё.
Что это такое, собственно:
gstack превращает Claude Code в виртуальную инженерную команду которой ты реально управляешь: CEO который переосмысливает продукт, инженерный менеджер который фиксирует архитектуру, дизайнер который ловит ИИ-шлак, параноидальный ревьюер который находит баги в продакшне, QA-лид который открывает настоящий браузер и кликает по приложению, и релиз-инженер который шипит PR. Тринадцать специалистов, все как слэш-команды, всё в Markdown, MIT-лицензия.
Ключевое отличие от других репозиториев: здесь не просто субагенты под задачи, а роли с разными когнитивными режимами. Один агент не делает всё сразу.
Что применимо для контентных агентов
Гэрри Тан не сделал одного агента «напиши код». Он разделил процесс на роли с разными углами зрения: стратег, исполнитель, ревьюер, контролёр качества. Для контентных агентов это, чисто теоретически, можно интерпретировать так:
/plan-content по образцу /plan-ceo-review — переосмысляет тему перед написанием. Не «напиши статью про Kubernetes», а «какой угол здесь самый сильный, что аудитория хочет узнать, какой тезис будет неожиданным». Стратегический режим перед исполнением.
/review-editorial по образцу /review — находит нарушения редполитики которые проходят поверхностную проверку но выглядят плохо при публикации. Автофиксит запрещённые слова, показывает спорные утверждения без источников.
/qa-content по образцу /qa — проверяет финальный текст по чеклисту: факты атрибутированы, голос соответствует, структура соблюдена, нет клише, длина правильная для формата. Фиксит и перепроверяет.
/ship-content по образцу /ship — финальный прогон перед публикацией: проверка всех пунктов, генерация превью для разных платформ, архивирование в базу опубликованных материалов.
/retro-content по образцу /retro — еженедельный отчёт: сколько материалов вышло, какие форматы, какие темы, что залипло, что нет.
У меня система выстроена по-другому — агенты под задачи, субагенты с чистым контекстом, правила и скиллы — но тем интереснее смотреть на другие варианты архитектур.
P.S.: Редко выхожу с таким на Хабре, больше про агенты для контента в канале.
Представлен открытый проект AutoResearchClaw. Это доработанная под исследования версия агента OpenClaw, которая:
детально анализирует идею пользователя и выдаёт готовый PDF‑документ с исследованием гипотезы;
агент сам пишет код и все формулы, а также запускает тесты, исправляет ошибки;
почти не имеет галлюцинаций;
вся работа бота проходит 4-этапный процесс верификации по научным базам;
умеет работать с LaTeX, чтобы создавать понятные и эффективные графики;
сам агент бесплатный — нужен только API.

Для Claude представлен модуль антиплагиата Stop Slop, который убирает из текста все маркеры ИИ. Проект вырезает шаблонные фразы, лишний пафос и делает текст более живым. Можно использовать как в Claude Code, так и в веб‑версии, просто добавив SKILL.md в проект.

ИИ-помощник для анализа требований
В работе техпресейла значительная часть времени уходит на анализ требований клиентов — они часто приходят в виде больших опросников, которые нужно внимательно разобрать и прокомментировать.
Когда таких документов много и нужна оперативность, ручная обработка начинает замедлять работу команды. С этим регулярно сталкивалась команда техпресейла Naumen. Поэтому Настя и Даша, системные аналитики команды, решили попробовать автоматизировать часть процесса и внедрили ИИ-помощника для анализа требований.
Рассказываем, как они собирали данные, какие подходы пробовали и как в итоге пришли к решению на базе RAG.
1️⃣ Чем занимается техпресейл
Техпресейл — это мост между продуктом и продажей. Мы проводим технические демонстрации, обсуждаем требования клиента и помогаем понять, подходит ли продукт под его задачи.
Чаще всего работа техпресейла с клиентом начинается с опросника — Excel-документа с требованиями.
2️⃣ Почему Excel-файл оказался неудобным для анализа требований
Типичный опросник — это таблица с тремя колонками:
требование клиента
какой продукт соответствует
комментарии
Иногда требований десятки или сотни — нужно внимательно прочитать, найти контекст в прошлых кейсах, вручную проверить формулировки и ссылки на источники. Даже опытный специалист тратит на такой документ около часа.
Когда таких задач много и у них срочные дедлайны, возрастает нагрузка на команду и появляются риски задержек. Поэтому мы решили автоматизировать процесс.
3️⃣ С чего мы начали автоматизацию
Сначала нужно было собрать данные. Поэтому первым шагом мы:
Собрали все опросники за год в единый массив.
Привели их к единому формату.
Классифицировали требования.
Проверили и почистили данные от дублей и неточностей.
В итоге получился датасет примерно из 2 000 требований, который стал основой нашей базы для тестирования ИИ-помощника.
4️⃣ Почему классические модели не сработали
Первой идеей было использовать классические методы анализа текста. Мы пробовали TF-IDF, Bag-of-Words и стандартные модели классификации.
Но столкнулись с двумя проблемами:
низкое качество классификации
дисбаланс данных
Большинство требований продукт действительно покрывал, поэтому модель быстро «научилась» отвечать одинаково. Стало понятно, что нужен другой подход.
5️⃣ Как мы пришли к RAG-подходу
Мы перешли к векторному поиску и трансформерам. Идея была в том, чтобы по новому требованию находить в базе знаний похожие требования и использовать их как контекст.
Получился умный поиск по нашим прошлым ответам. Но этого все равно было недостаточно: нужно было не только находить похожие требования, но и генерировать комментарий.
Так мы пришли к подходу RAG (Retrieval-Augmented Generation) — LLM сначала находит факты в базе знаний, а уже потом формирует ответ.
6️⃣ Как работает наш ассистент
Сервис работает в Telegram-боте и поддерживает два сценария.
Вопрос в чате — пользователь задает вопрос, бот ищет информацию в базе знаний и формирует ответ.
Загрузка Excel-файла — пользователь загружает файл с требованиями, после чего сервис проходит по каждой строке и автоматически заполняет:
соответствие (да / нет / не знаю)
комментарий с объяснением соответствия
7️⃣ Из чего состоит база знаний
Мы используем два источника:
документацию по продуктам Naumen
структурированные опросники из прошлых проектов
Документы разбиваются на небольшие смысловые фрагменты, для каждого фрагмента вычисляются эмбеддинги, после чего они сохраняются в векторной базе. Когда приходит новый запрос, система находит самые релевантные фрагменты и использует их как контекст для ответа.
8️⃣ Какие есть ограничения у ассистента
ИИ-ассистент помогает быстрее разбирать требования, но полностью заменить аналитика он пока не может.
Например, иногда клиенты присылают требования, которых еще нет в базе знаний. В таких случаях бот отвечает «не знаю», и требование разбирает специалист.
Также иногда встречается типичная проблема LLM — галлюцинации. Поэтому финальную проверку ответа все равно делает системный аналитик.
Anthropic представила исследование, которое показывает, что влияние ИИ на рынок труда пока значительно ниже его теоретического потенциала. В статье представлена новая метрика под названием observed exposure («наблюдаемое воздействие»). Она сравнивает теоретические возможности языковых моделей с реальными данными их использования, в данном случае на основе разговоров пользователей с чат-ботом Claude. Для анализа были объединены данные базы профессий O*NET, оценки того, какие задачи теоретически могут ускоряться с помощью ИИ, а также статистика фактического использования Claude в рабочих сценариях.
Результаты показали значительный разрыв между потенциалом и практикой. По оценкам исследователей, языковые модели теоретически способны ускорить выполнение 94% задач в компьютерных и математических профессиях. Однако на практике ИИ применяется лишь примерно в 33% таких задач. Большинство возможностей технологий остаётся нереализованным из-за ограничений самих моделей, юридических требований, необходимости человеческого контроля или сложной интеграции с профессиональными системами.

Исследование также выявило, какие профессии сейчас наиболее подвержены влиянию ИИ. На первом месте оказались программисты — около 75% их задач могут выполняться или ускоряться с помощью моделей. Далее следуют специалисты службы поддержки, операторы ввода данных и аналитики. В то же время примерно 30% работников практически не затронуты использованием ИИ: среди них повара, бармены, спасатели, механики и другие профессии, связанные с физическим трудом.
Компания Mistral AI представила большую языковую модель Leanstral. Это проект для разработки приложений с помощью вайб‑кодинга и оптимизированный для формальной верификации кода. Предполагается, что Leanstral может применяться для создания ИИ‑ассистентов, позволяющих не просто генерировать код, но и гарантировать отсутствие в нём ошибок.
Leanstral стала первой открытой моделью, поддерживающей язык программирования Lean 4 и связанный с ним инструментарий для проверки математических доказательств. Lean 4 предоставляет возможности для математического доказательства корректности кода и его соответствия спецификации, что в контексте вайб‑кодинга позволяет подтвердить, что сгенерированный ИИ‑моделью код делает именно то, что задумано.
Модель Leanstral охватывает 119 миллиардов параметров (6.5 млрд активируемых параметров на токен), учитывает контекст в 256 тысяч токенов и опубликована под лицензией Apache 2.0. Загружаемый архив с Leanstral занимает 121 ГБ и пригоден для использования на локальных системах. Для локального запуска могут применяться библиотеки vllm, transformers и SGLang.
Для оценки возможностей ИИ-моделей с учётом качества проведения формальной верификации кода и написания математических доказательств разработан новый набор тестов FLTEval. В проведённых тестах модель Leanstral обогнала существующие открытые модели Qwen3.5 397B‑A17B, Kimi‑K2.5 1T‑A32B и GLM5 744B‑A40B, показала сходные результаты с моделями Claude Haiku 4.5 и Claude Sonnet 4.6 от компании Anthropic, но отстала от модели Claude Opus 4.6. В частности, модель Opus набрала 39.6 баллов, а Leanstral — 21.9 при одном проходе и 31.9 при 16 проходах. При этом затраты при использовании Opus составили $1650, а Leanstral — $18 при одном проходе и $290 при 16 проходах. Модель Haiku набрала 23 балла при затратах $184, а модель Sonnet — 23.7 при затратах $549.

Делаем проактивного AI-агента.
Часть 3 — настраиваем OpenClaw, чтобы был полезным
«Вы не поднимаетесь до уровня своих целей. Вы падаете до уровня своих систем»
Это третья часть серии (первая — в чем идея, вторая — агент с нуля)
Теперь поговорим про OpenClaw — самый популярный на сегодня фреймворк для персональных AI-агентов
Архитектура моего OpenClaw
Агент живёт на сервере Railway, общается со мной через Telegram и Discord, работает через подписку Claude с Codex на подстраховке. Его поведение целиком определяется набором markdown-файлов — там и «SOUL», и память, и операционные инструкции.
Вот из чего состоит workspace моего агента
SOUL.md — кто агент. Характер, стиль, границы. Его «душа».
USER.md — кто я. Контекст, цели, паттерны, как со мной работать.
AGENTS.md — правила поведения. Safety, тиеры действий, память, heartbeat, группы.
MEMORY.md — долгосрочная память, кураторские заметки.
HEARTBEAT.md — чеклист периодических проверок (календарь, почта, задачи).
TOOLS.md — локальные заметки по инструментам.
Плюс memory/YYYY-MM-DD.md — ежедневные заметки, из которых потом дистиллируется MEMORY.md.
И skills/ — папка со скиллами (finances, ticktick, gmail, google-calendar и т.д.), каждый со своим SKILL.md.
По сути: SOUL + USER + AGENTS — это характер и инструкция, MEMORY — опыт, skills — его навыки.
Из коробки агент работает, но бесполезен без кастомизации. Ниже — проблемы, на которые я убил неделю, и их решения
⚡Проблема 1: Повышенная проактивность
По стандарту системные промпты OpenClaw звучат примерно так:
Don't ask permission. Just do it.
Это делает агента слишком самостоятельным — он может сломать себя без предупреждения.
Решение: я добавил несколько ограничений. Все важные изменения идут через localhost => GitHub, а не через его прод. На попытки изменить системные файлы агент теперь отвечает:
«Нет, это конфиг — мне запрещено его трогать. Если я накосячу с конфигом на Railway, всё упадёт в crash loop и только ты сможешь починить.»
Стандартная проблема без этого: агент что-то у себя меняет, и либо я этого не замечаю, либо он просто умирает, сломав что-то важное
⚡Проблема 2: Память — не только его храм, но и помойка
Механизм памяти в OpenClaw:
MEMORY.md — долгосрочная память.
memory/YYYY-MM-DD.md — ежедневные заметки.
Встроенный хук session-memory — при завершении каждой сессии фреймворк автоматически сохраняет сырой лог разговора в memory/.
Проблема: если часто жать /new, за короткое время накапливается огромное количество raw JSON файлов, которые сыпятся в контекст при старте каждой сессии. Мои MD-файлы состояли из 299 строк, из которых полезных фактов — 5. Всё остальное — мусор метаданных. Дистиллированная версия уместилась бы в 10–15 строк.
При этом долгосрочная MEMORY.md — почти пустая. Инструкция «periodically review and update» была слишком размытой и ни разу не сработала.
Решение: явные правила дистилляции и регулярный перенос из дневных заметок в MEMORY.md с очисткой сырых логов
⚡Проблема 3: USER.md — главный файл, и он требует постоянного внимания
USER.md — это файл о вас. Чем лучше он описан, тем лучше агент работает. Моя структура:
Basics — имя, возраст, таймзона, локация, язык
Who — тип личности, суперсила, мотивация
Background — опыт и ключевые достижения
Values — что важно в жизни
Current focus — чем занят сейчас (продукты, статусы)
Finances — доход, расходы, цель
Platforms — соцсети и каналы
People — ключевые люди вокруг
Schedule — режим дня
Work style — как работает, что драйвит
Patterns — слепые зоны и паттерны поведения
Goals — текущие цели и метрики
How Claw should interact — правила общения
Главный вывод 3 части
Workspace-файлы агента — это не «написал и забыл». Они дрифтуют, конфликтуют и устаревают точно так же, как код.
USER.md — особенно. Я и контекст вокруг меня меняются быстрее, чем я вспоминаю обновлять описание. Поэтому нужна периодическая ревизия — точно такая же, как ревизия кода.
Если кратко: персональный AI-агент — это не продукт, а процесс. Фреймворк даёт скелет, но без недели (минимум) кастомизации под себя он останется бесполезной игрушкой
Переходим полностью к тестам датасета COCO. День 4.
Пока Альтман рассуждает о бороздящих кораблях Вселенную и о моделях, которые будут после трансформеров, мы делаем. Такое вступление я придумал для статьи, когда мы закончим с экспериментами и доделаем пилот, а пока продолжу дневник обучения TAPe-модели. Комуинтересно: начало тут, здесь и там, а немного про методы TAPe (Теории активного восприятия) в области обработки информации — здесь.
Сначала протестировали эту же модель с тем же числом параметров на большом датасете COCO. Без оптимизации получили решение с точностью 60.59%, что является очень высоким для такой модели (невозможно высоким даже, такая модель по идее не должна сходиться и находить общее решение из количества параметров, но данные TAPe позволяют). Пока сложно сравнить с конкретной метрикой других моделей, потому что мы не строим рамки вокруг предмета, но находим конкретно центр объекта. Это проведем позже.
Тренировка на процессоре как минимум не дольше, чем тренировка на видеокарте, поэтому мы ограничены только количеством данных на ОЗУ в TAPe‑формате — что не является ограничением в целом, можно весь датасет уместить одновременно там
Пока существуют несколько проблем:
Количество ложных срабатываний (скорее симптом, но все же);
Не самая лучшая классификационная точность (тоже в большой степени симптом);
Неправильное центрирование объектов (немного ограничение детекции, но есть способы обойти);
Размерность COCO;
Начали экспериментировать, чтобы найти решения, при этом также экспериментируем с несколькими предметами, с которыми ранее уже хотели провести эксперимент.
Конкретно:
Работа матрицы преобразования на данный момент времени немного линейная. Зависимости по большей части линейные (то есть, независимые друг от друга). Это не хорошо, по понятным причинам, но в тоже самое время это помогло перейти к пониманию одного факта: в найденном нами подходе, о котором писали выше, есть как раз нелинейная зависимость коэффициентов друг от друга. Эту связь нужно выстраивать вручную, в зависимости от градиентного спуска и deep learning, но в нашем случае связи по TAPe известны заранее,
Дополнительно начинаем вторую фазу создания решения, чтобы можно было захватывать объекты любого размера. Это должно привести к намного более точным ответам, при этом ускорив модель.
Ну и решаем еще одну проблему: модель учится определять бэкграунд, но имеет сложности определять объекты со стороны классификации. То есть — большая часть тренировки потери идет в сторону тренировки хорошей точности в бэкграунд, что приводит к ложным срабатываниям, потому что текстуры на заднем плане превращаются для модели в что‑то напоминающие объект, пусть и с низкой точностью.
Дальше планируем продолжить работу с полным датасетом (используя 2% из него для быстрых тестов — это около 2400 изображений).
Андрей Карпаты представил проект US Job Market Visualizer, где можно узнать, когда ИИ заберёт определённую работу — это карта рисков автоматизации по 342 профессиям.
Автор проанализировал данные по рынку США: с требованиями к образованию работников, средней зарплате и обязанностям, превратив всё это в интерактивную карту. Чем больше блок, тем больше людей в профессии, а цвет показывает шанс остаться без работы по десятибалльной шкале.

Как мы ушли от всем известного способа градиентного спуска
Продолжаю дневник разработки «Суперраспознавалки» для демо/пилота. День третий. Основная задача: настроить TAPe‑модель на датасет типа COCO под задачу detection. Вторая — дать клиентам возможность добавлять собственные классы к уже существующим. Ну и далее, при необходимости, полная адаптация модели под конкретного заказчика. Поскольку у нас есть Теория активного восприятия с ее методами, на выходе заказчик должен получить кратную эффективность и кратную экономию ресурсов.
В первые два дня настраивали базовую струтуру сегментации, детекции и классификации. Модель решает задачи на обучении уже 115 тыс параметров — в отличии от YOLO, которой мало 2 млн + параметров.
Начало здесь
Второй день здесь
Про архитектуру TAPe+ML здесь
Тут сравнение трех десятков кодировок в задаче сегментации видео в DBSCAN (включая ViT, DINO) с TAPe
День 3
Сегодня занимаемся исправлением количества ложных срабатываний. Проблема ложных срабатываний в целом в том, что мы смотрим в первую очередь на текстуру изображения (из‑за особенностей методов TAPe). Поэтому приходится прибегать к менее‑обычным способам для обучения разделения между текстурой заднего плана (в каком‑либо виде, будь это снег, или трава) и текстурой самого объекта.
Сейчас эта проблема решается условно через определенные движения области сбора данных для выявления текстур, которые, возможно, не были найдены в области, расположенной стандартным способом (то есть начальным разбиением изображения на патчи). Это позволяет сильно уменьшить количество ложных срабатываний.
На данный момент времени около 220 объектов срабатывают без ложных срабатываний в целом. Проблема происходит только в изображениях с большим количеством маленьких деталей по типу гравия, или же травы, при этом не уменьшая общее количество правильных нахождений.
В целом, здесь помогают стандартные ML‑подходы по типу увеличения батчей, чтобы сгладить ошибки. Были эксперименты с проведением аугментаций, которые не привели к улучшению результатов: большая часть аугментаций просто повторяют уже существующие данные.
Также начали эксперименты с добавлением цветовых каналов. Однако проведенные эксперименты с цветами в простой схеме объединения features по каналам не дало желаемых результатов: даже с greyscale мы забираем столько информации, что цветовая гамма по большей части их просто дублирует. Это приводит к тому, что модель опирается слишком сильно на общие черты, не «видя» при этом выдающиеся черты разницы цвета. Что в то же самое время может и являться хорошей фичей, а не багом, потому что через разницу в текстуре мы, по идее, должны найти разницу в любом случае (если это реальное изображение). Поэтому мы не полагаемся в решении на конкретную задачу, где цвет более релевантен, а полагаемся на общее решение детекции в целом.
Также на заднем плане были закончены эксперименты с разными архитектурами (эксперименты продолжались параллельно несколько дней). Нашли самую лучшую архитектуру на данный момент (самая логичная по её смыслу, как нам кажется). Тут без подробностей, но мы ушли от всем известного способа градиентного спуска, что позволяет нам после тренировки модели прийти к глобальному минимуму решения (или к чему‑то очень близкому к этому — всё равно есть зависимость от задачи).
Мы собираем данные из патчей определенным образом, объединяем их в общее описание, а затем уже классифицируем конкретно эти объединения по тому, есть там объект или его нет. Классификация происходит за счет общих описаний каждого класса, который модель видит — и не тренируется отдельно, потому что исходит натурально из первичной тренировки векторов, а затем сводится к одному описанию через k‑means.
В результате выходит модель с очень малым количеством ложных срабатываний — с которыми, впрочем, мы все равно боремся. Плюс есть некие проблемы центровки, так что скорее всего количество параметров увеличится. Но все равно, модель работает чрезвычайно быстро. Тренировка как таковая проходит на CPU (так проще).
Представлен открытый проект JobSync — Job Search Assistant для поиска работы с помощью ИИ:
ИИ мониторит подходящие для вакансии, правит резюме и адаптирует под каждый отклик.
мониторинг и трекинг вакансий: можно вести учет заявок, офферов, компаний, должностей и текущих статусов.
анализ рынка труда делают, например, Llama 3.2 или Deepseek, можно подключить и другие модели с помощью Ollama.
есть встроенный трекер задач и созвонов с рекрутерами.
создаёт и корректирует различные версии резюме — сервис за секунду адаптирует портфолио под любую вакансию.
работает полностью локально.

Генеральный директор стартап в сфере ИИ и разработки ПО Emergent Мукунд Джа предупредил о ключевых рисках для быстро набирающего популярность вайб-кодинга:
главной угрозой остается качество создаваемого кода. По словам Джа, современные инструменты способны быстро генерировать приложения, однако такие решения часто оказываются нестабильными, содержат ошибки или плохо масштабируются. «Есть большая ставка на то, что качество создаваемого программного обеспечения будет экспоненциально расти. Если этого не произойдет, это станет серьезной угрозой», — отметил Джа;
вторым риском для индустрии Джа назвал сам дальнейший прогресс ИИ. По мнению эксперта, развитие автономных ИИ-систем может привести к тому, что рынок «перепрыгнет» традиционный этап разработки приложений. «Мы прошли путь от телефонов Nokia к BlackBerry, а затем все перешли на iPhone. Возможно, программное обеспечение окажется тем самым BlackBerry», — сказал Джа. В будущем пользователи могут все чаще полагаться на ИИ-агентов и языковые модели, которые выполняют задачи напрямую, без необходимости устанавливать отдельные приложения.
День 2. 115 тыс параметров вместо 2 млн+ у YOLO
Продолжаю дневник разработки «Суперраспознавалки» для демо/пилота. Начало здесь.
Сегодня начали углубляться в сторону самой по себе классификации, а также немного выходить из темы универсальности решения, чтобы решать уже задачу detection, а не только общую сегментацию.
Интересный момент, найденный в экспериментах — благодаря TAPe получается использовать очень дешевые методы с тз ресурсов, при этом используя и методы ML. При этом все равно получаются очень хорошие результаты для этих методов.
Например, конкретно сейчас получается даже на более сложных примерах без проблем находить задний фон, используя при этом минимальные ресурсы и методы, которые на пикселях являлись релевантными 20 лет назад.
Разбиение происходит за 100+ кадров в секунду, без оптимизации, с обработкой каждого кадра отдельно (то есть есть также overhead выгрузки изображения на GPU).
Также пришло понимание, что нужно переходить к этапу дополнительных действий, чтобы отбирать интересные места. В целом по результату вышло, что количество ложных срабатываний в разы уменьшилось, но при этом количество правильных ответов тоже немного снизилось (на пару процентов, но заметно в любом случае, тем более у нас цель получить условные 100% на тестовых данных). Это происходит как раз таки из‑за того, что нет правильной последовательности действий (что, впрочем, нами ожидалось, просто не думали, что это так быстро произойдет).
Перешли к более адаптированной под TAPe логике. Пока очень топорным способом (так легче тренировать и проверять работу), но выходят очень хорошие результаты. По поводу данных немного скажу для контекста:
Разбиение следующее:
Classes: 4; labeled: 1256, train: 879, test: 377, miss images: 559
То есть, 4 класса, общее количество изображений объектов — 1256, из них в тренировку уходит 879, в тестирование — 377. Miss images — это изображения просто заднего фона, а также случайных объектов, не являющихся нужными объектами.
Для YOLO необходимо около 1500 изображений на один класс. Мы же успешно используем около 220 на класс + какие‑то изображения фона (которые есть только для травы и снега, например).
Результаты имеют точность определения того, где находится нужный объект (не её вид — это отдельный шаг) с точностью 98.94% (то есть правильно для 373 из 377 изображений). Ложные срабатывания ещё существуют, но их стремительно меньше.
Интересно, что модель «самостоятельно» находит правильно нужные объекты, даже если в тренировочных данных они не были обозначены (то есть тренировочные данные неправильные). Модели всё равно удаётся определить оба объекта, что показывает, что модель обучилась формам объектов успешно.
Чтобы добавить контекста — размер модели 115 тысяч параметров. Самая маленькая из современных YOLO же имеет 2+ млн параметров, и при этом не справляется с задачей.