Комментарии / Профиль eignatiev / Хабр

Евгений Игнатьев@eignatiev

Программирую ИИ-агентов для бизнеса

24,1

Рейтинг

Подписчики

ПрофильСтатьи3ПостыНовостиКомментарии15

Не дали ИИ-агенту соврать — его же памятью

eignatiev 22 июл в 07:47

Полностью согласен с тезисом, что память начинает приносить пользу ровно тогда, когда возражает автору. Мы пришли к тому же, но с другого конца и на куда более примитивной технике. У нас агенты работают с реальными клиентскими данными, и память это не векторный граф, а плоские markdown-файлы плюс жёсткое правило в системном промпте: прежде чем утверждать что-либо про состояние системы, перечитай запись, не отвечай по памяти сессии. Ретривер тут вообще никакой, вся сила в том, что обращение к памяти детерминированное, а не на добрую волю агента. Ваш вывод про хук вместо надежды на сознательность модели по нашему опыту важнее, чем качество самого поиска. Свежий пример буквально сегодня. Агент готовил клиенту отчёт по рекламной кампании и уверенно написал ложную причину одного события. Сработали запись в памяти и правило перепроверки, агент полез в API за фактом, поймал своё же враньё и переписал до отправки. Память сработала именно как возражение, а не как справочник. Реализация примитивная, а эффект тот же, что вы описываете на графах.

Перевёз ИИ-агентов на российский сервер. Оказалось, полмира с ним разговаривать не хочет

eignatiev 18 июл в 16:53

Яровая это про организаторов распространения информации, тех кто в реестре РКН: мессенджеры, соцсети, форумы. Бот-консультант на сайте туда не попадает. У нас чистый 152-ФЗ, а там наоборот: отозвали согласие, удаляем в 30 дней. Хранить “на всякий” не надо. А про микросервисы в точку, только у нас с обратным знаком: сидим на монолите, все диалоги в одной базе. Прикрутили автоочистку на 90 дней, тексты сносим, сессии обезличиваем. Один запрос по расписанию. Был бы зоопарк сервисов, собирал бы неделю и всё равно что-то забыл.

Перевёз ИИ-агентов на российский сервер. Оказалось, полмира с ним разговаривать не хочет

eignatiev 18 июл в 15:11

Вот про удаление вы мне прямо в больное место попали. Диалоги копятся в базе бессрочно, точечно удаляю только тестовое. Хотя логика ровно та же, что с обезличиванием: цель обработки достигнута, заявка ушла владельцу - дальше держать переписку незачем. Просто эта часть не мешает работать, поэтому до неё и не доходят руки. Про “не покидают Россию” тоже сходится. У нас за границу уходят плейсхолдеры, но раз в них ничего личного нет, то формально и передавать нечего. Видимо ваш юрист про это и говорил. Спасибо, реально полезно. Ради таких комментариев и пишу.

Перевёз ИИ-агентов на российский сервер. Оказалось, полмира с ним разговаривать не хочет

eignatiev 18 июл в 14:11

О, вот это ценно. У нас юриста в проекте нет, схему собирал на своей логике и на здравом смысле, так что каждый раз есть сомнение - а точно ли это считается обезличиванием. Если не секрет, юрист смотрел на обратимость замены? Меня именно этот момент смущает больше всего. Таблица соответствий лежит у нас на сервере и наружу не уходит, но формально-то она существует. Где проходит граница между обезличиванием и псевдонимизацией - я так и не понял до конца. И про два месяца очень знакомо. У нас неделя ушла только на то, чтобы понять, что часть проблем вообще не наши и чинить их бесполезно.

Перевёз ИИ-агентов на российский сервер. Оказалось, полмира с ним разговаривать не хочет

eignatiev 18 июл в 12:42

Да, вы точнее сформулировали то, к чему я пришёл на ощупь. Про обратную сторону добавлю наблюдение: с картинками было не “медленно” и не “оборвалось на середине”, а вообще ни одной попытки. В логах веб-сервера пусто, при том что за соседними файлами в той же папке приходили и спокойно забирали. На троттлинг не похоже, скорее что-то более грубое и избирательное. Про отказы api согласен, выглядят по-разному, и это отдельная боль при диагностике. У Антропик хотя бы честный мгновенный 403 по стране, ещё до проверки ключа - по нему сразу понятно, что дело не в конфиге. Хуже когда просто таймаут без объяснений, тогда полдня ищешь проблему у себя. Про релеи - да, но список живых локаций меняется, закладываться на конкретную надолго не стоит. Проверять периодически приходится заново.

-1

Перевёз ИИ-агентов на российский сервер. Оказалось, полмира с ним разговаривать не хочет

eignatiev 18 июл в 11:08

Не ошибаетесь, если слать как есть - так и будет. Поэтому и не шлём как есть. До модели текст доезжает уже с заменами: вместо телефона [PHONE], вместо имени [NAME], с документами так же. Таблица соответствий лежит на сервере и в запрос не уходит. Ответ разворачиваю обратно перед показом, клиент видит своё имя, модель его не видела. Момент, который вы скорее всего и имеете в виду: обезличивание работает только если по тексту нельзя понять кто это. Одного телефона мало, в диалоге хватает косвенных зацепок. Поэтому маскирую ещё имена, адреса, документы. А контакт для заявки вообще достаю локально регуляркой, модель для этого не нужна. Юрист из меня так себе, гарантий не даю. Но это всё равно другая история, чем слать переписку целиком и надеяться на галочку согласия. Утечёт у них лог - живых контактов там не будет.

OpenAI Realtime против Яндекс Realtime: сравнил два голосовых движка для России и за вечер пересадил свой прод

eignatiev 9 июл в 04:18

Прокси там вынужденный. У яндексового realtime нет эфемерных токенов для браузера как у openai, а из браузера по вебсокету заголовок с ключом не выставишь. Так что напрямую никак, только через свой сервер. Прямое соединение экономнее, да, но апи пока не даёт. И webrtc у них нет, только ws.

Хардкорная агентская разработка под iOS, часть 1: отдельный Mac Mini для агентов

eignatiev 30 июн в 05:53

Понятно, спасибо. Подход «оркестратор почти ничего не делает, суб-агент на любое сложное действие» забрал к себе - это даёт чёткий критерий, где проходит граница декомпозиции (мне как раз этого правила не хватало). Hermes посмотрю в первую очередь. Удачи с продолжением цикла, буду ждать следующих частей.

Хардкорная агентская разработка под iOS, часть 1: отдельный Mac Mini для агентов

eignatiev 26 июн в 14:32

Спасибо, про OpenClaw и Hermes слышал, но руки не доходили попробовать - у меня самописное минимальное «отправил-получил» без оркестрации, для текущих
задач хватает. Паттерн «оркестратор + план + суб-агенты» действительно красиво решает проблему контекста: главный держит план, суб-агенты возвращают
короткий результат, оркестратор апдейтит и спавнит следующего. В Claude это нативно есть через sub_agents, но там декомпозиция всё равно на тебе. Вопрос практической стороны: как у вас оркестратор принимает решение, когда декомпозировать задачу на суб-агентов vs продолжать в одном контексте? У меня правило большого пальца «если контекст вырос больше N токенов - пора разбивать», но это явно костыль. И ещё, раз вы оба пробовали, что бы посоветовали для одиночного сетапа без команды: OpenClaw или Hermes?

Хардкорная агентская разработка под iOS, часть 1: отдельный Mac Mini для агентов

eignatiev 26 июн в 09:11

Спасибо за разбор, проблема consent fatigue реальная - у меня свой кейс. Я не пилю под iOS, делаю ИИ-агентов для бизнеса на Claude API. Параллельно много работаю с Claude Code на Маке и тоже упёрся в постоянные подтверждения в долгих сессиях. Пошёл другим путём: одна рабочая машина, но обернул Claude Code в небольшого Telegram-бота на Python - любое сообщение в личку = запрос в Claude Code через subprocess + ответ обратно в TG. Получился «карманный терминал»: с iPhone в метро могу запускать задачи, проверять статус, читать логи. YOLO-режим выставлен в самом Claude. Это компромисс относительно вашей полной изоляции - но для одиночной разработки и личных задач хватает.

Вопрос: как у вас Claude в YOLO ведёт себя в долгих сессиях, когда контекст переполняется - есть какой-то паттерн «приостановки», или режете задачи на куски заранее? У меня в боте /new для сброса вручную, хотелось бы автоматизировать.

Я спросил у нейронки, как верифицировать её ответы, и она сказала: «Хочешь честно? Это про доверие»

eignatiev 25 июн в 15:00

Понял, экспертный фильтр на выходе для медицины - золотое правило. Спасибо за разбор, забрал терминологию верификации к себе на полку.

Я спросил у нейронки, как верифицировать её ответы, и она сказала: «Хочешь честно? Это про доверие»

eignatiev 25 июн в 14:32

Согласен, эталоны защищают только от грубых регрессий после правки промпта, а не от runtime-косяков. У нас в чат-ботах для МСБ это компенсирует другой контур: каждый завершённый диалог с лидом улетает в Telegram-канал владельца бизнеса, и он де-факто работает как живой ревьюер. Если бот несёт ересь — клиент видит в тот же день и правит промпт. Это «эксперт-в-цикле», по таксономии — сильнее автомата, но требует чтобы у владельца было время смотреть. Для mission-critical в медицине так не зайдёт, конечно. А как у вас сейчас приходит сигнал об ошибке агента в эксплуатации — через клиентскую обратную связь, ручной аудит, или есть автоматизированный мониторинг качества?

Я спросил у нейронки, как верифицировать её ответы, и она сказала: «Хочешь честно? Это про доверие»

eignatiev 25 июн в 12:36

Спасибо за разбор, подтверждаю тезис «одна нейросеть не может служить эталоном для другой» из своей практики чат-агентов на Claude. Пробовал прогонять ответы Haiku через Sonnet как валидатор — Sonnet находил «ошибки» там, где их не было, и пропускал реальные косяки на одинаковых входных вопросах. Сошёлся на смешанном подходе:
эксперт-человек составляет 10–15 FAQ-эталонов (пары «типовой вопрос → эталонный ответ»), они лежат прямо в SYSTEM-промпте как few-shot. Перед каждой правкой промпта прогоняю эти 10 вопросов и сверяю с эталонами визуально. Это сэкономило кучу регрессий — модель тиражирует паттерн эталона вместо того чтобы обходить чёрный список запретов. По вашей таксономии — это «эксперимент + формальная спецификация» одновременно, в малом продакшен-варианте.

Внедрили AI-агента в BI-систему — чистая магия в обработке и визуализации терабайтов данных

eignatiev 25 июн в 11:56

Интересный кейс, особенно про вызовы тестирования недетерминированных моделей. Сам столкнулся с этим на чат-агенте для малого бизнеса — Claude Haiku отвечал стабильно по смыслу, но формулировки плавали, и из-за этого вылезали внезапные косяки (то про сроки не то скажет, то предложит встречу клиенту слишком рано). Помогло неочевидное
решение: вместо чёрного списка запретов положил в SYSTEM-промпт FAQ-эталоны — 10-15 пар «типичный вопрос → эталонный ответ». Качество и сдержанность резко выросли, потому что модель тиражирует готовый паттерн вместо того чтобы обходить запрет. У вас архитектура сложнее, но интересно: как тестируете консистентность ответов на одинаковых вопросах? У Qwen/OpenAI плавающие формулировки больно бьют по UX в BI или вы нормализуете на выходе?

Как эволюционировал ИИ в разработке и что теперь нужно уметь начинающему программисту

eignatiev 25 июн в 10:08

Хорошо разложено, особенно про «нейросеть как другой джун». От себя добавлю фаундерский взгляд: я делаю ИИ-агентов для малого бизнеса, программирую в паре с
LLM-ассистентом, и главная польза оказалась не в скорости написания кода, а в том, что ассистент играет «адвоката дьявола» в технологических развилках. Например, перед тем как тащить в проект LangChain, разложил с ним по полочкам что мне даст каждый слой абстракции — оказалось, из десятка нужным был ровно один. Сэкономило месяц отладки фреймворка, который мне не подходит. Для не-инженера такой режим работы оказался важнее, чем «допиши функцию»

Информация

Специализация