Обновить
2
0.1
Denis Kiselev@deksden

enterpreneur

Отправить сообщение

Не юзать агентов с сомнительной ценовой политикой, а юзать агентов с нормальными лимитами для работы. Да, я про кодекс и клод код. CLI

Вы уже затрагиваете продвинутую тему - это флоу разработки

В целом все верно написали

Для своих флоу у меня стандартный паттерн - 2 цикла агентного фикса после проблемы, если не получается, то эскалация до пользователя. Это в оркестраторе при процессах/флоу планирования, реализации, верификации или ревью.

Вы невнимательно прочитали. Именно пункт 2 в статье про прогрев и подготовку контекста решает ваши вопросы. Агент должен работать на подготовленном контексте. Да, подготовка "вручную" более хлопотна и требует некоторого навыка - но ничего ракетнокосмического. Просто гоняете агента по системе "сверху вниз", он ее изучает. Потом гоняете подробнее про подсистему с которой работаете/ее зависимостям. Если агент норм познакомился с подсистемой, он не будет делать никакого дублирующего кода.

Конечно, меморибанк решает эти задачи системнее.

И этап проектирвоания - это в том числе проработка интеграции доработок в систему. Не даром в агентах появляются субагенты-исследователи. Как раз для изучения вопросов, например для интеграции.

Смелый тейк - определяю уровень знаний по интернету

Нет.

Разница в скорости гиганская. Среднего размера системы пишутся за недели, а не месяцы

в целом - норм, но есть замечания

делаем прогрев из прошлой сессии
Это как? продолжить прошлую сессию? неэффективно - она же на прошлую задачу потрачена

машина часто врет, говоря, что все готово
Это отдельные модели склонны, в частности Клод - но там немного не так линейно. Он "срезает углы", а не впрямую врет. Но у openai моделей нет таких вопросов.

Точно понять, что должно быть в конце
Да - но не надо придумывать как к этому придти - это задача агента. Нужно придумать как сделать тест, чтобы проверить что пришли. И с тестом агент прийдет

придется смириться и работать самостоятельно
Не стоит - лучше разобраться что вы делаете не так! Это эффективнее. Любая неудача или сложность - повод повысить свой уровень

Наверное не надо работать в инструментах, которые не дают нормальные подписки (для фиксации цены).
Подписки от openai / anthropic решают вопрос.

Расскажите пожалуйста поконкретнее - какого рода галлюцинации вы встречали? Оч интересно

Какая модель, упряжка, стек, проект размером, наличие ИИ подготовки/меморибанка/readiness rating?

Не только ревью

Если говорить о флоу, то сначала делаем чеки (lint/typecheck/build/test:unit/test:integration/test:e2e), потом - верификацию (сверим план с фактом), а потом - можно и ревью

Я в канале как раз последний эвал делал на ревью кодовой базы раными моделями. Тестили свежих китов против фронтира

А вы читаете и контролируете агентов?)

Вы описываете какой то вымышленный флоу

Позиционные кодировки используют модели в работе с контекстом внутри, это не технология пользвоательского уровня.
Семантические графы - есть любители, но это один из подходов. Если вы не финтех со строгим регулированием и требованиями полной трассируемости кода и RLM, то смысла особого в графе нет.
MCP доступ к документации - возможно context7 можно упомянуть. Но его заменяет в грамотном флоу веб поиск в случае вопросов. Либо нормальная модель со свежим knowledge cutoff. К тому же отрасль движется от MCP к библиотекам Skills и обвязке CLI в скиллы. Так что это не для начинающих - это для продолжающих

И проект из сотен файлов и сотен тысяч строк кода - это не уровень начинающего. Не путайте целевую аудиторию.

Современное поколение моделей - начиная с gpt 5.2 и opus 4.5 - уже ни разу не джуны. В нормальном флоу и с нормальной подготовкой проекта к ИИ разработке все работает весьма толково.
Проблем с галлюцинациями в текущем поколении моделей на распространенных стеках нет от слова совсем.
Самодеятельность - зависит от качества промптинга. С гпт все просто, а вот для Опуса требуется некоторый навык и понимание его особенностей.
Забывание контекста в пределах свежей сесси до компакта отсутствует, а до компакта доводить ее непрофессионально.
План современными моделями не игнорируется

Ваше мнение построено или на устаревшей информации, или на работе со слабыми моделями. Текущий фронтир такими особенностями "давно" не обладает (уже пару релизов). И опус 4.6 - не вершина в кодинге.

Зависит от системы работы с контекстом на вашем проекте.
В моих проектах с меморибанком и флоу агенты себя чувствуют "в теме". Для этого используем progressive disclosure на старте сессии, и "прогрев" сессии вопросами по теме работы (я называю этот процесс праймингом).

Всем советую! Рещультаты работы будут совсем другие

Ну вот ровно как с моделями сейчас - агенты уже в план-моде спрашивают у пользователя если им что то непонятно. Кодекс бывает спорит по решениям. Так что технологии развиваются. Я оцениваю их по поыту как уверенных мидлов, хотя еще несколько месяцев назад это были скорее джуны. Но уровень gpt 5.2/opus 4.6 какую то границу перешел.

так бывает крайне редко, я в последнее время такого не встречал. Раньше такое бывало с небольшими локальными кодинговыми моделями

У нынешнего поколения gpt моделей (и базовых, и -codex версий) весьма неплохо со следованием инструкциям. Клод тоже нормально слушается инструкций, только ему надо их немного строже ставить и верифицировать.

Поэтому я не встречался с такими кейсами - когда "берет и делает совсем другое". Бывало что в большом плане не все делает, но в моих влоу всегда есть этап верификации на такой случай.

А у вас с каким агентом и моделью такие случаи бывали?

А не встречались в жизни с такой ситуацией: заказали команде какую то софтину, они приносят результат - а там ерунда какая то, которая заказчику не нравится и вообще он не то имел ввиду? По мне так распространенная ситуация

Только с агентами ситуация немного сложнее - они не все переспрашивают и уточняют. В план-модах некоторых агентов не даром добавили инструмент "задать вопросы польователю".

Поэтому - да. Агенты могут делать хорошо, но пока не волшебники, и не могут угадывать. И у них не такой промптинг чтобы отказываться делать, пока им самим задача не до конца ясна. Входите в ситуацию

Проблема тех кто работает с субагентами в cli в том, что они путают модель разработки. После агента не нужно читать код - нужно читать отчет о работе и пользоваться софтом.

Зато не будет тейков типа - ну текстовый редактор написать не так сложно, - а вы попробуйте браузер написать!

Попробовали. Респект

Те кто говорят про длительную разработку с ИИ - они не используют чат. Это осталось в 2023/2024.

они используют (скорее всего именно) CLI агентов: Claude code, Codex CLI, … У них проактивный сбор контекста - они stateless, без индексации кодовой базы. Сами ходят по ней, сами смотрят, берут что надо.

Сверху этого ваяется какой то оркестратор чтобы выполнять какой то флоу. Так оно работает долго / часы, сутки.

Известная тема, что для современных моделей пока нет пространственного мышления. Лекун предлагал JEPA чтобы решить эту проблему. Некоторые видят в видеогенераторах попытку создать world model.

Поэтому - да. Модели уже неплохо с математикой разобрались, но даже геометрия для них пока проблема.

1
23 ...

Информация

В рейтинге
3 424-й
Откуда
Новосибирск, Новосибирская обл., Россия
Дата рождения
Зарегистрирован
Активность