Обновить

12 инсайтов ведущего инженера OpenAI про разработку и внедрение AI

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели8.5K
Всего голосов 12: ↑7 и ↓5+4
Комментарии25

Комментарии 25

А можно в следующий раз рекламно-переводческий article делать с большим knowledge и не вставлять непереведённые english слова, пока у читателей bottom-up не подгорел. Мало того, что вода водная и трижды перелитая, так ещё и читать невозможно. От слова компаундится едва не вывернуло. Есть же нормальные аналоги в русском языке - используйте их.

Коллеги, практикующие инженеры, поделитесь опытом. Я - senior/stuff level dev, пишу ынтерпрайз-бекенды всякие. ЕРП писал, кассы для ритейла, биллинг, разное, короче. Я не могу себе представить, как я сижу и оркестрирую 10 агентов, каждый из которых хреначит кодом с той скоростью, с которой они хреначат. Не то, что прочитать, а банально по верхам осознать суть предлагаемых решений, как они вписываются в архитектуру, где будут слабые места, что по производительности - это просто нереально. А надо же параллельно думать, чем загрузить следующие 10 агентов, да еще неплохо бы сформулировать им мысли как следует, в спеках и примерах.

Вы тоже чувствуете, что те мифические инженеры в опенаи, которые на постоянку рулят 20 параллельных сессий - ну, натурально, сверхлюди, или для вас это рутина, и главное довериться процессу?

Честно говоря, я решил перевести эту статью отчасти потому что впечатлился их перформансом. Вполне верю, что он достижим, но сам я пока его не достиг.

На работе я использую максимум в один поток и тщательно ревьювлю код и правлю его руками при необходимости. Моя способность к ревью кода и принятию технических решений - это bottleneck.

Для пет-проектов требования гораздо ниже, поэтому можно довериться AI, но здесь узкое место - моя способность принимать продуктовые решения. Я просто не всегда понимаю как я вижу функциональность и UX того, что я хочу сделать.

Про пет-проекты плюсую, там, где не упирается в качество кода, упирается в принятие решений по функционалу. На своем пет-проекте я максимум в пару потоков могу, и при том, что в его код я вообще не заглядывал ни разу.

Вот и получается, что упираемся - либо в технические решения, либо в продуктовые (ну, либо и в те, и в те).

Вот совпадение я тоже

Ну могу предположить что они просто просят написать скрипт для вызова других агентов.
А те агенты просто парсят тексты для выжимок для первого агента. Все ради того чтобы контекст не раздулся.
Но такие цепочки сильно специфичные. Не думаю что это оправдано для людей со стороны, поскольку Там всё видят и резко тормознут трафик если кто-то зарвётся.

Сейчас в принципе уже и так Claude Opus создает на ходу субагентов. И посчитать не успеешь сколько он их там создает.

Пока вы задаёте неудобные вопросы, другие отправляют в прод решения, код которых слишком сложен для детального понимания человеком. Это не остановить: https://habr.com/ru/articles/982008/

Я просил поделиться релевантным опытом по теме, а не ссылаться на других людей, у которых может получилось, а может нет. В комментах к приведенной статье общественность так и не смогла выяснить у автора, "больше половины документов без ошибок" - это сколько именно. Вы работали с этой системой? Поддерживали её, расширяли? Уверены, что с производительностью под нагрузкой проблем не будет, если/когда нагрузка придёт? Или выть "это не остановить" - это подход инженера?

Может, и не остановить. Хорошо бы еще понять, ЧТО не остановить, и обо что нам это встанет. Но лично мне утверждение "я написал, у меня получилось, шайтан-кодинг, пруфов не будет" не объясняет ничего. Поэтому я сузил область до того, что описал в своём вопросе, а критерий - до количества одновременно поддерживаемых сессий агента. Критерий, про который в приведенной вами статье нет вообще ни слова, кстати.

Это все маркетинговый вымысел не имеющий ничего общего с реальностью.

Не то, что прочитать, а банально по верхам осознать суть предлагаемых решений, как они вписываются в архитектуру, где будут слабые места, что по производительности - это просто нереально.

понимаю и разделяю.

они и не читают, потому что это невозможно, тем более на постоянной основе: человеческиц мозг столько не вмещает.

секрет - в снижении планки качества, уровня требований.

сегодня один не понаслышке знакомый мне nda стартап узнал о потере десятков тысяч долларов, потому что секретные nda штуки помечались обработанными секретным nda микросервисом, но в реальности не обрабатывались, что привело к реальным и ощутимым убыткам.

нечеловекоотсматриваемый mr с несколькими коммитами на многострочек во многофайлов вмержен 2 дня назад человеком, который пребывает в эйфории от возможностей claude, не разделяет моего скептицизма, отвергает просьбы замедлиться и подумать над тем в какое необслуживаемое человеком месиао превратится проект через полгода.

"мы стартап, не надо тут дремучих энтерпрайзных практик, это долго и неэффективно"

"ну так же как нагенерил с ai, так и починю с ai, в чем проблема-то"

и я уверен, что человек не изменит своё поведение, и не сделает правильных выводов из этой истории.

примета времени, я не знаю. всё скам, всё падает, всё течет, качество всего - говно, и тем, кому должно быть это важно, это на самом деле не важно. почему? ни почему, нет ответа.

"сегодня хорошо, потому что быстро и много. что будет завтра - будет завтра, разберемся как нибудь", примерно такой майндсет, это гэмблинг по своей сути

Это нормальный подход "решать проблемы по мере их поступления". И он эффективен, как ни странно.

Я сам противник такого, и научен делать всё основательно и продуманно. Но, вынужден признать, что жизненный опыт показывает эффективность именно такого авантюрного подхода к делам.

всё-таки есть значительная разница между "решать проблемы по мере поступления" и "на регулярной основе выкапывать себе яму из которой будешь выбираться на след неделе"

Из моего опыта наблюдения за реальным бизнесом, между этими понятиями очень тонкая грань. 😂😂

как я сижу и оркестрирую 10 агентов, каждый из которых хреначит кодом с той скоростью, с которой они хреначат. 

Да всё просто, мусорный одноразовый код для пет проектов. Даже создатели ИИ не смогли роем агентов написать рабочий проект, си компилятор компилировал мусор нерабочий, веб браузер еле открывал пару простых сайтов.

Не может 1 человек писать 20-ю агентами один проект который работает на беке, на вебе, на андроиде, на ios, на планшете, потому что не может 1 человек глубоко разбираться во всех платформах, чтобы оценить качество сгенерированного кода, потому что на всех платформах разный стек, разные архитектуры, разные тесты, разные подходы. Поэтому через какое-то время весь сгенерированный код упрется в баги, фиксы которых будут порождать другие баги и потом это всё просто придется выкинуть, потому что поддержка будет стоить в токенах дороже чем нанять команду кодеров.

Возможно несколько параллельных сессий, но не 20 и для новых продуктов, где четко прописаны спеки и требования и инструкции, но код смотрится по диагонали. Вероятно также, что те люди используют swarm подход, ну тогда можно писать, что и 100 сессий и больше, и тут лукавят, ну потому что 20 чатов нереально переварить человеку.

где четко прописаны спеки и требования и инструкции

А их написание больше времени займет чем код вручную или меньше?

А мне понравилось выражение «управление флотом AI-агентов»...

Сижу я такой за компом весь из себя адмиралище...

А еще лучше - генералиссимус! Тогда у меня еще и рода войск под рукой будут.

Теперь понятно, как будут называться грейды таких управителей: юнга, капитан, адмирал...

при этом продуктивность резко растет

Если это действительно так, то openai и конкуренты скоро перестанут выпускать своих агентов на волю, а наоборот наймут пару экспертов в разных областях и заменят собой всякие галеры и продуктовые компании. Но что-то пока такой тенденции не видать

Судя по тому, как весело горят акции продуктовых компаний, рынок закладывает именно такую вероятность.

Все авторы упускают следующее. На своем примере:

1) когда я пишу код, то делаю это на автомате и не задумываюсь. Это как ходить. Я включаю мозг, только в узких местах, где есть сомнения или надо продумать в целом

2) когда я использую нейронки, то приходиться тщательно проверять код. То есть включать мозг на полную, чтобы понять что они делает и правильно или нет.

То есть в случае нейронки я трачу много сил.

Где таких проблем нет? При генерации шаблонного кода, или черновика, базовой структуры. То что многие IDE пытались оптимизировать через wizard формы или графический интерфейс. Сейчас эту роль взяли нейронки.

Например, написать код скачивания датасета и подготовка его в конкретный формат. При том что я знаю что такой датасет есть и какие поля в нем с какими данными. Но если я этого не знаю, сетка может сделать полный бред, который возможно даже заработает, но например данных будет мало, или не так объединит или вообще решит привести их в правильный вид по своему усмотрению (бывает такое).

Поэтому тут неоднозначно. В одних случаях, где много шаблонных простых кирпичиков при создании проекта, агенты/LLM могут ускорить и упростить. А в других, наоборот потратишь гораздо больше времени и сил при их использовании, так как надо будет каждый раз анализировать их код, править или указывать модели что не так, где он снова может сломать изменить.. и через пару часов голова уже не пашет от проверки кода за ней, а на выходе получен монстр калека, который так и не делает задуманного.

Странно было бы услышать от OpenAI заявления в духе: «мы не пользуемся агентами, всё пишем руками». Это как пчёлы против мёда.

Понятно, что они не совсем объективны. Плюс есть исследования о деградации моделей из-за обучения на синтетических данных прошлых поколений.

Но сама идея «армии агентов» выглядит рабочей. В детстве играл в Diablo 2: у некроманта чем больше призванных существ, тем он сильнее. Похоже и тут — если выстроить процесс управления агентами, можно заметно высвободить время и бустить перформанс. Вопрос только в качестве контроля.

у некроманта чем больше призванных существ, тем он сильнее

А потом собственно Diablo и если вкачивал только призванных существ то все, конец, потому что они тупые, а босс создает нестандартные проблемы. Даже на первой, запредельно расслабленной сложности.

тоже верно, любая аналогия ложна)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации